freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于倒譜的大學(xué)生語音識別算法研究畢業(yè)論文-免費閱讀

2025-08-09 23:34 上一頁面

下一頁面
  

【正文】 αr 是幅度因子; Np 是基音周期(用樣點數(shù)表示的)。 (原理框圖如圖 所示 ) 分幀加窗 |FFT| log IFFT 加窗 平滑處理 |FFT| log 共振峰 圖 共振峰檢測框圖 蘭州理工大學(xué)畢業(yè)論文 25 第 5 章 倒譜法提取基音頻率和共振峰 倒譜法提取基音頻率 提取基音的方法 目前 基音的提取方法大致可以分為三類: 1)波形估計法:直接由語音波形來估計基音周期,分析出波形上的周期峰值。 3)高音調(diào)語音。這些問題包括: 1)虛假峰值。因此,共振峰頻率檢測的關(guān)鍵在于估計自然語音頻譜包絡(luò),并認(rèn)為譜 包絡(luò)最大值對應(yīng)的頻率就是共振峰頻率,最大值就是共振峰。如果沒有超出門限的峰值,則輸入語音段定為清音。因為語音的第一共振峰通常在 3001000Hz 范圍內(nèi),這就是說, 28次諧波成分往往比基波分量還強(qiáng)。迄今為止,尚未找到一個完善的可以適用于不同的說話人,不同的要求和環(huán)境的基音檢 測方法?;糁芷诘墓烙嫹Q為基音檢測 (Pitch Detection),基音檢測的最終目標(biāo)是找出和聲帶振動頻率完全一致的基音周期變化軌跡曲線,如不可能則找出盡量相吻合的軌跡曲線。我們僅討論卷積同態(tài)信號處理系統(tǒng)的問題。用這些 系數(shù)組成語音信號的特征矢量,就可以建立聲紋的模型參考集,進(jìn)行聲紋識別。 本文應(yīng)用了 24 個三角形濾波器序列。 MFCC是一種能夠比較充分利用人耳感知特性的參數(shù)。由此可用帶通濾波器組來模仿人耳聽覺,從而減少噪聲對語音的影響。 在絕大多數(shù)的應(yīng)用場合,特征系統(tǒng)和逆特征系統(tǒng)中的正反 Z變換都可以用正反離散傅里葉變換來代替,此時倒譜的定義變?yōu)? |) )D F T ( s ( n ) )( ln ( |c ( n ) I D F T? ( 317) MFCC MFCC 介紹 梅爾頻率倒譜系數(shù) (MelFrequency Cepstral Coefficients, MFCCs)就是組成梅爾頻率倒譜的系數(shù)。又因頻譜一般為復(fù)數(shù)譜,故稱為復(fù)倒譜。 蘭州理工大學(xué)畢業(yè)論文 13 第 3 章 倒譜系數(shù)分析原理 在語音信號處理的實際應(yīng)用中,很多場合需要根據(jù)語音信號反過來求解聲門信號或聲道沖激響應(yīng)。漢語加上語氣詞共有 412 個音節(jié),包括輕音字,共有 1282 個有調(diào)音節(jié)字,所以當(dāng)在小詞匯表孤立詞語音識別時常選用詞作為基元,在大詞匯表語音識別時常采用音節(jié)或聲韻母建模,而在連續(xù)語音識別時,由于協(xié)同發(fā)音的影響,常采用聲韻母建模。并且由音素構(gòu)成聲母或韻母。 聲學(xué)模型與模式匹配: 聲學(xué)模型 通常是將獲取的語音特征使用訓(xùn)練 算法 進(jìn)行訓(xùn)練后產(chǎn)生。語音信號包含了大量各種不同的信息,提取哪些信息,用哪種方式提取,需要綜合考慮各方面的因素,如成本,性能,響應(yīng)時間,計算量等。因此,對于中、大詞匯量漢語語音識別系統(tǒng)來說,以音節(jié)為識別單元基本是可行的。人工神經(jīng)網(wǎng)絡(luò)(ANN)本質(zhì)上是一個自適應(yīng) 非線性動力學(xué) 系統(tǒng),模擬了人類神經(jīng)活動的原理,具有自適應(yīng)性、并行性、容錯性 、 魯棒性 和學(xué)習(xí)特性,其強(qiáng)的分類能力和輸入 輸出映射能力在語音識別中都很有吸引力。與 HMM 相比 ,矢量量化 主要適用于小詞匯量、孤立詞的語音識別。在這一過程中,未知單詞的 時間軸 要不均勻地扭曲或彎折,以使其特征與模型特征對正。在模板匹配方法中,要經(jīng)過四個步驟: 特征提取 、模板訓(xùn)練、模板分類、判決。這些不同的限制也提高 了語音識別系統(tǒng)的困難度。 語音識別系統(tǒng)分類 語音識別系統(tǒng)可以根據(jù)對輸入語音的限制 [6]加以分類。時域分析具有簡單直觀,清晰易懂,運算量小,物理意義明確等優(yōu)點。近年來有關(guān)這方面的研究不斷發(fā)展成熟,并形成一系列的標(biāo)準(zhǔn)。語音技術(shù)的應(yīng)用已經(jīng)成為一個具有競爭性的新興高技術(shù)產(chǎn)業(yè) [3]。理論上,包括正 規(guī) 語言, 上下文無關(guān) 語 法 在內(nèi)的各種語言模型都可以作為語言模型,但目前各種系統(tǒng)普遍采用的還是基于統(tǒng)計的 N 元文法及其變體。 圖 21 語音信號數(shù)字處理系統(tǒng)框圖 語音識別技術(shù)模型 目前,主流的大 量 語音識別系統(tǒng)多采用統(tǒng)計 模式識別技術(shù) 。 預(yù)處理:假設(shè)輸入的音頻信號為 )(nx ,預(yù)處理過程如下。 語音識別是模式識別的一種 ,它是讓機(jī)器通過識別和處理過程將語音信號轉(zhuǎn)變成相應(yīng)的模型參數(shù)。將倒譜化分為實倒譜和復(fù)倒譜,并對二者之間的關(guān)系進(jìn)行區(qū)分,由此奠定了倒譜分析研究的基礎(chǔ)。 清華大學(xué)電子工程系語音技術(shù)與專用芯片設(shè)計課題組,研發(fā)的非特定人漢語數(shù)碼串連續(xù)語音識別系統(tǒng)的識別精度,達(dá)到 %(不定長數(shù)字串)和 %(定長數(shù)字串)。 其中 IBM 公司于 1997 年開發(fā)出漢語 ViaVoice 語音識別 系統(tǒng),次年又開發(fā)出可以識別上蘭州理工大學(xué)畢業(yè)論文 3 海話、廣東話和四川話等地方口音的語音識別系統(tǒng) ViaVoice’ 98。這首先是因為計算機(jī)技術(shù)的發(fā)展為語音識別的實現(xiàn)提供了硬件和軟件的可能,更重要的是語音信號線性預(yù)測編碼 ( LPC) 技術(shù)和動態(tài)時間規(guī)整( DTW)技術(shù)的提出,有效的解決了語音信號的特征提取和不等長匹配問題。這樣就可以用數(shù)字計算方法,對語音信號進(jìn)行處理和加工。 語音信號研究現(xiàn)狀 聲學(xué)是物理學(xué)的一個分支學(xué)科,而語言聲學(xué)又是聲學(xué)的一個分支學(xué)科。廣播電視教學(xué)和錄音錄像教學(xué)等教學(xué)手段不夠靈活 ,無法及時地分析學(xué)習(xí)者存在的問題 ,因此也就不能及時地、有針對性地反饋指導(dǎo)意見。 主要工作總結(jié) .......................................................... 30 后續(xù)工作及展望 ........................................................ 30 參考文獻(xiàn) ...................................................... 錯誤 !未定義書簽。 本文主要介紹了語音識別技術(shù)。蘭州理工大學(xué)畢業(yè)論文 LANZHOU UNIVERSITY OF TECHNOLOGY 畢業(yè)論文 題目: 基于倒譜的大學(xué)生語音識別算法研究 College Students39。基本實現(xiàn)思想是將輸入的隨機(jī)語音信號通過線性變換系統(tǒng)處理為加性信號,用基于 Mel頻率的倒譜系數(shù) ( MFCC) 以及一些語音信號的固有特征進(jìn)行倒譜分析。 附錄 .......................................................................... 32 I 相關(guān)程序 ................................................................ 32 II 外文資料原文 ........................................................... 38 III 外文資料翻譯 .......................................................... 44 致謝 .......................................................... 錯誤 !未定義書簽。利用計算機(jī)來幫助外語教學(xué)是幫助提高外語水平的重要方 法 之 一 。它主要的研究方向是人的發(fā)聲器官機(jī)理,發(fā)聲器官的類比線路和數(shù)學(xué)模型,聽覺器官的特性 (如聽閾、掩蔽、臨界帶寬、聽力損失等 ) ,聽覺器官的數(shù)學(xué)模型,語音信號的物理特性 (如頻譜特性、聲調(diào)特性、相關(guān)特性、概率分布等 ) ,語音的清晰度和可懂度等。例如頻譜分析可以用傅里葉變換或快速傅里葉變換 ( FFT)實現(xiàn),數(shù)字濾波器可以用差分方程實現(xiàn)。這一時期的語音識別主要基于模板匹配原理,研究的領(lǐng)域局限在特定人,小詞匯表的孤立詞識別,實現(xiàn)了基于線性預(yù)測倒譜和 DTW 技術(shù)的特定人孤立詞語音識別系統(tǒng);同時提出了矢量量化 ( VQ) 和隱馬爾可夫模型( HMM) 理論。它帶有一個 320xx 詞的基本詞匯表,可以擴(kuò)展到 65000 詞,還包括辦公常用詞條,具有“糾錯機(jī)制”,其平均識別率可以達(dá)到 95%。在有 5%拒識率情況下, 系統(tǒng)識別率可以達(dá)到 %(不定長數(shù)字串)和 %(定長數(shù)字串),這是目前國際最好的識別結(jié)果之一,其性能已經(jīng)達(dá)到實用水平。然后利用到譜進(jìn)行了 MFCC 參數(shù)的提取。一個完整的語音識別系統(tǒng)主要由兩部分組成 :語音特征提取、聲學(xué)模型和模式匹配 (即識別算法 )。 1)歸一化處理:歸一化處理的目的是消除不同樣本聲音大小的差異,將樣本幅度值限定在 [1,+1]。典型的基于 統(tǒng)計模式識別 方法的語音識別系統(tǒng)由以下幾個基本 模塊 所構(gòu)成 : 信號處理及 特征提取 模塊。解碼器 : 解碼器 是語音識別系統(tǒng)的核心之一,其任務(wù)是對輸入的信號,根據(jù) 聲學(xué) 、語言模型及詞典,尋找能夠以最大概率輸出該信號的詞串。 與機(jī)器進(jìn)行語音交流,讓機(jī)器明 白你說什么,這是人們長期以來夢寐以求的事情。在語音信號的各種分析合成系統(tǒng)中,需要提取頻譜包絡(luò)參數(shù),推測音源參數(shù)(清濁音的判定以及濁音周期等)。但更為有效的分析是圍繞頻域進(jìn)行的,因為語音中最重要的感知特性反映在其功率譜中,而相位變化只起著很小的作用 [5]。 從說話者與識別系統(tǒng)的相關(guān)性考慮 : 可以將識別系統(tǒng)分為 3 類: (1)特定人語音識別系統(tǒng):僅考慮對于專人的話音進(jìn)行識別;(2)非特定人語音系統(tǒng):識別的語音與人無關(guān),通常要用大量不同人的語音數(shù)據(jù)庫對識別系統(tǒng)進(jìn)行 擴(kuò)充 ; (3)多人的識別系統(tǒng):通常能識別一組人的語音,或者 是 特定組語音識別系統(tǒng),該系統(tǒng)僅要求對要識別的那組人的語音進(jìn)行 訓(xùn)練。 語音識別基本方法 一般來說 ,語音識別的方法有三種:基于聲道模型和語音知識的方法、模板匹配的方法以及利用人工神經(jīng)網(wǎng)絡(luò) [7]的方法 。常用的技術(shù)有三種:隱 馬爾可夫 ( HMM)理論、動態(tài)時間規(guī)整 (DTW)、 矢量量化 ( VQ)技術(shù)。 隱馬爾可夫法 (HMM) 隱馬爾可夫法 (HMM)是 70 年代引入語音識別理論的,它的出現(xiàn)使得自然語音識別系統(tǒng)取得了實質(zhì)性的突破。其 識別 過程是:將語音信號波形的 k 個樣點的每一幀,蘭州理工大學(xué)畢業(yè)論文 10 或有 k 個參數(shù)的每一參數(shù)幀,構(gòu)成 k維空間 中的一個 矢量 ,然后對矢量進(jìn)行量化。但由于存在訓(xùn)練、識別時間太長的缺點,目前仍處于實驗探 索階段。 蘭州理工大學(xué)畢業(yè)論文 11 音素單元以前多見于英語語音識別的研究中,但目前中、大詞匯量漢語語音識別系統(tǒng)也在越來越多地采用。非特定人語音識別系統(tǒng)一般側(cè)重提取反映語義的特征參數(shù),盡量去除說話人的個人信息;而特定人語音識別系統(tǒng)則希望在提取反映語義的特征參數(shù)的同時,盡量也包含說話人的個人信息 [9]。在識別時將輸入的語音特征同聲學(xué)模型(模式)進(jìn)行匹配與比較,得到最佳的識別結(jié)果。有時,將含有聲調(diào)的韻母稱為調(diào)母。 基于統(tǒng)計的語音識別模型常用的就是 HMM 模型 λ(N,M,π,A,B)[11],涉及到 HMM 模型的相關(guān)理論包括模型的結(jié)構(gòu)選取、模型的初始化、模型參數(shù)的重估以及相應(yīng)的識別算法等。這就需要在知道卷積結(jié)果的基礎(chǔ)上,利用“解卷”求得參與卷積的各個信號,同態(tài) 處理是常用的解卷方法。 復(fù)倒譜的概念不是唯一的,一般有三種定義。他們派生自音頻片段的倒譜 (cepstrum)表示 (a nonlinearspectrumofaspectrum)。 耳蝸實質(zhì)上相當(dāng)于一個濾波器組,耳蝸的濾波作用是在對數(shù)頻率尺度上進(jìn)行的,在1000Hz以下為線性尺度,而 1000Hz 以上為對數(shù)尺度,這就使得人耳對低頻信號比對高頻信號更敏感。 MFCC和線性頻率的轉(zhuǎn)換關(guān)系如下: )7 0 01lg (2 5 9 5 ff m e l ?? (319) MFCC參數(shù)是按幀計算的,其提取過程可以用框圖表示 (見圖 )。除了提取 MFCC 參數(shù)外,為描述語音幀間的相關(guān)性,計算中引入了一階差分 MFCC 的特征參數(shù),并且與 MFCCDFT/FFT 預(yù)加重、 分幀、加窗 Mel頻率 濾波器組 F(m) * s(n) * Log 對數(shù)能量 DCT 求倒譜 x(n) * X(k) * c(n) * 蘭州理工大學(xué)畢業(yè)論文 18 參數(shù)一起構(gòu)成語音的特征參數(shù)。它的提取與一般倒譜的提取過程的差別就在于: MFCC模擬了人的聽覺特性,在其求解過程中, FFT的譜線在頻率軸上是不等間隔分布的,而在 Mel頻率軸上是等間隔分布的,在有噪聲和頻譜變形的情況下,采用 MFCC作為特征參數(shù)識別,其正確率比用 LPC等 作為特征參數(shù)有比較大的改善。 ( 1)特征系統(tǒng) D*[] 完成將卷積信號轉(zhuǎn)化為加性信號的運算。然而由于人的聲道的易變性及其聲道特征的因人而異,而基音周期的范圍又很寬,且同一個人在不同情態(tài)下發(fā)音的基音周期也不同,加之基音周期還受到單詞發(fā)音音調(diào)的影響,故實際中的基音周期的精確檢測是一件比較困難的事情。 Z exp Z1 Z ln Z1 )(nx)(nx)(?nx)(?nx蘭州理工大學(xué)畢業(yè)論文 22 基音檢測的主要難點表現(xiàn)在: 1)語音信號變化十分復(fù)雜,聲門激勵
點擊復(fù)制文檔內(nèi)容
研究報告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1