freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于倒譜的大學(xué)生語音識別算法研究畢業(yè)論文(留存版)

2025-09-13 23:34上一頁面

下一頁面
  

【正文】 316) 稱為“倒頻譜”,簡稱“倒譜”,也稱“倒頻”。 Nk0 ? ( 318) 其中 x(n)為 輸入的語音信號 , N 表示傅立葉 變換的點數(shù)。由仿真結(jié)果可知,隨著信號采樣點數(shù)量的增多,相鄰點幅值差不斷減小,可以預(yù)測,當(dāng)采樣點取無窮多時,其相鄰幅值差必趨于零,這與實際理論以及客觀事實相符合,故該仿真結(jié)果良好。 1 基音檢測的概念 基音是指發(fā)濁音時聲帶振動所引起的周期性 ,而聲帶振動頻率的倒數(shù)就是基音周期。 4)基音周期變化 范圍較大,從低音男聲的 80Hz 直到女孩的 500Hz,這也給基音周期的檢測帶來了一定的困難。尋求一種實時實現(xiàn)共振峰頻率檢測的算法,在語音合成、語音識別、說話人識別等領(lǐng)域中有重要的應(yīng)用價值。相鄰共振峰的頻率可能會靠的太近而難以分辨。 倒譜分析算法的原理 對語音信號利用倒譜解卷原理,可以得出激勵序列的倒譜,它具有與基音周期相同的周期,因此可以容易且精確地求出基音周期。 2)相關(guān)處理法:這種方法在語音信號處理中廣泛使用,這是因為相關(guān)處理法抗波形的相位失真能力強(qiáng),另外它在硬件處理上結(jié)構(gòu)簡單。但在線性預(yù)測分析方法出現(xiàn)之前的頻譜包絡(luò)估計器中,出現(xiàn)虛假峰值是相當(dāng)普遍的現(xiàn)象。一般每隔 10~20ms 計算一次倒譜,這是因為在一般語音中激勵參數(shù)是緩慢變化的。在語言的頭,尾部并不具有聲帶振動那樣的周期性,對有些清濁音的過渡幀很難判定它應(yīng)屬于周期性或非周期性,從而就無法估計出基音周期。 )()()( 21 nxnxnx ?? (41) )()()()]([ 21 zXzXzXnxZ ??? (42) )(?)(?)(?)(ln)(ln)(ln 2121 zXzXzXzXzXzX ????? (43) )(?)(?)(?)](?)(?[)](?[ 212111 nxnxnxzXzXZzXZ ????? ?? (44) ( 2)第二個子系統(tǒng)對加性信號進(jìn)行所需要的線性處理(滿足線性疊加原理等) )](?)(?[)](?[)(? 21 nxnxLTInxLTIny ??? (45) ( 3)第三個子系統(tǒng)是逆特征系統(tǒng) D*1[],使其恢復(fù)為卷積性信號。 圖 以 8000HZ 為采樣頻率,將信號幅度作為特征參數(shù)來區(qū)分不同的信號。根據(jù)這一原則,研究者根據(jù)心理學(xué)實 驗得到了類似于耳蝸作用的一組濾波器組,就是 Mel 頻率濾波器組。 定義如下:其中假設(shè)信號為 x(n),則 復(fù)倒譜的 Z 變換定義 : )](?[) ) ](([ ln)(? 11 xXZnxZZnX ?? ?? ( 31) 復(fù)倒譜的傅 里葉變換定義 ]?[][ ln? ) j w n(eX= I F TF T ( x ( n ) )( n ) = I F TX ( 32) ?? ?1N 0Njω )(=)(=)(e X j w nenxx ( n )FT ( 33) ?? ?? deeXeXI F Tnx j w njwjw )(2 1)(()( ???? ( 34) 復(fù)倒譜的離散傅立葉變換定義 )]([))](([ ln)(? kXI D F TnxD F TI D F TnX ?? ( 35) 復(fù)倒譜的定義可以用圖 表示 蘭州理工大學(xué)畢業(yè)論文 14 圖 三種復(fù)倒譜定義的框圖表示 復(fù)倒譜與倒譜的關(guān)系 圖 復(fù)倒譜與倒譜關(guān)系框圖 可以將卷積信號轉(zhuǎn)變?yōu)槌朔e信號,而取對數(shù)運算可以將乘法轉(zhuǎn)化為加法,卷積同態(tài)處理正是采用這樣的一種思路,具體過程如下這里 x1(n)和 x2(n)分別為聲門激勵信號和聲道沖激響應(yīng)序列: 1 輸入信號 (n) x(n) x=x(n) 21 ? ( 36) 2 Z變換 ( z )X( z )X=( n ) )Z ( x( n ) )Z ( x=( n ) )x( n )Z ( x=Z ( x ( n ) )=X ( z ) 21212 1 ??? ( 37) 3 取對數(shù)運算 ( z )X?+( z )X?=( z ) )l n ( X+( z ) )l n ( X=( z ) )X( z )l n ( X=l n ( X ( z ) )=( z )X? 212121 ?( 38) 4 逆 Z變換 ( n )x?+( n )x?=( z ) )X?+( z )X?( Z=( z ) )X?( Z=( n )x? 212111 ( 39) 5 為加性信號, 經(jīng)過線性系統(tǒng)的處理得到: (n)y?+(n)y?=(n)y? 21 ( 310) ZT ln| | IZT ZT ln IZT c(n) x(n) Z ln Z1 FT ln IFT DFT ln IDFT x(n) x(t) x(n) ^ x(n) x(n) 蘭州理工大學(xué)畢業(yè)論文 15 6 對作 Z變換: ( z )Y?+( z )Y?=( n ) )y?+( n )y?Z(=( n ) )y?Z(=( z )Y? 2121 ( 311) 7 指數(shù)運算 ( z )Y( z )Y=( z ) )Y?e x p (( z ) )Y?e x p (=( z ) )Y?+( z )Y?e x p (=( z ) )Y?e x p (=Y ( z ) 212121 ??( 312) 8 逆 Z變換 ( n )y( n )y=( z ) )Y( z )(Y Z=( Y ( z ) )Z=y ( n ) 212111 ?? ( 313) 步驟 1~4稱作特征系統(tǒng),記為; 6~8步驟稱為逆特征系統(tǒng),記為。 語言模型與語言處理: 語言模型包括由識別語音命令構(gòu)成的語法網(wǎng)絡(luò)或由 統(tǒng)計方法 構(gòu)成的語言模型,語言處理可以進(jìn)行語法、語義分析。 聲學(xué)模型 是識別系統(tǒng)的底層模型,并且是語音識別系統(tǒng)中最關(guān)鍵的一部分。原因在于漢語音節(jié)僅由聲母(包括零聲母有 22 個)和韻母(共有 28 個)構(gòu)成,且聲韻母聲學(xué)特性相差很大。量化時,將 k 維無限空間劃分為 M個區(qū)域邊界,然后將輸入矢量與這些邊界進(jìn)行比較,并被量化為 “ 距離 ” 最小的區(qū)域邊界的中心矢量值。 動態(tài)時間規(guī)整 (DTW) 語音信號的 端點 檢測是進(jìn)行語音識別中的一個基本步驟,它是特征訓(xùn)練和識 別的基礎(chǔ)。 從說話的方式考慮 : 也可以將識別系統(tǒng)分為 3類: (1)孤立詞語音識別系統(tǒng):孤立詞識別系統(tǒng)要求輸入每個 單詞后要停頓; (2)連接詞語音識別系統(tǒng):連接詞輸入系統(tǒng)要求對每個詞都清楚發(fā)音,一些連音現(xiàn)象開始出現(xiàn); (3)連續(xù)語音識別系統(tǒng):連續(xù)語音輸入是自然流利的連續(xù)語音輸入,大量連音和變音 將 會出現(xiàn)。只有將語音信號分析表示成其本質(zhì) 特性的參數(shù),才可能利用這些參數(shù)進(jìn)行高效的語音通信,才能建立用于語音合成的語音庫,從而建立用于識別的模板或知識庫。從數(shù)學(xué)角度可以更加清楚的了解上述 模塊之間的關(guān)系。 2)預(yù)加重:預(yù)加重一般是用具有 6db/倍頻程的一階數(shù)字濾波器來實現(xiàn) ,如式 (2— 1)所示 : 1μZ1=H(z) (21) 其中μ為常數(shù) ,一般取 。 接著第四章介紹了倒譜系數(shù)分析在語音特征提取中的應(yīng)用,包括基音檢測以及共振峰的蘭州理工大學(xué)畢業(yè)論文 4 提取。該系統(tǒng)對新聞?wù)Z音識別具有較高的精確度,是目前最具有代表性的漢語連續(xù)語音。在這個基礎(chǔ)上,逐漸形成了一門新學(xué)科 —— 語音信號處理。 在 非 母 語 的 語 言 學(xué) 習(xí) 中 , 以 計 算 機(jī) 輔 助 使 用 者 進(jìn) 行 非 母 語 學(xué) 習(xí)(ComputerAssistedLanguageLeaming,CALL)己受到相當(dāng)重視 ,各方也紛紛投入相關(guān)的研究。 接下來通過 對語音倒譜在各個方面的應(yīng) 用進(jìn)行 MATLAB 編程仿真,得到語音基音檢測和共振峰檢測的實驗仿真結(jié)果。 倒譜法作為信號處理的重要的方法,能夠得到比較好的識別性能。例如 ,課堂教學(xué)通常受時間、地點以及教師教學(xué)水平的限制 。第二次飛躍應(yīng)該是 20 世紀(jì) 70 年代初 ,由于電子計算機(jī)和數(shù)字信號處理的發(fā)展,人們發(fā)現(xiàn):聲音信號特別是語音信號,可以通過模數(shù)轉(zhuǎn)換器 (A /D)采樣和量化,它們轉(zhuǎn)換 為數(shù)字信號后,能夠送進(jìn)計算機(jī)。比較有代表性的系統(tǒng)如下:IBM 公司推出的 ViaVoice 和 DragonSystem 公司的 NaturallySpeaking, Nuance 公司的NuanceVoicePlatform語音平臺, Microsoft 的 Whisper, Sun 的 VoiceTone 等。 第三章詳細(xì)敘述了倒譜的定義基本原理以及計算方法,優(yōu)點和缺點。降噪后,通過對語音信號的短時能量和短時過零率檢測可以剔除掉靜默幀、白噪聲幀和清音幀,最后保留對求取基音、 LPCC、 MFCC 等特征參數(shù)非常有用的語音信號。語言模型 : 語言模型對系統(tǒng)所針對的語言進(jìn)行建模。語音的壓縮和恢復(fù)是語音信號處理的關(guān)鍵技術(shù)。使讀者對相關(guān)技術(shù)的基本理論,方法和基本應(yīng)用有一個系統(tǒng)的了解。 模板匹配的方法: 模板匹配的方法發(fā)展比較成熟,目前已達(dá)到了實用階段。 矢量量化 (VQ) 矢量量化 (VectorQuantization)是一種重要的信號壓縮方法。 音節(jié)單元多見于漢語語音識別,主要因 為漢語是單音節(jié)結(jié)構(gòu)的語言,而英語是多音節(jié),并且漢語雖然有大約 1300 個音節(jié),但若不考慮聲調(diào),約有 408 個無調(diào)音節(jié),數(shù)量相對較少。 也有研究者嘗試把 小波分析 技術(shù)應(yīng)用于 特征提取 ,但目前性能難以與上述技術(shù)相比,有待進(jìn)一步研究。 目前常用的 聲學(xué)模型 基元為聲韻母、音節(jié)或詞,根據(jù)實現(xiàn)目的不同來選取 不同的基元。為了區(qū)別于用一般方法所求得的頻譜 (spectrum),將spectrum 這一詞前半部 (spec)字母順序顛倒即成 cepstrum, 根據(jù)詞形定名為倒譜。對不同的頻率,在相應(yīng)的臨界帶寬內(nèi)的信號會引起基礎(chǔ)膜上不同位置的振動。其分幀函數(shù)調(diào)用為:f=enframe(X, hamming(256), 128)。由于語音信號可以視為聲門激勵信號和聲道響應(yīng)信號的卷積結(jié)果。 3 基音檢測的難點 自進(jìn)行語音信號分析研究以來,基音檢測一直是一個重點研究的課題,很多方法已被提出,然而這些方法都有它們的局限性。如果倒譜的峰值超出了預(yù)先規(guī)定的門限,則輸入語音段定為濁音,而峰的位置就是基音周期的良好估計。與基音檢測類似,共振峰估計也是表面上看起來很容易,而實際上又受很多問題困擾。對倒譜進(jìn)行低時窗選,通過語音倒譜分析系統(tǒng)的最后一級,進(jìn) 行 DFT 后的輸出即為平滑后的對數(shù)模函數(shù),這個平滑的對數(shù)譜顯示了特定輸入語音段的諧振結(jié)構(gòu),即譜的峰值基本上對應(yīng)于共振峰頻率,對平滑過的對數(shù)譜中的峰值進(jìn)行定位,即可估計共振峰。根據(jù)復(fù)倒譜的定義,可以得到 x(n)的復(fù)倒譜為: 0( ) ( )kPkx n n k N???????? (52) 其中, 0? =ln 0? 11 011 ()MMkk rkrrrkk??? ???? ? ? ??? (53) MATLAB 中的設(shè)計與實 現(xiàn) 當(dāng)語音采樣率 sf =8kHz 時,倒譜的第一個峰值點即等于基音周期值 Np,其變化范圍在蘭州理工大學(xué)畢業(yè)論文 26 25200 之間,因而應(yīng)在此范圍內(nèi)搜索峰值點。傳統(tǒng)的頻譜包絡(luò)估計方法是利用由諧波峰值提供的樣點。所以共振峰已經(jīng)廣泛地用作語音識別的主要特征和語讀入語音數(shù)據(jù) 到文件尾嗎? 結(jié)束 對該幀數(shù)據(jù)加窗 計算基音周期 pitch 基音周期 pitch=0 找出該搜索范圍內(nèi)倒譜的最大值 max 設(shè)置門限為 求該幀數(shù)據(jù)的倒譜 設(shè)置基音搜索范圍 取出一幀語音數(shù)據(jù) max? Y N N Y 蘭州理工大學(xué)畢業(yè)論文 24 音編碼傳輸?shù)幕拘畔?。豐富的諧波成分使語音信號的波形變的很復(fù)雜,給基音檢測帶來困難,經(jīng)常發(fā)生基頻估計結(jié)果為實際基音頻率的二三次倍頻或二次分頻的情況 [14]。然而由于人的聲道的易變性及其聲道特征的因人而異,而基音周期的范圍又很寬,且同一個人在不同情態(tài)下發(fā)音的基音周期也不同,加之基音周期還受到單詞發(fā)音音調(diào)的影響,故實際中的基音周期的精確檢測是一件比較困難的事情。它的提取與一般倒譜的提取過程的差別就在于: MFCC模擬了人的聽覺特性,在其求解過程中, FFT的譜線在頻率軸上是不等間隔分布的,而在 Mel頻率軸上是等間隔分布的,在有噪聲和頻譜變形的情況下,采用 MFCC作為特征參數(shù)識別,其正確率比用 LPC等 作為特征參數(shù)有比較大的改善。 MFCC和線性頻率的轉(zhuǎn)換關(guān)系如下: )7 0 01lg (2 5 9 5 ff m e l ??
點擊復(fù)制文檔內(nèi)容
研究報告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1