【正文】
信號的傅里葉變換的幅值求自然對數(shù),然后再做傅里葉逆變換。第三章 MFCC參數(shù)的提取 在語音識別和說話人識別中,常用的語音特征是基于Mel頻率的倒譜系數(shù)(mel frequency cepstrum coefficient,MFCC).由于MFCC參數(shù)是將人耳的聽覺感知特征和語音的產(chǎn)生機制相結(jié)合,因此目前大多數(shù)語音識別系統(tǒng)中廣泛使用這種特征。對不同的頻率,在相應(yīng)的臨界帶寬內(nèi)的信號會引起基礎(chǔ)膜上不同位置的振動。耳蝸實質(zhì)上相當于一個濾波器組,耳蝸的濾波作用是在對數(shù)頻率尺度上進行的,在1000Hz以下為線性尺度,而1000Hz以上為對數(shù)尺度,這就使得人耳對低頻信號比對高頻信號更敏感。對頻率軸的不均勻劃分是MFCC特征的特點。設(shè)語音信號的DFT為 (31)其中x(n)為輸入的語音信號,N表示傅立葉變換的點數(shù)。(32) 用于計算Mel倒譜的三角濾波器 The Triangular Filter Used to Calculate The Mel Cepstrum 為便于計算,本文將式(32)的三角濾波器簡化為 (33)其中。 M是濾波器組的數(shù)目,N為FFT變換的點數(shù),式中。5) 按式 (35)計算每個濾波器組輸出的對數(shù)能量。在提取了MFCC參數(shù)后,可用式(37)的差分特征參數(shù)提取算法提取MFCC,MFCC參數(shù)。MATLAB中,取Mel濾波器的階數(shù)為24,fft變換的長度為256,采樣頻率為8000Hz預(yù)加重后,對語音信號分幀(每256點分為一幀),計算每幀的MFCC參數(shù)后,求取差分系數(shù)。 一維數(shù)組及其幅值的關(guān)系 The Relationship Between Onedimensional Array and Amplitude 維數(shù)與幅值的關(guān)系 The Relationship Between Dimension and Amplitude第四章 倒譜法提取基音頻率基音是指發(fā)濁音時聲帶振動所引起的周期性,而基音周期是指聲帶振動頻率的倒數(shù)。對于漢語這種有調(diào)語音,基音的變化模式稱為聲調(diào),它攜帶著非常重要的具有辨意作用的信息,有區(qū)別意義的功能。 自進行語音信號分析研究以來,基音檢測一直是一個重點研究的課題,很多方法已被提出,然而這些方法都有它們的局限性。基音檢測的主要難點表現(xiàn)在:1)語音信號變化十分復(fù)雜,聲門激勵的波形并不是一個完全的周期序列。2)要從語音信號中去除聲道的影響,直接取出僅與聲帶振動有關(guān)的聲源信息并非易事。3)在濁音段很難精確地確定每個基音周期的開始和結(jié)束位置,這不僅因為語音信號本身是準周期的,也是因為波形的峰受共振峰結(jié)構(gòu),噪聲等影響較大。另外,濁音信號可能包含有三四十次諧波分量,而基波分量往往不是最強的分量。豐富的諧波成分使語音信號的波形變的很復(fù)雜,給基音檢測帶來困難,經(jīng)常發(fā)生基頻估計結(jié)果為實際基音頻率的二三次倍頻或二次分頻的情況【6】。直接由語音波形來估計基音周期,分析出波形上的周期峰值。2)相關(guān)處理法。包括波形自相關(guān)法,平均振幅差分函數(shù)法(AMDF),簡化逆濾波法(SIFT)等。將語音信號變換到頻域或倒譜域來估計基音周期,利用同態(tài)分析方法將聲道的影響消除,得到屬于激勵部分的信息,進一步求取基音周期,比如倒譜法。 對語音信號利用倒譜解卷原理,可以得出激勵序列的倒譜,它具有與基音周期相同的周期,因此可以容易且精確地求出基音周期。是幅度因子;是基音周期(用樣點數(shù)表示的)。同時其幅度隨著k值的增大而衰減,衰減速度比原序列要快。當語音采樣率=10kHz時,倒譜的第一個峰值點即等于基音周期值,其變化范圍在之間,因而應(yīng)在此范圍內(nèi)搜索峰值點。 由rceps函數(shù)得到的倒譜圖 Cepstrum Figure from Rceps Function圖()為MATLAB中,運用rceps函數(shù)繪制的倒譜圖。T0=(Cloc+40)*dt。fprintf(39。,F0)。所以共振峰是語音信號處理中非常重要的特征參數(shù),已經(jīng)廣泛地用作語音識別的主要特征和語音編碼傳輸?shù)幕拘畔?。與基因檢測類似,共振峰估計也是表面上看起來很容易,而實際上又受很多問題困擾。在正常情況下,頻譜包絡(luò)中的極大值完全是又共振峰引起的。甚至在采用線性預(yù)測方法時,也并非沒有虛假峰值。2)共振峰合并。這時會產(chǎn)生共振峰合并現(xiàn)象,而探討一種理想的能對共振峰合并進行識別的共振峰提取算法存在很多實際困難。傳統(tǒng)的頻譜包絡(luò)估計方法是利用由諧波峰值提供的樣點。即使采用線性預(yù)測進行頻譜包絡(luò)估計也會出現(xiàn)這個問題。提取共振峰的幾種常用方法包括:1)基于線性預(yù)測的共振峰求取方法。雖然線性預(yù)測法也有一定的缺點,例如其頻率靈敏度與人耳不相匹配,但對于許多應(yīng)用來說,它仍然是一種行之有效的方法。2)倒譜法。選擇最普遍的極零模式來描述聲道相應(yīng)x(n),其z變換的形式為: (51)經(jīng)過傅立葉變換,取對數(shù)和逆傅立葉變換后可以得到其復(fù)倒譜: (52)對于倒譜可以只考慮它的幅度特性,可以看出,它是一個衰減序列,且衰減的速度比1/|n|快。倒譜算法運用對數(shù)運算和二次變換將基音諧波和聲道的頻譜包絡(luò)分離開來。由h(n)經(jīng)DFT得到的H(K)就是聲道的離散譜曲線,由于它去除了激勵引起的諧波動,因此能更精確地得到共振峰參數(shù)。Figure 將對數(shù)頻譜圖和包絡(luò)圖繪制在同一個圖上 Drawing The Log Spectrum and Envelope in The Same FigureMATLAB中對信號做fft變換,繪制對數(shù)頻譜圖(),運用MATLAB提供的倒譜函數(shù)rceps計算倒譜并繪制。第六章 結(jié)束語本論文介紹了倒譜以及常用的語音特性參數(shù)MFCC,基音頻率和共振峰的相關(guān)知識和原理,并設(shè)計了基于倒譜的算法,在MATLAB中編程實現(xiàn)了以上參數(shù)的提取。各個程序雖然在MATLAB中得到了較好的效果,但在實際應(yīng)用中,會面臨很多具體的問題。倒譜法根據(jù)對數(shù)功率譜的逆傅立葉變換,能夠分離頻譜包絡(luò)和細微結(jié)構(gòu),很精確地得到基音頻率和共振峰信息,但它的運算量比較大。然而當存在加性噪聲時,在對數(shù)功率譜的低電平部分會被噪聲填滿,從而掩蓋了基音諧波的周期性。在基音估計中還可以使用經(jīng)過中心削波或三電平削波后的自相關(guān)方法,這種方法在信噪比低的情況下可以獲得良好的性能。隨著語言處理技術(shù)的發(fā)展,越來越多的語音特征提取方法被提出和完善,相信將克服各種困難,為人們的生活提供更多便利。16(1):262266[4] , for Automatic Formant Analysis of Voiced .,1997。634648[5] (341)[6] 楊行峻 ,:電子工業(yè)出版社 ,1995[7] RabinerL ,JuangB H. Fundamental of Speech York:Prentice Hall ,1993[8] Furui Independent Isolated Word Recognition Using Dynamic Feature of Speech Spectrum. IEEE Trans on Acoustics,Speech,Signal Processing,1986,34 (1):52~59附錄1 提取MFCC參數(shù)的相關(guān)程序 27 close allclearclc[x fs]=wavread(39。)。m39。%Mel濾波器的階數(shù)為24,fft變換的長度為256,采樣頻率為8000Hz% 歸一化mel濾波器組系數(shù)bank=full(bank)。% DCT系數(shù),12*24for k=1:12 n=0:23。end% 歸一化倒譜提升窗口w = 1 + 6 * sin(pi * [1:12] ./ 12)。% 預(yù)加重濾波器xx=double(x)。% 語音信號分幀xx=enframe(xx,256,80)。 s = y39。 t = abs(fft(s))。 c1=dctcoef * log(bank * t(1:129))。 m(i,:)=c239。for i=3:size(m,1)2 dtm(i,:) =