【正文】
(360)統(tǒng)計分析中的距離量度歐氏距離 (361)漢明距離 (362). 本章小結(jié)本章主要介紹了說話人識別的特征參數(shù),介紹并分析了各種說話人識別的特征參數(shù),包括基音頻率、線性預(yù)測編碼、復(fù)倒譜和倒譜、MEL倒譜和差值倒譜。由于VQ碼本保存了說話人一定的聲道特性,這樣我們就可以利用VQ法來進行說話人證實。本課題就是研究利用VQ技術(shù)進行說話人識別,所以以下詳細(xì)介紹VQ技術(shù)及其在說話人識別中的應(yīng)用。第二,無論對于何種信息源,即使是無記憶的信息源(即各采樣信號之間相互統(tǒng)計獨立),矢量量化也總是優(yōu)于標(biāo)量量化,且維數(shù)越大優(yōu)度越高。為此,通常的做法是將所有要識別矢量的集合分成若干子集,各子集中的矢量有相似的特征,因而能用一個具有代表性的矢量來表示,完成這一任務(wù)的算法稱為“聚類算法”。最簡單的情況是K=N且,其中i=1~N。在具體應(yīng)用中到底選擇哪種矢量則應(yīng)該根據(jù)所要達(dá)到的目標(biāo)而定。這一過程可以形式化地用下式表示: (41)v是一個數(shù)字,因而可以通過任何數(shù)字信道或任何數(shù)字存儲介質(zhì)來存儲。圖 42矢量量化系統(tǒng)框圖如果用表示X和Y之間的畸變,那么VQ的任務(wù)就是在給定R的條件下,使得此畸變的統(tǒng)計平均值D達(dá)到最小。如果X與Y之間的畸變值等于它們的歐氏距離,那么容易證明應(yīng)等于中所有矢量的質(zhì)心,即應(yīng)等于下式之值: (44)N是中所包含的矢量的個數(shù)。一個VQ系統(tǒng)能否給出較低的D值從而具有較高的質(zhì)量,關(guān)鍵在于碼本的設(shè)計。全部X的集合用S表示。設(shè)置畸變初值。判斷m是否小于L:若不是,轉(zhuǎn)入13)執(zhí)行。第一,為了避免算法陷入死循環(huán),設(shè)置了和L兩個閾值參數(shù),的值設(shè)得遠(yuǎn)小于1,當(dāng)?shù)闹当刃r,表明運算畸變已經(jīng)很小,可停止計算。由此形成的劃分一般也稱為Voronio劃分,對于來說它所給出的畸變是最小的。這樣每完成一次迭代計算,總畸變必然有所下降,因此這個算法是一種使總畸變單調(diào)下降的算法。分裂法初始碼字第一步求出S中全體X的質(zhì)心。依此類推,若(B為整數(shù)),只要進行B次分裂可以得到M個子集。對于時域特征矢量,一般用歐氏距離。HMM模型的狀態(tài)是隱含的,可以觀察到的的是狀態(tài)產(chǎn)生的觀察值,因此稱為隱馬爾可夫模型(HMM)。記M個觀察值為,記t時刻觀察到的觀察值為,其中。這樣,可以記一個HMM為或簡寫為更形象地說,HMM可分為兩部分,一個是Markov鏈,由π、A描述,產(chǎn)生的輸出為狀態(tài)序列,另一個是一個隨機過程,由B描述,產(chǎn)生的輸出為觀察值序列。由兩個相互關(guān)聯(lián)的隨機過程共同描述了語音信號的統(tǒng)計特性,平穩(wěn)段的信號由對應(yīng)的狀態(tài)觀察值的隨機過程描述,而短時平穩(wěn)段向下一短時平穩(wěn)段的轉(zhuǎn)變則由隱含的馬爾可夫鏈的狀態(tài)跳轉(zhuǎn)的轉(zhuǎn)移概率來描述。常用的量化方法有矢量量化(VQ),下面簡單介紹一下矢量量化技術(shù)。在此情況下,要求出還必須尋求更有效的算法,這就是Baum等人提出的前向-后向算法:(1)、前向算法定義前向變量為: (410)那么,有初始化:, (411)遞歸:, (412)終結(jié):,其中 (413)這種算法計算量大為減少,變?yōu)镹(N+1)(T1)+N次乘法和N(N1)(T1)次加法。顯然,由(413)和(417)式定義的前向和后向變量,有:, (418)這里,求取λ,使最大。(2)、后向算法與前向算法類似,定義后向變量為:, (414)其中,類似,有初始化:, (415)遞歸:, (416)終結(jié): (417)后向算法的計算量大約在數(shù)量級,也是一種格型結(jié)構(gòu)。如何調(diào)整模型參數(shù)使得觀察值序列O出現(xiàn)的的概率最大對給定的觀察值序列和模型,如何獲得相應(yīng)的狀態(tài)轉(zhuǎn)移序列對以上三個問題的解決方法是前向―后向算法,BaumWelch算法和Viterbi算法:前向-后向算法:這個算法是用來計算給定一個觀察值序列以及一個模型時,由模型λ產(chǎn)生出O的概率。如果觀察值是連續(xù)的,這樣的HMM模型稱為連續(xù)HMM(CDHMM);如果觀察值是離散的,則稱為離散HMM(DHMM)。通常認(rèn)為語音信號是一個短時平穩(wěn)的隨機過程,在10~30ms的短時段內(nèi),語音信號是平穩(wěn)的,而從整體來看,語音信號是時變的。A:狀態(tài)轉(zhuǎn)移概率矩陣,其中。記N個狀態(tài)為,記t時刻Markov鏈所處狀態(tài)為,顯然。圖 43 LBG算法流程圖. 隱馬爾可夫模型方法(HMM)HMM模型是馬爾可夫鏈(Markov)的推廣。第一類是歐氏距離準(zhǔn)則,這時兩個矢量X和Y之間的畸變或誤差用它們的歐氏距離的平方值來衡量,如下: (46)其中表示取一個矢量的模值。以和為基準(zhǔn)進行Voronio劃分,得到和兩個子集。初始碼本的設(shè)置方法和畸變準(zhǔn)則的選擇:隨機初始碼本 最簡單的方法是從X的集合中隨意選出M個矢量作為初始碼本。當(dāng)采用歐氏距離來計算畸變時應(yīng)是中所有矢量的質(zhì)心。第二,此算法的第(7)步完成的工作時以第(m1)形成的M個碼字為基準(zhǔn),將全部X的集合按照最鄰近準(zhǔn)則劃分為M個子集,其中。迭代終止,輸出作為碼字,并且輸出總畸變 。根據(jù)最近鄰原則將S分成M個子集,即當(dāng)時,下式應(yīng)成立: (45)計算總畸變:計算畸變改進量的相對值:計算新碼字: 判斷是否小于:若是,轉(zhuǎn)入13)執(zhí)行。設(shè)置畸變改進閾值。,。所以這是一種“全搜索算法”。為了實現(xiàn)這一目的,應(yīng)該遵循以下兩條原則。VQ譯碼器的運行原理是按照v從譯碼器碼本(與編碼器的碼本相同)中選出一個具有相應(yīng)下標(biāo)的碼字作為輸出Y。如無特別聲明,將始終約定X和的各個分量都是實數(shù)。同態(tài)處理或DCT有關(guān)的特征矢量。其中特征矢量形成部分的作用是每輸入一幀語音采樣信號(若幀長為N,則可表示為),則輸出一個與之相 對應(yīng)的特征矢量X,若其維數(shù)為K,則。矢量量化的研究目的就是針對特定的信息源和矢量維數(shù),找到一種最優(yōu)的矢量量化器,它能夠在R一定時給出更小的畸變值。第一,該理論指出,對于一定的量化速率R(用比特/采樣表示),量化畸變D(以量化信號與原信號之間的誤差均方值和原信號均方值之比來衡量)是一定的。系統(tǒng)如圖 41所示。第4章 說話人識別的識別方法第4章 說話人識別的識別方法. 引言1983年K. Li 和E. Wrench[15]和1985年F. K. Soong、A. E. Rosenberg、L. R. Rabiner和B. H. Juang[12]把矢量量化方法從語音識別中移至說話人識別并成為當(dāng)時與文本無關(guān)說話人識別的基準(zhǔn)方法、隨后出現(xiàn)經(jīng)典的統(tǒng)計形式的識別方法:1988年J. B. Attilli的貝葉斯辨別分析[16]和1993年A. L. Higgins、. Bahler和J. E. Porter的最近鄰分類器[17]、接著有各種人工神經(jīng)網(wǎng)絡(luò)(ANN)方法:1990年J. Oglesby和J. S. Mason的多層感知器(MLP)[18]、1990年Y. Bennani和P. Galllinari的學(xué)習(xí)矢量量化(LVQ)[21]、1991年J. Oglesby和J. S. Mason的放射狀基函數(shù)(RBF)[20]和1991年Y. Bennani和P. Galllinari的時延神經(jīng)網(wǎng)絡(luò)(TDNN)[19]、在這期間提出了利用說話人識別模型來進行說話人識別:1990年M. Savic和S. K. Gupta[22]和1991年N. Z. Tishby[23]的離散隱馬爾可夫模型(DHMM)、1991年A. E. Rosenberg、C. H. Lee和S. Gokeen[24]的連續(xù)密度的隱馬爾可夫模型(CDHMM)和1990年R. C. Rose和D. A. Reynolds[25]的高斯混合模型(GMM)。平均類內(nèi)距離反映了同一說話人在不同時間,發(fā)不同話音時,特征參數(shù)的變化程度。是第個說話人的各次特征的估計平均值。Fish比對于某一維單個參數(shù)而言,可以用Fish比來表征它在說話人識別中的有效性?;綡MM的三個假設(shè),尤其是假設(shè)2,導(dǎo)致HMM不能保證語音的軌跡信息,容易產(chǎn)生軌跡折疊的現(xiàn)象,使HMM在復(fù)雜的上下文環(huán)境中鑒別能力不高。但是MEL濾波器組也可以是其他形狀,如正弦形的濾波器組等等。本實驗的臨界帶通濾波器的個數(shù)D=14,所覆蓋的最高頻率為4KHz,MFCC參數(shù)的具體計算過程可以參考圖 36,其中m為幀標(biāo)號,N為一幀內(nèi)的采樣點數(shù)。研究發(fā)現(xiàn):在聲壓恒定的情況下,當(dāng)噪聲被限制在某個帶寬時,其人耳感覺的主觀響度在該帶寬內(nèi)是恒定的。將式(352)代入式(351),并兩邊對求導(dǎo),得 b (353)即 b (354)將上式左側(cè)的分布移到右側(cè),并令兩側(cè)的同冪項系數(shù)相等,可得 (355)根據(jù)上式即可由LPC系數(shù)推導(dǎo)出倒譜系數(shù),這樣的倒譜稱為LPC倒譜。所以可得復(fù)倒譜的求法由下圖表示:圖 35最小相位法求復(fù)倒譜上圖的DFT為離散傅立葉變換,實際操作中一般用快速傅立葉變換(FFT),所以上述方法所求復(fù)倒譜也稱為FFT倒譜。再由希爾伯特變換的任一因果序列都可分解為偶對稱分量和奇對稱分量之和可知:。這樣求出的并非的復(fù)倒譜。所以這不是解決相位卷繞的有效方法。因為濁音的聲門激勵信號就是周期性沖激信號,所以除原點外,我們可采用“高時窗”來從語言信號的倒譜中提取濁音激勵信號的倒譜(對于清音激勵情況,這也只是損失的一部分激勵信息)。則其變換為: (328)兩邊取對數(shù)并用泰勒公式展開如下: (329)根據(jù),且兩邊恒等。因而比更集中于原點附近,或者說更具有短時性,所以用短時窗提取語音序列的復(fù)倒譜是非常有效的。則為 (323)根據(jù)上述結(jié)果可得復(fù)倒譜的性質(zhì):復(fù)倒譜總是一個無限長的序列。一般信號的變換都可近似地用一個有理函數(shù)表示,其一般形式為: (319)其中的絕對值都小于1。為確保定義的唯一性,通常要用上約束條件,不同的約束條件將產(chǎn)生不同的結(jié)果,后面將作具體的展開。則:圖32 卷積組合變?yōu)榫€性組合系統(tǒng)粗略圖現(xiàn)在分析怎樣的可以使得為線性組合:一種使卷積形式變?yōu)槌朔e形式的方法就是變換,即 (313)其中、。而非線性信號中有乘積組合和卷積組合。如圖象信號、地震信號、通信中的衰落信號、調(diào)制信號和語言信號。其中主要有杜賓(Durbin)算法、格型算法和舒爾遞推算法(Schur)。稱作逆濾波器,傳輸函數(shù)為: (35)設(shè)增益為1,預(yù)測誤差為: (36)要解決的問題是:給定語音序列,根據(jù)特定的準(zhǔn)則求預(yù)測系數(shù)的最佳估計值,現(xiàn)在以最小均方誤差準(zhǔn)則作為估計模型參數(shù)的準(zhǔn)則求.短時平均誤差定義為: (37)對求偏導(dǎo),并且令其為零,有 (38)上式表明采用最佳預(yù)測系數(shù)時,預(yù)測系數(shù)與過去的語音樣點正交。其穩(wěn)態(tài)系統(tǒng)響應(yīng)函數(shù)為: (32)現(xiàn)在對這個模型在加以一些限制以便于得到一種高效的求解算法。圖 31中心削波函數(shù)C[x]求得的基音周期軌跡與真實的基音周期軌跡不可能完全吻合,實際上在一些局部段落或區(qū)域中有一個或幾個基音周期估值偏離了正常軌跡(稱為野點),可以采用中值平滑算法和線性平滑算法去除這些野點。另一方面,為了克服聲道的共振峰特性的干擾,可以對語音信號進行非線性變換后再求自相關(guān)函數(shù)。利用這一點,可以設(shè)一門限區(qū)分清濁音。語音按其發(fā)生方式分為清音和濁音。隨后在1968年B. S. Atal[3]采用基音頻率、1971年G. Doddington[4]提出共振峰頻率、1972年M. R. Sambur[7]的線性預(yù)測系數(shù)(LPC)、1973年C. Lummis[8]的時域音栓配合法的語音響度、1973年S. Frurui和F. Itakura的語音對數(shù)域比例、1972年J. J. Wolf和1975年M. R. Sambur[9]從元音和鼻音中提取出最好的說話人個人特征、1974年B. Atal[10]通過比較各種參數(shù)得出倒譜系數(shù)為說話人識別提供最好的結(jié)果。其缺點是訓(xùn)練時間長,動態(tài)時間規(guī)整能力弱,網(wǎng)絡(luò)規(guī)模隨說話人數(shù)目增加時可能大到難以訓(xùn)練的程度。識別時計算未知語音在狀態(tài)轉(zhuǎn)移過程中的最大概率,根據(jù)最大概率對應(yīng)的模型進行判決。這種方法的識別精度較高,且判斷速度快。常用的方法是基于最近鄰原則的動態(tài)時間規(guī)整DTW。這些方法大體可歸為下述幾種:概率統(tǒng)計方法語音中說話人信息在短時內(nèi)較為平穩(wěn),通過對穩(wěn)態(tài)特征如基音、聲門增益、低階反射系數(shù)的統(tǒng)計分析,可以利用均值、方差等統(tǒng)計量和概率密度函數(shù)進行分類判決。由語音信號的線性預(yù)測分析也可得一些表示說話人特征的參數(shù):基因頻率、聲道沖激響應(yīng)、自相關(guān)函數(shù)、聲道面積函數(shù)、線性預(yù)測系數(shù)(LPC)、LPC倒譜系數(shù)和線譜對參數(shù)(LSP)等,其中LPC倒譜系數(shù)有最好的識別效果。提取的特征應(yīng)能有效地區(qū)分不同地說話人,并且對同一說話人保持相對穩(wěn)定。在語音信號數(shù)字處理中考慮到帶外衰減一般常用漢明窗,它的表達(dá)式如下所示(其中N為幀長): (23)由于采樣周期、窗口長度N和頻率分辨率之間存在的關(guān)系,既有采樣周期一定時,隨窗口寬度N的增加而減小,如果窗口N取小,頻率分辨率下降,而時間分辨率提高。分幀一般要采用交疊分段的方法,