【正文】
個(gè)音段進(jìn)行計(jì)算。(3) 分類(lèi)神經(jīng)網(wǎng)絡(luò)的輸出端可以逼近任意形式的概率分布函數(shù),它能很好地掌握蘊(yùn)含在訓(xùn)練數(shù)據(jù)中的概率分布特性,所以能夠較真實(shí)地描述語(yǔ)音信號(hào)的概率分布特性。第二種方法是分類(lèi)網(wǎng)絡(luò)。通常HMM對(duì)應(yīng)了具有一定語(yǔ)音學(xué)含義的單元,通常是音素。該結(jié)構(gòu)共有L=6個(gè)狀態(tài),每個(gè)語(yǔ)音幀n,都對(duì)應(yīng)于HMM模型中有限狀態(tài)中的一種,記為Sl,l=1~L。用N表示觀測(cè)序列的長(zhǎng)度,如果只完成(N一1)次狀態(tài)轉(zhuǎn)移,那么產(chǎn)生的是一條有限長(zhǎng)度馬爾可夫鏈為(x1,x2,……,xn),可用一條行矢量來(lái)表示X=[x1,x2,……,xn]。它表示在初始時(shí)刻t=1時(shí)處于各狀態(tài)的概率。 參數(shù)估計(jì):如何根據(jù)系統(tǒng)所給的若干輸出Y來(lái)確定模型=(a,A,B),即確定模型的三個(gè)參數(shù)a,A,B。用n時(shí)刻以前出現(xiàn)的觀察矢量序列的概率來(lái)推算到當(dāng)前時(shí)刻n時(shí)出現(xiàn)某個(gè)觀察值的概率,即用y1y2…yn1的概率來(lái)推算出現(xiàn)y1y2…yn1yn的概率,定義為前向概率。在n=N時(shí)刻,因?yàn)橛校? (413)在n=l時(shí)刻,考慮有: (414)問(wèn)題2:用HMM模型識(shí)別(Viterbi算法)對(duì)于HMM系統(tǒng),外界觀察到的某個(gè)矢量序列Y在系統(tǒng)內(nèi)部其對(duì)應(yīng)的狀態(tài)序列X是不唯一的,但是不同的X產(chǎn)生Y的可能性不一樣。則求最優(yōu)狀態(tài)序列X=x1x2…xN的Yiterbi搜索算法如下:(1)初始化:(2)遞推計(jì)算:對(duì)于n=1,2,...Nl,由求,并求出:(419)確定:對(duì)j=l,2,...,L,求的最大值,其相應(yīng)的j值即是整條最優(yōu)狀態(tài)序列的最后一個(gè)狀態(tài)xN所取的狀態(tài)Sj的下標(biāo)序號(hào),記為,有:(3)路徑回溯:由n=N出發(fā)進(jìn)行回溯求出最優(yōu)狀態(tài)序列路徑: (420)問(wèn)題3:HMM模型訓(xùn)練(Baum——Welch重估算法)假設(shè)訓(xùn)練前模型參數(shù)為a,A,B,訓(xùn)練后模型參數(shù)變?yōu)閍’,A’,B’。jm為bjm的新估計(jì),則 (427)使用上述方法迭代,可以逐步調(diào)整HMM系統(tǒng)模型參數(shù),以使得模型產(chǎn)生觀察矢量序列的概率不斷增加并達(dá)到一個(gè)極大點(diǎn)。假設(shè)隱藏的狀態(tài)序列是一個(gè)二階馬爾可夫鏈:在n時(shí)刻的狀態(tài)向n+1時(shí)刻的狀態(tài)轉(zhuǎn)移的狀態(tài)轉(zhuǎn)移概率不僅依賴(lài)于n時(shí)刻的狀態(tài),而且依賴(lài)于nI時(shí)刻的狀態(tài),即: (428)其中。這些算法避免了在計(jì)算狀態(tài)轉(zhuǎn)移概率和輸出觀測(cè)值概率時(shí)只考慮當(dāng)前狀態(tài)而不考慮歷史的簡(jiǎn)單假設(shè),在實(shí)際問(wèn)題中更具合理性。比較典型的HMM參數(shù)估計(jì)算法是“K均值分割”算法。五、基于Matlab環(huán)境下的語(yǔ)音識(shí)別算法實(shí)現(xiàn)Matlab原始程序于20世紀(jì)70年代中期由美國(guó)新墨西哥大學(xué)計(jì)算機(jī)系主任Clever Moler開(kāi)發(fā)完成,于1984 年由Mathworks 公司推向市場(chǎng)。如果測(cè)量對(duì)象的頻率在音頻范圍(20 Hz~20 kHz)內(nèi),而且對(duì)采樣頻率等指標(biāo)又沒(méi)有太高要求,就可以考慮使用聲卡。常用聲卡可對(duì)音頻信號(hào)實(shí)現(xiàn)雙聲道16位、高保真的數(shù)據(jù)采集,最高采樣率可達(dá)44.1kHz,具有較高的采樣頻率與精度。這里采用基于短時(shí)能量和過(guò)零率的端點(diǎn)檢測(cè)算法。 HMM模型是一種統(tǒng)計(jì)模裂,一般分為連續(xù)HMM(CHMM)和離散HMM(DHMM)。仿真用的參數(shù)都是24維(加上了一階差分)的語(yǔ)音特征參數(shù)向量。來(lái)實(shí)現(xiàn),u值接近于1。衡量聲卡的技術(shù)指標(biāo)包括復(fù)音數(shù)量、采樣頻率、采樣位數(shù)(即量化精度)、聲道數(shù)、信噪比(SNR)和總諧波失真(THD)等。在編程前,要在Matlab中安裝一個(gè)voice box語(yǔ)音處理工具箱,展開(kāi)到某個(gè)目錄,并將該目錄加入到Matlab的搜索路徑。(5)比例因子問(wèn)題在前向一一后向算法和Baum=Welch算法中,都有a(i)和b(i)的遞歸計(jì)算,因?yàn)樗械牧慷夹∮趌,因此,a(f)(隨著t的增加)和b(i)(隨著t的減少)都迅速趨向于零,為了杜絕這種下溢(Underflow)的問(wèn)題,必須采取增加比例因子(Scaling)的方法,對(duì)有關(guān)算法加以修正。 常規(guī)的HMM結(jié)構(gòu) HMM算法實(shí)現(xiàn)的問(wèn)題(1)初始模型的選取選取好的初始模型,使最后求出的局部極大與全局最大接近,是很有意義的。前向算法的改進(jìn):首先定義前向變量,它是指在給定模型λ的條件下,產(chǎn)生n以前的部分觀察序列o1,o2,…,oN,且在n1時(shí)狀態(tài)為Si,n時(shí)狀態(tài)為Sj的概率。事實(shí)上這兩種假設(shè)并不十分合理,因?yàn)槿我鈺r(shí)刻出現(xiàn)的觀測(cè)輸出矢量概率依賴(lài)于系統(tǒng)當(dāng)前所處的狀態(tài),而且依賴(lài)于系統(tǒng)在前一時(shí)刻所處的狀態(tài)。系統(tǒng)從所有時(shí)刻的Si狀態(tài)轉(zhuǎn)移到Sj狀態(tài)并產(chǎn)生觀察矢量序列Y的概率總和由給出,而從所有時(shí)刻的Sj狀態(tài)發(fā)生狀態(tài)轉(zhuǎn)移并產(chǎn)生觀察序列Y的概率總和由給出,因此有; (426)B的估計(jì):在離散HMM模型下,系統(tǒng)的觀察矢量為一系列的離散值,概率分布函數(shù)矢量B為一矩陣,其中bjm表示系統(tǒng)位于狀態(tài)Sj并觀察到碼字Vm(m=1,2,…,M)(M為觀察矢量y的維數(shù),Vm為第m維元素)的概率??梢匀我膺x擇,則可以找到一條從l到n的路徑,使得產(chǎn)生輸出序列y1y2…yn的概率達(dá)到最大??疾靚=N時(shí)刻,計(jì)算的是出現(xiàn)yN+1的概率,而實(shí)際系統(tǒng)yN+1不存在,是空集,因此有初始條件:。因?yàn)樵谟?xùn)練階段我們已經(jīng)對(duì)每個(gè)基本語(yǔ)音單元分別建立了相應(yīng)的HMM模型,識(shí)別階段的任務(wù)就是尋找HMM模型,以確定對(duì)應(yīng)的是什么語(yǔ)音符號(hào)。 (43)其中,表示一條鏈中一個(gè)觀察矢量序列的概率;表示一條鏈在模型中出現(xiàn)的概率。S=[S1,S2,……,SL],HMM狀態(tài)集合,L為狀態(tài)總數(shù)。這可表示如下: (42),初始狀態(tài)只能為Sl,所以a=[1 0 0 0 0 0],又根據(jù)其可能的狀態(tài)轉(zhuǎn)移,可知狀態(tài)轉(zhuǎn)移矩陣為一個(gè)稀疏矩陣:對(duì)于任何時(shí)刻n(n0),發(fā)音所處的狀態(tài)xn取S1~SL中哪一種的概率只取決于前一時(shí)刻(n1)所處的狀態(tài),而與更前的時(shí)刻所取的狀態(tài)無(wú)關(guān)。其中所處的某個(gè)狀態(tài)是不可見(jiàn)的,各狀態(tài)之間根據(jù)轉(zhuǎn)移概率矩陣進(jìn)行轉(zhuǎn)移,狀態(tài)轉(zhuǎn)移的隨機(jī)過(guò)程是隱含的,它是通過(guò)狀態(tài)輸出的隨機(jī)過(guò)程表現(xiàn)出來(lái)的,故稱(chēng)為隱馬爾可夫模型。HMM一方面用隱含的狀態(tài)對(duì)應(yīng)于聲學(xué)層各相對(duì)穩(wěn)定的發(fā)音單位,并通過(guò)狀態(tài)轉(zhuǎn)移和狀態(tài)駐留來(lái)描述發(fā)音中音的變化和停留甚至音變。用神經(jīng)網(wǎng)絡(luò)進(jìn)行聲學(xué)建模一般有兩種方法:第一種方法是預(yù)測(cè)網(wǎng)絡(luò)?;旌夏P徒Y(jié)構(gòu)還充分利用了ANN的下述特性,克服了HMM的一系列缺陷和不足,主要特點(diǎn)如下:(1) 混合模型可以自適應(yīng)學(xué)習(xí)以適應(yīng)語(yǔ)音數(shù)據(jù)的變化;可以不必拘泥于選取特殊的語(yǔ)音參數(shù)面對(duì)綜合的輸入模式進(jìn)行訓(xùn)練和識(shí)別。在音段層面方式中,神經(jīng)網(wǎng)絡(luò)的輸入來(lái)自整個(gè)語(yǔ)音段,而不是一幀語(yǔ)音或固定長(zhǎng)度的語(yǔ)音窗。另外,它的一個(gè)最主要的缺點(diǎn)是根據(jù)詞模型推出的狀態(tài)段長(zhǎng)分布是指數(shù)分布,這不符合語(yǔ)音的本質(zhì)屬性,因此,現(xiàn)在推出了一種非齊次的HMM語(yǔ)音識(shí)別模型(Duration Distribution Based Hidden Markov Model,簡(jiǎn)稱(chēng)DDBHMM)。這為系統(tǒng)最后給出一個(gè)穩(wěn)健的判決創(chuàng)造了條件。因此考慮將人工神經(jīng)網(wǎng)絡(luò)與已經(jīng)發(fā)展的方法結(jié)合構(gòu)成一種混和系統(tǒng),在這種系統(tǒng)中,神經(jīng)網(wǎng)絡(luò)或者作為其前端進(jìn)行預(yù)處理,或者作為后端進(jìn)行后處理。信息存儲(chǔ)和信息處理二者密不可分,信息處理過(guò)程同人腦一樣,如同一個(gè)黑箱。神經(jīng)網(wǎng)絡(luò)之所以能吸引眾多研究人員的興趣,在于它具有一系列傳統(tǒng)的數(shù)字計(jì)算機(jī)系統(tǒng)及線性網(wǎng)絡(luò)所沒(méi)有的優(yōu)點(diǎn)。知識(shí)和規(guī)則的方法之所以很難取得更大的進(jìn)展,既由于語(yǔ)音的多變,又由于規(guī)則的難以搜集完備,還有執(zhí)行規(guī)則的算法難以高效運(yùn)行。其系統(tǒng)開(kāi)銷(xiāo)小,識(shí)別速度快,在對(duì)付小詞匯量的語(yǔ)音命令控制系統(tǒng)中是一個(gè)非常有效的算法。但是這樣的計(jì)算沒(méi)有考慮到語(yǔ)音中各個(gè)段在不同的情況下的持續(xù)時(shí)間會(huì)產(chǎn)生或長(zhǎng)或短的變化,因此識(shí)別效果不可能最佳。為了計(jì)算這一失真距離,應(yīng)從T和R中各個(gè)對(duì)應(yīng)幀之間的距離算起。在孤立詞語(yǔ)音識(shí)別中,最為簡(jiǎn)單有效的方法就是該算法,該算法基于動(dòng)態(tài)規(guī)劃(DP)的思想,解決了發(fā)音長(zhǎng)短不一的模板匹配問(wèn)題,是語(yǔ)音識(shí)別中出現(xiàn)較早、較為經(jīng)典的一種算法。將頻率按照式(217)變換到Mel域后,Mel帶通濾波器組的中心頻率是按照Mel頻率刻度均勻排列的。然而LPCC同時(shí)也繼承了LPC的缺陷,其主要的一點(diǎn)就是LPC在所有的頻率上都是線性逼近語(yǔ)音的,而這與人的聽(tīng)覺(jué)的特性是不一致的;而且LPC包含了語(yǔ)音高頻部分的大部分噪聲細(xì)節(jié),這些都會(huì)影響系統(tǒng)的性能。信號(hào)x(盯)的短時(shí)傅立葉變換為: (211)式中,w(n)為窗口函數(shù)。使用窄帶帶通濾波器,其頻率分辨率提高,相當(dāng)于短時(shí)處理時(shí)窗寬較寬的那種情況。與一股的單門(mén)限過(guò)零率法相比,可明顯地減少前端誤判,但是有時(shí)存在較大時(shí)延。與Rn(k)相反的是,在周期的各個(gè)整數(shù)倍點(diǎn)上Fn(k)具有谷值而不是峰值。利用快速傅立葉變換等簡(jiǎn)化計(jì)算方法都無(wú)法避免乘法運(yùn)算。在背景噪聲較小的情況下,短時(shí)能量比較準(zhǔn)確,但當(dāng)背景噪聲較大時(shí),短時(shí)平均過(guò)零率可以獲得較好的檢測(cè)效果。從圖中可觀察到,短時(shí)平均幅度對(duì)能量小的信號(hào)累計(jì)效果要比短時(shí)能量好。通常在l0kHz采樣頻率下,L折衷選擇為100~200個(gè)采樣點(diǎn)(即持續(xù)時(shí)間為10~20ms)。在10~20ms這樣的時(shí)間段內(nèi),數(shù)字化后的語(yǔ)音信號(hào)的頻譜特性和某些物理特征參量可近似地看作是不變地。在語(yǔ)音信號(hào)處理中,一般用循環(huán)隊(duì)列的方式來(lái)存儲(chǔ)這些數(shù)據(jù),以便用一個(gè)有限容量的數(shù)據(jù)區(qū)來(lái)應(yīng)付數(shù)量極大的語(yǔ)音數(shù)據(jù)。“0”的預(yù)加重處理結(jié)果。由于語(yǔ)音信號(hào)的平均功率譜受聲門(mén)激勵(lì)和鼻輻射的影響,在800Hz以上的高頻時(shí)約按6dB/oct衰減,為此要在預(yù)處理中進(jìn)行預(yù)加重。信號(hào)與量化噪聲的功率之比為量化信噪比。語(yǔ)音信號(hào)被看成是線性時(shí)不變系統(tǒng)在隨機(jī)噪聲或準(zhǔn)周期脈沖序列激勵(lì)下的輸出。一般來(lái)說(shuō),彎頭段和降尾段對(duì)聲調(diào)的聽(tīng)辨不起作用,起作用的是調(diào)型段。輔音也有清濁之分。音素是語(yǔ)音信號(hào)的最基本組成單位,可分為濁音和清音兩大類(lèi)。(1)物理學(xué)(聲學(xué)):聲音產(chǎn)生與傳播原理、聲電轉(zhuǎn)換以及聲音在房間回響等相關(guān)知識(shí)。自然語(yǔ)音數(shù)據(jù)庫(kù)的設(shè)計(jì):語(yǔ)音特征的提??;利用語(yǔ)音料庫(kù)進(jìn)行聲學(xué)模型訓(xùn)練的研究;適應(yīng)說(shuō)話人聲學(xué)模型的研究;語(yǔ)音識(shí)別算法的研究:語(yǔ)言翻譯和對(duì)話處理的研究等成為語(yǔ)音技術(shù)的熱點(diǎn)方向。而一旦用戶以跟人交談的方式來(lái)進(jìn)行語(yǔ)音輸入時(shí),口語(yǔ)的語(yǔ)法不規(guī)范和語(yǔ)序不正常的特點(diǎn)會(huì)給語(yǔ)義的分析和理解帶來(lái)困難。實(shí)際應(yīng)用中,噪音是無(wú)法避免的。對(duì)某一種口音,語(yǔ)言的聲學(xué)模型的適應(yīng)性決定了基礎(chǔ)識(shí)別率,而在此基礎(chǔ)上的優(yōu)化和模型適應(yīng)方案則提供了很好的解決方案。雖然語(yǔ)音識(shí)別已突破了最初對(duì)技術(shù)的檢驗(yàn)階段,而進(jìn)入通過(guò)對(duì)話及系統(tǒng)形象的設(shè)計(jì),建立用戶喜愛(ài)的應(yīng)用系統(tǒng)時(shí)期。語(yǔ)音識(shí)別系統(tǒng)的典型實(shí)現(xiàn)方案為:輸入的模擬語(yǔ)音信號(hào)首先要進(jìn)行預(yù)處理,包括預(yù)濾波、采樣和量化、加窗、端點(diǎn)檢測(cè)、預(yù)加重等。連接詞語(yǔ)音識(shí)別支持一個(gè)小的語(yǔ)法網(wǎng)絡(luò),其內(nèi)部形成一個(gè)狀態(tài)機(jī),可以實(shí)現(xiàn)簡(jiǎn)單的家用電器的控制,而復(fù)雜的連接詞語(yǔ)音識(shí)別系統(tǒng)可以用于電話語(yǔ)音查詢(xún)、航空定票等系統(tǒng)。在聲學(xué)識(shí)別層次,以多個(gè)說(shuō)話人發(fā)音的大規(guī)模語(yǔ)音數(shù)據(jù)為基礎(chǔ),以馬爾可夫鏈為基礎(chǔ)的語(yǔ)音序列建模方法HMM(隱含馬爾可夫模型)比較有效的解決了語(yǔ)音信號(hào)短時(shí)穩(wěn)定、長(zhǎng)時(shí)時(shí)變的特性,并且能根據(jù)一些基本建模單元構(gòu)造成連續(xù)語(yǔ)音的句子模型,達(dá)到了比較高的建模精度和建模靈活性。我國(guó)語(yǔ)音識(shí)別研究工作近年來(lái)發(fā)展很快,同時(shí)也從實(shí)驗(yàn)室逐步走向?qū)嵱谩?0世紀(jì)90年代后,在細(xì)化模型的設(shè)計(jì)、參數(shù)提取和優(yōu)化,以及系統(tǒng)的自適應(yīng)技術(shù)上取得了一些關(guān)鍵進(jìn)展。語(yǔ)音識(shí)別中的說(shuō)話人辨認(rèn)的研究始于20世紀(jì)30年代。Matlab 是一款功能強(qiáng)大的數(shù)學(xué)軟件,它附帶大量的信號(hào)處理工具箱為信號(hào)分析研究,特別是文中主要探討的聲波分析研究帶來(lái)極大便利。語(yǔ)音識(shí)別技術(shù)既是國(guó)際競(jìng)爭(zhēng)的一項(xiàng)重要技術(shù),也是每一個(gè)國(guó)家經(jīng)濟(jì)發(fā)展不可缺少的重要技術(shù)支撐。關(guān)鍵詞:語(yǔ)音識(shí)別算法;HMM模型;Matlab;GUIABSTRACTSpeech Recognition is designed to allow machines to understand what people say,and accurately identify the contents of voice to execute the intent of recognition technology is not only an important internationally peted technology,but also an indispensable foundational technology for the national economic on the mathematical model from the speech signal,this paper analyze audio signal from the time domain,frequency domain proceeding,and discussed the basic theory of speech recognition algorithm are discussed:Dynamic Time Warping(DTW)、Rulebased Artificial Intelligence,Artificial Neural Network(ANN),Hidden Markov Model(HMM),HMM bined with focus is put in the theoretical studies of Hidden Markov(HMM) model algorithm,and the classical HMM algorithm is improved.Speech recognition algorithm is realized in various programs,this article taking the method is to use Matlab powerful mathematical operation ability to realize the recognition of speech signal isolation. Matlab is a powerful mathematic software with a mass of toolboxes