freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于matlab的語(yǔ)音識(shí)別系統(tǒng)的設(shè)計(jì)本科畢業(yè)設(shè)計(jì)-閱讀頁(yè)

2025-07-07 01:17本頁(yè)面
  

【正文】 絡(luò)在語(yǔ)音識(shí)別中的主要應(yīng)用,如矢量量化、分類區(qū)分、降噪濾波、共振峰檢測(cè)等,其中用的最多的是神經(jīng)網(wǎng)絡(luò)的區(qū)分能力。這些實(shí)驗(yàn)都取得了很好的分類結(jié)果,充分顯示了神經(jīng)網(wǎng)絡(luò)強(qiáng)大的分類區(qū)分能力。它完全不同于傳統(tǒng)識(shí)別方法的地方在于:?jiǎn)蝹€(gè)權(quán)值與識(shí)別基元之間不存在明確的對(duì)應(yīng)關(guān)系,只存在整個(gè)權(quán)值構(gòu)成的系統(tǒng)參數(shù)與整個(gè)識(shí)別空間之間的對(duì)應(yīng)關(guān)系。從信息處理的角度來(lái)看:一組信息的存儲(chǔ)在神經(jīng)網(wǎng)絡(luò)內(nèi)部是混迭在一起的,在存儲(chǔ)過(guò)程中對(duì)信息進(jìn)行了大量的加工,而絕對(duì)不是只把它們孤立地放在那里。但神經(jīng)網(wǎng)絡(luò)識(shí)別方法有個(gè)較大的缺點(diǎn),就是時(shí)序性很差,沒(méi)有解決時(shí)間對(duì)準(zhǔn)問(wèn)題。在靜態(tài)識(shí)別中,神經(jīng)網(wǎng)絡(luò)一次輸入整個(gè)待識(shí)的語(yǔ)音特征矢量序列,然后做出一個(gè)判決。靜態(tài)網(wǎng)絡(luò)在音素識(shí)別問(wèn)題上的識(shí)別效果非常好,而動(dòng)態(tài)分類在字以及句子層面上的識(shí)別效果比較好。語(yǔ)音信號(hào)是一種典型的動(dòng)態(tài)模式序列,前后幀之間的時(shí)間相關(guān)性非常強(qiáng),所以要將神經(jīng)網(wǎng)絡(luò)應(yīng)用于語(yǔ)音識(shí)別,必須解決好瞬時(shí)輸出的記憶問(wèn)題??傊窍Mㄟ^(guò)這種結(jié)合充分發(fā)揮各自的特長(zhǎng)。目前所能見(jiàn)到的各種性能優(yōu)良的連續(xù)語(yǔ)音識(shí)別系統(tǒng)幾乎無(wú)一例外地采用了這種模型。從20世紀(jì)80年代初人們開(kāi)始用這種模型來(lái)描述語(yǔ)音信號(hào)后,就不斷有人對(duì)它進(jìn)行了各種改良和發(fā)展。而這種隱含關(guān)系在HMM模型中通常以概率形式表現(xiàn)出來(lái),模型的輸出結(jié)果也以概率形式給出。如今,各種形式的}砌模型和算法己日趨成熟,以它為基礎(chǔ)己經(jīng)形成了語(yǔ)音識(shí)別的整體框架模型,它統(tǒng)一了語(yǔ)音識(shí)別中聲學(xué)層和語(yǔ)音學(xué)層的算法結(jié)構(gòu),制定了最佳的搜索和匹配算法,以概率的形式將聲學(xué)層中得到的信息和語(yǔ)音學(xué)層中己有的信息比較理想的結(jié)合在一起。 基于HMM的語(yǔ)音識(shí)別框圖目前,基本上所有實(shí)驗(yàn)系統(tǒng)和實(shí)用化的產(chǎn)品都是使用HMM方法,比如IBM公司的ViaVoice系統(tǒng)、卡內(nèi)基梅隆大學(xué)SPHINX系統(tǒng)和Dragon System的Naturally Speaking系統(tǒng)等。隨著語(yǔ)音識(shí)別研究工作的深入開(kāi)展,HMM語(yǔ)音識(shí)別方法愈來(lái)愈收到人們的重視,基于HMM技術(shù)的識(shí)別系統(tǒng)的缺點(diǎn)就在于統(tǒng)計(jì)模型的建立需要依賴一個(gè)較大的語(yǔ)音庫(kù)。且模型所需要的存儲(chǔ)量和匹配計(jì)算(包括特征矢量的輸出概率計(jì)算)的運(yùn)算量相對(duì)較大,通常需要具有一定容量SRAN的DSP才能完成。在此模型中用狀態(tài)的段長(zhǎng)分布函數(shù)替代了齊次HMM中的狀態(tài)轉(zhuǎn)移矩陣,徹底拋棄了“平穩(wěn)的假設(shè)”,而從非平穩(wěn)的角度考慮問(wèn)題,使模型成為一種基于狀態(tài)段長(zhǎng)分布的隱含Markov模型。由于該模型解除了對(duì)語(yǔ)音信號(hào)狀態(tài)的齊次性和對(duì)語(yǔ)音特征的非相關(guān)性的限制,因此,為語(yǔ)音識(shí)別研究的深入發(fā)展提供了一個(gè)和諧的框架。因此考慮將人工神經(jīng)網(wǎng)絡(luò)與已經(jīng)發(fā)展的方法結(jié)合構(gòu)成一種混合系統(tǒng),在這種系統(tǒng)中,神經(jīng)網(wǎng)絡(luò)或者作為其前端進(jìn)行預(yù)處理,或者作為后端進(jìn)行后處理。用神經(jīng)網(wǎng)絡(luò)來(lái)估計(jì)觀測(cè)概率,設(shè)計(jì)和訓(xùn)練神經(jīng)網(wǎng)絡(luò)的方法有很多,最簡(jiǎn)單的方式就是將一幀語(yǔ)音矢量直接映射成觀察概率,網(wǎng)絡(luò)的訓(xùn)練也是一幀接一幀地進(jìn)行,這種方法就成為幀層面上的網(wǎng)絡(luò)訓(xùn)練。這樣就可以讓網(wǎng)絡(luò)更好地利用存在音段中的所有語(yǔ)音幀之間的相關(guān)性,而且還可以更容易地利用其它信息,比如時(shí)長(zhǎng)。在這些不同的結(jié)合形式中,實(shí)驗(yàn)結(jié)果表明,幀層面上的結(jié)合比較符合HMM和ANN兩種方法的特點(diǎn)。混合模型克服了最大似然準(zhǔn)則(MLE)區(qū)分能力差的缺陷。與傳統(tǒng)的HMM相比,混合HMM/ANN模型還為融合多種語(yǔ)音特征矢量,考慮不同層次上的多種約束提供了一個(gè)非常方便的接口。(2) 可以把人的聽(tīng)覺(jué)模型融合于ANN中,在ANN的輸入端可以同時(shí)加載相鄰數(shù)幀的語(yǔ)音特征矢量,因而和語(yǔ)音信號(hào)的實(shí)際情況更加符合。(4) ANN的訓(xùn)練著眼于描述類間的邊界,而不是描述每一類內(nèi)的分布.所以是一種區(qū)分性訓(xùn)練?;旌夏P屠昧薍MM在這方面的特長(zhǎng)。在混合HMM/ANN中用神經(jīng)網(wǎng)絡(luò)來(lái)進(jìn)行聲學(xué)建模,而時(shí)域建模依賴于傳統(tǒng)的HMM。預(yù)測(cè)網(wǎng)絡(luò)的輸入是相繼的幾幀語(yǔ)音特征矢量,輸出下一幀語(yǔ)音的預(yù)測(cè)值,通過(guò)給每一個(gè)音子分配一個(gè)預(yù)測(cè)網(wǎng)絡(luò),就可以比較每個(gè)音素預(yù)測(cè)網(wǎng)絡(luò)的預(yù)測(cè)誤差,選取其中具有最小預(yù)測(cè)誤差的網(wǎng)絡(luò)與當(dāng)前語(yǔ)音段匹配,體現(xiàn)了相鄰語(yǔ)音幀之間的時(shí)域相關(guān)性。在分類網(wǎng)絡(luò)中,輸入還是相繼的幾幀語(yǔ)音矢量。分類網(wǎng)絡(luò)可以用n個(gè)輸出節(jié)點(diǎn)表示n個(gè)類,將輸入映射成n類中的一種。四、隱含馬爾可夫模型算法HMM是在80年代由IBM的Baker和Jrlinek引入入語(yǔ)音識(shí)別的研究,目前它是最靈活最成功的語(yǔ)音識(shí)別方法之一。另一方面它引入了概率統(tǒng)計(jì)模型,不再用動(dòng)態(tài)時(shí)間對(duì)齊的方法求匹配距離,而是通過(guò)搜索最佳狀態(tài)序列并計(jì)算最大后驗(yàn)概率找到識(shí)別結(jié)果,HMM模型較好地描述了語(yǔ)音信號(hào)在時(shí)間和聲學(xué)特性兩個(gè)方面的統(tǒng)計(jì)變化。音素之間通過(guò)HMM模型之間的連接(轉(zhuǎn)移)可以構(gòu)造出字模型(馬爾可夫鏈),字模型進(jìn)一步可以組成詞模型,再到句子,所以通過(guò)不同層面上的模型(狀態(tài))之間的轉(zhuǎn)移(連接),就實(shí)現(xiàn)了音素、字、詞的統(tǒng)計(jì)表示,形成了一個(gè)自下而上的統(tǒng)計(jì)識(shí)別框架。這也成就了HMM的霸主地位。馬爾可夫鏈的每個(gè)狀態(tài)可以和一個(gè)穩(wěn)態(tài)或準(zhǔn)穩(wěn)態(tài)的事件相對(duì)應(yīng),在離散的某個(gè)時(shí)間下的觀測(cè)值,就是該過(guò)程在該時(shí)刻處于某個(gè)狀態(tài)并以與該狀態(tài)對(duì)應(yīng)的隨機(jī)函數(shù)概率發(fā)生的一個(gè)值。,是一種常用的HMM模型,它用同一狀態(tài)的駐留描述發(fā)音的長(zhǎng)短,用狀態(tài)的轉(zhuǎn)移描述發(fā)音單元的變化。若在時(shí)刻n(即第n幀)所處的狀態(tài)用xn表示,那么xn只能等于S1~SL中的某一個(gè),任意時(shí)刻n系統(tǒng)所處的狀態(tài)以概率的方式取決于初始狀態(tài)概率矢量a和狀態(tài)轉(zhuǎn)移概率矩陣A。它的每一個(gè)分量al??杀硎救缦拢?(41)矩陣A是一個(gè)()的方陣,它的各個(gè)元素是已知相鄰兩個(gè)時(shí)刻中前一時(shí)刻狀態(tài)為Si的條件下后一時(shí)刻狀態(tài)為Sj,的概率。由此產(chǎn)生的狀態(tài)序列(x1,x2,x3,……)是一條一階馬爾可夫鏈。對(duì)于任何X,其出現(xiàn)概率為:。若yn為離散分布,則稱為離散HMM模型(DHMM),若yn以為連續(xù)分布,則稱為連續(xù)HMM模型(CHMM),在通常情況下假定虬服從正態(tài)分布,為了更好地逼近實(shí)際的分布模型有時(shí)也采用若干個(gè)正態(tài)分布函數(shù)線性相加。X=[x1,x2,……,xn],隱藏在系統(tǒng)內(nèi)部的狀態(tài)序列。π為初始狀態(tài)概率分布。狀態(tài)轉(zhuǎn)移概率分布。為了簡(jiǎn)明起見(jiàn),通常將HMM模型表示成A=(a,A,B)。 HMM的三個(gè)基本問(wèn)題及解決算法HMM的需要解決的三個(gè)基本問(wèn)題:l、概率計(jì)算:已知觀察序列O=[o1,o2,……,oT]和模型=(a,A,B),如何計(jì)算由模型五生成O的概率P(O/)。 最優(yōu)狀態(tài)序列搜索:已知觀察序列O和模型λ,即如何選擇最佳的狀態(tài)序X。對(duì)每個(gè)輸出Y稱之為一個(gè)學(xué)習(xí)樣本,假設(shè)有Q個(gè)輸出,即Q個(gè)學(xué)習(xí)樣本,構(gòu)成一個(gè)樣本集合。以上三個(gè)問(wèn)題分別對(duì)應(yīng)語(yǔ)音識(shí)別中的識(shí)別問(wèn)題、搜索問(wèn)題和訓(xùn)練問(wèn)題。若解決了此問(wèn)題,我們就可以度量模型與觀測(cè)序列之前的匹配程度,達(dá)到識(shí)別輸出語(yǔ)音流的目的。解決三個(gè)問(wèn)題的具體算法:?jiǎn)栴}1:前向后向算法對(duì)于已經(jīng)確定某個(gè)觀察矢量序列,考察n時(shí)刻。同樣,用yn+2yn+3…yN取推算yn+1yn+2…yN的概率,稱為后向概率。前向概率用an(j)表示,其意義為:系統(tǒng)n時(shí)刻處于Sj狀態(tài)下,已經(jīng)出現(xiàn)前n1個(gè)觀察矢量y1y2…yn1的情況下,又觀察yn的概率。顯然an1(j)表示系統(tǒng)在nl時(shí)刻處于Sj狀態(tài)時(shí)產(chǎn)生觀察矢量序列y1y2…yn1的概率,在此情況下繼續(xù)觀察到y(tǒng)n的概率為:,則對(duì)n1時(shí)刻的所有狀態(tài)求和,即可計(jì)算an(j),有遞推公式: (44)另外,在初始狀態(tài)n1時(shí)刻,系統(tǒng)處于Sj產(chǎn)生y1的概率: (45)前向概率的具體計(jì)算算法如下:(1) 初始化: (46)(2) 遞推計(jì)算: (47)(3) 整體概率: (48)后向概率用表示,其意義為:系統(tǒng)在n時(shí)刻處于Sj狀態(tài)下,已經(jīng)存在從n+2到N刻的觀察矢量yn+2yn+3…yN的情況下,又出現(xiàn)yn+1的概率。后向概率的具體計(jì)算算法如下:(1) 初始化: (49)(2) 遞推計(jì)算: (410)在定義了前向概率以及后向概率及其計(jì)算方法以后,考察整體概率,即出現(xiàn)整個(gè)觀察矢量序列Y=[y1,y2,……,yn]的概率: (411)事實(shí)上,上述公式和系統(tǒng)當(dāng)前所處的時(shí)刻n無(wú)關(guān),用公式(47)代入有: (412)即系統(tǒng)在模型下名出現(xiàn)觀察序列Y的概率是唯一的。狀態(tài)序列搜索的任務(wù)就是根據(jù)系統(tǒng)輸出Y搜索最有可能的狀態(tài)序列X,使得該狀態(tài)序列產(chǎn)生Y的可能性達(dá)到最大。對(duì)于所有可能的X,直接計(jì)算上述概率并選擇其中的最大者,計(jì)算量很大。假設(shè)系統(tǒng)的觀察矢量序列Y=[y1,y2,…,yn,yn+1yn+2…yN],要求一條狀態(tài)序列X=[x1,x2,…,xn,xn+1,xn+2,…xN],使得下面的概率達(dá)到最大: (416)假設(shè)系統(tǒng)在時(shí)刻n處于狀態(tài)xn=Si,而先前時(shí)刻的狀態(tài)為x1x2…xn。假設(shè)此概率最大值記為,有(417)則由式(4—16)很容易推導(dǎo)出 (418)另外,為了描述路徑節(jié)點(diǎn)之間的遞推關(guān)系,定義其意義為xn+1=Sj的一條最優(yōu)路徑x1x2…xnxn+1中xn的狀態(tài)序號(hào)。令表示系統(tǒng)在n時(shí)刻位于狀態(tài)Sj,而在n+1時(shí)刻位于狀態(tài)Sj并產(chǎn)生觀察矢量序列Y的概率,有 (421)令表示系統(tǒng)在n時(shí)刻位于狀態(tài)Si并有觀察矢量序列Y的概率,有,同樣可以改寫為: (422)事實(shí)上,和存在以。為初始狀態(tài)概率矢量的新估計(jì),其中元素aj’可以用n=l時(shí)刻系統(tǒng)位于狀態(tài)Sj并又觀察矢量序列Y的概率來(lái)表示,有 (425)A的估計(jì):假設(shè)A39。ij=(由Si狀態(tài)轉(zhuǎn)移到Sj狀態(tài)的概率總和)/(由Si發(fā)生狀態(tài)轉(zhuǎn)移的概率總和)。假設(shè)b39。但是該方法的訓(xùn)練結(jié)果與初值相關(guān),可能收斂不到全局的最優(yōu)解,因此采用一種“分段足均值算法”可以較好的解決這個(gè)問(wèn)題,如圖4.2所示。初始模型的產(chǎn)生有兩種主要方法,一種是采取均勻分布或隨機(jī)設(shè)置的方法,另一種方法是將訓(xùn)練語(yǔ)音的數(shù)據(jù)根據(jù)HMM模型的狀態(tài)數(shù)按照某種規(guī)則分段,每段作為某一狀態(tài)的訓(xùn)練數(shù)據(jù),從而計(jì)算模型的初始參數(shù)。2)輸出值的馬爾可夫假設(shè):在n時(shí)輸出觀測(cè)值的概率,只取決于當(dāng)前時(shí)刻n所處的狀態(tài),而與以前的歷史無(wú)關(guān)。為了彌補(bǔ)這一缺點(diǎn),對(duì)經(jīng)典的HMM模型的狀態(tài)轉(zhuǎn)移和輸出觀測(cè)值的馬爾可夫假設(shè)條件做一定的改進(jìn),并導(dǎo)出新模型的前向和后向算法。L表示模型中狀態(tài)個(gè)數(shù)。由(428)式可知:給定模型λ,產(chǎn)生某一狀態(tài)序列Q=q1,q2,…,qN的概率: (430)其中πi為系統(tǒng)在時(shí)刻n=1時(shí)狀態(tài)為Si的概率,Aij表示狀態(tài)Si→Sj,的概率。為使問(wèn)題求解變得更加實(shí)際,需尋求更為簡(jiǎn)介的方法。前向變量可按下列步驟進(jìn)行迭代計(jì)算:(1) 初始化 (433)(2) 迭代計(jì)算(434)后向算法的改進(jìn):與前向算法相類似,定義后向變量: (435)即在給定模型λ和n1時(shí)狀態(tài)為Si,n時(shí)狀態(tài)為Sj的條件下,從n+l時(shí)到最后的部分觀測(cè)序列的概率,可按如下步驟進(jìn)行迭代計(jì)算:(1) 初始化 (2) 迭代計(jì)算在給定模型λ下,產(chǎn)生觀測(cè)序列O的概率,根據(jù)前向變量和后向變量的定義可得: (437)以上方法可以推廣到Viterbi算法,BaumWelch算法。 HMM的結(jié)構(gòu)和類型隱馬爾可夫模型主要有兩種大的結(jié)構(gòu),一種是全連接的,另一種是從左向右的。全連接的HMM可以用于說(shuō)話人識(shí)別:無(wú)跨越從左向右模型符合人的語(yǔ)音特點(diǎn),因此可以用來(lái)進(jìn)行語(yǔ)音識(shí)別。圖4.3是常見(jiàn)的幾種HMM結(jié)構(gòu)。一般認(rèn)為,π和A參數(shù)初值選取影響不大,可以隨機(jī)選取或均勻取值,只要滿足概率要求即可,但B初值對(duì)訓(xùn)練出的HMM影響較大,一般傾向采取較為復(fù)雜的初值選取方法。(2)HMM狀態(tài)數(shù)的選取,一般取狀態(tài)數(shù)為4~10,但不是狀態(tài)數(shù)越多越好,對(duì)單個(gè)漢字而言,取4較為合適。淡然,不同形式的pdf是由不同的參數(shù)來(lái)描述的,而估計(jì)這種參數(shù)的重估公式也是不一樣的。(4) 多個(gè)觀察值序列訓(xùn)練實(shí)際中訓(xùn)練一個(gè)HMM,經(jīng)常用到不止一個(gè)觀察值序列,那么對(duì)于K個(gè)觀察值序列訓(xùn)練HMM時(shí),要對(duì)Baum=Welch算法的重估公式加以修正。相關(guān)算法可參看相關(guān)資料。在20 多年的發(fā)展過(guò)程中軟件版本不斷更新,功能逐步完善,深受大學(xué)教師、學(xué)生及科研工作人員好評(píng)。本文就結(jié)合Matlab 優(yōu)秀的數(shù)值計(jì)算能力及強(qiáng)大的信號(hào)處理功能,借助于對(duì)聲音的部分基本特征的研究,拓展Matlab在語(yǔ)音識(shí)別中的應(yīng)用,并將揭開(kāi)語(yǔ)音識(shí)別的奧秘。由于Matlab各個(gè)工具包往往采用了業(yè)界中最尖端的算法,因此相比與傳統(tǒng)的實(shí)現(xiàn)方式,該語(yǔ)音識(shí)別系統(tǒng)通過(guò)Matlab開(kāi)發(fā)圖形界面,逼真的演示了語(yǔ)音識(shí)別的過(guò)程以及結(jié)果。從數(shù)據(jù)采集的角度來(lái)看,PC聲卡本身就成為一個(gè)優(yōu)秀的數(shù)據(jù)采集系統(tǒng),它同時(shí)具有A/D和D/A轉(zhuǎn)換功能,不僅價(jià)格低廉,而且兼容性好、性能穩(wěn)定、靈活通用,軟件特別是驅(qū)動(dòng)程序升級(jí)方便。而語(yǔ)音音頻范圍一般在5kHz以內(nèi),滿足聲卡采集的要求。聲卡的工作原理如圖5.1所示。同時(shí),又可以通過(guò)模數(shù)轉(zhuǎn)換器(A/D)將麥克風(fēng)或CD的輸入信號(hào)轉(zhuǎn)換成數(shù)字信號(hào),送到計(jì)算機(jī)進(jìn)行各種處理。復(fù)音數(shù)量代表聲卡能夠同時(shí)發(fā)出多少種聲音,復(fù)音數(shù)越大,音色就越好,播放聲音時(shí)可以聽(tīng)到的聲部越多、越細(xì)膩:采樣頻率是每秒采集聲音樣本的數(shù)量,采樣頻率越高,記錄的聲音波形越準(zhǔn)確,保真度就越高,但采樣數(shù)據(jù)量相應(yīng)變大,要求的存儲(chǔ)空間也越多;采樣位數(shù)是指將聲音從模擬信號(hào)轉(zhuǎn)化為數(shù)字信號(hào)的二進(jìn)制位數(shù)(bit),位數(shù)越高,在定域內(nèi)能表示的聲波振幅的數(shù)目越多,記錄的音質(zhì)也就越高,例如16位聲卡把音頻信號(hào)的大小分為216=65536個(gè)量化等級(jí)來(lái)實(shí)施上述轉(zhuǎn)換。對(duì)于許多科學(xué)實(shí)驗(yàn)和工程測(cè)量來(lái)說(shuō),聲卡對(duì)信號(hào)的量化精度和采樣率都是足夠高的,甚至優(yōu)于一些低檔的數(shù)據(jù)采集卡性能。:,整個(gè)語(yǔ)音識(shí)別系統(tǒng)包括四部分:預(yù)處理、特征參數(shù)提取、訓(xùn)練和識(shí)別。預(yù)加重一般通過(guò)一個(gè)數(shù)字濾波器。端點(diǎn)檢測(cè)就是從一段信號(hào)中檢測(cè)出語(yǔ)音信號(hào)的起始點(diǎn)和結(jié)束點(diǎn)。這種算法不是實(shí)時(shí)的,是先讀取錄制好的wav文件,獲取信號(hào)后再將其分幀并計(jì)算短時(shí)能量和過(guò)零率參數(shù)。常用的參數(shù)有線性預(yù)測(cè)的倒譜系數(shù)(LPCC)和Mel頻率的倒譜系數(shù)(MFCC)。大量實(shí)驗(yàn)表明,MFCC參數(shù)的性能優(yōu)于LPCC參數(shù)。本系統(tǒng)采用的是MFCC系數(shù),24個(gè)濾波器。前者的識(shí)別率比較高,DHMM
點(diǎn)擊復(fù)制文檔內(nèi)容
語(yǔ)文相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1