freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于matlab的語音識(shí)別系統(tǒng)的設(shè)計(jì)本科畢業(yè)設(shè)計(jì)-預(yù)覽頁

2025-07-16 01:17 上一頁面

下一頁面
 

【正文】 真正有實(shí)用商業(yè)系統(tǒng)的只有Nuance公司。語音技術(shù)是目前世界上最熱門和最具有發(fā)展前景的技術(shù)之一。語音識(shí)別研究的另一個(gè)發(fā)展方向是人體語言與口語相結(jié)合的多媒體人機(jī)交互。未來幾年里,真正實(shí)用的語音識(shí)別和音字轉(zhuǎn)換技術(shù)將首次走出實(shí)驗(yàn)室,走進(jìn)千家萬戶的電器設(shè)備中。(2)生理學(xué):有關(guān)人的聲道與耳朵的生理結(jié)構(gòu)、耳朵的聽覺特征,在腦內(nèi)高層的語言處理等。(7)數(shù)字信號(hào)處理技術(shù):信號(hào)的時(shí)域分析、噪聲消除、數(shù)字濾波、線性預(yù)測(cè)等方面的知識(shí)。濁音通過喉部發(fā)聲,發(fā)聲時(shí)聲帶振動(dòng),聲帶振動(dòng)的基本頻率稱為“基音頻率”,其倒數(shù)稱為“基音周期”。元音構(gòu)成一個(gè)音節(jié)的主干,無論從長度還是能量上看,元音在音節(jié)中都占主要部分。輔音出現(xiàn)在音節(jié)的前端或者后端或前后兩端。聲調(diào)的變化就是濁音基音周期(或基音頻率)的變化,各個(gè)韻母段中基音周期隨時(shí)問的變化產(chǎn)生了聲調(diào),變化的軌跡稱為聲調(diào)曲線。而一段語音,它的起始和結(jié)尾處的波形幅度較小,要準(zhǔn)確地測(cè)出這些地方的基音周期并不容易,因此可將這兩處的波形忽略,只測(cè)調(diào)型段這一部分波形的基音周期。理想的模型是線性的,且時(shí)不變的;但是語音信號(hào)是一連串的時(shí)變過程,且聲門和聲道相互耦合形成了語音信號(hào)的非線性特性。為了將原始的模擬語音信號(hào)變?yōu)閿?shù)字信號(hào),必須經(jīng)過采樣和量化兩個(gè)步驟,從而得到時(shí)間和幅度上均為離散的數(shù)字語音信號(hào)。此時(shí),信號(hào)中的高頻成分將產(chǎn)生失真。若用表示輸入語音信號(hào)序列的方差,表示信號(hào)的峰值,B表示量化分辨率(量化位長),表示噪聲序列的方差,則量化信噪比為: ()假設(shè)語音信號(hào)的幅度服從Laplacian分布,此時(shí)信號(hào)幅度超過的概率很小,%,因而可以取。此時(shí)量化后的語音質(zhì)量能滿足一般通信系統(tǒng)的要求。預(yù)加重的目的是提升高頻部分,使信號(hào)的頻譜變得平坦,以便于進(jìn)行聲道參數(shù)分析或頻譜分析。同時(shí),預(yù)加重也可在A/D轉(zhuǎn)換之后進(jìn)行,用具有6dB/oct地提升高頻特性地預(yù)加重?cái)?shù)字濾波器實(shí)現(xiàn)。從下圖可以明顯的看出,加重后語音信號(hào)中高頻分量增強(qiáng)。A/D轉(zhuǎn)換后采用低通濾波器作為平滑濾波器,對(duì)重構(gòu)的語音波形的高次諧波起平滑作用,以去除高次諧波失真。在進(jìn)行處理時(shí),按幀從此數(shù)據(jù)區(qū)中取出數(shù)據(jù),處理完成后再取一幀,如此進(jìn)行下去。在對(duì)語音信號(hào)進(jìn)行短時(shí)分析的過程中,信號(hào)流的處理用分段或分幀來實(shí)現(xiàn)。這樣就可以采用平穩(wěn)過程的分析處理方法來處理了。本文主要采用哈明窗,其公式為: (22)其中L是窗長。對(duì)信號(hào)分析最自然最直接的方法是以時(shí)間為自變量進(jìn)行分析,語音信號(hào)典型的時(shí)域特征包括短時(shí)能量、短時(shí)平均過零率、短時(shí)自相關(guān)系數(shù)和短時(shí)平均幅度差?!?”的短時(shí)能力函數(shù)利用短時(shí)能量可以區(qū)分清音和濁音,因?yàn)闈嵋舻哪芰勘惹逡舻哪芰看蟮枚?;其次可以用短時(shí)能量對(duì)有聲段和無聲段進(jìn)行判定,對(duì)聲母和韻母分界,以及對(duì)連字分界等?!?”的短時(shí)平均幅度短時(shí)平均過零率是指每幀內(nèi)信號(hào)通過零值的次數(shù)。短時(shí)平均過零率公式為: (26)Sgn[*]是符號(hào)函數(shù)。一次一般的識(shí)別系統(tǒng),其前端的端點(diǎn)檢測(cè)過程都是將這兩個(gè)參數(shù)結(jié)合用于檢測(cè)語音是否真的開始。因此對(duì)于濁音語音可以用自相關(guān)函數(shù)求出語音波形序列的基音周期。為了避免乘法,一個(gè)簡單的方法就是利用差值,為此常常采用另一種與自相關(guān)函數(shù)類似作用的參量,即短時(shí)平均幅度差函數(shù)(AMDP)。這些極小值將出現(xiàn)在整數(shù)倍周期的位置上?!?”的自相關(guān)函數(shù)語音端點(diǎn)檢測(cè)的準(zhǔn)確性和可靠性,對(duì)系統(tǒng)識(shí)別率的提高起著重要的作用當(dāng)系統(tǒng)收到一段包含語音的信號(hào)時(shí),系統(tǒng)需要對(duì)語音的端點(diǎn)進(jìn)行定位,丟棄語音前.后多余的噪音段。端點(diǎn)檢測(cè)有雙門限前端檢測(cè)算法和多門限過零率前端檢測(cè)算法。因?yàn)槭状握业礁唛T限越過點(diǎn),再往前推可能要搜索200ms左右才能找到清音的起點(diǎn),這就不便于實(shí)現(xiàn)實(shí)時(shí)特征提取。濾波器組法所用的濾波器可以是模擬濾波器,也可以是數(shù)字濾波器。語音信號(hào)x(t)輸入帶通濾波器f1,f2,…… fn,濾波器輸出為具有一定頻帶的中心頻率為f1,f2,…… fn的信號(hào)。它是法國科學(xué)家J.Fourier在1807年為了得到熱傳導(dǎo)方程的簡便解法而提出的。 從帶通濾波器作用理解短時(shí)傅里葉變換可以看作是加窗后函數(shù)的傅立葉變換,為了實(shí)現(xiàn)反變換,將進(jìn)行頻率采樣,即令則有 (212) 式中,L為頻率采樣點(diǎn)數(shù)。語音信號(hào)的倒譜與LPC系數(shù)之間的遞推關(guān)系: (214)或是由LPC得到 (215)根據(jù)同態(tài)處理的概念和語音信號(hào)產(chǎn)生的模型,語音信號(hào)的倒譜c(n)等于激勵(lì)信號(hào)的倒譜與聲道傳輸函數(shù)的倒譜之和。 Mel頻率倒譜系數(shù)美爾頻標(biāo)倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,MFCC)考慮了人耳的聽覺特性,將頻譜轉(zhuǎn)化為基于Mel頻標(biāo)的非線性頻譜,然后轉(zhuǎn)換到倒譜域上。MFCC是采用濾波器組的方法計(jì)算出來的,這組濾波器在頻率的美爾坐標(biāo)上是等寬的。在實(shí)際應(yīng)用中,MFCC倒譜系數(shù)計(jì)算過程如下:(1) 將信號(hào)進(jìn)行分幀,預(yù)加重和加哈明窗處理,然后進(jìn)行短時(shí)傅立葉變換并得到其頻譜。得到相應(yīng)的動(dòng)態(tài)特征。用于孤立詞識(shí)別,DTW算法與HMM算法在相同的環(huán)境條件下,識(shí)別效果相差不大,但HMM算法要復(fù)雜得多,主要體現(xiàn)在HMM算法在訓(xùn)練階段需要提供大量的語音數(shù)據(jù),通過反復(fù)計(jì)算才能得到模型參數(shù),而DTW算法的訓(xùn)練中幾乎不需要額外的計(jì)算。所要識(shí)別的一個(gè)輸入詞條語音稱為測(cè)試模板,可表示為,為測(cè)試語音幀的時(shí)序標(biāo)號(hào),n=1為起點(diǎn)語音幀,n=N為終點(diǎn)語音幀,因此N為該模板所包含的語音幀總數(shù),T(n)為第n幀的語音特征矢量。設(shè)n和m分別是T和R中任意選擇的幀號(hào),d[T(n),R(m)]表示這兩幀之間的距離。(2)輸入語音特征矢量序列為,如果M≠N,那么DTW算法就是要尋找時(shí)間規(guī)正函數(shù)m=w(n),它把輸入模板的時(shí)間軸療非線性的映射到參考模板的時(shí)間軸m,并且該w滿足: (31)式中,d[n,w(n)]是第n幀輸入矢量和第m幀參考矢量的距離,D是相應(yīng)于最優(yōu)時(shí)間規(guī)正下二模板的距離測(cè)度。因而更多地是采用動(dòng)態(tài)規(guī)劃(DP)的方法。但它沒有一個(gè)有效的用統(tǒng)計(jì)方法進(jìn)行訓(xùn)練的框架。但是,如果系統(tǒng)稍微復(fù)雜一些,這種算法就顯得力不從心了。另一方面,人類的語言要受詞、句法、語義等約束,人在識(shí)別語音的過程中充分應(yīng)用了這些約束以及對(duì)話環(huán)境的有關(guān)信息,將來自聲學(xué)——語音學(xué)的“區(qū)別性特征”(這稱為一個(gè)識(shí)別系統(tǒng)的“底層”)與來自構(gòu)詞、句法、語義和語用約束(這稱為識(shí)別系統(tǒng)的“頂層”)相互結(jié)合,就可以構(gòu)成一個(gè)“由底向上(Bottomup)”和“由頂向下(Topdown)”交互作用的識(shí)別系統(tǒng),不同層次的知識(shí)可以用若干規(guī)則來描述。所以從七十年代后期到現(xiàn)在,雖然仍然有人應(yīng)用人工智能的方法進(jìn)行語音識(shí)別,但他們很少取得成果。一個(gè)神經(jīng)網(wǎng)絡(luò)包含大量類似大腦神經(jīng)元的處理單元,這些單元之間相互連接形成一定的拓?fù)浣Y(jié)構(gòu),并相互影響。人工神經(jīng)網(wǎng)絡(luò)在語音識(shí)別中的主要應(yīng)用,如矢量量化、分類區(qū)分、降噪濾波、共振峰檢測(cè)等,其中用的最多的是神經(jīng)網(wǎng)絡(luò)的區(qū)分能力。它完全不同于傳統(tǒng)識(shí)別方法的地方在于:單個(gè)權(quán)值與識(shí)別基元之間不存在明確的對(duì)應(yīng)關(guān)系,只存在整個(gè)權(quán)值構(gòu)成的系統(tǒng)參數(shù)與整個(gè)識(shí)別空間之間的對(duì)應(yīng)關(guān)系。但神經(jīng)網(wǎng)絡(luò)識(shí)別方法有個(gè)較大的缺點(diǎn),就是時(shí)序性很差,沒有解決時(shí)間對(duì)準(zhǔn)問題。靜態(tài)網(wǎng)絡(luò)在音素識(shí)別問題上的識(shí)別效果非常好,而動(dòng)態(tài)分類在字以及句子層面上的識(shí)別效果比較好。總之,是希望通過這種結(jié)合充分發(fā)揮各自的特長。從20世紀(jì)80年代初人們開始用這種模型來描述語音信號(hào)后,就不斷有人對(duì)它進(jìn)行了各種改良和發(fā)展。如今,各種形式的}砌模型和算法己日趨成熟,以它為基礎(chǔ)己經(jīng)形成了語音識(shí)別的整體框架模型,它統(tǒng)一了語音識(shí)別中聲學(xué)層和語音學(xué)層的算法結(jié)構(gòu),制定了最佳的搜索和匹配算法,以概率的形式將聲學(xué)層中得到的信息和語音學(xué)層中己有的信息比較理想的結(jié)合在一起。隨著語音識(shí)別研究工作的深入開展,HMM語音識(shí)別方法愈來愈收到人們的重視,基于HMM技術(shù)的識(shí)別系統(tǒng)的缺點(diǎn)就在于統(tǒng)計(jì)模型的建立需要依賴一個(gè)較大的語音庫。在此模型中用狀態(tài)的段長分布函數(shù)替代了齊次HMM中的狀態(tài)轉(zhuǎn)移矩陣,徹底拋棄了“平穩(wěn)的假設(shè)”,而從非平穩(wěn)的角度考慮問題,使模型成為一種基于狀態(tài)段長分布的隱含Markov模型。因此考慮將人工神經(jīng)網(wǎng)絡(luò)與已經(jīng)發(fā)展的方法結(jié)合構(gòu)成一種混合系統(tǒng),在這種系統(tǒng)中,神經(jīng)網(wǎng)絡(luò)或者作為其前端進(jìn)行預(yù)處理,或者作為后端進(jìn)行后處理。這樣就可以讓網(wǎng)絡(luò)更好地利用存在音段中的所有語音幀之間的相關(guān)性,而且還可以更容易地利用其它信息,比如時(shí)長?;旌夏P涂朔俗畲笏迫粶?zhǔn)則(MLE)區(qū)分能力差的缺陷。(2) 可以把人的聽覺模型融合于ANN中,在ANN的輸入端可以同時(shí)加載相鄰數(shù)幀的語音特征矢量,因而和語音信號(hào)的實(shí)際情況更加符合?;旌夏P屠昧薍MM在這方面的特長。預(yù)測(cè)網(wǎng)絡(luò)的輸入是相繼的幾幀語音特征矢量,輸出下一幀語音的預(yù)測(cè)值,通過給每一個(gè)音子分配一個(gè)預(yù)測(cè)網(wǎng)絡(luò),就可以比較每個(gè)音素預(yù)測(cè)網(wǎng)絡(luò)的預(yù)測(cè)誤差,選取其中具有最小預(yù)測(cè)誤差的網(wǎng)絡(luò)與當(dāng)前語音段匹配,體現(xiàn)了相鄰語音幀之間的時(shí)域相關(guān)性。分類網(wǎng)絡(luò)可以用n個(gè)輸出節(jié)點(diǎn)表示n個(gè)類,將輸入映射成n類中的一種。另一方面它引入了概率統(tǒng)計(jì)模型,不再用動(dòng)態(tài)時(shí)間對(duì)齊的方法求匹配距離,而是通過搜索最佳狀態(tài)序列并計(jì)算最大后驗(yàn)概率找到識(shí)別結(jié)果,HMM模型較好地描述了語音信號(hào)在時(shí)間和聲學(xué)特性兩個(gè)方面的統(tǒng)計(jì)變化。這也成就了HMM的霸主地位。,是一種常用的HMM模型,它用同一狀態(tài)的駐留描述發(fā)音的長短,用狀態(tài)的轉(zhuǎn)移描述發(fā)音單元的變化。它的每一個(gè)分量al。由此產(chǎn)生的狀態(tài)序列(x1,x2,x3,……)是一條一階馬爾可夫鏈。若yn為離散分布,則稱為離散HMM模型(DHMM),若yn以為連續(xù)分布,則稱為連續(xù)HMM模型(CHMM),在通常情況下假定虬服從正態(tài)分布,為了更好地逼近實(shí)際的分布模型有時(shí)也采用若干個(gè)正態(tài)分布函數(shù)線性相加。π為初始狀態(tài)概率分布。為了簡明起見,通常將HMM模型表示成A=(a,A,B)。 最優(yōu)狀態(tài)序列搜索:已知觀察序列O和模型λ,即如何選擇最佳的狀態(tài)序X。以上三個(gè)問題分別對(duì)應(yīng)語音識(shí)別中的識(shí)別問題、搜索問題和訓(xùn)練問題。解決三個(gè)問題的具體算法:問題1:前向后向算法對(duì)于已經(jīng)確定某個(gè)觀察矢量序列,考察n時(shí)刻。前向概率用an(j)表示,其意義為:系統(tǒng)n時(shí)刻處于Sj狀態(tài)下,已經(jīng)出現(xiàn)前n1個(gè)觀察矢量y1y2…yn1的情況下,又觀察yn的概率。后向概率的具體計(jì)算算法如下:(1) 初始化: (49)(2) 遞推計(jì)算: (410)在定義了前向概率以及后向概率及其計(jì)算方法以后,考察整體概率,即出現(xiàn)整個(gè)觀察矢量序列Y=[y1,y2,……,yn]的概率: (411)事實(shí)上,上述公式和系統(tǒng)當(dāng)前所處的時(shí)刻n無關(guān),用公式(47)代入有: (412)即系統(tǒng)在模型下名出現(xiàn)觀察序列Y的概率是唯一的。對(duì)于所有可能的X,直接計(jì)算上述概率并選擇其中的最大者,計(jì)算量很大。假設(shè)此概率最大值記為,有(417)則由式(4—16)很容易推導(dǎo)出 (418)另外,為了描述路徑節(jié)點(diǎn)之間的遞推關(guān)系,定義其意義為xn+1=Sj的一條最優(yōu)路徑x1x2…xnxn+1中xn的狀態(tài)序號(hào)。為初始狀態(tài)概率矢量的新估計(jì),其中元素aj’可以用n=l時(shí)刻系統(tǒng)位于狀態(tài)Sj并又觀察矢量序列Y的概率來表示,有 (425)A的估計(jì):假設(shè)A39。假設(shè)b39。初始模型的產(chǎn)生有兩種主要方法,一種是采取均勻分布或隨機(jī)設(shè)置的方法,另一種方法是將訓(xùn)練語音的數(shù)據(jù)根據(jù)HMM模型的狀態(tài)數(shù)按照某種規(guī)則分段,每段作為某一狀態(tài)的訓(xùn)練數(shù)據(jù),從而計(jì)算模型的初始參數(shù)。為了彌補(bǔ)這一缺點(diǎn),對(duì)經(jīng)典的HMM模型的狀態(tài)轉(zhuǎn)移和輸出觀測(cè)值的馬爾可夫假設(shè)條件做一定的改進(jìn),并導(dǎo)出新模型的前向和后向算法。由(428)式可知:給定模型λ,產(chǎn)生某一狀態(tài)序列Q=q1,q2,…,qN的概率: (430)其中πi為系統(tǒng)在時(shí)刻n=1時(shí)狀態(tài)為Si的概率,Aij表示狀態(tài)Si→Sj,的概率。前向變量可按下列步驟進(jìn)行迭代計(jì)算:(1) 初始化 (433)(2) 迭代計(jì)算(434)后向算法的改進(jìn):與前向算法相類似,定義后向變量: (435)即在給定模型λ和n1時(shí)狀態(tài)為Si,n時(shí)狀態(tài)為Sj的條件下,從n+l時(shí)到最后的部分觀測(cè)序列的概率,可按如下步驟進(jìn)行迭代計(jì)算:(1) 初始化 (2) 迭代計(jì)算在給定模型λ下,產(chǎn)生觀測(cè)序列O的概率,根據(jù)前向變量和后向變量的定義可得: (437)以上方法可以推廣到Viterbi算法,BaumWelch算法。全連接的HMM可以用于說話人識(shí)別:無跨越從左向右模型符合人的語音特點(diǎn),因此可以用來進(jìn)行語音識(shí)別。一般認(rèn)為,π和A參數(shù)初值選取影響不大,可以隨機(jī)選取或均勻取值,只要滿足概率要求即可,但B初值對(duì)訓(xùn)練出的HMM影響較大,一般傾向采取較為復(fù)雜的初值選取方法。淡然,不同形式的pdf是由不同的參數(shù)來描述的,而估計(jì)這種參數(shù)的重估公式也是不一樣的。相關(guān)算法可參看相關(guān)資料。本文就結(jié)合Matlab 優(yōu)秀的數(shù)值計(jì)算能力及強(qiáng)大的信號(hào)處理功能,借助于對(duì)聲音的部分基本特征的研究,拓展Matlab在語音識(shí)別中的應(yīng)用,并將揭開語音識(shí)別的奧秘。從數(shù)據(jù)采集的角度來看,PC聲卡本身就成為一個(gè)優(yōu)秀的數(shù)據(jù)采集系統(tǒng),它同時(shí)具有A/D和D/A轉(zhuǎn)換功能,不僅價(jià)格低廉,而且兼容性好、性能穩(wěn)定、靈活通用,軟件特別是驅(qū)動(dòng)程序升級(jí)方便。聲卡的工作原理如圖5.1所示。復(fù)音數(shù)量代表聲卡能夠同時(shí)發(fā)出多少種聲音,復(fù)音數(shù)越大,音色就越好,播放聲音時(shí)可以聽到的聲部越多、越細(xì)膩:采樣頻率是每秒采集聲音樣本的數(shù)量,采樣頻率越高,記錄的聲音波形越準(zhǔn)確,保真度就越高,但采樣數(shù)據(jù)量相應(yīng)變大,要求的存儲(chǔ)空間也越多;采樣位數(shù)是指將聲音從模擬信號(hào)轉(zhuǎn)化為數(shù)字信號(hào)的二進(jìn)制位數(shù)(bit),位數(shù)越高,在定域內(nèi)能表示的聲波振幅的數(shù)目越多,記錄的音質(zhì)也就越高,例如16位聲卡把音頻信號(hào)的大小分為216=65536個(gè)量化等級(jí)來實(shí)施上述轉(zhuǎn)換。:,整個(gè)語音識(shí)別系統(tǒng)包括四部分:預(yù)處理、特征參數(shù)提取、訓(xùn)練和識(shí)別。端點(diǎn)檢測(cè)就是從一段信號(hào)中檢測(cè)出語音信號(hào)的起始點(diǎn)和結(jié)束點(diǎn)。常用的參數(shù)有線性預(yù)測(cè)的倒譜系數(shù)(LPCC)和Mel頻率的倒譜系數(shù)(MFCC)。本系統(tǒng)采用的是MFCC系數(shù),24個(gè)
點(diǎn)擊復(fù)制文檔內(nèi)容
語文相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1