freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于matlab的語音識別系統(tǒng)的設計本科畢業(yè)設計-wenkub.com

2025-06-19 01:17 本頁面
   

【正文】 前者的識別率比較高,DHMM略低些。大量實驗表明,MFCC參數(shù)的性能優(yōu)于LPCC參數(shù)。這種算法不是實時的,是先讀取錄制好的wav文件,獲取信號后再將其分幀并計算短時能量和過零率參數(shù)。預加重一般通過一個數(shù)字濾波器。對于許多科學實驗和工程測量來說,聲卡對信號的量化精度和采樣率都是足夠高的,甚至優(yōu)于一些低檔的數(shù)據(jù)采集卡性能。同時,又可以通過模數(shù)轉(zhuǎn)換器(A/D)將麥克風或CD的輸入信號轉(zhuǎn)換成數(shù)字信號,送到計算機進行各種處理。而語音音頻范圍一般在5kHz以內(nèi),滿足聲卡采集的要求。由于Matlab各個工具包往往采用了業(yè)界中最尖端的算法,因此相比與傳統(tǒng)的實現(xiàn)方式,該語音識別系統(tǒng)通過Matlab開發(fā)圖形界面,逼真的演示了語音識別的過程以及結(jié)果。在20 多年的發(fā)展過程中軟件版本不斷更新,功能逐步完善,深受大學教師、學生及科研工作人員好評。(4) 多個觀察值序列訓練實際中訓練一個HMM,經(jīng)常用到不止一個觀察值序列,那么對于K個觀察值序列訓練HMM時,要對Baum=Welch算法的重估公式加以修正。(2)HMM狀態(tài)數(shù)的選取,一般取狀態(tài)數(shù)為4~10,但不是狀態(tài)數(shù)越多越好,對單個漢字而言,取4較為合適。圖4.3是常見的幾種HMM結(jié)構(gòu)。 HMM的結(jié)構(gòu)和類型隱馬爾可夫模型主要有兩種大的結(jié)構(gòu),一種是全連接的,另一種是從左向右的。為使問題求解變得更加實際,需尋求更為簡介的方法。L表示模型中狀態(tài)個數(shù)。2)輸出值的馬爾可夫假設:在n時輸出觀測值的概率,只取決于當前時刻n所處的狀態(tài),而與以前的歷史無關。但是該方法的訓練結(jié)果與初值相關,可能收斂不到全局的最優(yōu)解,因此采用一種“分段足均值算法”可以較好的解決這個問題,如圖4.2所示。ij=(由Si狀態(tài)轉(zhuǎn)移到Sj狀態(tài)的概率總和)/(由Si發(fā)生狀態(tài)轉(zhuǎn)移的概率總和)。令表示系統(tǒng)在n時刻位于狀態(tài)Sj,而在n+1時刻位于狀態(tài)Sj并產(chǎn)生觀察矢量序列Y的概率,有 (421)令表示系統(tǒng)在n時刻位于狀態(tài)Si并有觀察矢量序列Y的概率,有,同樣可以改寫為: (422)事實上,和存在以。假設系統(tǒng)的觀察矢量序列Y=[y1,y2,…,yn,yn+1yn+2…yN],要求一條狀態(tài)序列X=[x1,x2,…,xn,xn+1,xn+2,…xN],使得下面的概率達到最大: (416)假設系統(tǒng)在時刻n處于狀態(tài)xn=Si,而先前時刻的狀態(tài)為x1x2…xn。狀態(tài)序列搜索的任務就是根據(jù)系統(tǒng)輸出Y搜索最有可能的狀態(tài)序列X,使得該狀態(tài)序列產(chǎn)生Y的可能性達到最大。顯然an1(j)表示系統(tǒng)在nl時刻處于Sj狀態(tài)時產(chǎn)生觀察矢量序列y1y2…yn1的概率,在此情況下繼續(xù)觀察到y(tǒng)n的概率為:,則對n1時刻的所有狀態(tài)求和,即可計算an(j),有遞推公式: (44)另外,在初始狀態(tài)n1時刻,系統(tǒng)處于Sj產(chǎn)生y1的概率: (45)前向概率的具體計算算法如下:(1) 初始化: (46)(2) 遞推計算: (47)(3) 整體概率: (48)后向概率用表示,其意義為:系統(tǒng)在n時刻處于Sj狀態(tài)下,已經(jīng)存在從n+2到N刻的觀察矢量yn+2yn+3…yN的情況下,又出現(xiàn)yn+1的概率。同樣,用yn+2yn+3…yN取推算yn+1yn+2…yN的概率,稱為后向概率。若解決了此問題,我們就可以度量模型與觀測序列之前的匹配程度,達到識別輸出語音流的目的。對每個輸出Y稱之為一個學習樣本,假設有Q個輸出,即Q個學習樣本,構(gòu)成一個樣本集合。 HMM的三個基本問題及解決算法HMM的需要解決的三個基本問題:l、概率計算:已知觀察序列O=[o1,o2,……,oT]和模型=(a,A,B),如何計算由模型五生成O的概率P(O/)。狀態(tài)轉(zhuǎn)移概率分布。X=[x1,x2,……,xn],隱藏在系統(tǒng)內(nèi)部的狀態(tài)序列。對于任何X,其出現(xiàn)概率為:??杀硎救缦拢?(41)矩陣A是一個()的方陣,它的各個元素是已知相鄰兩個時刻中前一時刻狀態(tài)為Si的條件下后一時刻狀態(tài)為Sj,的概率。若在時刻n(即第n幀)所處的狀態(tài)用xn表示,那么xn只能等于S1~SL中的某一個,任意時刻n系統(tǒng)所處的狀態(tài)以概率的方式取決于初始狀態(tài)概率矢量a和狀態(tài)轉(zhuǎn)移概率矩陣A。馬爾可夫鏈的每個狀態(tài)可以和一個穩(wěn)態(tài)或準穩(wěn)態(tài)的事件相對應,在離散的某個時間下的觀測值,就是該過程在該時刻處于某個狀態(tài)并以與該狀態(tài)對應的隨機函數(shù)概率發(fā)生的一個值。音素之間通過HMM模型之間的連接(轉(zhuǎn)移)可以構(gòu)造出字模型(馬爾可夫鏈),字模型進一步可以組成詞模型,再到句子,所以通過不同層面上的模型(狀態(tài))之間的轉(zhuǎn)移(連接),就實現(xiàn)了音素、字、詞的統(tǒng)計表示,形成了一個自下而上的統(tǒng)計識別框架。四、隱含馬爾可夫模型算法HMM是在80年代由IBM的Baker和Jrlinek引入入語音識別的研究,目前它是最靈活最成功的語音識別方法之一。在分類網(wǎng)絡中,輸入還是相繼的幾幀語音矢量。在混合HMM/ANN中用神經(jīng)網(wǎng)絡來進行聲學建模,而時域建模依賴于傳統(tǒng)的HMM。(4) ANN的訓練著眼于描述類間的邊界,而不是描述每一類內(nèi)的分布.所以是一種區(qū)分性訓練。與傳統(tǒng)的HMM相比,混合HMM/ANN模型還為融合多種語音特征矢量,考慮不同層次上的多種約束提供了一個非常方便的接口。在這些不同的結(jié)合形式中,實驗結(jié)果表明,幀層面上的結(jié)合比較符合HMM和ANN兩種方法的特點。用神經(jīng)網(wǎng)絡來估計觀測概率,設計和訓練神經(jīng)網(wǎng)絡的方法有很多,最簡單的方式就是將一幀語音矢量直接映射成觀察概率,網(wǎng)絡的訓練也是一幀接一幀地進行,這種方法就成為幀層面上的網(wǎng)絡訓練。由于該模型解除了對語音信號狀態(tài)的齊次性和對語音特征的非相關性的限制,因此,為語音識別研究的深入發(fā)展提供了一個和諧的框架。且模型所需要的存儲量和匹配計算(包括特征矢量的輸出概率計算)的運算量相對較大,通常需要具有一定容量SRAN的DSP才能完成。 基于HMM的語音識別框圖目前,基本上所有實驗系統(tǒng)和實用化的產(chǎn)品都是使用HMM方法,比如IBM公司的ViaVoice系統(tǒng)、卡內(nèi)基梅隆大學SPHINX系統(tǒng)和Dragon System的Naturally Speaking系統(tǒng)等。而這種隱含關系在HMM模型中通常以概率形式表現(xiàn)出來,模型的輸出結(jié)果也以概率形式給出。目前所能見到的各種性能優(yōu)良的連續(xù)語音識別系統(tǒng)幾乎無一例外地采用了這種模型。語音信號是一種典型的動態(tài)模式序列,前后幀之間的時間相關性非常強,所以要將神經(jīng)網(wǎng)絡應用于語音識別,必須解決好瞬時輸出的記憶問題。在靜態(tài)識別中,神經(jīng)網(wǎng)絡一次輸入整個待識的語音特征矢量序列,然后做出一個判決。從信息處理的角度來看:一組信息的存儲在神經(jīng)網(wǎng)絡內(nèi)部是混迭在一起的,在存儲過程中對信息進行了大量的加工,而絕對不是只把它們孤立地放在那里。這些實驗都取得了很好的分類結(jié)果,充分顯示了神經(jīng)網(wǎng)絡強大的分類區(qū)分能力。連接權的建立是通過訓練算法進行的。人工神經(jīng)網(wǎng)絡的出發(fā)點是通過模擬大腦的機制(實際上人們到目前為止還不完全清楚大腦的思維機制),將包括聽覺系統(tǒng)的生物神經(jīng)系統(tǒng)的信息處理機制引入機器學習的研究中,使其具有學習和理解的能力。這個系統(tǒng)應用了“黑板模式”完成底層和頂層之間不同層次的信息交換和規(guī)則調(diào)用,在人工句法約束的1000詞表的連續(xù)語音識別任務中,所產(chǎn)生的語義誤差不大于10%,雖然從人工智能的角度看,對這個系統(tǒng)評價很高,但從語音識別的角度所做的評價與此相反,因為從語音識別的角度看,語音的多變性和不確定性是其固有的,一些研究者經(jīng)長期研究后著重宣稱:人們對于語音的最大知識就是確認對于語音的無知,正是需要在這一前提下來研制具有高識別率的系統(tǒng)。如果能將這些原理加以發(fā)現(xiàn)并且歸納為一些規(guī)則,由計算機執(zhí)行,就能接近人類同樣的水平?;趧討B(tài)時間歸整匹配的DTW算法從目前來看,可能是一個最為小巧的語音識別的算法。它用滿足一定條件的時間規(guī)正函數(shù)w(n)描述輸入模板和參考模板的時間對應關系,求解二模板匹配時累計距離最小所對應的規(guī)正函數(shù):所以DTW保證了二模板間存在的最大聲學相似性。對齊可以采用線性擴張的方法,如果NM可以將T線性映射為一個M幀的序列,再計算它與之間的距離。DTW算法是把時間規(guī)正和距離測度計算結(jié)合起來的一種非線性規(guī)正技術。測試和參考模板分別用T和R表示,為了比較它們之間的相似度,可以計算它們之間的距離D[T,R],距離越小則相似度越高。在訓練和建立模板階段以及在識別階段,都采用端點檢測算法確定語音的起點和終點。從而自60年代末期開始引起了語音識別的研究熱潮。(3) 將每個濾波器的輸出取對數(shù),得到相應頻帶的對數(shù)功率譜;并進行反離散余弦變換,得到L個MFCC系數(shù),一般L取12~16個左右。Mel頻率可以用如下公式表示: (217)對頻率軸的不均勻劃分是MFCC特征區(qū)別于普通倒譜特征的最重要的特點。MFCC不同于LPCC。語音信號所攜帶的語音信息主要體現(xiàn)在聲道傳輸函數(shù)上,因而在語音識別中通常取語音信號倒譜的低時域構(gòu)成LPC倒譜特征c,即 (216)式中,q為LPC倒譜特征的階數(shù)。 幾種基于短時傅里葉變換譜之間的關系 LPCC倒譜系數(shù)線性預測倒譜參數(shù)(Linear Prediction Cepstrum Coefficient,LPCC)是線性預測系數(shù)在倒譜域中的表示,該特征是基于語音信號為自回歸信號的假設,利用線性預測分析獲得倒譜系數(shù)。由于語音信號的特性是隨著時間緩慢變化的,由此引出語音信號的短時分析。這種信號可以輸入計算機進行各種分析和處理。寬帶帶通濾波器具有平坦性,用它可以粗略地求取語音的頻譜,其頻率分辨率降低,相當于短時處理時窗寬較窄的那種情況。因此,對語音信號進行頻譜分析,是認識語音信號和處理語音信號的的重要方法。多門限過零率前端檢測算法是設多個高低不同的門限。正確確定語音端點也會減少系統(tǒng)的計算量和存儲量。對于周期性的x(n),F(xiàn)n(k)也呈現(xiàn)周期性。),則相距為周期的整數(shù)倍的樣點上的幅值是相等的,差值為零。但是,計算自相關函數(shù)的運算量很大,其原因是乘法運算所需要的時間較長。 語音信號“0”的短時平均過零率語音信號xw(n)的短時自相關函數(shù)Rn(k)的計算式如下: (28)這里K是最大的延遲點數(shù)。于是有: (27)另外,可以將短時平均過零率和短時能量結(jié)合起來判斷語音起止點的位置,即進行端點檢測。對于離散信號,它實質(zhì)上是信號采樣點符號變化的次數(shù)。短時能量由于是對信號進行平方運算,因而認為增加了高低信號之間的差距,因此要采用短時平均幅度來表示能量的變化,其公式為: (25)“0”的短時平均幅度圖??梢钥闯?,短時能量可以看作語音信號的平方經(jīng)過一個線性濾波器的輸出,該線性濾波器的單位沖激響應為h(n)。然而,不同人的基音周期變化范圍很大,從女性兒童的2ms到老年男子的14ms(即基音頻率為50~70Hz),所以L的選擇比較困難。其一般式為,其中T[*]表示某種運算{x(m)}為輸入信號序列。分幀既可連續(xù),也可采用交疊分段的方法,用可移動的有限長度窗口進行加權的方法來實現(xiàn)。在取數(shù)據(jù)時,前一幀與后一幀的交疊部分稱為幀移。已經(jīng)數(shù)字化的語音信號序列將被依次存入一個數(shù)據(jù)區(qū)。如果頻率干擾(50或60Hz)不嚴重或另有抗干擾措施,則不必用帶通濾波器而只用低通濾波器即可。加重的信號在分析處理后,需要進行去加重處理,即加上6dB/oct的下降的頻率特性來還原成原來的特性。這樣,不僅能夠進行預加重,而且可以壓縮信號的動態(tài)范圍,有效地提高信噪比。為了在語音信號變化范圍內(nèi)保持35dB的信噪比,常用12位來量化,其中附加的5位用于補償30dB左右的輸入動態(tài)范圍變化。上式表明,量化器中每位字長對SNR貢獻為6dB。量化后的信號值與原始信號之間的差值為量化誤差,又稱為量化噪聲。在實際語音信號處理中,采樣頻率通常為7~10kHz。它包括激勵模型、聲道模型、和輻射模型。 聲調(diào)的四種模式語音信號是聲道被激勵發(fā)生共振而產(chǎn)生的輸出。不同聲調(diào)的聲調(diào)曲線的開始段稱為彎頭段,呈共同上升走向;末尾一段呈共同下降走向,稱為降尾段;而中間一段具有不同的特點,這一段稱為調(diào)型段。所以,在漢語的相互交談中,不但要憑借不同的元音和輔音來辨別這些字或詞的意義,還需要從不同的聲調(diào)來區(qū)別它,也就是說聲調(diào)有辨義作用。發(fā)音時呼出的氣流,由于通路的某一部分封閉起來或受到阻礙,氣流被阻不能暢通,而克服發(fā)音器官的這種阻礙而產(chǎn)生的音素稱為輔音。音節(jié)是由音素結(jié)合而成的發(fā)聲最小單位,一個音節(jié)由“元音”和“輔音”構(gòu)成。二、語音信號分析在連續(xù)數(shù)字語音識別過程中,為了提高連續(xù)數(shù)字匹配搜索算法的有效性以及數(shù)字的識別率,必須要將對數(shù)字語音的研究細化到語音學的層次上,包括對各數(shù)字的音素和音節(jié)的特性和各數(shù)字的聲調(diào)進行深入研究。(4)信息理論和計算機科學:各種算法的研究、快速搜索查找匹配的方法。另外,語音識別是一門交叉學科,語音識別技術關系到多學科的研究領域,在不同領域上的進步都會促進語音識別的發(fā)展。一位業(yè)界的資深人士對IT產(chǎn)業(yè)發(fā)展的提出的八大預言之一即為:語音成為新人機界面。語音作為當前通訊系統(tǒng)中最自然的通信媒介,隨著計算機和語音處理技術的發(fā)展,不同語種之間的語音翻譯將成為語音研究的熱點。例如,“我對我的手機上的一些功能不太明白,想問一下”,或者“嗯,我的賬單應該到期了,請幫我查一下要交多少錢”。語音識別技術的最終目的是要讓用戶在“人機對話”的時候,能夠像進行“人人對話”一樣自然。在這方面,Nuance優(yōu)化的語音參數(shù)、靈活的模型結(jié)構(gòu)、新的建模方法以及獨有的噪音抑制功能,使得系統(tǒng)在背景環(huán)境噪聲、手機、車載免提等高噪音環(huán)境下能保持良好的工作狀況。它將破壞原始語音的頻譜,或者把原始語音部分或全部掩蓋掉,造成識別率下降。優(yōu)化過程對所有系統(tǒng)的表現(xiàn)都會有提高,也可以解決小范圍的口音問題。而對于口音的適應性首先是由聲學模型本身的品質(zhì)決定的。首先,帶口音(Dialect)語音的識別。同時還可以在很多先驗知識的幫助下,提高識別的準確率。2,各階參數(shù)之間有良好的獨立性。目前的連續(xù)語音識別大多是基于HMM(隱馬爾可夫模型)框架,并將聲學、語言學的知識統(tǒng)一引入來改善這個框架,其硬件平臺通常是功能強大的工作站或PC機。
點擊復制文檔內(nèi)容
語文相關推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1