freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于matlab的語(yǔ)音識(shí)別系統(tǒng)的設(shè)計(jì)本科畢業(yè)設(shè)計(jì)-文庫(kù)吧在線文庫(kù)

  

【正文】 dealing with signal processing. It gives a terrific shortcut to the research of signal processing,especially the wave analysis. We can characterize the sound with key parameters such as intensity, frequency etc. In this paper, hidden Markov model (HMM) recognition algorithm using MFCC (MEL frequency cepstral coefficients) as the main voice characteristic parameters, the establishment of a Chinese digital speech recognition system, including the preprocessing of the speech signal,the extraction of characteristic parameters the training of the recognition template,identifying matching algorithm。Bell實(shí)驗(yàn)室的S.Pruzansky提出了模版匹配和概率統(tǒng)計(jì)方差分析的聲紋識(shí)別方法,形成了聲紋識(shí)別研究的一個(gè)高潮。IBM、Microsoft、Lamp。漢語(yǔ)語(yǔ)音識(shí)別研究已經(jīng)走上組織化的道路。語(yǔ)音識(shí)別是近年來(lái)十分活躍的一個(gè)研究領(lǐng)域。從識(shí)別對(duì)象的類(lèi)型來(lái)看,語(yǔ)音識(shí)別可以分為特定人(Speaker Dependent)語(yǔ)音識(shí)別和非特定人(Speaker Independent)語(yǔ)音識(shí)別。2,各階參數(shù)之間有良好的獨(dú)立性。首先,帶口音(Dialect)語(yǔ)音的識(shí)別。優(yōu)化過(guò)程對(duì)所有系統(tǒng)的表現(xiàn)都會(huì)有提高,也可以解決小范圍的口音問(wèn)題。在這方面,Nuance優(yōu)化的語(yǔ)音參數(shù)、靈活的模型結(jié)構(gòu)、新的建模方法以及獨(dú)有的噪音抑制功能,使得系統(tǒng)在背景環(huán)境噪聲、手機(jī)、車(chē)載免提等高噪音環(huán)境下能保持良好的工作狀況。例如,“我對(duì)我的手機(jī)上的一些功能不太明白,想問(wèn)一下”,或者“嗯,我的賬單應(yīng)該到期了,請(qǐng)幫我查一下要交多少錢(qián)”。一位業(yè)界的資深人士對(duì)IT產(chǎn)業(yè)發(fā)展的提出的八大預(yù)言之一即為:語(yǔ)音成為新人機(jī)界面。(4)信息理論和計(jì)算機(jī)科學(xué):各種算法的研究、快速搜索查找匹配的方法。音節(jié)是由音素結(jié)合而成的發(fā)聲最小單位,一個(gè)音節(jié)由“元音”和“輔音”構(gòu)成。所以,在漢語(yǔ)的相互交談中,不但要憑借不同的元音和輔音來(lái)辨別這些字或詞的意義,還需要從不同的聲調(diào)來(lái)區(qū)別它,也就是說(shuō)聲調(diào)有辨義作用。 聲調(diào)的四種模式語(yǔ)音信號(hào)是聲道被激勵(lì)發(fā)生共振而產(chǎn)生的輸出。在實(shí)際語(yǔ)音信號(hào)處理中,采樣頻率通常為7~10kHz。上式表明,量化器中每位字長(zhǎng)對(duì)SNR貢獻(xiàn)為6dB。這樣,不僅能夠進(jìn)行預(yù)加重,而且可以壓縮信號(hào)的動(dòng)態(tài)范圍,有效地提高信噪比。如果頻率干擾(50或60Hz)不嚴(yán)重或另有抗干擾措施,則不必用帶通濾波器而只用低通濾波器即可。在取數(shù)據(jù)時(shí),前一幀與后一幀的交疊部分稱(chēng)為幀移。其一般式為,其中T[*]表示某種運(yùn)算{x(m)}為輸入信號(hào)序列??梢钥闯觯虝r(shí)能量可以看作語(yǔ)音信號(hào)的平方經(jīng)過(guò)一個(gè)線性濾波器的輸出,該線性濾波器的單位沖激響應(yīng)為h(n)。對(duì)于離散信號(hào),它實(shí)質(zhì)上是信號(hào)采樣點(diǎn)符號(hào)變化的次數(shù)。 語(yǔ)音信號(hào)“0”的短時(shí)平均過(guò)零率語(yǔ)音信號(hào)xw(n)的短時(shí)自相關(guān)函數(shù)Rn(k)的計(jì)算式如下: (28)這里K是最大的延遲點(diǎn)數(shù)。),則相距為周期的整數(shù)倍的樣點(diǎn)上的幅值是相等的,差值為零。正確確定語(yǔ)音端點(diǎn)也會(huì)減少系統(tǒng)的計(jì)算量和存儲(chǔ)量。因此,對(duì)語(yǔ)音信號(hào)進(jìn)行頻譜分析,是認(rèn)識(shí)語(yǔ)音信號(hào)和處理語(yǔ)音信號(hào)的的重要方法。這種信號(hào)可以輸入計(jì)算機(jī)進(jìn)行各種分析和處理。 幾種基于短時(shí)傅里葉變換譜之間的關(guān)系 LPCC倒譜系數(shù)線性預(yù)測(cè)倒譜參數(shù)(Linear Prediction Cepstrum Coefficient,LPCC)是線性預(yù)測(cè)系數(shù)在倒譜域中的表示,該特征是基于語(yǔ)音信號(hào)為自回歸信號(hào)的假設(shè),利用線性預(yù)測(cè)分析獲得倒譜系數(shù)。MFCC不同于LPCC。(3) 將每個(gè)濾波器的輸出取對(duì)數(shù),得到相應(yīng)頻帶的對(duì)數(shù)功率譜;并進(jìn)行反離散余弦變換,得到L個(gè)MFCC系數(shù),一般L取12~16個(gè)左右。在訓(xùn)練和建立模板階段以及在識(shí)別階段,都采用端點(diǎn)檢測(cè)算法確定語(yǔ)音的起點(diǎn)和終點(diǎn)。DTW算法是把時(shí)間規(guī)正和距離測(cè)度計(jì)算結(jié)合起來(lái)的一種非線性規(guī)正技術(shù)。它用滿(mǎn)足一定條件的時(shí)間規(guī)正函數(shù)w(n)描述輸入模板和參考模板的時(shí)間對(duì)應(yīng)關(guān)系,求解二模板匹配時(shí)累計(jì)距離最小所對(duì)應(yīng)的規(guī)正函數(shù):所以DTW保證了二模板間存在的最大聲學(xué)相似性。如果能將這些原理加以發(fā)現(xiàn)并且歸納為一些規(guī)則,由計(jì)算機(jī)執(zhí)行,就能接近人類(lèi)同樣的水平。人工神經(jīng)網(wǎng)絡(luò)的出發(fā)點(diǎn)是通過(guò)模擬大腦的機(jī)制(實(shí)際上人們到目前為止還不完全清楚大腦的思維機(jī)制),將包括聽(tīng)覺(jué)系統(tǒng)的生物神經(jīng)系統(tǒng)的信息處理機(jī)制引入機(jī)器學(xué)習(xí)的研究中,使其具有學(xué)習(xí)和理解的能力。這些實(shí)驗(yàn)都取得了很好的分類(lèi)結(jié)果,充分顯示了神經(jīng)網(wǎng)絡(luò)強(qiáng)大的分類(lèi)區(qū)分能力。在靜態(tài)識(shí)別中,神經(jīng)網(wǎng)絡(luò)一次輸入整個(gè)待識(shí)的語(yǔ)音特征矢量序列,然后做出一個(gè)判決。目前所能見(jiàn)到的各種性能優(yōu)良的連續(xù)語(yǔ)音識(shí)別系統(tǒng)幾乎無(wú)一例外地采用了這種模型。 基于HMM的語(yǔ)音識(shí)別框圖目前,基本上所有實(shí)驗(yàn)系統(tǒng)和實(shí)用化的產(chǎn)品都是使用HMM方法,比如IBM公司的ViaVoice系統(tǒng)、卡內(nèi)基梅隆大學(xué)SPHINX系統(tǒng)和Dragon System的Naturally Speaking系統(tǒng)等。由于該模型解除了對(duì)語(yǔ)音信號(hào)狀態(tài)的齊次性和對(duì)語(yǔ)音特征的非相關(guān)性的限制,因此,為語(yǔ)音識(shí)別研究的深入發(fā)展提供了一個(gè)和諧的框架。在這些不同的結(jié)合形式中,實(shí)驗(yàn)結(jié)果表明,幀層面上的結(jié)合比較符合HMM和ANN兩種方法的特點(diǎn)。(4) ANN的訓(xùn)練著眼于描述類(lèi)間的邊界,而不是描述每一類(lèi)內(nèi)的分布.所以是一種區(qū)分性訓(xùn)練。在分類(lèi)網(wǎng)絡(luò)中,輸入還是相繼的幾幀語(yǔ)音矢量。音素之間通過(guò)HMM模型之間的連接(轉(zhuǎn)移)可以構(gòu)造出字模型(馬爾可夫鏈),字模型進(jìn)一步可以組成詞模型,再到句子,所以通過(guò)不同層面上的模型(狀態(tài))之間的轉(zhuǎn)移(連接),就實(shí)現(xiàn)了音素、字、詞的統(tǒng)計(jì)表示,形成了一個(gè)自下而上的統(tǒng)計(jì)識(shí)別框架。若在時(shí)刻n(即第n幀)所處的狀態(tài)用xn表示,那么xn只能等于S1~SL中的某一個(gè),任意時(shí)刻n系統(tǒng)所處的狀態(tài)以概率的方式取決于初始狀態(tài)概率矢量a和狀態(tài)轉(zhuǎn)移概率矩陣A。對(duì)于任何X,其出現(xiàn)概率為:。狀態(tài)轉(zhuǎn)移概率分布。對(duì)每個(gè)輸出Y稱(chēng)之為一個(gè)學(xué)習(xí)樣本,假設(shè)有Q個(gè)輸出,即Q個(gè)學(xué)習(xí)樣本,構(gòu)成一個(gè)樣本集合。同樣,用yn+2yn+3…yN取推算yn+1yn+2…yN的概率,稱(chēng)為后向概率。狀態(tài)序列搜索的任務(wù)就是根據(jù)系統(tǒng)輸出Y搜索最有可能的狀態(tài)序列X,使得該狀態(tài)序列產(chǎn)生Y的可能性達(dá)到最大。令表示系統(tǒng)在n時(shí)刻位于狀態(tài)Sj,而在n+1時(shí)刻位于狀態(tài)Sj并產(chǎn)生觀察矢量序列Y的概率,有 (421)令表示系統(tǒng)在n時(shí)刻位于狀態(tài)Si并有觀察矢量序列Y的概率,有,同樣可以改寫(xiě)為: (422)事實(shí)上,和存在以。但是該方法的訓(xùn)練結(jié)果與初值相關(guān),可能收斂不到全局的最優(yōu)解,因此采用一種“分段足均值算法”可以較好的解決這個(gè)問(wèn)題,如圖4.2所示。L表示模型中狀態(tài)個(gè)數(shù)。 HMM的結(jié)構(gòu)和類(lèi)型隱馬爾可夫模型主要有兩種大的結(jié)構(gòu),一種是全連接的,另一種是從左向右的。(2)HMM狀態(tài)數(shù)的選取,一般取狀態(tài)數(shù)為4~10,但不是狀態(tài)數(shù)越多越好,對(duì)單個(gè)漢字而言,取4較為合適。在20 多年的發(fā)展過(guò)程中軟件版本不斷更新,功能逐步完善,深受大學(xué)教師、學(xué)生及科研工作人員好評(píng)。而語(yǔ)音音頻范圍一般在5kHz以?xún)?nèi),滿(mǎn)足聲卡采集的要求。對(duì)于許多科學(xué)實(shí)驗(yàn)和工程測(cè)量來(lái)說(shuō),聲卡對(duì)信號(hào)的量化精度和采樣率都是足夠高的,甚至優(yōu)于一些低檔的數(shù)據(jù)采集卡性能。這種算法不是實(shí)時(shí)的,是先讀取錄制好的wav文件,獲取信號(hào)后再將其分幀并計(jì)算短時(shí)能量和過(guò)零率參數(shù)。前者的識(shí)別率比較高,DHMM略低些。大量實(shí)驗(yàn)表明,MFCC參數(shù)的性能優(yōu)于LPCC參數(shù)。預(yù)加重一般通過(guò)一個(gè)數(shù)字濾波器。同時(shí),又可以通過(guò)模數(shù)轉(zhuǎn)換器(A/D)將麥克風(fēng)或CD的輸入信號(hào)轉(zhuǎn)換成數(shù)字信號(hào),送到計(jì)算機(jī)進(jìn)行各種處理。由于Matlab各個(gè)工具包往往采用了業(yè)界中最尖端的算法,因此相比與傳統(tǒng)的實(shí)現(xiàn)方式,該語(yǔ)音識(shí)別系統(tǒng)通過(guò)Matlab開(kāi)發(fā)圖形界面,逼真的演示了語(yǔ)音識(shí)別的過(guò)程以及結(jié)果。(4) 多個(gè)觀察值序列訓(xùn)練實(shí)際中訓(xùn)練一個(gè)HMM,經(jīng)常用到不止一個(gè)觀察值序列,那么對(duì)于K個(gè)觀察值序列訓(xùn)練HMM時(shí),要對(duì)Baum=Welch算法的重估公式加以修正。圖4.3是常見(jiàn)的幾種HMM結(jié)構(gòu)。為使問(wèn)題求解變得更加實(shí)際,需尋求更為簡(jiǎn)介的方法。2)輸出值的馬爾可夫假設(shè):在n時(shí)輸出觀測(cè)值的概率,只取決于當(dāng)前時(shí)刻n所處的狀態(tài),而與以前的歷史無(wú)關(guān)。ij=(由Si狀態(tài)轉(zhuǎn)移到Sj狀態(tài)的概率總和)/(由Si發(fā)生狀態(tài)轉(zhuǎn)移的概率總和)。假設(shè)系統(tǒng)的觀察矢量序列Y=[y1,y2,…,yn,yn+1yn+2…yN],要求一條狀態(tài)序列X=[x1,x2,…,xn,xn+1,xn+2,…xN],使得下面的概率達(dá)到最大: (416)假設(shè)系統(tǒng)在時(shí)刻n處于狀態(tài)xn=Si,而先前時(shí)刻的狀態(tài)為x1x2…xn。顯然an1(j)表示系統(tǒng)在nl時(shí)刻處于Sj狀態(tài)時(shí)產(chǎn)生觀察矢量序列y1y2…yn1的概率,在此情況下繼續(xù)觀察到y(tǒng)n的概率為:,則對(duì)n1時(shí)刻的所有狀態(tài)求和,即可計(jì)算an(j),有遞推公式: (44)另外,在初始狀態(tài)n1時(shí)刻,系統(tǒng)處于Sj產(chǎn)生y1的概率: (45)前向概率的具體計(jì)算算法如下:(1) 初始化: (46)(2) 遞推計(jì)算: (47)(3) 整體概率: (48)后向概率用表示,其意義為:系統(tǒng)在n時(shí)刻處于Sj狀態(tài)下,已經(jīng)存在從n+2到N刻的觀察矢量yn+2yn+3…yN的情況下,又出現(xiàn)yn+1的概率。若解決了此問(wèn)題,我們就可以度量模型與觀測(cè)序列之前的匹配程度,達(dá)到識(shí)別輸出語(yǔ)音流的目的。 HMM的三個(gè)基本問(wèn)題及解決算法HMM的需要解決的三個(gè)基本問(wèn)題:l、概率計(jì)算:已知觀察序列O=[o1,o2,……,oT]和模型=(a,A,B),如何計(jì)算由模型五生成O的概率P(O/)。X=[x1,x2,……,xn],隱藏在系統(tǒng)內(nèi)部的狀態(tài)序列。可表示如下: (41)矩陣A是一個(gè)()的方陣,它的各個(gè)元素是已知相鄰兩個(gè)時(shí)刻中前一時(shí)刻狀態(tài)為Si的條件下后一時(shí)刻狀態(tài)為Sj,的概率。馬爾可夫鏈的每個(gè)狀態(tài)可以和一個(gè)穩(wěn)態(tài)或準(zhǔn)穩(wěn)態(tài)的事件相對(duì)應(yīng),在離散的某個(gè)時(shí)間下的觀測(cè)值,就是該過(guò)程在該時(shí)刻處于某個(gè)狀態(tài)并以與該狀態(tài)對(duì)應(yīng)的隨機(jī)函數(shù)概率發(fā)生的一個(gè)值。四、隱含馬爾可夫模型算法HMM是在80年代由IBM的Baker和Jrlinek引入入語(yǔ)音識(shí)別的研究,目前它是最靈活最成功的語(yǔ)音識(shí)別方法之一。在混合HMM/ANN中用神經(jīng)網(wǎng)絡(luò)來(lái)進(jìn)行聲學(xué)建模,而時(shí)域建模依賴(lài)于傳統(tǒng)的HMM。與傳統(tǒng)的HMM相比,混合HMM/ANN模型還為融合多種語(yǔ)音特征矢量,考慮不同層次上的多種約束提供了一個(gè)非常方便的接口。用神經(jīng)網(wǎng)絡(luò)來(lái)估計(jì)觀測(cè)概率,設(shè)計(jì)和訓(xùn)練神經(jīng)網(wǎng)絡(luò)的方法有很多,最簡(jiǎn)單的方式就是將一幀語(yǔ)音矢量直接映射成觀察概率,網(wǎng)絡(luò)的訓(xùn)練也是一幀接一幀地進(jìn)行,這種方法就成為幀層面上的網(wǎng)絡(luò)訓(xùn)練。且模型所需要的存儲(chǔ)量和匹配計(jì)算(包括特征矢量的輸出概率計(jì)算)的運(yùn)算量相對(duì)較大,通常需要具有一定容量SRAN的DSP才能完成。而這種隱含關(guān)系在HMM模型中通常以概率形式表現(xiàn)出來(lái),模型的輸出結(jié)果也以概率形式給出。語(yǔ)音信號(hào)是一種典型的動(dòng)態(tài)模式序列,前后幀之間的時(shí)間相關(guān)性非常強(qiáng),所以要將神經(jīng)網(wǎng)絡(luò)應(yīng)用于語(yǔ)音識(shí)別,必須解決好瞬時(shí)輸出的記憶問(wèn)題。從信息處理的角度來(lái)看:一組信息的存儲(chǔ)在神經(jīng)網(wǎng)絡(luò)內(nèi)部是混迭在一起的,在存儲(chǔ)過(guò)程中對(duì)信息進(jìn)行了大量的加工,而絕對(duì)不是只把它們孤立地放在那里。連接權(quán)的建立是通過(guò)訓(xùn)練算法進(jìn)行的。這個(gè)系統(tǒng)應(yīng)用了“黑板模式”完成底層和頂層之間不同層次的信息交換和規(guī)則調(diào)用,在人工句法約束的1000詞表的連續(xù)語(yǔ)音識(shí)別任務(wù)中,所產(chǎn)生的語(yǔ)義誤差不大于10%,雖然從人工智能的角度看,對(duì)這個(gè)系統(tǒng)評(píng)價(jià)很高,但從語(yǔ)音識(shí)別的角度所做的評(píng)價(jià)與此相反,因?yàn)閺恼Z(yǔ)音識(shí)別的角度看,語(yǔ)音的多變性和不確定性是其固有的,一些研究者經(jīng)長(zhǎng)期研究后著重宣稱(chēng):人們對(duì)于語(yǔ)音的最大知識(shí)就是確認(rèn)對(duì)于語(yǔ)音的無(wú)知,正是需要在這一前提下來(lái)研制具有高識(shí)別率的系統(tǒng)?;趧?dòng)態(tài)時(shí)間歸整匹配的DTW算法從目前來(lái)看,可能是一個(gè)最為小巧的語(yǔ)音識(shí)別的算法。對(duì)齊可以采用線性擴(kuò)張的方法,如果NM可以將T線性映射為一個(gè)M幀的序列,再計(jì)算它與之間的距離。測(cè)試和參考模板分別用T和R表示,為了比較它們之間的相似度,可以計(jì)算它們之間的距離D[T,R],距離越小則相似度越高。從而自60年代末期開(kāi)始引起了語(yǔ)音識(shí)別的研究熱潮。Mel頻率可以用如下公式表示: (217)對(duì)頻率軸的不均勻劃分是MFCC特征區(qū)別于普通倒譜特征的最重要的特點(diǎn)。語(yǔ)音信號(hào)所攜帶的語(yǔ)音信息主要體現(xiàn)在聲道傳輸函數(shù)上,因而在語(yǔ)音識(shí)別中通常取語(yǔ)音信號(hào)倒譜的低時(shí)域構(gòu)成LPC倒譜特征c,即 (216)式中,q為L(zhǎng)PC倒譜特征的階數(shù)。由于語(yǔ)音信號(hào)的特性是隨著時(shí)間緩慢變化的,由此引出語(yǔ)音信號(hào)的短時(shí)分析。寬帶帶通濾波器具有平坦性,用它可以粗略地求取語(yǔ)音的頻譜,其頻率分辨率降低,相當(dāng)于短時(shí)處理時(shí)窗寬較窄的那種情況。多門(mén)限過(guò)零率前端檢測(cè)算法是設(shè)多個(gè)高低不同的門(mén)限。對(duì)于周期性的x(n),F(xiàn)n(k)也呈現(xiàn)周期性。但是,計(jì)算自相關(guān)函數(shù)的運(yùn)算量很大,其原因是乘法運(yùn)算所需要的時(shí)間較長(zhǎng)。于是有: (27)另外,可以將短時(shí)平均過(guò)零率和短時(shí)能量結(jié)合起來(lái)判斷語(yǔ)音起止點(diǎn)的位置,即進(jìn)行端點(diǎn)檢測(cè)。短時(shí)能量由于是對(duì)信號(hào)進(jìn)行平方運(yùn)算,因而認(rèn)為增加了高低信號(hào)之間的差距,因此要采用短時(shí)平均幅度來(lái)表示能量的變化,其公式為: (25)“0”的短時(shí)平均幅度圖。然而,不同人的基音周期變化范圍很大,從女性?xún)和?ms到老年男子的14ms(即基音頻率為50
點(diǎn)擊復(fù)制文檔內(nèi)容
語(yǔ)文相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1