freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于matlab的語音識(shí)別dtw算法設(shè)計(jì)-文庫吧

2025-06-03 17:13 本頁面


【正文】 在短時(shí)能量檢測(cè)中會(huì)因?yàn)榈陀谀芰块T限而被誤判為靜音;短時(shí)過零率則可以從語音中區(qū)分出靜音和清音(如“S”、“C”)(4)高低門限的作用:檢測(cè)之前,先為短時(shí)能量和過零率分別確定兩個(gè)門限。一個(gè)是比較低的門限,其數(shù)值比較小,對(duì)信號(hào)的變化能夠敏感,很容易就會(huì)被超過;而另一個(gè)是比較高的門限,數(shù)值要求比較大,信號(hào)要達(dá)到一定的強(qiáng)度,該門限才可能被超過。不過,低門限被超過未必就是語音的開始,有可能是時(shí)間很短的噪聲引起的。高門限被超過的話則可以基本確定是由于語音信號(hào)引起的。在了解語音信號(hào)的端點(diǎn)檢測(cè)之前,我們先來了解一下語音信號(hào)的特征,如圖42可以看到,~,在頭部跟尾部的信號(hào)幅度很低,屬于靜音或噪音。圖42 語音信號(hào)波形圖41中的圖(II)和圖(III)是信號(hào)波形的頭部放大圖,可以看出,明顯屬于靜音,幅度開始增強(qiáng),并且有明顯的周期性,兩個(gè)尖峰之間的距離就是所謂的基音周期,也就是人的聲帶振動(dòng)的周期。于是我們可以用信號(hào)的幅度作為特征來區(qū)分靜音和語音。這樣只要設(shè)定一個(gè)門限,當(dāng)語音信號(hào)幅度超過這個(gè)門限時(shí),就當(dāng)作語音開始,當(dāng)幅度降低到門限以下時(shí)就認(rèn)為語音結(jié)束。于是,我們可以采用短時(shí)能量來描述語音信號(hào)的幅度。比如,對(duì)于一個(gè)讀取到的語音信號(hào)x(n),n為采樣點(diǎn),首先對(duì)其進(jìn)行分幀,將語音信號(hào)分為每2030ms一段,相鄰兩幀起始點(diǎn)之間的間隔為10ms,也就是說兩幀之間有1020ms的交疊。由于采樣頻率的差異,幀長(zhǎng)和幀移所對(duì)應(yīng)的實(shí)際采樣點(diǎn)數(shù)都不一樣。比如:一個(gè)8kHz的采樣頻率,30ms的幀長(zhǎng)對(duì)應(yīng)240點(diǎn),記為N,而10ms的幀移對(duì)應(yīng)為80點(diǎn),記為M。 對(duì)應(yīng)第i幀,第n個(gè)樣本,與原始語音信號(hào)的關(guān)系為:xi(n)=x[(i1)M+n]第i幀的語音信號(hào)的短時(shí)能量就可以用下面幾種算法得到:分別為絕對(duì)值的累加、平方累加和平方的對(duì)數(shù)的累加,以上任意一種都可以。計(jì)算完每幀的短時(shí)能量,接著再設(shè)定一個(gè)門限,便實(shí)現(xiàn)一個(gè)簡(jiǎn)單的檢測(cè)算法了。但是這種算法并不可靠,因?yàn)槿说陌l(fā)音有濁音和清音之分,濁音為聲帶振動(dòng)發(fā)出,幅度高,周期性明顯,而清音則不會(huì)有聲帶的震動(dòng),只是靠空氣在口腔中的摩擦和沖擊,其短時(shí)能量一般比較小。如聲母“s”、“c”等的幅度就很低。所以基于短時(shí)能量的算法對(duì)這些語音信號(hào)幾乎無能為力。不過雖然不能用短時(shí)能量區(qū)分開,但是可以通過用一幀信號(hào)中波形穿越零電平的次數(shù)來描述這種變化的劇烈程度,稱為過零率,公式為:實(shí)際上,為了避免靜音段的隨機(jī)噪聲產(chǎn)生過高的過零率,通常都會(huì)先設(shè)定一個(gè)門限,當(dāng)前后兩個(gè)采樣的符號(hào)不同時(shí),而且差值大于該門限的時(shí)候,就將過零率的數(shù)值加1。語音和噪聲的主要區(qū)別在它們的能量上,如圖43所示。語音段的能量比噪聲段的大,語音段的能量是噪聲段能量疊加語音聲波能量的和。對(duì)第n幀語音信號(hào)的短時(shí)能量En的定義為:xn為原樣本序列在窗函數(shù)所切取出的第n段短時(shí)語音,N為幀長(zhǎng)。因?yàn)樵谟?jì)算時(shí)使用的是信號(hào)的平方,故將En作為一個(gè)度量語音幅度值變化的函數(shù)有一個(gè)缺陷,即對(duì)高電平非常敏感。因此在許多場(chǎng)合會(huì)將En用下式來代替:這樣就不會(huì)因?yàn)槿∑椒蕉斐尚盘?hào)的小取樣值的大取樣值出現(xiàn)較大差異。短時(shí)過零表示一幀語音信號(hào)波形穿過橫軸(零電平)的次數(shù)。對(duì)于連續(xù)語音信號(hào),過零意味著時(shí)域波形通過時(shí)間軸;而對(duì)于離散信號(hào),如果相鄰的取樣值的改變符號(hào)則稱為過零。過零率就是樣本改變符號(hào)次數(shù),定義語音信號(hào))的短時(shí)過零率Zn為: 1 (x≥0)1 (x≤0)sgn[x]={ 清音的平均過零率要高于濁音,它的能量多集中在較高的頻率上,故短時(shí)過零率可以用來區(qū)分清音、濁音以及無聲。圖43(II)和圖44(II)分別為數(shù)字6數(shù)字4的短時(shí)過零率。從圖中可以看到清音‘S’的過零率明顯高于其后的‘L’音,有聲段過零率明顯高于無聲段,但在鼻音階段過零率迅速滑落到無聲水平而能量值則是緩慢下滑。在實(shí)際應(yīng)用時(shí)并不能直接計(jì)算過零率,因?yàn)樵跓o聲段噪聲使語音波形在0值附近來回?cái)[動(dòng),導(dǎo)致計(jì)算出的過零率和有聲段的區(qū)別并不十分明顯。比較簡(jiǎn)單的解決方法是設(shè)定一個(gè)差的閾值δ,使不僅xn(m)*xn(m1)0,還要|xn(m) xn(m1)| δ。在本系統(tǒng)中經(jīng)多次試驗(yàn)取定δ=。圖43 數(shù)字“6”的過零率波形圖圖44 數(shù)字“4”的過零率波形圖完成計(jì)算短時(shí)能量及過零率后,并調(diào)整好能量門限,接下里進(jìn)入到最關(guān)鍵的一步,即變量status分析,status可以分為四種狀態(tài):(1)在靜音段,如果能量或過零率超越了低門限,就應(yīng)該開始標(biāo)記起始點(diǎn),進(jìn)入過渡段。(2)在過渡段,由于參數(shù)的數(shù)值小,不能確定是否處于真正的語音段,所以只要當(dāng)兩個(gè)參數(shù)的數(shù)值都回落到低門限以下,就要將當(dāng)前狀態(tài)恢復(fù)到靜音狀態(tài),但是如果在過渡段中兩個(gè)參數(shù)中的任何一個(gè)超過了高門限,那么就可以確定進(jìn)入語音段了。(3)結(jié)束段。但是一些突發(fā)性的噪聲當(dāng)然也會(huì)引起過零率或者短時(shí)能量的數(shù)值變高,但是都不能維持足夠長(zhǎng)的時(shí)間,比如開關(guān)門窗、物體的碰撞等等引起的噪聲。這些都可以通過設(shè)置最短時(shí)間門限來判定。若當(dāng)前狀態(tài)假如處于語音段時(shí),若兩個(gè)參數(shù)的數(shù)值降低到最低門限以下,并且總的記時(shí)長(zhǎng)度小于最短的時(shí)間門限,那么我們認(rèn)為這一段為噪聲,然后繼續(xù)掃描接下來的語音數(shù)據(jù)。圖45為語音信號(hào)的端點(diǎn)檢測(cè)結(jié)果,豎線之間的部分為檢測(cè)出的語音有聲段。圖45 端點(diǎn)檢測(cè)結(jié)果雙門限端點(diǎn)檢測(cè)顧名思義需要兩級(jí)檢測(cè),即短時(shí)能量檢測(cè)和短時(shí)過零率檢測(cè)。在開始檢測(cè)之前需要設(shè)定4個(gè)門限,即分別為短時(shí)能量和短時(shí)過零率各設(shè)置一個(gè)高門限和一個(gè)低門限:EHigh、ELow和ZHigh、ZLow。整個(gè)語音端點(diǎn)檢測(cè)分為四部分:靜音段、過度段、語音段、結(jié)束段。在靜音段中如果能量或過零率有一個(gè)超過了其低門限,則認(rèn)為進(jìn)入了過度段。在過度段中,由于參數(shù)數(shù)值較小,還不能確定是否真的進(jìn)入語音段,只有兩個(gè)參數(shù)的其中一個(gè)超越了高門限才被認(rèn)為是進(jìn)入語音段。當(dāng)參數(shù)降至低門限則認(rèn)為進(jìn)入結(jié)束。此外,還有兩種可能會(huì)引起端點(diǎn)檢測(cè)的誤判:一是短時(shí)噪音引起的誤判,此時(shí)則需要引入最小語音長(zhǎng)度門限進(jìn)行噪聲判定,即語音段時(shí)間小于一定數(shù)值則認(rèn)定為是噪聲,重新回到靜音段,本系統(tǒng)設(shè)為20ms;二是語音中字與字的時(shí)間空隙引起的誤判,此時(shí)需要設(shè)定最大靜音長(zhǎng)度門限來降低識(shí)別的錯(cuò)誤率,本系統(tǒng)所訓(xùn)練和識(shí)別的都為單字,故無需設(shè)置此門限。在雙門限端點(diǎn)檢測(cè)中4個(gè)門限的設(shè)定至關(guān)重要,門限設(shè)定的好壞將直接影響端點(diǎn)檢測(cè)的結(jié)果。門限值的設(shè)置還沒有一個(gè)通用可靠的方法,需要根據(jù)經(jīng)驗(yàn)和特定環(huán)境進(jìn)行調(diào)整。常見的方法有最大值乘上某個(gè)比率、中位值乘上某個(gè)比率、最小值乘上某個(gè)常數(shù)、前三幀平均值乘上某個(gè)常數(shù)等。本系統(tǒng)中EHigh,ELow,ZHigh,ZLow的算法分別為:5語音識(shí)別參數(shù)提取語音信號(hào)進(jìn)行端點(diǎn)檢測(cè)及預(yù)處理后便會(huì)進(jìn)行MFCC(特征參數(shù)提?。?,特征參數(shù)提取的好壞對(duì)系統(tǒng)的性能和準(zhǔn)確率的影響非常大,對(duì)MFCC參數(shù)的要求如下:(1)提取具有很好區(qū)分性及能夠有效地代表語音特征的參數(shù)特;(2)各個(gè)參數(shù)之間有良好的獨(dú)立性;(3)為了確保語音識(shí)別的實(shí)時(shí)實(shí)現(xiàn),計(jì)算特征參數(shù)方便,最好是有效的計(jì)算方法。 MFCC的基本原理近年來,以一種能充分利用人耳的感知性能系數(shù)有這被大量而廣泛應(yīng)用,這個(gè)系數(shù)就是Mel尺度倒譜系數(shù)(MFCC)。在整個(gè)語音識(shí)別的過程中,MFCC參數(shù)為了方便建模及計(jì)算,是按照幀計(jì)算的。其特征提取的過程如圖51所示。x(n)預(yù)加重、分幀、加窗端點(diǎn)檢測(cè)DFT/FFTMel頻率濾波器組log對(duì)數(shù)能量DCT求倒譜圖51 MFCC特征提取及計(jì)算流程Mel頻率可以用如下公式表示:MFCC系數(shù)按每個(gè)幀計(jì)算后,我們必須通過FFT得到對(duì)應(yīng)幀信號(hào)的功率譜S(n),轉(zhuǎn)換為Mel頻率下的功率譜。這必須在計(jì)算先前在語音頻譜范圍之內(nèi)設(shè)置的幾個(gè)帶通濾波器:Hm(n) m=0,1,…,M1。 n=0,1,…,N/21 M是濾波器的數(shù)目,通常取24;一幀語音信號(hào)的點(diǎn)數(shù)為N,通常取256,這樣計(jì)算FFT的方便。濾波器是一個(gè)簡(jiǎn)單的三角形的頻域?yàn)V波器的中心頻率,F(xiàn)M是均勻地分布在頻率軸。語音信號(hào)幀長(zhǎng)取為256個(gè)點(diǎn),包含了24個(gè)濾波器,本設(shè)計(jì)語音信號(hào)的采樣頻率設(shè)為8KHz。事先計(jì)算好帶通濾波器的系數(shù),再計(jì)算MFCC系數(shù)。MFCC特征系數(shù)的計(jì)算過程如下:(1)預(yù)處理:首先確定N為每一幀語音采樣點(diǎn),如:N=256,并對(duì)每一幀序列s(n)進(jìn)行分幀、預(yù)加重和加窗處理;(2)離散功率譜的計(jì)算:先對(duì)預(yù)處理的每一幀進(jìn)行離散傅里葉變換得到其頻譜,再通過模的平方計(jì)算離散功率譜S(n),功率譜如圖52所示。圖52 DTW功率譜圖(3)將離散功率譜經(jīng)過濾波器組:將S(n)通過M個(gè)濾波組后得到功率值,也就是在各離散頻率點(diǎn)上將S(n)和Hm(n)的乘積并相加,得到M個(gè)參數(shù)Pm,m=0,1,……M1;(4)對(duì)數(shù)的計(jì)算:得到Lm,m=0,1,……M1;6特定人語音識(shí)別算法DTW算法語音識(shí)別中較為經(jīng)典的一種算法是DTW算法(動(dòng)態(tài)時(shí)間規(guī)整)。在詞,音節(jié)識(shí)別系統(tǒng),識(shí)別率和HMM算法的識(shí)別率幾乎是一樣的。但是相比之下HMM算法相當(dāng)?shù)膹?fù)雜,在識(shí)別階段需要進(jìn)行大量的反復(fù)計(jì)算語音數(shù)據(jù)才能得到模型參數(shù),但是DTW算法不需要反復(fù)計(jì)算,因此本設(shè)計(jì)采用DTW算法。不管是在測(cè)試和建立參考模塊還是在識(shí)別階段,語音的起點(diǎn)和終點(diǎn)都必須用端點(diǎn)檢測(cè)來確定。已存入模板庫的各個(gè)詞條稱為參考模板,一個(gè)參考模板可以表示為,m為訓(xùn)練語音幀的時(shí)序標(biāo)號(hào),m=1為起點(diǎn)語音幀,m=M為終點(diǎn)語音幀,因此M為該模板所包含的語音幀總數(shù),R(m)為第m幀語音特征矢量。所要識(shí)別的一個(gè)輸入詞條語音稱為測(cè)試模板,可表示為,n為測(cè)試語音幀的時(shí)序標(biāo)號(hào),n=1為起點(diǎn)語音幀,n=N為終點(diǎn)語音幀,因此N為該模板所包含的語音幀總數(shù),T(n)為第n幀語音特征矢量。參考模板與測(cè)試模板一般采用相同類型的特征矢量(如MFCC系數(shù))、相同的幀長(zhǎng)、相同的窗函數(shù)和相同的幀移。假設(shè)測(cè)試和參考模板分別用T和R表示,為了比較它們之間的相似度,可以計(jì)算它們之間的距離D[T,R],距離越小則相似度越高。為了計(jì)算這一失真距離,應(yīng)從T和R中各個(gè)對(duì)應(yīng)幀之間的距離算起。設(shè)n和m分別是T和R中任意選擇的幀號(hào),d[T(n),R(m)]表示這兩種特征矢
點(diǎn)擊復(fù)制文檔內(nèi)容
高考資料相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1