freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于dtw算法的語音識別原理與實(shí)現(xiàn)(編輯修改稿)

2025-07-22 01:26 本頁面
 

【文章內(nèi)容簡介】 在較高的頻率上,它的平均過零率要高于濁音,故短時(shí)過零率可以用來區(qū)分清音、濁音以及無聲。圖31(II)和圖32(II)。從圖中可以看到清音‘s’的過零率明顯高于其后的‘i’音,有聲段過零率明顯高于無聲段,但在鼻音階段過零率迅速滑落到無聲水平而能量值則是緩慢下滑。在實(shí)際應(yīng)用時(shí)并不能通過式33直接計(jì)算過零率,因?yàn)樵跓o聲段噪聲使語音波形在0值附近來回?cái)[動(dòng),導(dǎo)致計(jì)算出的過零率和有聲段的區(qū)別并不十分明顯。比較簡單的解決方法是設(shè)定一個(gè)差的閾值δ,使不僅xn(m)*xn(m1)0,還要|xn(m) xn(m1)| δ。在本系統(tǒng)中經(jīng)多次試驗(yàn)取定δ=。 雙門限端點(diǎn)檢測雙門限端點(diǎn)檢測顧名思義需要兩級檢測,即短時(shí)能量檢測和短時(shí)過零率檢測。在開始檢測之前需要設(shè)定4個(gè)門限,即分別為短時(shí)能量和短時(shí)過零率各設(shè)置一個(gè)高門限和一個(gè)低門限:EHigh、ELow和ZHigh、ZLow。整個(gè)語音端點(diǎn)檢測分為四部分:靜音段、過度段、語音段、結(jié)束段。在靜音段中如果能量或過零率有一個(gè)超過了其低門限,則認(rèn)為進(jìn)入了過度段。在過度段中,由于參數(shù)數(shù)值較小,還不能確定是否真的進(jìn)入語音段,只有兩個(gè)參數(shù)的其中一個(gè)超越了高門限才被認(rèn)為是進(jìn)入語音段。當(dāng)參數(shù)降至低門限則認(rèn)為進(jìn)入結(jié)束。此外,還有兩種可能會引起端點(diǎn)檢測的誤判:一是短時(shí)噪音引起的誤判,此時(shí)則需要引入最小語音長度門限進(jìn)行噪聲判定,即語音段時(shí)間小于一定數(shù)值則認(rèn)定為是噪聲,重新回到靜音段,本系統(tǒng)設(shè)為20ms;二是語音中字與字的時(shí)間空隙引起的誤判,此時(shí)需要設(shè)定最大靜音長度門限來降低識別的錯(cuò)誤率,本系統(tǒng)所訓(xùn)練和識別的都為單字,故無需設(shè)置此門限。在雙門限端點(diǎn)檢測中4個(gè)門限的設(shè)定至關(guān)重要,門限設(shè)定的好壞將直接影響端點(diǎn)檢測的結(jié)果。門限值的設(shè)置還沒有一個(gè)通用可靠的方法,需要根據(jù)經(jīng)驗(yàn)和特定環(huán)境進(jìn)行調(diào)整。常見的方法有最大值乘上某個(gè)比率、中位值乘上某個(gè)比率、最小值乘上某個(gè)常數(shù)、前三幀平均值乘上某個(gè)常數(shù)等。本系統(tǒng)中EHigh,ELow,ZHigh,ZLow的取值分別為:EHigh=max([min(amp)*10,mean(amp)*,max(amp)*])。 ZHigh=max([round(max(zcr)*),5])。ELow=min([min(amp)*10,mean(amp)*,max(amp)*])。 ZLow=max([round(mean(zcr)*),3])。,紅線之間的部分為檢測出的語音有聲段。圖33 圖34 4 語音識別參數(shù)提取經(jīng)過預(yù)處理的語音數(shù)據(jù)就可以進(jìn)行特征參數(shù)提取,特征參數(shù)的好壞將直接影響系統(tǒng)的性能和效率,對特征參數(shù)的要求包括[910]:(1) 提取的特征參數(shù)能有效地代表語音特征,具有很好的區(qū)分性;(2) 各階參數(shù)之間有良好的獨(dú)立性;(3) 特征參數(shù)要計(jì)算方便,最好有高效的計(jì)算方法,以保證語音識別的實(shí)時(shí)實(shí)現(xiàn)。 LPC與LPCC系數(shù)LPC(Linear Prediction Coefficient,線性預(yù)測系數(shù))模擬人發(fā)音器官的聲管模型,是一種基于語音合成的參數(shù)模型。在語音識別系統(tǒng)中很少直接使用LPC系統(tǒng),而是由LPC系數(shù)推出的另一種參數(shù)LPCC。LPCC(Linear Prediction Cepstrum Coefficient,線性預(yù)測倒譜系數(shù))是LPC在倒譜域中的表示。該特征是基于語音信號為自回歸信號的假設(shè),利用線性預(yù)測分析獲得倒譜系數(shù)。LPCC的優(yōu)點(diǎn)是計(jì)算量小,易于實(shí)現(xiàn),對元音有較好的描述能力,缺點(diǎn)是對輔音描述能力較差。 MFCC系數(shù)LPC模型是基于發(fā)音模型建立的,LPCC系數(shù)也是一種基于合成的系數(shù),這種參數(shù)沒有充分利用人耳的聽覺特性。實(shí)際上,人的聽覺系統(tǒng)是一個(gè)特殊的非線性系統(tǒng),它響應(yīng)不同頻率信號的靈敏度是不同的,基本上是一個(gè)對數(shù)的關(guān)系[910]。近年來,一種能夠比較充分利用人耳的這種特殊感知特性的系數(shù)得到了廣泛應(yīng)用,這就是Mel尺度倒譜系數(shù)(Melscaled Cepstrum Coefficients,簡稱MFCC)。大量研究表明,MFCC系數(shù)能夠比LPCC參數(shù)更好地提高系統(tǒng)的識別性能[10]。MFCC系數(shù)的計(jì)算是以“bark”為其頻率基準(zhǔn)的,它和線性頻率的轉(zhuǎn)換關(guān)系是: (41)MFCC系數(shù)也是按幀計(jì)算的,首先要通過FFT得到該幀信號的功率譜S(n),轉(zhuǎn)換為Mel頻率下的功率譜。這需要在計(jì)算之前先在語音的頻譜范圍內(nèi)設(shè)置若干個(gè)帶通濾波器:Hm(n) m=0,1,…,M1。 n=0,1,…,N/21 (42)M為濾波器的個(gè)數(shù),通常取24,與臨界帶的個(gè)數(shù)一樣;N為一幀語音信號的點(diǎn)數(shù),為了計(jì)算FFT的方便,通常取256。濾波器在頻域上為簡單的三角形,其中心頻率fm在Mel頻率軸上是均勻分布的。如圖41所示為Mel尺度濾波器組,包含24個(gè)濾波器,語音信號幀長取為256個(gè)點(diǎn),語音信號的采樣頻率為8KHz。圖41 Mel 尺度濾波器組帶通濾波器的系數(shù)事先計(jì)算好,在計(jì)算MFCC系數(shù)是直接使用。MFCC系數(shù)的計(jì)算過程如下:(1) 預(yù)處理:確定每一幀語音采樣序列的長度(如N=256),并對每幀序列s(n)進(jìn)行預(yù)加重、分幀和加窗處理;(2) 計(jì)算離散功率譜:對預(yù)處理的每幀進(jìn)行離散FFT變換得到其頻譜,再取模的平方作為離散功率譜S(n);(3) 將功率譜通過濾波器組:計(jì)算S(n)通過M個(gè)Hm(n)后
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1