freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于dtw算法的語(yǔ)音識(shí)別原理與實(shí)現(xiàn)(編輯修改稿)

2025-07-22 01:26 本頁(yè)面
 

【文章內(nèi)容簡(jiǎn)介】 在較高的頻率上,它的平均過(guò)零率要高于濁音,故短時(shí)過(guò)零率可以用來(lái)區(qū)分清音、濁音以及無(wú)聲。圖31(II)和圖32(II)。從圖中可以看到清音‘s’的過(guò)零率明顯高于其后的‘i’音,有聲段過(guò)零率明顯高于無(wú)聲段,但在鼻音階段過(guò)零率迅速滑落到無(wú)聲水平而能量值則是緩慢下滑。在實(shí)際應(yīng)用時(shí)并不能通過(guò)式33直接計(jì)算過(guò)零率,因?yàn)樵跓o(wú)聲段噪聲使語(yǔ)音波形在0值附近來(lái)回?cái)[動(dòng),導(dǎo)致計(jì)算出的過(guò)零率和有聲段的區(qū)別并不十分明顯。比較簡(jiǎn)單的解決方法是設(shè)定一個(gè)差的閾值δ,使不僅xn(m)*xn(m1)0,還要|xn(m) xn(m1)| δ。在本系統(tǒng)中經(jīng)多次試驗(yàn)取定δ=。 雙門(mén)限端點(diǎn)檢測(cè)雙門(mén)限端點(diǎn)檢測(cè)顧名思義需要兩級(jí)檢測(cè),即短時(shí)能量檢測(cè)和短時(shí)過(guò)零率檢測(cè)。在開(kāi)始檢測(cè)之前需要設(shè)定4個(gè)門(mén)限,即分別為短時(shí)能量和短時(shí)過(guò)零率各設(shè)置一個(gè)高門(mén)限和一個(gè)低門(mén)限:EHigh、ELow和ZHigh、ZLow。整個(gè)語(yǔ)音端點(diǎn)檢測(cè)分為四部分:靜音段、過(guò)度段、語(yǔ)音段、結(jié)束段。在靜音段中如果能量或過(guò)零率有一個(gè)超過(guò)了其低門(mén)限,則認(rèn)為進(jìn)入了過(guò)度段。在過(guò)度段中,由于參數(shù)數(shù)值較小,還不能確定是否真的進(jìn)入語(yǔ)音段,只有兩個(gè)參數(shù)的其中一個(gè)超越了高門(mén)限才被認(rèn)為是進(jìn)入語(yǔ)音段。當(dāng)參數(shù)降至低門(mén)限則認(rèn)為進(jìn)入結(jié)束。此外,還有兩種可能會(huì)引起端點(diǎn)檢測(cè)的誤判:一是短時(shí)噪音引起的誤判,此時(shí)則需要引入最小語(yǔ)音長(zhǎng)度門(mén)限進(jìn)行噪聲判定,即語(yǔ)音段時(shí)間小于一定數(shù)值則認(rèn)定為是噪聲,重新回到靜音段,本系統(tǒng)設(shè)為20ms;二是語(yǔ)音中字與字的時(shí)間空隙引起的誤判,此時(shí)需要設(shè)定最大靜音長(zhǎng)度門(mén)限來(lái)降低識(shí)別的錯(cuò)誤率,本系統(tǒng)所訓(xùn)練和識(shí)別的都為單字,故無(wú)需設(shè)置此門(mén)限。在雙門(mén)限端點(diǎn)檢測(cè)中4個(gè)門(mén)限的設(shè)定至關(guān)重要,門(mén)限設(shè)定的好壞將直接影響端點(diǎn)檢測(cè)的結(jié)果。門(mén)限值的設(shè)置還沒(méi)有一個(gè)通用可靠的方法,需要根據(jù)經(jīng)驗(yàn)和特定環(huán)境進(jìn)行調(diào)整。常見(jiàn)的方法有最大值乘上某個(gè)比率、中位值乘上某個(gè)比率、最小值乘上某個(gè)常數(shù)、前三幀平均值乘上某個(gè)常數(shù)等。本系統(tǒng)中EHigh,ELow,ZHigh,ZLow的取值分別為:EHigh=max([min(amp)*10,mean(amp)*,max(amp)*])。 ZHigh=max([round(max(zcr)*),5])。ELow=min([min(amp)*10,mean(amp)*,max(amp)*])。 ZLow=max([round(mean(zcr)*),3])。,紅線之間的部分為檢測(cè)出的語(yǔ)音有聲段。圖33 圖34 4 語(yǔ)音識(shí)別參數(shù)提取經(jīng)過(guò)預(yù)處理的語(yǔ)音數(shù)據(jù)就可以進(jìn)行特征參數(shù)提取,特征參數(shù)的好壞將直接影響系統(tǒng)的性能和效率,對(duì)特征參數(shù)的要求包括[910]:(1) 提取的特征參數(shù)能有效地代表語(yǔ)音特征,具有很好的區(qū)分性;(2) 各階參數(shù)之間有良好的獨(dú)立性;(3) 特征參數(shù)要計(jì)算方便,最好有高效的計(jì)算方法,以保證語(yǔ)音識(shí)別的實(shí)時(shí)實(shí)現(xiàn)。 LPC與LPCC系數(shù)LPC(Linear Prediction Coefficient,線性預(yù)測(cè)系數(shù))模擬人發(fā)音器官的聲管模型,是一種基于語(yǔ)音合成的參數(shù)模型。在語(yǔ)音識(shí)別系統(tǒng)中很少直接使用LPC系統(tǒng),而是由LPC系數(shù)推出的另一種參數(shù)LPCC。LPCC(Linear Prediction Cepstrum Coefficient,線性預(yù)測(cè)倒譜系數(shù))是LPC在倒譜域中的表示。該特征是基于語(yǔ)音信號(hào)為自回歸信號(hào)的假設(shè),利用線性預(yù)測(cè)分析獲得倒譜系數(shù)。LPCC的優(yōu)點(diǎn)是計(jì)算量小,易于實(shí)現(xiàn),對(duì)元音有較好的描述能力,缺點(diǎn)是對(duì)輔音描述能力較差。 MFCC系數(shù)LPC模型是基于發(fā)音模型建立的,LPCC系數(shù)也是一種基于合成的系數(shù),這種參數(shù)沒(méi)有充分利用人耳的聽(tīng)覺(jué)特性。實(shí)際上,人的聽(tīng)覺(jué)系統(tǒng)是一個(gè)特殊的非線性系統(tǒng),它響應(yīng)不同頻率信號(hào)的靈敏度是不同的,基本上是一個(gè)對(duì)數(shù)的關(guān)系[910]。近年來(lái),一種能夠比較充分利用人耳的這種特殊感知特性的系數(shù)得到了廣泛應(yīng)用,這就是Mel尺度倒譜系數(shù)(Melscaled Cepstrum Coefficients,簡(jiǎn)稱MFCC)。大量研究表明,MFCC系數(shù)能夠比LPCC參數(shù)更好地提高系統(tǒng)的識(shí)別性能[10]。MFCC系數(shù)的計(jì)算是以“bark”為其頻率基準(zhǔn)的,它和線性頻率的轉(zhuǎn)換關(guān)系是: (41)MFCC系數(shù)也是按幀計(jì)算的,首先要通過(guò)FFT得到該幀信號(hào)的功率譜S(n),轉(zhuǎn)換為Mel頻率下的功率譜。這需要在計(jì)算之前先在語(yǔ)音的頻譜范圍內(nèi)設(shè)置若干個(gè)帶通濾波器:Hm(n) m=0,1,…,M1。 n=0,1,…,N/21 (42)M為濾波器的個(gè)數(shù),通常取24,與臨界帶的個(gè)數(shù)一樣;N為一幀語(yǔ)音信號(hào)的點(diǎn)數(shù),為了計(jì)算FFT的方便,通常取256。濾波器在頻域上為簡(jiǎn)單的三角形,其中心頻率fm在Mel頻率軸上是均勻分布的。如圖41所示為Mel尺度濾波器組,包含24個(gè)濾波器,語(yǔ)音信號(hào)幀長(zhǎng)取為256個(gè)點(diǎn),語(yǔ)音信號(hào)的采樣頻率為8KHz。圖41 Mel 尺度濾波器組帶通濾波器的系數(shù)事先計(jì)算好,在計(jì)算MFCC系數(shù)是直接使用。MFCC系數(shù)的計(jì)算過(guò)程如下:(1) 預(yù)處理:確定每一幀語(yǔ)音采樣序列的長(zhǎng)度(如N=256),并對(duì)每幀序列s(n)進(jìn)行預(yù)加重、分幀和加窗處理;(2) 計(jì)算離散功率譜:對(duì)預(yù)處理的每幀進(jìn)行離散FFT變換得到其頻譜,再取模的平方作為離散功率譜S(n);(3) 將功率譜通過(guò)濾波器組:計(jì)算S(n)通過(guò)M個(gè)Hm(n)后
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1