freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于dtw算法的語音識別原理與實現(xiàn)(編輯修改稿)

2025-06-12 18:25 本頁面
 

【文章內(nèi)容簡介】 零率各設(shè)置一個高門限和一個低門限: EHigh、 ELow和 ZHigh、 ZLow。整個語音端點檢測分為四部分:靜音段、過度段、語音段、結(jié)束段。在靜音段中如果能量或過零率有一 個超過了其低門限,則認為進入了過度段。在過度段中,由于參數(shù)數(shù)值較小,還不能確定是否真的進入語音段,只有兩個參數(shù)的其中一個超越了高門限才被認為是進入語音段。當參數(shù)降至低門限則認為進入結(jié)束。此外,還有兩種可能會引起端點檢測的誤判:一是短時噪音引起的誤判,此時則需要引入最小語音長度門限進行噪聲判定,即語音段時間小于一定數(shù)值則認定為是噪聲,重新回到靜音段,本系統(tǒng)設(shè)為 20ms;二是語音中字與字的時間空隙引起的誤判,此時需要設(shè)定最大靜音長度門限來降低識別的錯誤率,本系統(tǒng)所訓(xùn)練和識別的都為單字,故無需設(shè)置此門限。 在雙門 限端點檢測中 4個門限的設(shè)定至關(guān)重要,門限設(shè)定的好壞將直接影響端點檢測的結(jié)果。門限值的設(shè)置還沒有一個通用可靠的方法,需要根據(jù)經(jīng)驗和特定環(huán)境進行調(diào)整。常見的方法有最大值乘上某個比率、中位值乘上某個比率、最小值乘上某個常數(shù)、前三幀平均值乘上某個常數(shù)等。本系統(tǒng)中 EHigh,ELow, ZHigh, ZLow 的取值分別為: EHigh=max([min(amp)*10,mean(amp)*,max(amp)*]);ZHigh=max([round(max(zcr)*),5]); ELow=min([min(amp)*10,mean(amp)*,max(amp)*]);ZLow=max([round(mean(zcr)*),3]); 圖 33 和圖 34分別是數(shù)字 0的訓(xùn)練語音 和數(shù)字 4 的訓(xùn)練語音 的端點檢測結(jié)果,紅線之間的部分為檢測出的語音有聲段。 圖 33 語音 的端點檢測結(jié)果 圖 34 語音 的端點檢測結(jié)果 4 語音識別參數(shù)提取 經(jīng)過預(yù)處理的語音數(shù)據(jù)就可以進行特征參數(shù)提取,特征參數(shù)的好壞將直接影響系統(tǒng)的性能和效率,對特征參數(shù)的要求包括 [910 提取的特征參數(shù)能有效地代表語音特征,具有很好的區(qū)分性; 各階參數(shù)之間有良好的獨立性; 特征參數(shù)要計算方便,最好有高效的計算方法,以保證語音識別的實時實現(xiàn)。 與 LPCC 系數(shù) LPC(Linear Prediction Coefficient,線性預(yù)測系數(shù) )模擬人發(fā)音器官的聲管模型,是一種基于語音合成的參數(shù)模型。在語音識別系統(tǒng)中很少直接使用LPC系統(tǒng),而是由 LPC系數(shù)推出的另一種參數(shù) LPCC。 LPCC(Linear Prediction Cepstrum Coefficient,線性預(yù)測倒譜系數(shù) )是 LPC 在倒譜域中的表示。該特征是基于語音信號為自回歸信號的假設(shè),利用線性預(yù)測分析獲得倒譜系數(shù)。 LPCC的優(yōu)點是計算量小,易于實現(xiàn),對元音有較好的描述能力,缺點是對輔音描述能力較差。 系數(shù) LPC 模型是基于發(fā)音模型建立的, LPCC 系數(shù)也是一種基于合成的系數(shù),這種參數(shù)沒有充分利用人耳的聽覺特性。實際上,人的聽覺系統(tǒng)是一個特殊的非線性系統(tǒng),它響應(yīng)不同頻率信號的靈敏度是不同的,基本上是一個對數(shù)的關(guān)系[910]。近年來,一種能夠比較充分利用人耳的這種特殊感知特性的系數(shù)得到了廣泛應(yīng)用,這就是 Mel 尺度倒 譜系數(shù) (Melscaled Cepstrum Coefficients,簡稱 MFCC)。大量研究表明, MFCC 系數(shù)能夠比 LPCC 參數(shù)更好地提高系統(tǒng)的識別性能 [10]。 MFCC 系數(shù)的計算是以 bark為其頻率基準的,它和線性頻率的轉(zhuǎn)換關(guān)系是: (41) MFCC 系數(shù)也是按幀計算的,首先要通過 FFT得到該幀信號的功率譜 S(n),轉(zhuǎn)換為 Mel 頻率下的功率譜。這需要在計算之前先在語音的頻譜范圍內(nèi)設(shè)置若干個帶通濾波器: Hmm=0,1,… ,M1; n=0,1,… ,N/21(42) M 為濾波器的個數(shù),通常取 24,與臨界帶的個數(shù)一樣; N為一幀語音信號的點數(shù),為了計算 FFT 的方便,通常取 256。濾波器在頻域上為簡單的三角形,其中心頻率 fm在 Mel 頻率軸上是均勻分布的。如圖 41 所示為 Mel尺度濾波器組,包含 24 個濾波器,語音信號幀長取為 256 個點,語音信號的采樣頻率為8KHz。 圖 41 Mel 尺度濾波器組 帶通濾波器的系數(shù)事先計算好,在計算 MFCC系數(shù)是直接使用。 MFCC 系數(shù)的計算過程如下: 預(yù)處理:確定每一幀語音采樣序列的長度 (如 N=256),并對每幀序列 s(n)進行預(yù)加重、分幀和加窗處理; 計算離散功率譜 :對預(yù)處理的每幀進行離散 FFT 變換得到其頻譜,再取模的平方作為離散功率譜 S(n); 將功率譜通過濾波器組:計算 S(n)通過 M個 Hm(n)后所得的功率值,即計算 S(n)和 Hm(n)在各離散頻率點上的乘積之和,得到 M個參數(shù) Pm, m=0,1,… M1; 取對數(shù):計算 Pm的自然對數(shù),得到 Lm, m=0,1,… M1; 離散余弦變換:對 Lm 計算其離散余弦變換,得到 D m, m=0,1,… M1,舍去代表直流成份的 D0,取
點擊復(fù)制文檔內(nèi)容
試題試卷相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1