freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于dtw算法的語音識(shí)別原理與實(shí)現(xiàn)-wenkub.com

2025-05-03 18:25 本頁面
   

【正文】 斯是陋室,唯吾德馨。文件 為端點(diǎn)檢測程序, 計(jì)算 MFCC 系數(shù), 為語音訓(xùn)練程序,它將計(jì)算得到的特征參數(shù)存入 作為模板庫。 6Matlab 編程結(jié)果 在音頻信號(hào)處理方面, Matlab 提供了 wav 文件讀寫函數(shù)和聲卡的錄音和放音函數(shù),利用這些函數(shù)可以實(shí)現(xiàn)某些語音信號(hào)處理工作。放松端點(diǎn)限制方法不嚴(yán)格要求端點(diǎn)對(duì)齊,克服由于端點(diǎn)算法不精確造成的測試模式和參考模式起點(diǎn)終點(diǎn)不能對(duì)齊的問題。又由于 DTW算法的動(dòng)態(tài)搜索寬度局限于對(duì)角線附近的帶狀區(qū)域,假設(shè)其寬度為 width,如圖 54和圖 56,則實(shí)際只需分配 3 width 的存儲(chǔ)空間即可。常見的改進(jìn)方法有搜索寬度限制、放寬端點(diǎn)限制等。在進(jìn)行語音識(shí)別時(shí),將測試模板與所有參考模板進(jìn)行匹配,得到的最小匹配距離 Dmin(N,M)所對(duì)應(yīng)語音即為識(shí)別結(jié)果。即: (54) DTW 算法的原理圖如圖 52,把測試模板的各個(gè)幀號(hào) n=1~N 在一個(gè)二維直角坐標(biāo)系中的橫軸上標(biāo)出,把參考模板的各幀 m=1~M 在縱軸上標(biāo)出,通過這些表示幀號(hào)的整數(shù)坐標(biāo)畫出一些縱橫線即可形成一個(gè)網(wǎng)格,網(wǎng)格中的每一個(gè)交叉點(diǎn)(ti,rj)表示測試模式 中某一幀與訓(xùn)練 模式中某一幀的交匯。 DTW算法的實(shí)質(zhì)就是運(yùn)用動(dòng)態(tài)規(guī)劃的思想,利用局部最佳化的處理來自動(dòng)尋找一條路徑,沿著這條路徑,兩個(gè)特征矢量之間的累積失真量最小,從而避免由于 時(shí)長不同而可能引入的誤差 DTW 算法要求參考模板與測試模板采用相同類型的特征矢量、相同的幀長、相同的窗函數(shù)和相同的幀移。顯然,這兩種假設(shè)都不符合實(shí)際語音的發(fā)音情況,我們需要一種更加符合實(shí)際情況的非線性時(shí)間規(guī)整技術(shù)。 匹配模式 模板匹配方法的語音識(shí)別算法需要解決的一個(gè)關(guān)鍵問題是說話人對(duì)同一個(gè)詞的兩次發(fā)音不可能完全相同,這些差異不僅包括音強(qiáng)的大小、頻譜的偏移,更重要的是發(fā)音時(shí)音節(jié)的長短不可能完全相同,而且兩次發(fā)音的音節(jié)往往不存在線性對(duì)應(yīng)關(guān)系。計(jì)算 mfcc系數(shù)的函數(shù)為 melcepst(s,fs), s為語音信號(hào)。如圖 41 所示為 Mel尺度濾波器組,包含 24 個(gè)濾波器,語音信號(hào)幀長取為 256 個(gè)點(diǎn),語音信號(hào)的采樣頻率為8KHz。大量研究表明, MFCC 系數(shù)能夠比 LPCC 參數(shù)更好地提高系統(tǒng)的識(shí)別性能 [10]。 LPCC的優(yōu)點(diǎn)是計(jì)算量小,易于實(shí)現(xiàn),對(duì)元音有較好的描述能力,缺點(diǎn)是對(duì)輔音描述能力較差。 與 LPCC 系數(shù) LPC(Linear Prediction Coefficient,線性預(yù)測系數(shù) )模擬人發(fā)音器官的聲管模型,是一種基于語音合成的參數(shù)模型。門限值的設(shè)置還沒有一個(gè)通用可靠的方法,需要根據(jù)經(jīng)驗(yàn)和特定環(huán)境進(jìn)行調(diào)整。在過度段中,由于參數(shù)數(shù)值較小,還不能確定是否真的進(jìn)入語音段,只有兩個(gè)參數(shù)的其中一個(gè)超越了高門限才被認(rèn)為是進(jìn)入語音段。 雙門限端點(diǎn)檢測 雙門限端點(diǎn)檢測顧名思義需要兩級(jí)檢測,即短時(shí)能量檢測和短時(shí)過零率檢測。音,有聲段過零率明顯高于無聲段,但在鼻音階段過零率迅速滑落到無聲水平而能量值則是緩慢下滑。從圖中可以看到清音 39。 圖 31 語音 的時(shí)域分析參數(shù) 圖 32 語音 的時(shí)域分析參數(shù) 短時(shí)過零率 短時(shí)過零表示一幀語音信號(hào)波形穿過橫軸 (零電平 )的次數(shù)。因?yàn)樵谟?jì)算時(shí)使用的是信號(hào)的平方,故將 En 作為一個(gè)度量語音幅度值變化的函數(shù)有一個(gè)缺陷,即對(duì)高電平非常敏感。端點(diǎn)檢測最常見的方法是短時(shí)能量短時(shí)過零率雙門限端點(diǎn)檢測,近年來在此基礎(chǔ)上發(fā)展出的動(dòng)態(tài)窗長短時(shí)雙門限端點(diǎn)檢測 方法也被廣泛使用。語音端點(diǎn)檢測是指用計(jì)算機(jī)數(shù)字處理技術(shù)從包含語音的一段信號(hào)中找出字、詞的起始點(diǎn)及結(jié)束點(diǎn),從而只存儲(chǔ)和處理有效語音信號(hào)。因此,在語音的時(shí)域處理方法中,一般選擇矩形窗,而在語音的頻域處理方法中,一般選擇漢明窗或漢寧窗 [56]。用的最多的三種為矩形窗、漢明窗 (Hamming)和漢寧窗 (Hanning)。其目的是濾除低頻干擾,特別是 50Hz 到 60Hz 的工頻干擾,將對(duì)語音識(shí)別更為有用的高頻部分進(jìn)行頻譜提升。 在 Matlab 環(huán)境中的分幀最常用的方法是使用函數(shù) enframe(x,len,inc),其中 x為語音信號(hào), len 為幀長, inc 為幀移。但研究發(fā)現(xiàn),語音信號(hào)在短時(shí)間內(nèi)頻譜特性保持平穩(wěn),即具有短時(shí)平穩(wěn)特性。 語音信號(hào)采集 在 Matlab 環(huán)境中語音信號(hào)的采集可使用 wavrecord(n,fs,ch,dtype)函數(shù)錄制,也可使用 Windows 的 錄音機(jī) 程序錄制成 .wav 文件然后使用wavread(file)函數(shù)讀入。 圖 11 語音識(shí)別系統(tǒng)原理框圖 本文所描述的語音識(shí)別系統(tǒng) (下稱本系統(tǒng) )將對(duì)數(shù)字 0~9 共 10段參考語音進(jìn)行訓(xùn)練 并建立模板庫,之后將對(duì)多段測試語音進(jìn)行識(shí)別測試。經(jīng)過預(yù)處理的語音數(shù)據(jù)就可以進(jìn)行特征參數(shù)提取。 1 語音識(shí)別系統(tǒng)概述 語音識(shí)別系統(tǒng)的典型原理框圖 [1,910]如圖 11所示。 常見的語音識(shí)別方法有動(dòng)態(tài)時(shí)間歸整技術(shù) (DTW)、矢量量化技術(shù) (VQ)、隱馬爾可夫模型 (HMM)、基于段長分布的非齊次隱馬爾可夫模型 (DDBHMM)和人工神經(jīng)元網(wǎng)絡(luò)
點(diǎn)擊復(fù)制文檔內(nèi)容
試題試卷相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1