freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

-20xx0xx257-孤立詞語音識別技術(shù)研究(編輯修改稿)

2025-07-25 06:51 本頁面
 

【文章內(nèi)容簡介】 中HMM方法的識別準(zhǔn)確度比DTW要高。可是HMM的計算過程可能就會更復(fù)雜一些了,因為它的方法實現(xiàn)會需要大量的數(shù)據(jù),此外對這些數(shù)據(jù)的比較和訓(xùn)練比較繁瑣的過程。所以本文僅僅對隱馬爾科夫的算法加以介紹。而DTW算法和其他算法相比有很多的優(yōu)點,比如和大計算量的HMM比較的話就簡單多了。另外,DTW比較適合實際的應(yīng)用。對于本文而言,有多種不同的識別方法選擇,下面重點研究HMM和DTW兩種模型的算法。 (HMM)HMM是一種較好描述語音信號整體非平穩(wěn)特性的統(tǒng)計模型,我們將其看作數(shù)學(xué)上的一個雙重隨機過程。前面我們說過語音信號可以進行無限分解。這樣就可以在極短的時間里解決問題。但是如何確定段與段之間什么時候轉(zhuǎn)變又是一個問題,HMM就通過統(tǒng)計學(xué)理論很好的突破這樣的難題。通常情況下一個n種狀態(tài)的HMM模型通常由來表示,這些參數(shù)的含義解釋如下:是狀態(tài)轉(zhuǎn)移概率矩陣:。它的每一個元素都可以用a表述,它是有某一個狀態(tài)向另外一個狀態(tài)莊毅的概率,同時前后的兩者狀態(tài)轉(zhuǎn)變又是有聯(lián)系的。矩陣元素必須滿足:。 B是輸入語音特征序列中的任意隨機變量在各狀態(tài)的輸出概率分布。它有離散型和連續(xù)型兩類,對于離散HMM模型,B是一個概率矩陣;其中,M是編碼符號集中符號的總數(shù),并且滿足;連續(xù)的模型滿足條件:。為各狀態(tài)的初始概率分布,它通常表示n=1時某個狀態(tài)Si的概率。在HMM的模型算法中它是最不重要的。而另外的兩個定義重要些。 基于HMM識別系統(tǒng)需解決的以下問題:(1)如何確定一個狀態(tài)轉(zhuǎn)移序列。并且通過相關(guān)算法求出q對隱馬爾科夫的輸出概率。根據(jù)此概率判斷語音命令的識別; (2)如何調(diào)整的參數(shù)使得輸出概率最大。 HMM中的一些算法的產(chǎn)生也是用于解決上面的兩個問題。下面簡單介紹一下隱馬爾科夫的三種基本算法,即前向后向算法,Viterbi算法和BaumWelch算法。前向后向算法的作用主要是簡化模型的輸出概率的計算量。首先定義變量HMM在時間t的輸出序列,并且位于狀態(tài)的概率為 (13)那么有初始化: (14) 遞歸: (15) 結(jié)果: (16) 這種算法計算量大為簡化,它是一種典型的格型結(jié)構(gòu)。上面是前向算法的方式,后向算法和它類似。 Viterbi算法解決了給定一個觀察值序列和一個,在最佳意義上確定一個狀態(tài)序列的問題。其算法敘述如下: 定義為時刻t時沿一條路徑,且,產(chǎn)生出的最大概率,既有 (17) Viterbi算法也是一種格型結(jié)構(gòu),而且類似于前向算法。同樣,由后向算法的思路出發(fā)也可以推導(dǎo)出Viterbi算法的另外一種實現(xiàn)方式。 BaumWelch算法主要用于解決HMM的訓(xùn)練,定義為給定訓(xùn)練序列O和模型,在時刻t時馬爾科夫鏈處于狀態(tài),在時為狀態(tài)概率,即 (18)可以導(dǎo)出 (19)那么,時刻t時馬爾科夫鏈處于狀態(tài)的概率為 (20) 由上面的式子可以導(dǎo)出BaumWelch的重估公式,重復(fù)計算過程可以起到改善模型的作用。(DTW)在孤立詞語音識別中,比較常用的一種識別方法是DYW,它的原理還是比較容易理解,另外其用法也不復(fù)雜。DTW算法最為重要的作用就是用來解決待測語音和參考模板之間的匹配問題。這種方法在上個世紀(jì)六十年代就開始被使用,所以它是一種比較早而且常用的方法。在上面的內(nèi)容中我們講到了語音識別的另外一種方法,即HMM。它常常會拿來和DTW算法進行比較。兩者各有各的優(yōu)點和缺點,DTW的計算量較另外一種方法較為簡單,由于本文研究的是小詞匯量的語音識別,DTW算法就比較適合了。另外使用DTW技術(shù)還解決了端點檢測中某些參量效果不明顯的問題,主要是因為這種方法可以把待測量和參考量的差異放大。以使其特征和模型特性進行對正。這種方法應(yīng)用的比較廣泛,并且它對語音識別技術(shù)產(chǎn)生了很重要的影響。 DTW的原理可以用下圖表示:2(1,1)NMmnAB2(N,M)D[T(n),R(m)]R(m)T(n)(n,m) 圖9 DTW算法原理圖 在規(guī)整過程中,有兩個時間函數(shù)作為輸入量。如上圖所示,設(shè)A,B作為匹配的時間函數(shù),B為模板,A為被測試的語音。他們分別被標(biāo)注在時間軸上,中間的彎曲線表示兩者的映射關(guān)系。表示這兩幀特征矢量之間的距離,這種方法的目的只是把兩者的這種最小矢量距離找出來。 在上圖中我們是把字母A當(dāng)作測試部分,而字母B當(dāng)作參考部分。他們的關(guān)系通過橫縱坐標(biāo)指示出來了?,F(xiàn)在我們設(shè)A有N幀矢量,B有M種矢量,且N不等于M,通常情況下兩者也是不相等的。而動態(tài)時間規(guī)整就是尋找一個時間規(guī)整函數(shù),通俗地講就是尋找一條最優(yōu)路徑[[4]何強,何英.MATLAB擴展編程[M].第一版,北京:清華大學(xué)出版社.]。 D就是處于最優(yōu)情況下的匹配路徑,它滿足一個函數(shù)公式: (21) 上面的公式實際上就是求取矢量距離的一個公式。通過這樣一個公式我們就可以在某一個開始點進行搜索在眾多的距離中找出一個最優(yōu)的路徑。如下圖就是某一路徑方式:21 2 3 4 5 6 7 8 9 10 NM91345678圖10 DTW算法的一條路徑從以上的表述我們會發(fā)現(xiàn)一個問題,從一個坐標(biāo)到另外一個坐標(biāo)的路徑是非常多的,我們不可能每條路徑都去測試它的匹配距離。那么我們就需要找出一種函數(shù)對匹配路徑加以限制。這樣會大大的簡化計算量。我們可以稱之為總的代價函數(shù),其計算公式為 (22)式中,d[c(k)]為匹配點c(k)本身的代價,min D[c(k1)]是限制路徑中最小的一條。 動態(tài)規(guī)劃算法基本步驟以下面的圖表為例: 表1 參考模板與測試模板匹配示意b6(參考模板)2 191 197 235 26b51 175 221 166 22b44 167 182 154 19b35 122 114 153 16b23 74 98 172 13b12 41 55 101 11待測模板a1a2a3a4上圖中的A是待測語音信號的模板,B代表參考模板。每一個表格中都有一個數(shù)字,每個數(shù)字代表A和B之間的矢量距離。類比于在坐標(biāo)軸中,我們要求的是從一個坐標(biāo)到另外一個坐標(biāo)的距離,所以要求的是上表中對于某一條路徑矢量距離之和,也就是累加距離。計算步驟如下: (1) 取初始值,在上面的圖表中體現(xiàn)在被測模板和參考模板交叉的數(shù)值部分。(2) 然后根據(jù)待測模板和參考模板交叉的數(shù)值,即矢量距離,進行相加求出兩者之間的累加距離。特別要指出的是,不光要計算待測模板和參考模板之間的累加距離還要注意對各條路徑的記錄。在上面的DTW原理的介紹中我們說到,在計算匹配路徑的時候不可每條路徑都去考慮,因為這樣計算量很大,所以要找到一個函數(shù)來限制路徑。函數(shù)如下: (23)對于上面的路徑約束,具體的推導(dǎo)公式為: 。 (24) 。 (25)(3) 最后我們根據(jù)限制后的路徑找出被測模板和參考模板之間匹配的最佳路徑。 本文是針對一些孤立詞語的語音識別系統(tǒng),動態(tài)規(guī)整算法是一種不錯的選擇,計算簡單方便,很適用于該課題的研究。在對DTW的后續(xù)研究中,人們也對該方法做了許多的改進和優(yōu)化,在這里對優(yōu)化后的DTW就不再作詳細表
點擊復(fù)制文檔內(nèi)容
黨政相關(guān)相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1