freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

畢業(yè)論文-基于連續(xù)隱馬爾科夫模型的語音識別-在線瀏覽

2025-01-10 20:57本頁面
  

【正文】 4 緒論 計算機技術(shù)的飛速發(fā)展,使人與機器用自然語言進行對話的夢想逐漸接近現(xiàn)實。作為人與人之間交流最方便 、自然、快捷的手段,人們自然希望它成為人與計算機交流的媒介。也是人機交互最重要的一步。 語音識別技術(shù)發(fā)展到今天,特別是中小詞匯量非特定人語音識別系統(tǒng)識別精度已大于 98%,對特定人語音識別系統(tǒng)的識別精度就更高。由于大規(guī)模集成電路技術(shù)的發(fā)展,這下復(fù)雜的語音識別系統(tǒng)也已經(jīng)完全可以制成芯片,大量生產(chǎn)。一些電話機、手機已經(jīng)包含了語音識別撥號的功能,是有語音記事本、語音智能玩具等產(chǎn)品也包括了語音識別與語音合成的功能。調(diào)查統(tǒng)計表明多達 85%意商的人對語音識別信息查詢服務(wù)系統(tǒng)的性能表示滿意。各種各樣的語音識別系統(tǒng)產(chǎn)品將出現(xiàn)在市場上。在短期內(nèi)還不可能造出具有和人相比擬的語音識別系統(tǒng),我們只能朝著改進語音識別系統(tǒng)的方向逐漸地前進。研究水平也從實驗室走向?qū)嵱谩? 6 第一 章 語音識別基礎(chǔ) 第一節(jié) 語音識別的基本內(nèi)容 語音識別是一種集聲學(xué) 、語音學(xué)、計算機、信息處理、人工智能等于一身的綜合技術(shù),可廣泛的應(yīng)用在信息處理、通信與電子系統(tǒng)、自動控制等領(lǐng)域。 語音識別的原理框圖如圖 11 所示: 圖 11 語音識別的原理框圖 一、識別單元的選取 選擇識別單元是語音識別研究的第一步。 7 單詞單元廣泛應(yīng)用于中小詞匯語音識別系統(tǒng),但不是和大詞匯系統(tǒng),原因在于模型庫規(guī)模太龐大,訓(xùn) 練模型任務(wù)繁重,模型匹配算法復(fù)雜,難以滿足實時性要求。因此,對于大、中詞匯量漢語語音識別系統(tǒng)來說,以音節(jié)為識別單元基本是可行的;音素單元以前多見于英語語音識別系統(tǒng)的研究中,但目前大、中詞匯量漢語語音識別系統(tǒng)也在越來越多地采用。實際應(yīng)用中常把聲母的不通而構(gòu)成細化聲母。 二、特征參數(shù)提取技術(shù) 語音信號中含有豐富的信息,但如何從中提取出對語音識別有用的信息是由特征提取完成的。在實際應(yīng)用中,語音信 8 號的壓縮率介于 10100 之間。 非特定人語音識別系統(tǒng)一般側(cè)重提取反應(yīng)語義的特征參數(shù),盡量去除 說話人的個人信息;而特定人語音識別系統(tǒng)則希望在提取反映語義的特征參數(shù)的同時,盡量也包含說話人的個人信息。但線性預(yù)測模型是純數(shù)學(xué)模型沒有考慮人類聽覺系統(tǒng)對語音的處理特點; Mel 參數(shù)和基于感知線性預(yù)測分析提取的感知線性預(yù)測倒譜,在一定程度上模擬了人耳對語音的處理特點,應(yīng)用了人耳聽覺感知方面的一些研究成果。 三、模式匹配和模型訓(xùn)練技術(shù) 模型訓(xùn)練是按照一定的準(zhǔn)則,從 大量已知模式中獲取表征該模式本質(zhì)特征的模型參數(shù),而模式匹配則是根據(jù)一定準(zhǔn)則,使未知模式與模型庫中的某一個模型獲得最佳匹 9 配。 DTW 是較早的一種模式匹配和模型訓(xùn)練技術(shù),它應(yīng)用動態(tài)歸劃方法成功解決了語音信號特征參數(shù)序列比較時時長不等的難題,在孤立詞語音識別中獲得了良好性能。 HMM 模型是語音信號時變特征的有參表示法。隱含 Markov鏈的特征要依靠可觀測到的信號特征表示。模型參數(shù)包括 HMM 拓樸結(jié)構(gòu)、狀態(tài)轉(zhuǎn)移概率及描述觀察符號統(tǒng)計特性的一組隨機函數(shù)。一 般來說,在訓(xùn)練數(shù)據(jù)足夠是, 10 CHMM 優(yōu)于 DHMM 和 SCHMM。 人工神經(jīng)元網(wǎng)絡(luò)在語音識別中的應(yīng)用是現(xiàn)在研究的又一熱點。這些能力是 HMM 模型不具備的,但 ANN 又不具有 HMM 模型的動態(tài)時間歸正性能。 ANN 和 DTW 的結(jié)合以及 ANN 和 HMM 的結(jié)合是當(dāng)前語 音識別研究的一個方向。 語音特征隨發(fā)音人的不同、發(fā)音人生理和心理狀態(tài)的變化而有很大的差異。 一個語句所表達的意思與上下文內(nèi)容、說話時的環(huán)境條件及文化背景等因素有關(guān),而語句的語法結(jié)構(gòu)又是多變的,并且語境信息幾乎是計算機語音識別無法利用的,所有這些都給語意的理解帶來了和大的困難?;谶@兩重隨機過程, HMM 即可有效解決怎樣辨識具有不同參數(shù)的短時平穩(wěn)信號段,怎樣跟蹤它們之間的轉(zhuǎn)化問題。因為語音信號本身是一個可觀察的序列,而它又是由大腦里的(不可觀察的)、根據(jù)言語需要和語法識別(狀態(tài)選擇 )、所發(fā)出的音素(詞、句)的參數(shù)流,同時,大量實驗表明, HMM的確可以非成精確地描述語音信號的產(chǎn)生過程。 P( Xt+k= qt+k|Xt= qt,??, Xt= qt)= P( Xt+k= qt+k|Xt= qt) K 步轉(zhuǎn)移概率: Pij( t, t+k)= P( qt+k= θ j|qt= θ j) 當(dāng) Pij( t,t+k)與 t 無關(guān)時,稱馬爾科夫鏈為齊次馬爾科夫鏈。所有轉(zhuǎn)移概率矩陣 aij 構(gòu)成一個轉(zhuǎn)移概率矩陣。 三、 HMM 的定義 HMM 參數(shù)的定義如下: 14 ( 1) N,隱馬爾科 夫模型的狀態(tài)數(shù)。N 個狀態(tài)為 θ 1??θ n,記 t 時刻馬爾科夫鏈所處的狀態(tài)為qt。 ( 3)狀態(tài)轉(zhuǎn)移概率分布 A= [aij],其中 aij= P( qt+1= θ j|qt= θ i) ( 4)觀察值概率分布 B= [bj( k) ],其中 bj( K)= P(Ot= Vk|qt= θ j), 1= j=N。 ( 1)根據(jù)初始狀態(tài)概率分布 π,選擇一個初始 qi =?i 。 15 ( 3)根據(jù)當(dāng)前狀態(tài)下觀察值的概率分布 B,選擇 ot= vk。 ( 5)置 t= t+1,如果 tT(觀察值時間序列為 t=1,2,? , T),則回到第( 3) 步否則結(jié)束。為了方便起見,通常將隱馬爾科夫模型定義為 λ=( A, B, π)。 依據(jù)觀察值的概率分布特點(離散還是連續(xù)), HMM可分類為離散隱馬爾科夫模型和連續(xù)隱馬爾科夫模型。圖 21(a)所示模型的狀態(tài)轉(zhuǎn)移矩陣具有下面的形式。通常情況下,對于狀態(tài)轉(zhuǎn)移系數(shù),還需要增加額外的約束以保證狀態(tài)索引不會發(fā)生大的變化。如在 21(a)中, Δ = 2,表示不允許一次跳躍經(jīng)過兩個以上的狀態(tài)。 圖 21 典型馬爾科夫鏈?zhǔn)疽鈭D 17 二、全連結(jié)或個態(tài)遍歷 HMM 這種模型 中從每個狀態(tài)都可以一步到達其他狀態(tài)。對應(yīng)的轉(zhuǎn)移矩陣如下: 雖然可將 HMM 劃分為全連結(jié)和由左至右模型,但還存在很多種可能的變化和組合。 18 圖 23 左至右交叉耦合連接的 HMM 由 重估公式可以看出,如果 HMM 的任何參數(shù)造初始使設(shè)置為 0,那么在整個重新估計過程中它仍然保持為零,所以這些加在由左至右或約束跳轉(zhuǎn)模型上的于無數(shù)并不影響模型的重估過程。前面介紹的 HMM 中觀察響亮都是與模型狀態(tài)相關(guān),但也可考慮使觀察向量與模型的弧相關(guān)聯(lián)??辙D(zhuǎn)移是指這種模型中從一個狀態(tài)轉(zhuǎn)移到另一個狀態(tài)不產(chǎn)生輸出的轉(zhuǎn)移,通常用 Φ 表示輸出的空值?;舅枷胧窃诓煌瑺顟B(tài)的 HMM 參數(shù)之間建立一個等價關(guān)系。參數(shù)綁定應(yīng)用于已知兩個或更多狀態(tài)的觀察密度函數(shù)相同的情況,在刻畫語音是這種情況經(jīng)常發(fā)生。 從觀察概率密度方面可以分為離散 HMM、半連續(xù) HMM和連續(xù)概率密度 HMM。如自回歸 HMM。 第 四 節(jié) HMM 的三個基本問題和解決的方法 一、 HMM 的三個基本問題 欲使 建立的隱馬爾科夫模型能解決實際問題,則必須首先解 20 決以下問題。 ( 2)已知觀察序列 O 和模型 λ,如何確定一個合理的狀態(tài)序列,使之能最佳的產(chǎn)生 O,即如何選擇最佳的狀態(tài)序列q={ q1,??, qT}? ( 3)如何根據(jù)觀察序列不斷修正模型參數(shù)( A,B,π),使 P( O|λ)最大? 問題( 1)實質(zhì)上是一個模型評估問題,因為 P( O|λ)反映了觀察序列與模型吻合的程度。為了解決這個,已經(jīng)研究出“ 前 向- 后 向”算法。一種可能的最佳準(zhǔn)則是:選擇狀態(tài) q*t,使它們在各 t 時刻都是最可能的狀態(tài),即 21 這里存在一個問題:有時會出現(xiàn)不允許的轉(zhuǎn)移,即 aij= 0,那么,對這些 i 和 j 所得到的狀態(tài)序列就是不可能的狀態(tài),而沒有考慮整體結(jié)構(gòu)、相鄰時間的狀態(tài)和觀察序列的長度等問題。目前,解決這個問題的最好方案是Viterbi 算法。這個問題在這三個問題中 是最難的,因為沒有解析法可用來求解最大似然模型 ,所以只能用迭代法( Baum- Welch 算法)或使用最佳梯度法。為了 有效地解決這 個問題,引入了向前概率和向 22 后概率來簡化計算。 前 向概率定義為 at( i)= P( o1?? ot, qt= i|λ)即是在給定模型 λ 的前提下,前 t 個時刻的觀察序列為{ o1?? ot},且在 t 時刻處在狀態(tài) i 的概率。計算公式如下: 根據(jù) 前 向及 后 向的概率定義可推倒出: 或 23 三 、 Viterbi 算法――問題 2 的解決方案 前面已經(jīng)提到,如何確定一個最佳狀態(tài)序列的關(guān)鍵在于選用怎樣的最佳準(zhǔn)則。 即在 t 時刻選擇狀態(tài) i,使模型 λ 沿狀態(tài)序列{ q1,?? qt}運動產(chǎn)生觀察序列{ o1?? ot}的概率最大。 其中 ψt+1( j)的物理含義是若 t+1 的最佳狀態(tài)為 j,則 t 時刻的最佳狀態(tài)為 ψt( j)。 εt( i,j)表示在已知觀察序列 O和模型 λ 的情況下, t 時刻處于狀態(tài) i, t+1 時刻處于狀態(tài) j的概率, εt( i,j)= P( qt= i, qt+1= j|O, λ)。 γt( i)為給定觀察序列和模型 λ 的 條件下, t 時刻處于狀態(tài) i 的概率。 為觀察序列中,從狀態(tài) i 到 j 的狀態(tài)轉(zhuǎn)移次數(shù)的期望。用 λ’替換 λ,重復(fù)上述過程直到模型參數(shù)處于收斂狀態(tài),使得 P( O|現(xiàn)有模型) =P( O|新估計出來的模型)。 通過數(shù)學(xué)推導(dǎo)可知,在滿足約束條件的情況下變量{ y}Nf=1, 時,各單項取值最大。 根據(jù)前面對和 的分析,可以看出重估公式也具有明顯的物理含義。 第一節(jié) HMM 狀態(tài)類型及 B 參數(shù)的選擇 一 、 HMM 狀態(tài)類型的選擇 當(dāng) HMM 與實際信號相結(jié)合時,首先需要解決的問題是狀態(tài)類型的選擇。這兩種結(jié)構(gòu)除了都要滿足 外,狀態(tài)“ 1”與狀態(tài)“ 4”分別為源狀態(tài)和吸狀態(tài),這意味著語音必須從狀態(tài)“ 1”開始到狀態(tài)“ 4”結(jié)束,這正好與人的發(fā)音過程對應(yīng)。當(dāng)然,不同形式的 pdf 是由不同的參數(shù)來描述的,而估計這種參數(shù)的重估公式也是不一樣的。 B 參數(shù)是 HMM 中非常重要的一個參數(shù),它描述在某種狀態(tài)時觀察值序列的概率分布。 然后,為了更好地描述語音信號的時變性,在實際的關(guān)鍵檢索系統(tǒng)中通常采用連續(xù)的概率分布,即用 bj( o)表示在 o 與o+do 之間觀察矢量的概率。目前采用最多的 bj( o)形式為高斯 M 元混合密度,可以用它無限逼近任意一個有限連續(xù)概率密度函數(shù),其定義為: 式中: o 為觀察矢量; cjk 為狀態(tài) j 中第 k 個混元的混合加權(quán)系數(shù), N〔注意, cjk 必須滿足下式。如下式所示: 30 式中, γt( j, k)是 t 時刻的觀察矢量 ot 由狀態(tài) j 中的第 k個混合分量產(chǎn)生的概率,即、 第二節(jié) HMM 訓(xùn)練時需要解決的問題 一、初始模型的選取 根據(jù) BaumWelch 算法由訓(xùn)練數(shù)據(jù)得到 HMM 參數(shù)時,一個重要問題就是初始模型的選取。但是,至今這個問題仍沒有完美的答案。一般認為, π 和 A 參數(shù)初值選取影響不大,可以隨機選取或均勻取值,只要滿足概率要求即可。比較典型的 HMM 參數(shù)估計算法是“ K 均值分割”算法。這些初始估計是隨機給出或建立在相應(yīng)數(shù)據(jù)的已有模型基礎(chǔ)之上的。這種分割是借助 Viterbi 算法找到最優(yōu)狀態(tài)序列實現(xiàn)的。在使用離散符 號 密度時,每個狀態(tài)中的任意一個觀察向量是使用具有 M 碼字的碼書編碼的, bj( k)參數(shù)估計的更新公式如下: bj( k)=狀態(tài) j 中碼書索引為 k 的觀察向量數(shù)量 /狀態(tài) j 中所有觀察向量數(shù)量。根據(jù)生成的聚類,得到的一組模型參數(shù)的更新公式如下: 根據(jù)這種狀態(tài)分割, αij系數(shù)的更新估計可通過從狀態(tài) i 到j(luò) 的轉(zhuǎn)移計數(shù)除以從狀態(tài) i 出發(fā)的所有轉(zhuǎn)移(包括轉(zhuǎn)移到自身)計數(shù)實現(xiàn)。然后開始使用真正的重估過程重新估計所有模型參數(shù)。 當(dāng)然, HMM 有很多類型。 二、比例因子的問題 在前向-后向算法和 BaumWelch 算法中,都有 αt( i)和βt( i)的遞歸計算,因為所有量都小于 1,因此, αt( i)和 βt( i)都迅速趨向于零,為了解決這種下溢的 問題,必須采取增加比例因子的方法,對有關(guān)算法加以修正,處理過程如下: ( 1)對 α的處理 34 也就是說 αt( j)的比例因子實際上是所有狀態(tài)的 αt( i)之和的倒數(shù)。 36 顯然,上述比例因子也可用于 π 和 B 參數(shù)的重估計算。 增加 比例因子所引起的 HMM 的唯一實際變化是 P( O|λ)的計算,不能簡單地把 進行求和,因為這些值已經(jīng)引入了比例因子,不過可以利用如下性質(zhì)。 最后,當(dāng)采用 Viterbi 算法求最佳狀態(tài)序列時,如果按 37 如下方法,就不需要比例因子。
點擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1