freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

特定人孤立詞語音識別的研究畢業(yè)論文(參考版)

2024-08-31 04:10本頁面
  

【正文】 放寬端點(diǎn)限制的 DTW 算法 對于普通 DTW對端點(diǎn)檢測比較敏感,端點(diǎn)信息是作為一組獨(dú)立的參數(shù)提供給識別算法,它要求兩個(gè)比較模式起點(diǎn)對起點(diǎn),終點(diǎn)對終點(diǎn),對端點(diǎn)檢測的精度要求比較高,當(dāng)環(huán)境噪聲1 2 — 1 2 — 1 2 — 1 2 — 1 2 — x → 2 x x ≤ Xa x → x + (M – N ) Xa < x ≤ Xb 2 x + (M – 2N ) → x + (M – N ) x > Xb 1 2 — 1 2 — 1 2 — 1 2 — 1 2 — 1 2 — x → 2 x x ≤ Xb x → x + (M – N ) Xb < x ≤ Xa 2 x + (M – 2N ) → x + (M – N ) x > Xa 1 2 — W i d t h N M 11 比較大或語音由摩擦音構(gòu)成時(shí),端點(diǎn)檢測不易進(jìn)行,放松端點(diǎn)限制方法不嚴(yán)格要求端點(diǎn)對齊,克服了由于端點(diǎn)算法不精確造 成的測試模式和參考模式起點(diǎn)終點(diǎn)不能對齊的問題。 搜索寬度受限的 DTW 算法 在實(shí)際應(yīng)用中 DTW算法加入了一些搜索限制條件 , 實(shí)際 的搜索范圍是在一定的寬度之內(nèi) , 如圖 7 所示的對角線附近的帶狀區(qū)域 [9]。通過不斷更新數(shù)據(jù)來實(shí)現(xiàn),一直進(jìn)行到待測模板的最后一幀,矢量 D 的最后一個(gè)元素即為兩個(gè)模板經(jīng)過動態(tài)規(guī)劃后的匹配距離,這樣可大大減小存儲空間,減小計(jì)算量,從而提高識別速度。 在 X軸上的每一幀 不再需要與 Y軸上的每一幀進(jìn)行比較,而只是與 Y軸上 [ymin, ymax]間的幀進(jìn)行比較。 充分利用這兩個(gè)特點(diǎn)可以減少計(jì)算量和存儲空間的需求,形成一種高效的 DTW 算法。由于在模板匹配過程中限定了彎折的斜率,因此平行四邊形之外的格點(diǎn)對應(yīng)的幀匹配距離是不需要計(jì)算的。如圖 6 所示。 由于 DTW不斷地計(jì)算測試矢量與模板矢量的距離以尋找最優(yōu)的匹配路徑,所以得到的兩矢量匹配是累計(jì)距離最小的路徑函數(shù),這保證了它們之間存在最大的聲學(xué)相似特性。 D[(ni, mi)] = d [T(ni), R(mi)] + D[(ni1, mi1)] ( 22) 其中的 D[(n i1, m i1)]由下式?jīng)Q定 D[(ni1, mi1)]=min{ D[(ni1, mi)], D[(ni1, mi1)], D[(ni1, mi2)]} ( 23) 從 (ni, mi) =(1, 1) 開始往下搜索 (n2, m2),再搜索 (n3, m3) ??,對每一個(gè) (ni,mi) 都存儲相應(yīng)的前一格點(diǎn) (ni1, mi1) 及相應(yīng)的幀匹配距離 d[ni, mi]。如果路徑已通過了格點(diǎn) (ni1, mi1),那么下一個(gè)通不定期的格點(diǎn) (ni, mi)只可能是 (ni1+1, mi1+2)、 (ni1+1,mi1+1)和 (ni1, mi1),用γ表示這種約束條件。路徑可以用函數(shù) mi =Φ (ni)來描述,其中 ni = i , i = 1, 2,?, N,Φ (1)=1,Φ (N)=M。路徑不是隨意選擇的,首先任何一種語音的發(fā)音快慢都有可能變化,但是其各部分的先后次序不可能改變,因此所選的路徑必定是從左下角出發(fā),在右上角結(jié)束。如上 圖所示。設(shè) n 和 m分別是 T 和 R 中任意一幀, d [T(n), R(m)]表示這兩幀特征矢量之間的距離,在 DTW 中通常采用歐式距離。 圖 4 動態(tài)時(shí)間彎曲( DTW)算法求最小失真 假設(shè)參考模板和測試模板分別用 R 和 T 表示,它們之間的相似度用它們之間的距離D[T, R]來度量,距離越小相似度越高。語音識別就是要將測試語音的這個(gè)特征向量同模板庫中已存在的語音特征向量進(jìn)行模式匹配,尋找距離最短的模式作為識別結(jié)果。 DTW 解決了發(fā)音長短不一的模板匹配問題,是語音識別中出現(xiàn)較早,較為經(jīng)典的一種算法 [10]。 DTW 是采用一種最優(yōu)化的算法 —— 動態(tài)規(guī)整法,通過將待識別語音信號的時(shí)間軸進(jìn)行不均勻地扭曲和彎曲,使其特征與模板特征對齊,并在兩者之間不斷的進(jìn)行兩個(gè)矢量距離最小的匹配路徑計(jì)算,從而獲得兩個(gè)矢量匹配時(shí)累積距離最小的規(guī)整函數(shù)。因此在進(jìn)行模板匹配時(shí),把識別 信號伸長或縮短至參考模板的長度是必不可少的,但研究表明,簡單的線性拉伸或壓縮并不能有效的提高識別率。在訓(xùn)練階段,用戶將詞匯表中的每個(gè)詞依次說一遍,作為模板存入模板庫;在識別階段,將輸入語音的 特征 矢量時(shí)間序列依次與模板庫中的每個(gè)模板進(jìn)行相似度比較,將相似度最高的作為識別結(jié)果輸出。 l d (n) = Σ j ● C(n+j) j = 1 √ __ ∑ j 2 j = l l 1 ________ 7 2 Dynamic Time Warping 算法 假定一個(gè)孤立詞語音識別系統(tǒng),利用模板匹配法進(jìn)行識別。由上式計(jì)算得到的差分參數(shù)為一階 MFCC 差分參數(shù),用同樣的公式對一階差公參數(shù)進(jìn)行計(jì)算,可以得到二階差 MFCC。 為每幀數(shù)據(jù)計(jì)算出 L 階 MFCC 參數(shù)后,一般還要為這 L 個(gè)系數(shù)分別乘以不同的權(quán)系數(shù),實(shí)際上是一個(gè)短窗口: ( 16) 差分倒譜參數(shù) 標(biāo)準(zhǔn)的 MFCC 參數(shù)反映了語音參數(shù)的靜音特特性,而人耳對語音的動態(tài)特征更為敏感,所以通常是用差分倒譜參數(shù)來描述語音特征的動態(tài)特性。 ( 2 ) 把功率譜通過帶通濾波器,然后再取自然對數(shù)。 求 MFCC 參數(shù)的過程為: ( 1 ) 對輸入語音幀作快速傅利葉變換 FFT,將時(shí)域信號轉(zhuǎn)化為頻域信號 。另外在頻率較低的區(qū)域, fm 和 f 之間有一段是線性的。 每個(gè)濾波器具有三角形特性,其中心頻率為 fm,它們在 Mel 頻率軸上是均勻分布的。因此,本文中用到的 Voicebox工具箱中的 函數(shù)就是采用采用 MFCC 參數(shù)。由于充分模擬幅值 amp2 amp1 0 N0 N1 N2 n 過零率 ZCR0 0 N0 N1 N2 n En = Σ |Xn(m)| N 1 m=0 Zn = — Σ |sgn [Xn(m)]sgn[Xn(m1)]| N 1 m=0 1 2 5 了人的聽覺特性,而且沒有任何前提假設(shè),因此 MFCC 參數(shù)具有很好的識別性能和抗噪能力。因此, LPCC系數(shù)也是基于合成的參數(shù),沒有充分利用人耳的聽覺特性,對輔音的描述能力較差,抗噪聲性能較差 。 常用的參數(shù)有線性預(yù)測的倒譜系數(shù)( LPCC)和 Mel 頻率的倒譜系數(shù)( MFCC)。 特征參數(shù)的提取 特征參數(shù)提取的目的是抽取語音特征,以使在語音識別時(shí)類內(nèi)距離盡量小,類間距離盡量大。 考慮到開始以后總會出現(xiàn)能量較大的濁音,設(shè)一個(gè)較高的門限 amp1 用以確定語音已開始,再取一比 amp1 稍低的門限 amp2,用以確定語音的起始點(diǎn) N1,和結(jié)束點(diǎn) N2,由于語音起始段往往存在著能量很弱的清輔音(如 [s]、 [f]等),只用能量去判斷,很難把它們和無聲區(qū)分開,但發(fā)現(xiàn)它們的過零率明顯高于無聲段,因此可以用過零率來精確起點(diǎn) 。 一幀信號中波 形穿越零電平的次數(shù),稱為過零率。②區(qū)分聲母與韻母的邊界,無聲和有聲的分界,連字的分界等。 預(yù)處理 特征提取 輸入 語音 測度估計(jì) 識別判決 參考模板 識別 結(jié)果 模板庫 識別 訓(xùn)練 4 圖 2 用能量和過零率進(jìn)行端點(diǎn)檢測 輸入的語音信號 X(l),加窗分幀處理后得到的第 n 幀的語音信號為 Xn(m),則: Xn(m)= ω (m)X(n+m) m=0 ~ (N1) ( 12) 其中, n=0, 1T, 2T,?,并且 N 為幀長, T 為幀移。用得比較多的是經(jīng)典的雙門限端點(diǎn)檢測算法。 端點(diǎn)檢測的目的是 從包含語音的一般信號中確定出語音的起點(diǎn)以及終點(diǎn) , 有效的端點(diǎn)檢測不僅能使處理時(shí)間最小 , 而且能 排除無聲段的噪聲干擾 , 從而使識別系統(tǒng)具有良好的識別性能 , 端點(diǎn)檢測的成功與否甚至在某種程度上直接決定了整個(gè)語音識別系統(tǒng)的成敗。在語音信號處理中,常用的窗函數(shù)是矩形窗和漢明窗。通常用一階 FIR數(shù)字濾波器來實(shí)現(xiàn),系統(tǒng)函數(shù)為: H( z) = 1 – a z –1 ( a 接近于 1) ( 11) 進(jìn)行預(yù)加重?cái)?shù)字濾波處理后,接下來就要進(jìn)行加窗分幀處理。 預(yù)處理 由于語音信號的平均功率譜受聲門激勵(lì)和口鼻輻射影響,高頻端大約在 800Hz 以上按6dB/倍頻程跌落,所以 在 語音信號頻譜時(shí),頻率越高相應(yīng)的成分越小,高頻部分的頻譜比低頻部分的難求,為此要在預(yù)處理中進(jìn)行預(yù)加重( Preemphasis)處理。 在識別階段 , 語音信號經(jīng)過相同的通道得到語音特征參數(shù),生成測試模板并與參考模板進(jìn)行匹配,將匹配分?jǐn)?shù)最高的參考模板作為識別結(jié)果。 模式匹配中需要用到的參考模板通過模板訓(xùn)練獲得。 圖 1 一般語 音識別系統(tǒng) 框圖 一個(gè)完整特 定人孤立詞語音識別系統(tǒng)通常包括語音的輸入、語音的預(yù)處理(預(yù)加重、加窗分幀、端點(diǎn)檢測等)、特征提取、訓(xùn)練與識別等幾個(gè)環(huán)節(jié),基本構(gòu)成如圖 1 所示。闡述了系統(tǒng)的軟件設(shè)計(jì)過程,對各部分給出了相應(yīng)的軟件流程圖,并且對具體算法進(jìn)行了 MATLAB 仿真論證。最后給出了兩者的對比仿真。全文共分3 章,具體的研究內(nèi)容如下: 第 1 章:介紹了語音識別系統(tǒng)的實(shí)現(xiàn)方案,給出了孤立詞識別 中需要的語音信號處理理論,如 預(yù)加重 、端點(diǎn)檢測和特征參數(shù)提取等。近年來,消費(fèi)類電子產(chǎn)品對低成本、高穩(wěn)健性的語音識別片上系統(tǒng)的需要快速增加,語音識別系統(tǒng)大量地從實(shí)驗(yàn)室的 PC 平臺轉(zhuǎn)移到嵌入式設(shè)備中。主要包括高可靠性;增加詞匯量;應(yīng)用拓展;降低成本減小體積四個(gè)方面。在這樣的水平基礎(chǔ)上,語音識別技術(shù)開始嘗試從實(shí)驗(yàn)室演示系統(tǒng)走向?qū)嵱没唐贰? 語音識別技術(shù)經(jīng)過全球半個(gè)多世紀(jì)的研究,目前已經(jīng)發(fā)展到了接近實(shí)用的階段。 2020 年以來,人機(jī)語音交互成為研究的焦點(diǎn)。 90 年代,語音識別研究的重點(diǎn)轉(zhuǎn)向自然語言的識別 處理,任務(wù)轉(zhuǎn)移到航空旅行信息的索取。 70 年代,在模式識別思想、動態(tài)規(guī)劃方法、線性預(yù)測思想等基礎(chǔ)研究的成功應(yīng)用的支撐下,孤立詞發(fā)音和孤立語句發(fā)音的識別成為了可行的有用技術(shù)。 T Bell 實(shí)驗(yàn)室實(shí)現(xiàn)了第一個(gè)可識別十個(gè)英文數(shù)字的語音識別系統(tǒng)——Audry 系統(tǒng)。這里僅僅按照一些重要方法的出現(xiàn)和發(fā)展為線索進(jìn)行簡要回顧。一般來講, 1~20個(gè)詞匯屬于小詞匯量語音識別系統(tǒng)、 20~1000 個(gè)詞匯屬于中詞匯量語音識別系統(tǒng)、大于 1000個(gè)詞匯屬于大詞匯量語音識別系統(tǒng)。非特定人則可用于不同的 用戶,這種識別系統(tǒng)的通用性好,應(yīng)用面廣,但難度也較大,不容易得到高的識別率,它的實(shí)用化將會有很高的經(jīng)濟(jì)價(jià)值和深遠(yuǎn)的社會意義。 2. 按識別對象的類型可以分為特定人( Speaker Dependent)語音識別和非特定人( Speaker Independent)語音識別。因此,可以用來實(shí)現(xiàn)簡單的家用電器控制。一般語音識別系統(tǒng)按不同的角度有下面幾種分類: 1. 按說話人的講話方式可以分為孤立詞( Isolated Word)識別連續(xù)語音( Continuous Speech)識別。其主要應(yīng)用在語音命令、應(yīng)用于電信增值業(yè)務(wù)、數(shù)據(jù)庫檢索等方面。近二三十年來,語音識別技術(shù)在工業(yè)、家電、通信、汽車電子、醫(yī)療、家庭服務(wù)、消費(fèi)電子產(chǎn)品等領(lǐng)域有著廣泛應(yīng)用。語音識別經(jīng)過四十多年的發(fā)展,已經(jīng)顯示出巨大的應(yīng)用前景 [1]。 【關(guān)鍵詞】 語音識別 孤立詞 特定人 DTW V Research Of Speakerdependent Isolatedword Speech Recognition Abstract Speech is the means that human being carries on ,using speech as a humanputer interaction approach is the most natural way for the the same time,equipment miniaturization also demands omitting the keyboard to economize recent years,the speech recognition technology has been widely applied to industrial control,consuming product an
點(diǎn)擊復(fù)制文檔內(nèi)容
高考資料相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1