freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

特定人孤立詞語音識別的研究畢業(yè)論文(已改無錯字)

2023-07-23 16:00:09 本頁面
  

【正文】 Σ j ● C(n+j)j = 1√__∑ j 2j = ll1________差分參數(shù)的計算公式為: (17) 這里 c 和 d 都表示一幀語音信號參數(shù),l 為常數(shù),一般取2,這時差分參數(shù)就稱為當(dāng)前幀的前兩幀和后兩幀參數(shù)的線性組合。由上式計算得到的差分參數(shù)為一階 MFCC 差分參數(shù),用同樣的公式對一階差公參數(shù)進行計算,可以得到二階差 MFCC。 在相同的參數(shù)維數(shù)下,Mel濾波器個數(shù)D對識別性能影響不大,這里取24,本文中,是將12階MFCC參數(shù)和它一階差分參數(shù)合并為一個矢量(24階),作為一幀語音信號的參數(shù),因為動態(tài)信息和靜態(tài)信息形成互補,所以能很大程度上提高系統(tǒng)的識別性能。2 Dynamic Time Warping算法假定一個孤立詞語音識別系統(tǒng),利用模板匹配法進行識別。這時一般是用單詞作為識別單元。在訓(xùn)練階段,用戶將詞匯表中的每個詞依次說一遍,作為模板存入模板庫;在識別階段,將輸入語音的特征矢量時間序列依次與模板庫中的每個模板進行相似度比較,將相似度最高的作為識別結(jié)果輸出。但是語音具有相當(dāng)大的隨機性,即使是同一個人在不同的時刻所講的同一句話、發(fā)同一個音,也不可能具有完全相同的時間長度。因此在進行模板匹配時,把識別信號伸長或縮短至參考模板的長度是必不可少的,但研究表明,簡單的線性拉伸或壓縮并不能有效的提高識別率。對此,日本學(xué)者板倉將DP算法的概念用于解決孤立詞識別時的說話速度不均勻的難題,提出了著名的動態(tài)時間伸縮算法,即DTW算法。DTW是采用一種最優(yōu)化的算法——動態(tài)規(guī)整法,通過將待識別語音信號的時間軸進行不均勻地扭曲和彎曲,使其特征與模板特征對齊,并在兩者之間不斷的進行兩個矢量距離最小的匹配路徑計算,從而獲得兩個矢量匹配時累積距離最小的規(guī)整函數(shù)。這是一個將時間規(guī)整和距離測度有機結(jié)合在一起的非線性規(guī)整技術(shù),保證了待識別特征與模板特征之間最大的聲學(xué)相似特性和最小的時差失真。DTW解決了發(fā)音長短不一的模板匹配問題,是語音識別中出現(xiàn)較早,較為經(jīng)典的一種算法[10]。 DTW算法原理在對每一幀語音信號提取MFCC 特征參數(shù)以后,就轉(zhuǎn)化成了一組MFCC 特征向量。語音識別就是要將測試語音的這個特征向量同模板庫中已存在的語音特征向量進行模式匹配,尋找距離最短的模式作為識別結(jié)果。在用DTW算法進行識別判決時,由于測試語音與參考模式語音長短不同,因此需要通過DTW動態(tài)計算兩個長度不同的模式之間的相似程度,或者叫做失真距離。2(1,1)NMmnTR2(N,M)D[T(n),R(m)]R(m)T(n)(n,m) 圖4 動態(tài)時間彎曲(DTW)算法求最小失真假設(shè)參考模板和測試模板分別用R和T表示,它們之間的相似度用它們之間的距離D[T,R]來度量,距離越小相似度越高。為了計算這一失真距離,要從T和R中各個對應(yīng)幀之間的距離算起。設(shè)n和m分別是T 和R 中任意一幀,d [T(n),R(m)]表示這兩幀特征矢量之間的距離,在DTW中通常采用歐式距離。 設(shè)測試模板T共有N幀,參考模板R共有M幀,將測試模板和參考模板的幀號分別在坐標(biāo)系的橫坐標(biāo)和縱坐標(biāo)上標(biāo)出,則各個幀號之間的關(guān)系可以形成一個網(wǎng)格,網(wǎng)格中的任何一個交叉點(n,m)表示測試模板的T(n)和參考模板的R(m)相交,并且該交叉點擁有幀失真為D[T(n),R(m)]。如上圖所示。DP算法就是尋找一條通過此網(wǎng)格中若干個格點的最佳路徑。路徑不是隨意選擇的,首先任何一種語音的發(fā)音快慢都有可能變化,但是其各部分的先后次序不可能改變,因此所選的路徑必定是從左下角出發(fā),在右上角結(jié)束。如下圖所示:21 2 3 4 5 6 7 8 9 10 NM91345678圖5 DTW算法搜索路徑假設(shè)路徑通過的格點依次為(n1,m1),…,(ni,mi),…,(nN,mM),其中(n1,m1)=(1,1),(nN,mM)=(N,M)。路徑可以用函數(shù)mi =Φ(ni)來描述,其中ni = i ,i = 1,2,…,N,Φ(1)=1,Φ(N)=M。為了使路徑不至于過分傾斜, ~ 2的范圍內(nèi)。如果路徑已通過了格點(ni1,mi1),那么下一個通不定期的格點(ni,mi)只可能是(ni1+1,mi1+2)、(ni1+1,mi1+1)和(ni1,mi1),用γ表示這種約束條件。求最佳路徑的問題即為:Σ D[n i,m i] = minN n i =1^m i =Φ(n i) ∈γΣ D[n i,m i] N n i =1m i =Φ(n i) ∈γΦ(●) (21)m i =Φ(n i) ^其中 為最佳路徑函數(shù)。D[(ni,mi)] = d [T(ni),R(mi)] + D[(ni1,mi1)] (22)其中的D[(n i1,m i1)]由下式?jīng)Q定D[(ni1,mi1)]=min{ D[(ni1,mi)],D[(ni1,mi1)],D[(ni1,mi2)]} (23) 從 (ni,mi) =(1,1) 開始往下搜索 (n2,m2),再搜索 (n3,m3) ……,對每一個 (ni,mi) 都存儲相應(yīng)的前一格點 (ni1,mi1) 及相應(yīng)的幀匹配距離d[ni,mi]。搜索到 (nN,mM) 時,只保留一條最佳路徑[4]。 由于DTW不斷地計算測試矢量與模板矢量的距離以尋找最優(yōu)的匹配路徑,所以得到的兩矢量匹配是累計距離最小的路徑函數(shù),這保證了它們之間存在最大的聲學(xué)相似特性。 改進的DTW算法通常,規(guī)整函數(shù)被限制在一個平行四邊形的網(wǎng)格內(nèi),它的一條邊斜率為2,另一條邊斜率為1/ 2。如圖6 所示。AXa Xb N xyM(N,M)y = 2x + (M – 2N)By = 2x 12—y = x12—y = x + (M – N)12— (1,1)圖6 匹配路徑約束示意圖規(guī)整函數(shù)的起點是 (1,1),終點為 ( N, M),DTW 算法的目的是在此平行四邊形內(nèi)由起點到終點尋找一個規(guī)整函數(shù),使其具有最小的代價函數(shù),保證了測試模板與參考模板之間具有最大的聲學(xué)相似特性。由于在模板匹配過程中限定了彎折的斜率,因此平行四邊形之外的格點對應(yīng)的幀匹配距離是不需要計算的。 另外,因為每一列各格點上的匹配計算只用到了前一列的3 個網(wǎng)格,所以沒有必要保存所有的幀匹配距離矩陣和累積距離矩陣。 充分利用這兩個特點可以減少計算量和存儲空間的需求,形成一種高效的DTW 算法。13—Xa = (2M – N )23—Xb = (2N – M )把實際的動態(tài)彎曲分為三段,(1,Xa),(Xa + 1,Xb)和(Xb + 1,N),其中: (24)由于Xa和Xb取最相近的整數(shù),從上式可出M和N的限制條件:2M – N ≥32N – M ≥2 (25)當(dāng)不滿足上式中的兩個條件時,可認為兩者差太大,無法進行動態(tài)彎折匹配。 在X軸上的每一幀不再需要與Y軸上的每一幀進行比較,而只是與Y軸上[ymin,ymax]間的幀進行比較。 ymin,ymax的計算如下式所示[3]Xa = Xb 時:12—12—x → 2 x x ≤ Xa2 x + (M – 2N ) → x + (M – N ) x > Xa12—當(dāng)Xa < Xb時比較分三段:12—12—12—12—12—x → 2 x x ≤ Xa x → x + (M – N ) Xa < x ≤ Xb2 x + (M – 2N ) → x + (M – N ) x > Xb12—當(dāng)Xa > Xb時:12—12—12—12—12—x → 2 x x ≤ Xb x → x + (M – N ) Xb < x ≤ Xa2 x + (M – 2N ) → x + (M – N ) x > Xa12— 沿X軸上每前進一幀,雖然所要比較的Y軸上的幀數(shù)不同,但彎曲特性是一樣的,這樣, 路徑的累積距離都為: D(x,y) = d(x,y) + min[D(x1,y) , D(x1,y1) , D(x1,y2)] (26)由于X 軸上每前進一幀,只需要用到前一列的積累距離,所以只需兩個矢量D 和d 分別保存前一列的累積距離和當(dāng)前列的累積距離,而不用保存整個矩陣。通過不斷更新數(shù)據(jù)來實現(xiàn),一直進行到待測模板的最后一幀,矢量D 的最后一個元素即為兩個模板經(jīng)過動態(tài)規(guī)劃后的匹配距離,這樣可大大減小存儲空間,減小計算量,從而提高識別速度。 除上面介紹的整體路徑約束的DTW算法外還有兩種簡單約束的DTW算法,下面分別進行簡單的介紹。 搜索寬度受限的DTW算法 在實際應(yīng)用中DTW算法加入了一些搜索限制條件, 實際的搜索范圍是在一定的寬度之內(nèi), 如圖7 所示的對角線附近的帶狀區(qū)域[9]。W i d t hNM圖7 對角線附近的帶狀區(qū)域圖在這個范圍之內(nèi)按動態(tài)規(guī)劃路徑計算累積匹配距離,可以進一步減少存儲空間,減少計算量,提高識別速度。放寬端點限制的DTW算法對于普通DTW對端點檢測比較敏感,端點信息是作為一組獨立的參數(shù)提供給識別算法,它要求兩個比較模式起點對起點,終點對終點,對端點檢測的精度要求比較高,當(dāng)環(huán)境噪聲比較大或語音由摩擦音構(gòu)成時,端點檢測不易進行,放松端點限制方法不嚴格要求端點對齊,克服了由于端點算法不精確造成的測試模式和參考模式起點終點不能對齊的問題,一般情況下,起點和終點在縱橫兩個方向只要放寬 2 3 幀就可以,也就是起點可以在(1,1)、(1,2)、(1,3)、(2,1)、(3,1),終點也可類似放松,放寬端點后的區(qū)域限制圖8在放松端點限制的動態(tài)時間規(guī)整算法中,累積距離矩陣中的元素(1,1)、(1,2)、(1,3)、(2,1)、(3,1),不是根據(jù)局部判決函數(shù)計算得到的,而是直接將幀匹配距離矩陣的元素填入,自動從其中選擇最小的一個作為起點,對于終點也是從松弛終點的允許范圍內(nèi)選擇一個最小值作為參考模式和未知模式的匹配距離。NM(1,1)圖8 放寬端點后的區(qū)域限制3 系統(tǒng)的軟件設(shè)計與仿真這一章主要介紹系統(tǒng)的軟件設(shè)計與仿真過程。軟件設(shè)計主要是包括語音預(yù)處理子程序、端點檢測子程序以及語音識別子程序。由于語音識別系統(tǒng)牽涉的算法子程序比較多,為了方便驗證。 語音預(yù)處理預(yù)加重一般是語音信號數(shù)字化以后,在參數(shù)分析之前在計算機里用具有6dB/倍頻程的提升高頻特性的預(yù)加重數(shù)字濾波器來實現(xiàn),它一般是一階的高通數(shù)字濾波器。H(Z) = 1 – μz 1 (31)上式中,μ值接近于1。本文中取μ= 。根據(jù)上式進行預(yù)加重。圖10為男生命令詞“停止”經(jīng)過預(yù)加重濾波后的仿真結(jié)果。8kHz采樣。從圖中可以看出預(yù)加重對信號處理的重要性,高頻部分的信號能量得到了加強。圖9 預(yù)加重后的語音效果 改進的端點檢測算法及仿真 改進的端點檢測算法資料表明,語音識別錯誤的原因一半來自端點檢測。因此,沒有足夠準確的語音起止點檢測,將會降低語音識別的識別率,特別是起點的檢測。在實驗室環(huán)境下,雖然信噪比比較大,但是人們發(fā)音時的一些無意識的噪聲,如人的呼吸氣流等都會造成誤檢。由于本文采用的都是一個字的孤立詞,因此采用基于動態(tài)噪聲的四狀態(tài)轉(zhuǎn)移端點檢測來消除這些影響。把整個端點檢測過程總共分成4個狀態(tài):status0、statusstatus2和status3分別代表靜音狀態(tài)(含噪聲)、起始過渡狀態(tài)、語音狀態(tài)和結(jié)束狀態(tài)。各狀態(tài)之間的轉(zhuǎn)換關(guān)系如圖所示。status0Status2Status1status3圖10 四狀態(tài)轉(zhuǎn)移的端點檢測為了提高端點檢測的精確性,消除呼吸氣流等無意識噪聲的影響,本文在基于狀態(tài)轉(zhuǎn)移的端點檢
點擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1