freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

語音識別控制小車設(shè)計本科畢業(yè)設(shè)計(編輯修改稿)

2024-08-19 17:39 本頁面
 

【文章內(nèi)容簡介】 (MFCC) 1. 線性預(yù)測系數(shù) (LPC) 這里我采用最簡單的一種線形預(yù)測系數(shù)特征矢量 (LPC)。 線性預(yù)測(Linear Prediction)分析是最有效的語音分析技術(shù)之一,在語音編碼、語音合成、語音識別和說話人識別等語音信號處理領(lǐng)域中得到了廣泛的應(yīng)用?;幽峡萍即髮W(xué)本科畢業(yè)設(shè)計(論文) 11 本思想是:一個語音信號的抽樣值 可以用過去的若干個抽樣值的線性組合來逼近。 語音信號是一種典型的時變信號,然而如果把觀察時間縮短到十毫秒至幾十毫秒,則可以得到一系列近似穩(wěn)定的信號。人的發(fā)音器官可以用若干段前后連接的聲管進(jìn)行模擬,這就是所謂的聲管模型。 由于發(fā)音器官不可能毫無規(guī)律地快速變化,因此語音信號是準(zhǔn)穩(wěn)定的(quasi steady)。全極點線性預(yù)測模型 (LPC)可以對聲管模型進(jìn)行很好的描述,這里信號的激勵源是由肺部氣流的沖擊引起的,聲帶可以有周期振動也可以不振動,分別對應(yīng)濁音 (Vowel)和清音 (Consonant),而每段聲管則對 應(yīng)一個 LPC 模型的極點。一般情況下,極點的個數(shù)在 12~16 之間,就可以足夠清晰地描述語音信號的特征了。 LPC 是語音分析的重要手段,它能很好地進(jìn)行譜估計,即可作為語音特征的參數(shù)。因此僅用 12 個 LPC 系數(shù)就能很好地表示復(fù)雜語音信號的特征,這就大大降低了信號的冗余度并有效地減少了計算量和存儲量,使之成為語音識別和語音壓縮的基礎(chǔ)。 1 ?( , 0 ) ( , )pn k nki a i k???? ? 1,2, ,kp? ???????????? 上式表示 p 個方程構(gòu)成的方程組,未知數(shù)為 p 個。求解該方程組,就可以得到系統(tǒng)的線性預(yù)測系數(shù)。由基于自相關(guān)的遞推求解公式求解,也就是所謂的 Durbin 算法得: (0) (0)nnER? ???????????????????????? 1 ( 1 )1( 1 )( ) ( )i in j nji inR i a R i jk E? ?????? ??????????????????? ()iiiak? ??????????? ??????????????? ( ) ( 1 ) ( 1 ) ,1i i ij j i i ja a k a j i???? ? ? ?????????????????? ( ) 2 ( 1)(1 )lin i nE k E ??? ????????????????????? 公式中,上標(biāo) ()i 表示第 i次迭代,每次迭代只計算和更新 12, , ,ia a a 直河南科技大學(xué)本科畢業(yè)設(shè)計(論文) 12 到 ip? 時,結(jié) 束迭代。 在 MATLAB 中利用 lpc 函數(shù)計算 LPC 系數(shù),其語法為: a = lpc(x,n)。 這里 x 為一幀語音信號, n 為計算 LPC 參數(shù)的階數(shù)。通常 x 為 240 點或256 點的數(shù)據(jù), n 取 10~12,對語音識別來說就已經(jīng)足夠。 2. 線性預(yù)測倒譜系數(shù) (LPCC) 在語音識別系統(tǒng)中,很少直接使用 LPC 系數(shù),而是由 LPC 系數(shù)推導(dǎo)出另一種參數(shù):線性預(yù)測倒譜系數(shù)( LPCC)。倒譜實際上是一種同態(tài)信號處理方法,標(biāo)準(zhǔn)的倒譜系數(shù)計算流程需要進(jìn)行 FFT 變換,對數(shù)操作和相位校正等步驟,運算比較復(fù)雜。在實際運作中大多數(shù)語音識別系統(tǒng) 都會采用倒譜參數(shù)來作為有關(guān)距離的度量。 LPC 倒譜系數(shù)是描述說話人聲道特性的,廣泛應(yīng)用于聲紋識別。在實際計算中,當(dāng)序列 x(n)為最小相位的情況下,可以利用序列 x(n)及其倒譜系數(shù) c(n)的遞推關(guān)系來簡化計算。 序列 x(n)及其復(fù)倒譜系數(shù) c(n)的遞推公式如下: 100 , 0() ( ) ( )? ( ) , 0( 0) ( 0)nknxn x n k x n kx k nx n x?????? ?? ???? ?????????????? LPCC 參數(shù)是一種非常重要的參數(shù),它不是由原始信號 x(n)得到,而是由 LPC 系數(shù) ma 得到的。由 式可得 LPC 到 LPCC 的直接遞推關(guān)系。 20 logcG? ????????????????????????? 11 ,1mm m k m kk kc a c a m pm???? ? ? ?? ???????????????? 11 ,mm k m kk kc c a m pm?????? ?????????????????? 3. Mel尺度 倒譜系數(shù) (MFCC) LPC 模型是基于發(fā)音模型建立的, LPCC 系數(shù)也是一種基于合成的參數(shù)。這種參數(shù)沒有充分利用人耳的聽覺特性。實際上,人的聽覺系統(tǒng)是一個特殊河南科技大學(xué)本科畢業(yè)設(shè)計(論文) 13 的非 線性系統(tǒng),它響應(yīng)不同頻率信號的靈敏度是不同的,基本上是一個對數(shù)的關(guān)系。近年來,一種能夠比較充分利用人耳這種特殊的感知特性的參數(shù)得到 了 廣 泛 的 應(yīng) 用 , 這 就 是 Mel 尺 度 倒 譜 參 數(shù) (Melscaled Cepstrum Coefficient),或稱 Mel 頻率倒譜系數(shù),簡稱為 MFCC。大量的研究表明, MFCC參數(shù)能夠比 LPCC 參數(shù)更好地提高系統(tǒng)的識別性能。從目前使用的情況來看,在大詞匯量語音識別應(yīng)用中已逐漸取代原本常用的線性預(yù)測編碼導(dǎo)出的倒頻譜參數(shù),原因是它考慮了人類發(fā)聲與接收聲音的特性,具有更好的魯棒性。由于語音信 號在時域上的變化快速而不穩(wěn)定,所以通常都將它轉(zhuǎn)換到頻域上來觀察,此時它的頻譜會隨著時間作緩慢的變化。所以通常將加窗后的幀經(jīng)過快速傅立葉變換( FFT),求出每幀的頻譜參數(shù)。再將每幀的頻譜參數(shù)通過一組 N 個( N 一般為 20 ~ 30 個)三角形帶通濾波器所組成的 Mel 頻率濾波器,將每個頻帶的輸出取對數(shù),求出每一個輸出的對數(shù)能量( log energy)Ek, k =1, 2, ... N。再將此 N 個參數(shù)進(jìn)行余弦變換( cosine transform) 求出 L 階的 Mel scale cepstrum 參數(shù)。 MFCC 參數(shù)的計算是以“ bark”為其頻率基準(zhǔn)的,它和線性頻率的轉(zhuǎn)換關(guān)系是: 102 5 9 5 lo g (1 )700mel ff ????????????????????? MFCC 參數(shù)也是按幀計算的。首先要通過 FFT得到該幀信號的功率譜 ()Sn,轉(zhuǎn)換為 Mel 頻率下的功率譜。這需要在計算之前先在語音的頻譜范圍內(nèi)設(shè)置若干個帶通濾波器: ( ) , 0 , 1 , , 1 , 0 , 1 , , 12m NH n m M n? ? ? ??????????? MFCC 參數(shù)的計算通常采用如下的流程: ( 1) 首先 確定每一幀語音采樣序列的點數(shù)。對每幀序列 ()sn進(jìn)行預(yù)加重 處理后再經(jīng)過離散 FFT 變換,取模的平方得到離散功率譜 ()Sn。 ( 2)計算 ()Sn通過 M 個 ()mHn后所得的功率值,即計算 ()Sn和 ()mHn在 各離散頻率點上乘積之和,得到 M 個參數(shù) mP , 0,1, , 1mM??。 ( 3)計算 mP 的自然對數(shù),得到 mL , 0,1, , 1mM??。 河南科技大學(xué)本科畢業(yè)設(shè)計(論文) 14 ( 4)對 0 1 1, , , mL L L ? 計算其離散余弦變換,得到 mD , 0,1, , 1mM??。 ( 5)舍去代表直流成分的 0D ,取 12, , , KD D D 作為 MFCC 參數(shù)。 167。 用 MATLAB 實現(xiàn) LPC 系數(shù)的計算 本系統(tǒng)使用的特征參數(shù)是線性預(yù)測系數(shù) (LPC)。在 MATLAB 中利用 lpc 函數(shù)計算 LPC 系數(shù),其語法為: a = lpc(x,n)。 這里 x 為一幀語音信號, n 為計算 LPC 參數(shù)的階數(shù)。通常 x 為 240 點或256 點的數(shù)據(jù), n 取 10~12,對語音識別來說就已經(jīng)足夠。 167。 語音識別中的模式匹配 167。 DTW 算法原理 目前 ,語音 識別的匹配主要應(yīng)用 HMM 和 DTW 兩種算法。 DTW 算法由于沒有一個有效地用統(tǒng)計方法進(jìn)行訓(xùn)練的框架,也不容易將低層和頂層的各種知識用到語音識別算法中,因此在解決大詞匯量、連續(xù)語音、非特定人語音識別問題時較之 HMM 算法相形見絀。 HMM 是一種用參數(shù)表示的 ,用于描述隨機過程統(tǒng)計特性的概率模型。而對于孤立詞識別 ,HMM 算法和 DTW 算法在相同條件下 ,識別效果相差不大 , 又由于 DTW 算法本身既簡單又有效,但 HMM 算法要復(fù)雜得多。它需要在訓(xùn)練階段提供大量的語音數(shù)據(jù) ,通過反復(fù)計算才能得到參數(shù)模型 ,而 DTW 算法的訓(xùn)練中幾乎不需要 額外的計算。鑒于此 ,DTW 更適合本系統(tǒng)的要求。 在孤立詞語音識別中,最為簡單有效的方法是采用 DTW( Dynamic Time Warping,動態(tài)時間歸整)算法,該算法基于動態(tài)規(guī)劃( DP)的思想,解決了發(fā)音長短不一的模板匹配問題,是語音識別中出現(xiàn)較早、較為經(jīng)典的一種算法。用于孤立詞識別, DTW 算法與 HMM 算法在訓(xùn)練階段需要提供大量的語音數(shù)據(jù),通過反復(fù)計算才能得到模型參數(shù),而 DTW 算法的訓(xùn)練中幾乎不需要額外的計算。所以在孤立詞語音識別中, DTW 算法仍然得到廣泛的應(yīng)用。 無論在訓(xùn)練和建立模板階段還是在識別階 段,都先采用端點算法確定語音的起點和終點。已存入模板庫的各個詞條稱為參考模板,一個參考模板可河南科技大學(xué)本科畢業(yè)設(shè)計(論文) 15 表示為 R={R( 1), R( 2),??, R( m),??, R( M) }, m 為訓(xùn)練語音幀的時序標(biāo)號, m=1 為起點語音幀, m=M 為終點語音幀,因此 M 為該模板所包含的語音幀總數(shù), R( m)為第 m 幀的語音特征矢量。所要識別的一個輸入詞條語音稱為測試模板,可表示為 T={T( 1), T( 2),??, T( n),??, T( N) },n 為測試語音幀的時序標(biāo)號, n=1 為起點語音幀, n=N 為終點語音幀,因此 N為該模板所包含的語音幀總數(shù), T( n)為第 n 幀的語音特征矢量。參考模板與測試模板一般采用相同類型的特征矢量(如 MFCC, LPC 系數(shù))、相同的幀長、相同的窗函數(shù)和相同的幀移。 假設(shè)測試和參考模板分別用 T 和 R 表示,為了比較它們之間的相似度,可以計算它們之間的距離 D[T, R],距離越小則相似度越高。為了計算這一失真距離,應(yīng)從 T 和 R 中各個對應(yīng)幀之間的距離算起。設(shè) n 和 m 分別是 T 和R 中任意選擇的幀號, d[T( n), R( m) ]表示這兩幀特征矢量之間的距離。距離函數(shù)取決于實際采用的距離度量,在 DTW 算法中通常采用歐氏距離。 若 N=M 則可以直接計算,否則要考慮將 T( n)和 R( m)對齊。對齊可以采用線性擴張的方法,如果 NM 可以將 T 線性映射為一個 M 幀的序列,再計算它與 {R( 1), R( 2),??, R( M) }之間的距離。但是這樣的計算沒有考慮到語音中各個段在不同情況下的持續(xù)時間會產(chǎn)生或長或短的變化,因此識別效果不可能最佳。因此更多的是采用動態(tài)規(guī)劃( DP)的方法。 如果把測試模板的各個幀號 n=1~N 在一個二維直角坐標(biāo)系中的橫軸上標(biāo)出,把參考模板的各幀號 m=1~M 在縱軸上標(biāo)出,通過這些表示幀號的整數(shù)坐標(biāo)畫出一些縱橫線即可形成一個網(wǎng)絡(luò),網(wǎng)絡(luò)中的每一個交叉點( n, m)表示測試 模式中某一幀的交匯點。 DP 算法可以歸結(jié)為尋找一條通過此網(wǎng)絡(luò)中若干格點的路徑,路徑通過的格點即為測試和參考模板中進(jìn)行計算的幀號。路徑不是隨意選擇的,首先任何一種語音的發(fā)音快慢都有可能變化,但是其各部分的先后次序不可能改變,因此所選的路徑必定是從左下角出發(fā),在右上角結(jié)束。 為了描述這條路徑,假設(shè)路徑通過的所有格點依次為( n , m ),??,( n , m ),??,( n , m ),其中( n , m ) =( 1, 1),( n , m ) =( N, M)。路徑可
點擊復(fù)制文檔內(nèi)容
研究報告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1