freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

語音識別控制小車設(shè)計(jì)本科畢業(yè)設(shè)計(jì)(編輯修改稿)

2024-07-23 09:17 本頁面
 

【文章內(nèi)容簡介】 推求解公式求解,也就是所謂的Durbin算法得:…………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………公式中,上標(biāo)表示第次迭代,每次迭代只計(jì)算和更新 直到時(shí),結(jié)束迭代。在MATLAB中利用lpc函數(shù)計(jì)算LPC系數(shù),其語法為:a = lpc(x,n)。這里x為一幀語音信號,n為計(jì)算LPC參數(shù)的階數(shù)。通常x為240點(diǎn)或256點(diǎn)的數(shù)據(jù),n取10~12,對語音識別來說就已經(jīng)足夠。2. 線性預(yù)測倒譜系數(shù)(LPCC)在語音識別系統(tǒng)中,很少直接使用LPC系數(shù),而是由LPC系數(shù)推導(dǎo)出另一種參數(shù):線性預(yù)測倒譜系數(shù)(LPCC)。倒譜實(shí)際上是一種同態(tài)信號處理方法,標(biāo)準(zhǔn)的倒譜系數(shù)計(jì)算流程需要進(jìn)行FFT變換,對數(shù)操作和相位校正等步驟,運(yùn)算比較復(fù)雜。在實(shí)際運(yùn)作中大多數(shù)語音識別系統(tǒng)都會采用倒譜參數(shù)來作為有關(guān)距離的度量。LPC 倒譜系數(shù)是描述說話人聲道特性的,廣泛應(yīng)用于聲紋識別。在實(shí)際計(jì)算中,當(dāng)序列x(n)為最小相位的情況下,可以利用序列x(n)及其倒譜系數(shù)c(n)的遞推關(guān)系來簡化計(jì)算。序列x(n)及其復(fù)倒譜系數(shù)c(n)的遞推公式如下:…………………………………LPCC參數(shù)是一種非常重要的參數(shù),它不是由原始信號x(n)得到,而是由LPC系數(shù)得到的。……………………………………………………………………………………………………………………………………………………………3. Mel尺度倒譜系數(shù)(MFCC)LPC模型是基于發(fā)音模型建立的,LPCC系數(shù)也是一種基于合成的參數(shù)。這種參數(shù)沒有充分利用人耳的聽覺特性。實(shí)際上,人的聽覺系統(tǒng)是一個(gè)特殊的非線性系統(tǒng),它響應(yīng)不同頻率信號的靈敏度是不同的,基本上是一個(gè)對數(shù)的關(guān)系。近年來,一種能夠比較充分利用人耳這種特殊的感知特性的參數(shù)得到了廣泛的應(yīng)用,這就是Mel尺度倒譜參數(shù)(Melscaled Cepstrum Coefficient),或稱Mel頻率倒譜系數(shù),簡稱為MFCC。大量的研究表明,MFCC參數(shù)能夠比LPCC參數(shù)更好地提高系統(tǒng)的識別性能。從目前使用的情況來看,在大詞匯量語音識別應(yīng)用中已逐漸取代原本常用的線性預(yù)測編碼導(dǎo)出的倒頻譜參數(shù),原因是它考慮了人類發(fā)聲與接收聲音的特性,具有更好的魯棒性。由于語音信號在時(shí)域上的變化快速而不穩(wěn)定,所以通常都將它轉(zhuǎn)換到頻域上來觀察,此時(shí)它的頻譜會隨著時(shí)間作緩慢的變化。所以通常將加窗后的幀經(jīng)過快速傅立葉變換(FFT),求出每幀的頻譜參數(shù)。再將每幀的頻譜參數(shù)通過一組N 個(gè)( N 一般為20 ~ 30 個(gè))三角形帶通濾波器所組成的Mel頻率濾波器,將每個(gè)頻帶的輸出取對數(shù),求出每一個(gè)輸出的對數(shù)能量(log energy)Ek,k =1,2,... N。再將此N 個(gè)參數(shù)進(jìn)行余弦變換(cosine transform) 求出L 階的Mel scale cepstrum 參數(shù)。MFCC參數(shù)的計(jì)算是以“bark”為其頻率基準(zhǔn)的,它和線性頻率的轉(zhuǎn)換關(guān)系是:…………………………………………………MFCC參數(shù)也是按幀計(jì)算的。首先要通過FFT得到該幀信號的功率譜,轉(zhuǎn)換為Mel頻率下的功率譜。這需要在計(jì)算之前先在語音的頻譜范圍內(nèi)設(shè)置若干個(gè)帶通濾波器:…………………………MFCC參數(shù)的計(jì)算通常采用如下的流程:(1) 首先確定每一幀語音采樣序列的點(diǎn)數(shù)。對每幀序列進(jìn)行預(yù)加重處理后再經(jīng)過離散FFT變換,取模的平方得到離散功率譜。(2)計(jì)算通過M個(gè)后所得的功率值,即計(jì)算和在 各離散頻率點(diǎn)上乘積之和,得到M個(gè)參數(shù)。(3)計(jì)算的自然對數(shù),得到。(4)對計(jì)算其離散余弦變換,得到。(5)舍去代表直流成分的,取作為MFCC參數(shù)。167。 用MATLAB實(shí)現(xiàn)LPC系數(shù)的計(jì)算本系統(tǒng)使用的特征參數(shù)是線性預(yù)測系數(shù)(LPC)。在MATLAB中利用lpc函數(shù)計(jì)算LPC系數(shù),其語法為:a = lpc(x,n)。這里x為一幀語音信號,n為計(jì)算LPC參數(shù)的階數(shù)。通常x為240點(diǎn)或256點(diǎn)的數(shù)據(jù),n取10~12,對語音識別來說就已經(jīng)足夠。167。 語音識別中的模式匹配167。 DTW算法原理目前,語音識別的匹配主要應(yīng)用HMM和DTW兩種算法。DTW算法由于沒有一個(gè)有效地用統(tǒng)計(jì)方法進(jìn)行訓(xùn)練的框架,也不容易將低層和頂層的各種知識用到語音識別算法中,因此在解決大詞匯量、連續(xù)語音、非特定人語音識別問題時(shí)較之HMM算法相形見絀。HMM是一種用參數(shù)表示的,用于描述隨機(jī)過程統(tǒng)計(jì)特性的概率模型。而對于孤立詞識別,HMM算法和DTW算法在相同條件下,識別效果相差不大, 又由于DTW算法本身既簡單又有效,但HMM算法要復(fù)雜得多。它需要在訓(xùn)練階段提供大量的語音數(shù)據(jù),通過反復(fù)計(jì)算才能得到參數(shù)模型,而DTW算法的訓(xùn)練中幾乎不需要額外的計(jì)算。鑒于此,DTW更適合本系統(tǒng)的要求。 在孤立詞語音識別中,最為簡單有效的方法是采用DTW(Dynamic Time Warping,動(dòng)態(tài)時(shí)間歸整)算法,該算法基于動(dòng)態(tài)規(guī)劃(DP)的思想,解決了發(fā)音長短不一的模板匹配問題,是語音識別中出現(xiàn)較早、較為經(jīng)典的一種算法。用于孤立詞識別,DTW算法與HMM算法在訓(xùn)練階段需要提供大量的語音數(shù)據(jù),通過反復(fù)計(jì)算才能得到模型參數(shù),而DTW算法的訓(xùn)練中幾乎不需要額外的計(jì)算。所以在孤立詞語音識別中,DTW算法仍然得到廣泛的應(yīng)用。 無論在訓(xùn)練和建立模板階段還是在識別階段,都先采用端點(diǎn)算法確定語音的起點(diǎn)和終點(diǎn)。已存入模板庫的各個(gè)詞條稱為參考模板,一個(gè)參考模板可表示為R={R(1),R(2),……,R(m),……,R(M)},m為訓(xùn)練語音幀的時(shí)序標(biāo)號,m=1為起點(diǎn)語音幀,m=M為終點(diǎn)語音幀,因此M為該模板所包含的語音幀總數(shù),R(m)為第m幀的語音特征矢量。所要識別的一個(gè)輸入詞條語音稱為測試模板,可表示為T={T(1),T(2),……,T(n),……,T(N)},n為測試語音幀的時(shí)序標(biāo)號,n=1為起點(diǎn)語音幀,n=N為終點(diǎn)語音幀,因此N為該模板所包含的語音幀總數(shù),T(n)為第n幀的語音特征矢量。參考模板與測試模板一般采用相同類型的特征矢量(如MFCC,LPC系數(shù))、相同的幀長、相同的窗函數(shù)和相同的幀移。 假設(shè)測試和參考模板分別用T和R表示,為了比較它們之間的相似度,可以計(jì)算它們之間的距離D[T,R],距離越小則相似度越高。為了計(jì)算這一失真距離,應(yīng)從T和R中各個(gè)對應(yīng)幀之間的距離算起。設(shè)n和m分別是T和R中任意選擇的幀號,d[T(n),R(m)]表示這兩幀特征矢量之間的距離。距離函數(shù)取決于實(shí)際采用的距離度量,在DTW算法中通常采用歐氏距離。 若N=M則可以直接計(jì)算,否則要考慮將T(n)和R(m)對齊。對齊可以采用線性擴(kuò)張的方法,如果NM可以將T線性映射為一個(gè)M幀的序列,再計(jì)算它與{R(1),R(2),……,R(M)}之間的距離。但是這樣的計(jì)算沒有考慮到語音中各個(gè)段在不同情況下的持續(xù)時(shí)間會產(chǎn)生或長或短的變化,因此識別效果不可能最佳。因此更多的是采用動(dòng)態(tài)規(guī)劃(DP)的方法。 如果把測試模板的各個(gè)幀號n=1~N在一個(gè)二維直角坐標(biāo)系中的橫軸上標(biāo)出,把參考模板的各幀號m=1~M在縱軸上標(biāo)出,通過這些表示幀號的整數(shù)坐標(biāo)畫出一些縱橫線即可形成一個(gè)網(wǎng)絡(luò),網(wǎng)絡(luò)中的每一個(gè)交叉點(diǎn)(n,m)表示測試模式中某一幀的交匯點(diǎn)。DP算法可以歸結(jié)為尋找一條通過此網(wǎng)絡(luò)中若干格點(diǎn)的路徑,路徑通過的格點(diǎn)即為測試和參考模板中進(jìn)行計(jì)算的幀號。路徑不是隨意選擇的,首先任何一種語音的發(fā)音快慢都有可能變化,但是其各部分的先后次序不可能改變,因此所選的路徑必定是從左下角出發(fā),在右上角結(jié)束。為了描述這條路徑,假設(shè)路徑通過的所有格點(diǎn)依次為(n ,m ),……,(n ,m ),……,(n ,m ),其中(n ,m )=(1,1),(n ,m )=(N,M)。路徑可以用函數(shù)m =216。(n )描述,其中n =i,i=1,2,……,N,216。(1)=1,216。(N)=M。為了使路徑不至于過傾斜,~2的范圍內(nèi),如果路徑已經(jīng)通過了格點(diǎn)(n ,m ),那么下一個(gè)通過的格點(diǎn)(n ,m )只可能是下列三種情況之一: (n ,m )=(n +1,m +2) (n ,m )=(n +1,m +1) (n ,m )=(n +1,m ) 用r表示上述三個(gè)約束條件。求最佳路徑的問題可以歸結(jié)為滿足約束條件r時(shí),求最佳路徑函數(shù)m =216。(n ),使得沿路徑的積累距離達(dá)到最小值,即: 搜索該路徑的方法如下:搜索從(n ,m )點(diǎn)出發(fā),可以展開若干條滿足?的路徑,假設(shè)可計(jì)算每條路徑達(dá)到(n ,m )點(diǎn)時(shí)的總的積累距離,具有最小累積距離者即為最佳路徑。易于證明,限定范圍的任一格點(diǎn)(n ,m )只可能有一條搜索路徑通過。對于(ni,mi),其可達(dá)到該格點(diǎn)的前一個(gè)格點(diǎn)只可能是(n ,m )、(n ,m 1)和(n ,m 2),那么(n ,m )一定選擇這3個(gè)距離之路徑延伸而通過(n ,m ),這時(shí)此路徑的積累距離為: D[(n ,m )]=d[T(n ),R(m )]+D[(n , m )] 其中的n = n 1 ,m 1由下式?jīng)Q定: D[(n ,m )]=min{D[(n , m )],D[(n , m 1)],D[(n , m 2)]} 這樣可以從(n ,m )=(1,1)出發(fā)搜索(n ,m ),再搜索(n ,m ),……,對每一個(gè)(n ,m )都存儲相應(yīng)的前一格點(diǎn)(n ,m )及相應(yīng)的幀匹配距離d[n ,m ]。搜索到(n ,m )時(shí),只保留一條最佳路徑。如果有必要的話,通過逐點(diǎn)向前尋找就可以求得整條路徑。這套DP算法便是DTW算法。 167。 程序?qū)崿F(xiàn)DTW算法可以直接按上面的描述來實(shí)現(xiàn),即分
點(diǎn)擊復(fù)制文檔內(nèi)容
語文相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1