freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于matlab的語音識別系統(tǒng)的設(shè)計(jì)本科畢業(yè)設(shè)計(jì)(編輯修改稿)

2025-07-19 01:17 本頁面
 

【文章內(nèi)容簡介】 均過零率可以獲得較好的檢測效果。一次一般的識別系統(tǒng),其前端的端點(diǎn)檢測過程都是將這兩個(gè)參數(shù)結(jié)合用于檢測語音是否真的開始?!?”的過零率,可為端點(diǎn)檢測提供參考。 語音信號“0”的短時(shí)平均過零率語音信號xw(n)的短時(shí)自相關(guān)函數(shù)Rn(k)的計(jì)算式如下: (28)這里K是最大的延遲點(diǎn)數(shù)。短時(shí)自相關(guān)函數(shù)具有一些性質(zhì),如它是偶函數(shù)假設(shè)序列具有周期性,則其自相關(guān)函數(shù)也是同周期的周期函數(shù)等。因此對于濁音語音可以用自相關(guān)函數(shù)求出語音波形序列的基音周期。短時(shí)自相關(guān)函數(shù)是語音信號時(shí)域分析的重要參量。但是,計(jì)算自相關(guān)函數(shù)的運(yùn)算量很大,其原因是乘法運(yùn)算所需要的時(shí)間較長。利用快速傅立葉變換等簡化計(jì)算方法都無法避免乘法運(yùn)算。為了避免乘法,一個(gè)簡單的方法就是利用差值,為此常常采用另一種與自相關(guān)函數(shù)類似作用的參量,即短時(shí)平均幅度差函數(shù)(AMDP)。平均幅度差函數(shù)能夠代替自相關(guān)函數(shù)進(jìn)行語音分析,是基于這樣一個(gè)事實(shí):如果信號是完全的周期信號(設(shè)周期為Np。),則相距為周期的整數(shù)倍的樣點(diǎn)上的幅值是相等的,差值為零。即: (29)對于實(shí)際的語音信號,d(n)雖不為零,但其值很小。這些極小值將出現(xiàn)在整數(shù)倍周期的位置上。為此,可定義短時(shí)平均幅度差函數(shù): (210)顯然,如果x(n)在窗口取值范圍內(nèi)具有周期性,則將出現(xiàn)極小值。,對于周期性的x(n),F(xiàn)n(k)也呈現(xiàn)周期性。與Rn(k)相反的是,在周期的各個(gè)整數(shù)倍點(diǎn)上Fn(k)具有谷值而不是峰值?!?”的自相關(guān)函數(shù)語音端點(diǎn)檢測的準(zhǔn)確性和可靠性,對系統(tǒng)識別率的提高起著重要的作用當(dāng)系統(tǒng)收到一段包含語音的信號時(shí),系統(tǒng)需要對語音的端點(diǎn)進(jìn)行定位,丟棄語音前.后多余的噪音段。如果語音前后噪音保留過多,則會增加不同語音的共同成分,對識別產(chǎn)生干擾;而如果語音部分被切割掉,則會造成語音信息的丟失,若丟失的恰是區(qū)分語音的重要特征,則造成誤識。正確確定語音端點(diǎn)也會減少系統(tǒng)的計(jì)算量和存儲量。語音端點(diǎn)檢測算法主要是根據(jù)語音的一些特征參數(shù),短時(shí)能量、過零率等完成端點(diǎn)檢測。端點(diǎn)檢測有雙門限前端檢測算法和多門限過零率前端檢測算法。雙門限前端檢測算法用于有話、無話鑒別或詞語前端檢測,通常窗長(即幀長)取10~15ms,幀間隔(即采樣間隔)取5~10ms,有一定的抗干擾能力,即使存在小的隨機(jī)噪聲,只要它不使信號越過正負(fù)門限所構(gòu)成的帶,就不會產(chǎn)生虛假的過零率。多門限過零率前端檢測算法是設(shè)多個(gè)高低不同的門限。與一股的單門限過零率法相比,可明顯地減少前端誤判,但是有時(shí)存在較大時(shí)延。因?yàn)槭状握业礁唛T限越過點(diǎn),再往前推可能要搜索200ms左右才能找到清音的起點(diǎn),這就不便于實(shí)現(xiàn)實(shí)時(shí)特征提取。語音的感知過程與人類聽覺系統(tǒng)具有頻譜分析功能是緊密相關(guān)的。因此,對語音信號進(jìn)行頻譜分析,是認(rèn)識語音信號和處理語音信號的的重要方法。利用一組濾波器來分析語音信號的頻譜,方法使用簡單、實(shí)時(shí)性好、受外界環(huán)境的影響小。濾波器組法所用的濾波器可以是模擬濾波器,也可以是數(shù)字濾波器。濾波器可以用寬帶帶通濾波器,也可以用窄帶帶通濾波器。寬帶帶通濾波器具有平坦性,用它可以粗略地求取語音的頻譜,其頻率分辨率降低,相當(dāng)于短時(shí)處理時(shí)窗寬較窄的那種情況。使用窄帶帶通濾波器,其頻率分辨率提高,相當(dāng)于短時(shí)處理時(shí)窗寬較寬的那種情況。語音信號x(t)輸入帶通濾波器f1,f2,…… fn,濾波器輸出為具有一定頻帶的中心頻率為f1,f2,…… fn的信號??梢詫V波器組的輸出經(jīng)過自適應(yīng)增量調(diào)制器變?yōu)槎M(jìn)制脈沖信號,再經(jīng)過多路開關(guān),變?yōu)橐淮M(jìn)制脈沖信號。這種信號可以輸入計(jì)算機(jī)進(jìn)行各種分析和處理。傅立葉頻譜分析是語音信號頻域分析中廣泛采用的一種方法。它是法國科學(xué)家J.Fourier在1807年為了得到熱傳導(dǎo)方程的簡便解法而提出的。傅立葉頻譜分析的基礎(chǔ)是傅立葉變換,用傅立葉變換及其反變換可以求得傅立葉譜、自相關(guān)函數(shù)、功率譜、倒譜。由于語音信號的特性是隨著時(shí)間緩慢變化的,由此引出語音信號的短時(shí)分析。信號x(盯)的短時(shí)傅立葉變換為: (211)式中,w(n)為窗口函數(shù)。 從帶通濾波器作用理解短時(shí)傅里葉變換可以看作是加窗后函數(shù)的傅立葉變換,為了實(shí)現(xiàn)反變換,將進(jìn)行頻率采樣,即令則有 (212) 式中,L為頻率采樣點(diǎn)數(shù)。短時(shí)功率譜實(shí)際上是短時(shí)傅立葉變換幅度的平方,它是信號x(n)的短時(shí)自相關(guān)函數(shù)的傅立葉變換,即 (213)式中Rn(k)是自相關(guān)函數(shù)。 幾種基于短時(shí)傅里葉變換譜之間的關(guān)系 LPCC倒譜系數(shù)線性預(yù)測倒譜參數(shù)(Linear Prediction Cepstrum Coefficient,LPCC)是線性預(yù)測系數(shù)在倒譜域中的表示,該特征是基于語音信號為自回歸信號的假設(shè),利用線性預(yù)測分析獲得倒譜系數(shù)。LPCC參數(shù)的優(yōu)點(diǎn)是計(jì)算量小,易于實(shí)現(xiàn),對元音有較好的描述能力,其缺點(diǎn)在于對輔音的描述能力較差,抗噪聲性能較差。語音信號的倒譜與LPC系數(shù)之間的遞推關(guān)系: (214)或是由LPC得到 (215)根據(jù)同態(tài)處理的概念和語音信號產(chǎn)生的模型,語音信號的倒譜c(n)等于激勵(lì)信號的倒譜與聲道傳輸函數(shù)的倒譜之和。通過分析激勵(lì)信號的語音特點(diǎn)以及聲道傳輸函數(shù)的零極點(diǎn)分布情況,可知的分布范圍很寬,c(n)從低時(shí)域延伸到高時(shí)域,而主要分布于低時(shí)域中。語音信號所攜帶的語音信息主要體現(xiàn)在聲道傳輸函數(shù)上,因而在語音識別中通常取語音信號倒譜的低時(shí)域構(gòu)成LPC倒譜特征c,即 (216)式中,q為LPC倒譜特征的階數(shù)。然而LPCC同時(shí)也繼承了LPC的缺陷,其主要的一點(diǎn)就是LPC在所有的頻率上都是線性逼近語音的,而這與人的聽覺的特性是不一致的;而且LPC包含了語音高頻部分的大部分噪聲細(xì)節(jié),這些都會影響系統(tǒng)的性能。 Mel頻率倒譜系數(shù)美爾頻標(biāo)倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,MFCC)考慮了人耳的聽覺特性,將頻譜轉(zhuǎn)化為基于Mel頻標(biāo)的非線性頻譜,然后轉(zhuǎn)換到倒譜域上。由于充分考慮了人耳的聽覺特性,而且沒有任何的前提假設(shè),MFCC參數(shù)具有良好的識別性能和抗噪聲能力,但其計(jì)算量和計(jì)算精度要求高。MFCC不同于LPCC。在漢語數(shù)碼語音識別中,MFCC參數(shù)的性能明顯優(yōu)于LPCC參數(shù)。MFCC是采用濾波器組的方法計(jì)算出來的,這組濾波器在頻率的美爾坐標(biāo)上是等寬的。這是因?yàn)槿祟愒趯s1000Hz以上的聲音頻率范圍的感知不遵循線性關(guān)系,而是遵循在對數(shù)頻率坐標(biāo)上的近似線性關(guān)系。Mel頻率可以用如下公式表示: (217)對頻率軸的不均勻劃分是MFCC特征區(qū)別于普通倒譜特征的最重要的特點(diǎn)。將頻率按照式(217)變換到Mel域后,Mel帶通濾波器組的中心頻率是按照Mel頻率刻度均勻排列的。在實(shí)際應(yīng)用中,MFCC倒譜系數(shù)計(jì)算過程如下:(1) 將信號進(jìn)行分幀,預(yù)加重和加哈明窗處理,然后進(jìn)行短時(shí)傅立葉變換并得到其頻譜。(2) 求出頻譜平方,即能量譜,并用M個(gè)Mel帶通濾波器進(jìn)行濾波;由于每一個(gè)頻帶中分量的作用在入耳中是疊加的,因此將每個(gè)濾波器頻帶內(nèi)的能量進(jìn)行疊加,這時(shí)第k個(gè)濾波器輸出功率譜X(k)。(3) 將每個(gè)濾波器的輸出取對數(shù),得到相應(yīng)頻帶的對數(shù)功率譜;并進(jìn)行反離散余弦變換,得到L個(gè)MFCC系數(shù),一般L取12~16個(gè)左右。MFCC系數(shù)為 (218)(4)將這種直接得到的MFCC特征作為靜態(tài)特征,再將這種靜態(tài)特征傲一階和二階差分。得到相應(yīng)的動(dòng)態(tài)特征。三、語音識別主要算法日本學(xué)者首先將動(dòng)態(tài)規(guī)劃的概念用于解決孤立詞識別時(shí)說話速度不均勻的難題,提出了著名的DTW算法,當(dāng)詞匯表較小以及各個(gè)詞條不易于混淆時(shí),這個(gè)算法取得了很大成功。從而自60年代末期開始引起了語音識別的研究熱潮。在孤立詞語音識別中,最為簡單有效的方法就是該算法,該算法基于動(dòng)態(tài)規(guī)劃(DP)的思想,解決了發(fā)音長短不一的模板匹配問題,是語音識別中出現(xiàn)較早、較為經(jīng)典的一種算法。用于孤立詞識別,DTW算法與HMM算法在相同的環(huán)境條件下,識別效果相差不大,但HMM算法要復(fù)雜得多,主要體現(xiàn)在HMM算法在訓(xùn)練階段需要提供大量的語音數(shù)據(jù),通過反復(fù)計(jì)算才能得到模型參數(shù),而DTW算法的訓(xùn)練中幾乎不需要額外的計(jì)算。所以在孤立詞語音識別中,DTW算法仍得到廣泛的應(yīng)用。在訓(xùn)練和建立模板階段以及在識別階段,都采用端點(diǎn)檢測算法確定語音的起點(diǎn)和終點(diǎn)。已存入模板庫的各個(gè)詞條稱為參考模板,一個(gè)參考模板可表示為,m為訓(xùn)練語音幀的時(shí)序標(biāo)號,m=1為起點(diǎn)語音幀,m=M為終點(diǎn)語音幀,因此為該模板所包含的語音幀總數(shù),為第幀的語音特征矢量。所要識別的一個(gè)輸入詞條語音稱為測試模板,可表示為,為測試語音幀的時(shí)序標(biāo)號,n=1為起點(diǎn)語音幀,n=N為終點(diǎn)語音幀,因此N為該模板所包含的語音幀總數(shù),T(n)為第n幀的語音特征矢量。參考模板與測試模板一般采用相同類型的特征矢量(如MFCC系數(shù))、相同的幀長、相同的窗函數(shù)和相同的幀移。測試和參考模板分別用T和R表示,為了比較它們之間的相似度,可以計(jì)算它們之間的距離D[T,R],距離越小則相似度越高。為了計(jì)算這一失真距離,應(yīng)從T和R中各個(gè)對應(yīng)幀之間的距離算起。設(shè)n和m分別是T和R中任意選擇的幀號,d[T(n),R(m)]表示這兩幀之間的距離。距離函數(shù)取決于實(shí)際采用的距離度量,在DTW算法中通常采用歐氏距離。DTW算法是把時(shí)間規(guī)正和距離測度計(jì)算結(jié)合起來的一種非線性規(guī)正技術(shù)。如設(shè):(1)參考模板特征矢量序列為。(2)輸入語音特征矢量序列為,如果M≠N,那么DTW算法就是要尋找時(shí)間規(guī)正函數(shù)m=w(n),它把輸入模板的時(shí)間軸療非線性的映射到參考模板的時(shí)間軸m,并且該w滿足: (31)式中,d[n,w(n)]是第n幀輸入矢量和第m幀參考矢量的距離,D是相應(yīng)于最優(yōu)時(shí)間規(guī)正下二模板的距離測度。若N=M則可以直接計(jì)算,否則要考慮將T(n)和R(m)對齊。對齊可以采用線性擴(kuò)張的方法,如果NM可以將T線性映射為一個(gè)M幀的序列,再計(jì)算它與之間的距離。但是這樣的計(jì)算沒有考慮到語音中各個(gè)段在不同的情況下的持續(xù)時(shí)間會產(chǎn)生或長或短的變化,因此識別效果不可能最佳。因而更多地是采用動(dòng)態(tài)規(guī)劃(DP)的方法。DTW是一個(gè)典型的最優(yōu)化問題。它用滿足一定條件的時(shí)間規(guī)正函數(shù)w(n)描述輸入模板和參考模板的時(shí)間對應(yīng)關(guān)系,求解二模板匹配時(shí)累計(jì)距離最小所對應(yīng)的規(guī)正函數(shù):所以DTW保證了二模板間存在的最大聲學(xué)相似性。DTW算法的優(yōu)點(diǎn)是既簡單又有效,對于小詞匯表孤立詞識別系統(tǒng)十分適用。但它沒有一個(gè)有效的用統(tǒng)計(jì)方法進(jìn)行訓(xùn)練的框架。也不容易將底層和頂層的各種知識用到識別算法中,因此在解決大詞匯表、連續(xù)語音,非特定人語音識別問題時(shí)較HMM相形見絀?;趧?dòng)態(tài)時(shí)間歸整匹配的DTW算法從目前來看,可能是一個(gè)最為小巧的語音識別的算法。其系統(tǒng)開銷小,識別速度快,在對付小詞匯量的語音命令控制系統(tǒng)中是一個(gè)非常有效的算法。但是,如果系統(tǒng)稍微復(fù)雜一些,這種算法就顯得力不從心了。持這種觀點(diǎn)的專家認(rèn)為,用其識別語音有種種困難,但是人類識別語音卻并不困難。如果能將這些原理加以發(fā)現(xiàn)并且歸納為一些規(guī)則,由計(jì)算機(jī)執(zhí)行,就能接近人類同樣的水平。語音學(xué)家通過研究不同語音的語譜及其變化后發(fā)現(xiàn),雖然不同的人說同一些語音時(shí),相應(yīng)的語譜機(jī)器變化種種差異,但是總有一些共同的特點(diǎn)足以使他們區(qū)分于其他語音,這些特點(diǎn)就是語音學(xué)家提出的“區(qū)別性特征(Distinctive Feature)”。另一方面,人類的語言要受詞、句法、語義等約束,人在識別語音的過程中充分應(yīng)用了這些約束以及對話環(huán)境的有關(guān)信息,將來自聲學(xué)——語音學(xué)的“區(qū)別性特征”(這稱為一個(gè)識別系統(tǒng)的“底層”)與來自構(gòu)詞、句法、語義和語用約束(這稱為識別系統(tǒng)的“頂層”)相互結(jié)合,就可以構(gòu)成一個(gè)“由底向上(Bottomup)”和“由頂向下(Topdown)”交互作用的識別系統(tǒng),不同層次的知識可以用若干規(guī)則來描述。美國卡內(nèi)基——梅隆大學(xué)在七十年代完成的Happy系統(tǒng)是基于這個(gè)理論的最成功的語音識別系統(tǒng)。這個(gè)系統(tǒng)應(yīng)用了“黑板模式”完成底層和頂層之間不同層次的信息交換和規(guī)則調(diào)用,在人工句法約束的1000詞表的連續(xù)語音識別任務(wù)中,所產(chǎn)生的語義誤差不大于10%,雖然從人工智能的角度看,對這個(gè)系統(tǒng)評價(jià)很高,但從語音識別的角度所做的評價(jià)與此相反,因?yàn)閺恼Z音識別的角度看,語音的多變性和不確定性是其固有的,一些研究者經(jīng)長期研究后著重宣稱:人們對于語音的最大知識就是確認(rèn)對于語音的無知,正是需要在這一前提下來研制具有高識別率的系統(tǒng)。知識和規(guī)則的方法之所以很難取得更大的進(jìn)展,既由于語音的多變,又由于規(guī)則的難以搜集完備,還有執(zhí)行規(guī)則的算法難以高效運(yùn)行。所以從七十年代后期到現(xiàn)在,雖然仍然有人應(yīng)用人工智能的方法進(jìn)行語音識別,但他們很少取得成果。人工智能的方法己不再是現(xiàn)代語音識別研究的主流。人工神經(jīng)網(wǎng)絡(luò)的出發(fā)點(diǎn)是通過模擬大腦的機(jī)制(實(shí)際上人們到目前為止還不完全清楚大腦的思維機(jī)制),將包括聽覺系統(tǒng)的生物神經(jīng)系統(tǒng)的信息處理機(jī)制引入機(jī)器學(xué)習(xí)的研究中,使其具有學(xué)習(xí)和理解的能力。著名的神經(jīng)網(wǎng)絡(luò)研究專家Hecht—Nielsen給人工神經(jīng)網(wǎng)絡(luò)下的定義是:“人工神經(jīng)網(wǎng)絡(luò)是由人工建立的以有向圖為拓?fù)浣Y(jié)構(gòu)的動(dòng)態(tài)系統(tǒng),它通過對連續(xù)或斷續(xù)的輸入作狀態(tài)響應(yīng)而進(jìn)行信息處理”。一個(gè)神經(jīng)網(wǎng)絡(luò)包含大量類似大腦神經(jīng)元的處理單元,這些單元之間相互連接形成一定的拓?fù)浣Y(jié)構(gòu),并相互影響。所有的神經(jīng)元協(xié)同工作,使整個(gè)網(wǎng)絡(luò)呈現(xiàn)出大規(guī)模的集體計(jì)算行為,系統(tǒng)的所有計(jì)算都是由這些單元完成的,而單元之間的連接權(quán)決定了網(wǎng)絡(luò)對任意輸入模式的計(jì)算響應(yīng)。連接權(quán)的建立是通過訓(xùn)練算法進(jìn)行的。神經(jīng)網(wǎng)絡(luò)之所以能吸引眾多研究人員的興趣,在于它具有一系列傳統(tǒng)的數(shù)字計(jì)算機(jī)系統(tǒng)及線性網(wǎng)絡(luò)所沒有的優(yōu)點(diǎn)。人工神經(jīng)網(wǎng)絡(luò)在語音識別中的主要應(yīng)用,如矢量量化、分類區(qū)分、降噪濾波、共振峰檢測等,其中用的最多的是神經(jīng)網(wǎng)絡(luò)的區(qū)分能力。最初是用神經(jīng)網(wǎng)絡(luò)將語音段分成清音和濁音兩類,或分成鼻音、摩擦音和爆破音三類。這些實(shí)驗(yàn)都取得了很好的分類結(jié)果,充分顯示了神經(jīng)網(wǎng)絡(luò)強(qiáng)大的分類區(qū)分能力。在基于神經(jīng)網(wǎng)絡(luò)的語音識別方法中,系統(tǒng)參數(shù)就是整個(gè)神經(jīng)網(wǎng)絡(luò)的權(quán)值所構(gòu)成的集合,這些權(quán)值是針對全部待識別的語音基元,經(jīng)過大量訓(xùn)練學(xué)習(xí)而建立的,是語音特征在系統(tǒng)中的一種映射。它
點(diǎn)擊復(fù)制文檔內(nèi)容
語文相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1