freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于matlab的語音識別系統(tǒng)的設計本科畢業(yè)設計(編輯修改稿)

2025-07-19 01:17 本頁面
 

【文章內(nèi)容簡介】 均過零率可以獲得較好的檢測效果。一次一般的識別系統(tǒng),其前端的端點檢測過程都是將這兩個參數(shù)結(jié)合用于檢測語音是否真的開始?!?”的過零率,可為端點檢測提供參考。 語音信號“0”的短時平均過零率語音信號xw(n)的短時自相關函數(shù)Rn(k)的計算式如下: (28)這里K是最大的延遲點數(shù)。短時自相關函數(shù)具有一些性質(zhì),如它是偶函數(shù)假設序列具有周期性,則其自相關函數(shù)也是同周期的周期函數(shù)等。因此對于濁音語音可以用自相關函數(shù)求出語音波形序列的基音周期。短時自相關函數(shù)是語音信號時域分析的重要參量。但是,計算自相關函數(shù)的運算量很大,其原因是乘法運算所需要的時間較長。利用快速傅立葉變換等簡化計算方法都無法避免乘法運算。為了避免乘法,一個簡單的方法就是利用差值,為此常常采用另一種與自相關函數(shù)類似作用的參量,即短時平均幅度差函數(shù)(AMDP)。平均幅度差函數(shù)能夠代替自相關函數(shù)進行語音分析,是基于這樣一個事實:如果信號是完全的周期信號(設周期為Np。),則相距為周期的整數(shù)倍的樣點上的幅值是相等的,差值為零。即: (29)對于實際的語音信號,d(n)雖不為零,但其值很小。這些極小值將出現(xiàn)在整數(shù)倍周期的位置上。為此,可定義短時平均幅度差函數(shù): (210)顯然,如果x(n)在窗口取值范圍內(nèi)具有周期性,則將出現(xiàn)極小值。,對于周期性的x(n),F(xiàn)n(k)也呈現(xiàn)周期性。與Rn(k)相反的是,在周期的各個整數(shù)倍點上Fn(k)具有谷值而不是峰值。“0”的自相關函數(shù)語音端點檢測的準確性和可靠性,對系統(tǒng)識別率的提高起著重要的作用當系統(tǒng)收到一段包含語音的信號時,系統(tǒng)需要對語音的端點進行定位,丟棄語音前.后多余的噪音段。如果語音前后噪音保留過多,則會增加不同語音的共同成分,對識別產(chǎn)生干擾;而如果語音部分被切割掉,則會造成語音信息的丟失,若丟失的恰是區(qū)分語音的重要特征,則造成誤識。正確確定語音端點也會減少系統(tǒng)的計算量和存儲量。語音端點檢測算法主要是根據(jù)語音的一些特征參數(shù),短時能量、過零率等完成端點檢測。端點檢測有雙門限前端檢測算法和多門限過零率前端檢測算法。雙門限前端檢測算法用于有話、無話鑒別或詞語前端檢測,通常窗長(即幀長)取10~15ms,幀間隔(即采樣間隔)取5~10ms,有一定的抗干擾能力,即使存在小的隨機噪聲,只要它不使信號越過正負門限所構成的帶,就不會產(chǎn)生虛假的過零率。多門限過零率前端檢測算法是設多個高低不同的門限。與一股的單門限過零率法相比,可明顯地減少前端誤判,但是有時存在較大時延。因為首次找到高門限越過點,再往前推可能要搜索200ms左右才能找到清音的起點,這就不便于實現(xiàn)實時特征提取。語音的感知過程與人類聽覺系統(tǒng)具有頻譜分析功能是緊密相關的。因此,對語音信號進行頻譜分析,是認識語音信號和處理語音信號的的重要方法。利用一組濾波器來分析語音信號的頻譜,方法使用簡單、實時性好、受外界環(huán)境的影響小。濾波器組法所用的濾波器可以是模擬濾波器,也可以是數(shù)字濾波器。濾波器可以用寬帶帶通濾波器,也可以用窄帶帶通濾波器。寬帶帶通濾波器具有平坦性,用它可以粗略地求取語音的頻譜,其頻率分辨率降低,相當于短時處理時窗寬較窄的那種情況。使用窄帶帶通濾波器,其頻率分辨率提高,相當于短時處理時窗寬較寬的那種情況。語音信號x(t)輸入帶通濾波器f1,f2,…… fn,濾波器輸出為具有一定頻帶的中心頻率為f1,f2,…… fn的信號??梢詫V波器組的輸出經(jīng)過自適應增量調(diào)制器變?yōu)槎M制脈沖信號,再經(jīng)過多路開關,變?yōu)橐淮M制脈沖信號。這種信號可以輸入計算機進行各種分析和處理。傅立葉頻譜分析是語音信號頻域分析中廣泛采用的一種方法。它是法國科學家J.Fourier在1807年為了得到熱傳導方程的簡便解法而提出的。傅立葉頻譜分析的基礎是傅立葉變換,用傅立葉變換及其反變換可以求得傅立葉譜、自相關函數(shù)、功率譜、倒譜。由于語音信號的特性是隨著時間緩慢變化的,由此引出語音信號的短時分析。信號x(盯)的短時傅立葉變換為: (211)式中,w(n)為窗口函數(shù)。 從帶通濾波器作用理解短時傅里葉變換可以看作是加窗后函數(shù)的傅立葉變換,為了實現(xiàn)反變換,將進行頻率采樣,即令則有 (212) 式中,L為頻率采樣點數(shù)。短時功率譜實際上是短時傅立葉變換幅度的平方,它是信號x(n)的短時自相關函數(shù)的傅立葉變換,即 (213)式中Rn(k)是自相關函數(shù)。 幾種基于短時傅里葉變換譜之間的關系 LPCC倒譜系數(shù)線性預測倒譜參數(shù)(Linear Prediction Cepstrum Coefficient,LPCC)是線性預測系數(shù)在倒譜域中的表示,該特征是基于語音信號為自回歸信號的假設,利用線性預測分析獲得倒譜系數(shù)。LPCC參數(shù)的優(yōu)點是計算量小,易于實現(xiàn),對元音有較好的描述能力,其缺點在于對輔音的描述能力較差,抗噪聲性能較差。語音信號的倒譜與LPC系數(shù)之間的遞推關系: (214)或是由LPC得到 (215)根據(jù)同態(tài)處理的概念和語音信號產(chǎn)生的模型,語音信號的倒譜c(n)等于激勵信號的倒譜與聲道傳輸函數(shù)的倒譜之和。通過分析激勵信號的語音特點以及聲道傳輸函數(shù)的零極點分布情況,可知的分布范圍很寬,c(n)從低時域延伸到高時域,而主要分布于低時域中。語音信號所攜帶的語音信息主要體現(xiàn)在聲道傳輸函數(shù)上,因而在語音識別中通常取語音信號倒譜的低時域構成LPC倒譜特征c,即 (216)式中,q為LPC倒譜特征的階數(shù)。然而LPCC同時也繼承了LPC的缺陷,其主要的一點就是LPC在所有的頻率上都是線性逼近語音的,而這與人的聽覺的特性是不一致的;而且LPC包含了語音高頻部分的大部分噪聲細節(jié),這些都會影響系統(tǒng)的性能。 Mel頻率倒譜系數(shù)美爾頻標倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,MFCC)考慮了人耳的聽覺特性,將頻譜轉(zhuǎn)化為基于Mel頻標的非線性頻譜,然后轉(zhuǎn)換到倒譜域上。由于充分考慮了人耳的聽覺特性,而且沒有任何的前提假設,MFCC參數(shù)具有良好的識別性能和抗噪聲能力,但其計算量和計算精度要求高。MFCC不同于LPCC。在漢語數(shù)碼語音識別中,MFCC參數(shù)的性能明顯優(yōu)于LPCC參數(shù)。MFCC是采用濾波器組的方法計算出來的,這組濾波器在頻率的美爾坐標上是等寬的。這是因為人類在對約1000Hz以上的聲音頻率范圍的感知不遵循線性關系,而是遵循在對數(shù)頻率坐標上的近似線性關系。Mel頻率可以用如下公式表示: (217)對頻率軸的不均勻劃分是MFCC特征區(qū)別于普通倒譜特征的最重要的特點。將頻率按照式(217)變換到Mel域后,Mel帶通濾波器組的中心頻率是按照Mel頻率刻度均勻排列的。在實際應用中,MFCC倒譜系數(shù)計算過程如下:(1) 將信號進行分幀,預加重和加哈明窗處理,然后進行短時傅立葉變換并得到其頻譜。(2) 求出頻譜平方,即能量譜,并用M個Mel帶通濾波器進行濾波;由于每一個頻帶中分量的作用在入耳中是疊加的,因此將每個濾波器頻帶內(nèi)的能量進行疊加,這時第k個濾波器輸出功率譜X(k)。(3) 將每個濾波器的輸出取對數(shù),得到相應頻帶的對數(shù)功率譜;并進行反離散余弦變換,得到L個MFCC系數(shù),一般L取12~16個左右。MFCC系數(shù)為 (218)(4)將這種直接得到的MFCC特征作為靜態(tài)特征,再將這種靜態(tài)特征傲一階和二階差分。得到相應的動態(tài)特征。三、語音識別主要算法日本學者首先將動態(tài)規(guī)劃的概念用于解決孤立詞識別時說話速度不均勻的難題,提出了著名的DTW算法,當詞匯表較小以及各個詞條不易于混淆時,這個算法取得了很大成功。從而自60年代末期開始引起了語音識別的研究熱潮。在孤立詞語音識別中,最為簡單有效的方法就是該算法,該算法基于動態(tài)規(guī)劃(DP)的思想,解決了發(fā)音長短不一的模板匹配問題,是語音識別中出現(xiàn)較早、較為經(jīng)典的一種算法。用于孤立詞識別,DTW算法與HMM算法在相同的環(huán)境條件下,識別效果相差不大,但HMM算法要復雜得多,主要體現(xiàn)在HMM算法在訓練階段需要提供大量的語音數(shù)據(jù),通過反復計算才能得到模型參數(shù),而DTW算法的訓練中幾乎不需要額外的計算。所以在孤立詞語音識別中,DTW算法仍得到廣泛的應用。在訓練和建立模板階段以及在識別階段,都采用端點檢測算法確定語音的起點和終點。已存入模板庫的各個詞條稱為參考模板,一個參考模板可表示為,m為訓練語音幀的時序標號,m=1為起點語音幀,m=M為終點語音幀,因此為該模板所包含的語音幀總數(shù),為第幀的語音特征矢量。所要識別的一個輸入詞條語音稱為測試模板,可表示為,為測試語音幀的時序標號,n=1為起點語音幀,n=N為終點語音幀,因此N為該模板所包含的語音幀總數(shù),T(n)為第n幀的語音特征矢量。參考模板與測試模板一般采用相同類型的特征矢量(如MFCC系數(shù))、相同的幀長、相同的窗函數(shù)和相同的幀移。測試和參考模板分別用T和R表示,為了比較它們之間的相似度,可以計算它們之間的距離D[T,R],距離越小則相似度越高。為了計算這一失真距離,應從T和R中各個對應幀之間的距離算起。設n和m分別是T和R中任意選擇的幀號,d[T(n),R(m)]表示這兩幀之間的距離。距離函數(shù)取決于實際采用的距離度量,在DTW算法中通常采用歐氏距離。DTW算法是把時間規(guī)正和距離測度計算結(jié)合起來的一種非線性規(guī)正技術。如設:(1)參考模板特征矢量序列為。(2)輸入語音特征矢量序列為,如果M≠N,那么DTW算法就是要尋找時間規(guī)正函數(shù)m=w(n),它把輸入模板的時間軸療非線性的映射到參考模板的時間軸m,并且該w滿足: (31)式中,d[n,w(n)]是第n幀輸入矢量和第m幀參考矢量的距離,D是相應于最優(yōu)時間規(guī)正下二模板的距離測度。若N=M則可以直接計算,否則要考慮將T(n)和R(m)對齊。對齊可以采用線性擴張的方法,如果NM可以將T線性映射為一個M幀的序列,再計算它與之間的距離。但是這樣的計算沒有考慮到語音中各個段在不同的情況下的持續(xù)時間會產(chǎn)生或長或短的變化,因此識別效果不可能最佳。因而更多地是采用動態(tài)規(guī)劃(DP)的方法。DTW是一個典型的最優(yōu)化問題。它用滿足一定條件的時間規(guī)正函數(shù)w(n)描述輸入模板和參考模板的時間對應關系,求解二模板匹配時累計距離最小所對應的規(guī)正函數(shù):所以DTW保證了二模板間存在的最大聲學相似性。DTW算法的優(yōu)點是既簡單又有效,對于小詞匯表孤立詞識別系統(tǒng)十分適用。但它沒有一個有效的用統(tǒng)計方法進行訓練的框架。也不容易將底層和頂層的各種知識用到識別算法中,因此在解決大詞匯表、連續(xù)語音,非特定人語音識別問題時較HMM相形見絀?;趧討B(tài)時間歸整匹配的DTW算法從目前來看,可能是一個最為小巧的語音識別的算法。其系統(tǒng)開銷小,識別速度快,在對付小詞匯量的語音命令控制系統(tǒng)中是一個非常有效的算法。但是,如果系統(tǒng)稍微復雜一些,這種算法就顯得力不從心了。持這種觀點的專家認為,用其識別語音有種種困難,但是人類識別語音卻并不困難。如果能將這些原理加以發(fā)現(xiàn)并且歸納為一些規(guī)則,由計算機執(zhí)行,就能接近人類同樣的水平。語音學家通過研究不同語音的語譜及其變化后發(fā)現(xiàn),雖然不同的人說同一些語音時,相應的語譜機器變化種種差異,但是總有一些共同的特點足以使他們區(qū)分于其他語音,這些特點就是語音學家提出的“區(qū)別性特征(Distinctive Feature)”。另一方面,人類的語言要受詞、句法、語義等約束,人在識別語音的過程中充分應用了這些約束以及對話環(huán)境的有關信息,將來自聲學——語音學的“區(qū)別性特征”(這稱為一個識別系統(tǒng)的“底層”)與來自構詞、句法、語義和語用約束(這稱為識別系統(tǒng)的“頂層”)相互結(jié)合,就可以構成一個“由底向上(Bottomup)”和“由頂向下(Topdown)”交互作用的識別系統(tǒng),不同層次的知識可以用若干規(guī)則來描述。美國卡內(nèi)基——梅隆大學在七十年代完成的Happy系統(tǒng)是基于這個理論的最成功的語音識別系統(tǒng)。這個系統(tǒng)應用了“黑板模式”完成底層和頂層之間不同層次的信息交換和規(guī)則調(diào)用,在人工句法約束的1000詞表的連續(xù)語音識別任務中,所產(chǎn)生的語義誤差不大于10%,雖然從人工智能的角度看,對這個系統(tǒng)評價很高,但從語音識別的角度所做的評價與此相反,因為從語音識別的角度看,語音的多變性和不確定性是其固有的,一些研究者經(jīng)長期研究后著重宣稱:人們對于語音的最大知識就是確認對于語音的無知,正是需要在這一前提下來研制具有高識別率的系統(tǒng)。知識和規(guī)則的方法之所以很難取得更大的進展,既由于語音的多變,又由于規(guī)則的難以搜集完備,還有執(zhí)行規(guī)則的算法難以高效運行。所以從七十年代后期到現(xiàn)在,雖然仍然有人應用人工智能的方法進行語音識別,但他們很少取得成果。人工智能的方法己不再是現(xiàn)代語音識別研究的主流。人工神經(jīng)網(wǎng)絡的出發(fā)點是通過模擬大腦的機制(實際上人們到目前為止還不完全清楚大腦的思維機制),將包括聽覺系統(tǒng)的生物神經(jīng)系統(tǒng)的信息處理機制引入機器學習的研究中,使其具有學習和理解的能力。著名的神經(jīng)網(wǎng)絡研究專家Hecht—Nielsen給人工神經(jīng)網(wǎng)絡下的定義是:“人工神經(jīng)網(wǎng)絡是由人工建立的以有向圖為拓撲結(jié)構的動態(tài)系統(tǒng),它通過對連續(xù)或斷續(xù)的輸入作狀態(tài)響應而進行信息處理”。一個神經(jīng)網(wǎng)絡包含大量類似大腦神經(jīng)元的處理單元,這些單元之間相互連接形成一定的拓撲結(jié)構,并相互影響。所有的神經(jīng)元協(xié)同工作,使整個網(wǎng)絡呈現(xiàn)出大規(guī)模的集體計算行為,系統(tǒng)的所有計算都是由這些單元完成的,而單元之間的連接權決定了網(wǎng)絡對任意輸入模式的計算響應。連接權的建立是通過訓練算法進行的。神經(jīng)網(wǎng)絡之所以能吸引眾多研究人員的興趣,在于它具有一系列傳統(tǒng)的數(shù)字計算機系統(tǒng)及線性網(wǎng)絡所沒有的優(yōu)點。人工神經(jīng)網(wǎng)絡在語音識別中的主要應用,如矢量量化、分類區(qū)分、降噪濾波、共振峰檢測等,其中用的最多的是神經(jīng)網(wǎng)絡的區(qū)分能力。最初是用神經(jīng)網(wǎng)絡將語音段分成清音和濁音兩類,或分成鼻音、摩擦音和爆破音三類。這些實驗都取得了很好的分類結(jié)果,充分顯示了神經(jīng)網(wǎng)絡強大的分類區(qū)分能力。在基于神經(jīng)網(wǎng)絡的語音識別方法中,系統(tǒng)參數(shù)就是整個神經(jīng)網(wǎng)絡的權值所構成的集合,這些權值是針對全部待識別的語音基元,經(jīng)過大量訓練學習而建立的,是語音特征在系統(tǒng)中的一種映射。它
點擊復制文檔內(nèi)容
語文相關推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1