freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于matlab的語音識別系統(tǒng)的設計本科畢業(yè)設計(參考版)

2024-08-31 15:19本頁面
  

【正文】 分類網(wǎng)絡可以用 n個輸出節(jié)點表示 n個類,將輸入映射成 n類中的一種。在分類網(wǎng)絡中,輸入還是相繼的幾幀語音矢量。預測網(wǎng)絡的輸入是相繼的幾幀語音特征矢量,輸出下一幀語音的預測值,通過給每一個音子分配一個預測網(wǎng)絡,就可以比較每個音素預測網(wǎng)絡的預測誤差,選取其中具有最小預測誤差的網(wǎng)絡與當前語音段匹配,體現(xiàn)了相鄰語音幀之間的時域相關性。在混合 HMM/ANN 中用神經(jīng)網(wǎng)絡來進行聲學建模,而時域建模依賴于傳統(tǒng)的 HMM?;旌夏P屠昧?HMM在這方面的特長。 (4)ANN的訓練著眼于描述類間的邊界,而不是描述每一類內(nèi)的分布.所以是一種區(qū)分性訓練。 (2)可以把人的聽覺模型融合于 ANN 中,在 ANN 的輸入端可以同時加載相鄰數(shù)幀的語音特征矢量,因而和語音信號的實際情況更加符合。與傳統(tǒng)的 HMM相比,混合 HMM/ANN 模型還為融合多種語音特征矢量,考慮不同層次上的多種約束提供了一個非常方便的接口。混合模型克服了最大似然準則(MLE)區(qū)分能力差的缺陷。在這些不同的結合形式中,實驗結果表明,幀層面上的結合比較符合 HMM和 ANN兩種方法的特點。這樣就可以讓網(wǎng)絡更好地利用存在音段中的所有語音幀之間的相 關性,而且還可以更容易地利用其它信息,比如時長。用神經(jīng)網(wǎng)絡來估計觀測概率,設計和訓練神經(jīng)網(wǎng)絡的方法有很多,最簡單的方式就是將一幀語音矢量直接映射成觀察概率,網(wǎng)絡的訓練也是一幀接一幀地進行,這種方法就成為幀層面上的網(wǎng)絡訓練。因此考慮將人工神經(jīng)網(wǎng)絡與已經(jīng)發(fā)展的方法結合構成一種混合系統(tǒng),在這種系統(tǒng)中,神經(jīng)網(wǎng)絡或者作為其前端進行預處理,或者作為后端進行后處理。由于該模 型解除了對語音信號狀態(tài)的齊次性和對語音特征的非相關性的限制,因此,為語音識別研究的深入發(fā)展提供了一個和諧的框架。在此模型中用狀態(tài)的段長分布函數(shù)替代了齊次 HMM中的狀態(tài)轉移矩陣,徹底拋棄了“平穩(wěn)的假設”,而從非平穩(wěn)的角度考慮問題,使模型成為一種基于狀態(tài)段長分布的隱含 Markov模型。且模型所需要的存儲量和匹配計算 (包括特征矢量的輸出概率計算 )的運算量相對較大,通常需要具有一定容量 SRAN的 DSP才能完成。 隨著語音識別研究工作的深入開展, HMM 語音識別方法愈來愈收到人們的重視,基于HMM 技術的識別系統(tǒng)的缺點就在于統(tǒng)計模型的建立需要依賴一個較大的語音庫。 河南理工大學畢業(yè)設計(論文)說明書 21 圖 基于 HMM 的語音識別框圖 目前,基本上所有實驗系統(tǒng)和實用化的產(chǎn)品都是使用 HMM 方法,比如 IBM 公司的ViaVoice系統(tǒng)、卡內(nèi)基梅隆大學 SPHINX系統(tǒng)和 Dragon System的 Naturally Speaking系統(tǒng)等。因此, HMM 語音識別模型與算法是迄今為止最為完美的一個語音識別模型,從中也可看出好的理論體系對研究工作所起的重要的指導作用。這為系統(tǒng)最后給出一個穩(wěn)健的判決創(chuàng)造了條件。這種隱含馬爾可夫模型的算法是將語音看成是一連串特定狀態(tài),這種狀態(tài)是不能被直接觀測到的 (如這種狀態(tài)可以是語音的某個音素的特征 ),而是以某種隱含的關系與語音的觀測量 (或特征 )相關聯(lián)。這是因為這種數(shù)學模型出現(xiàn)的時間較早,人們對它的研究也比較深入,己建立起了完整的理論框架。 隱馬爾可夫方法 基于統(tǒng)計的 HMM算法可能是目前最為成功的一種語音識別模型和算法了。因此考慮將人工神經(jīng)網(wǎng)絡與已經(jīng)發(fā)展的方法結合構成一種混和系統(tǒng),在這種系統(tǒng)中,神經(jīng)網(wǎng)絡或者作為其前端進行預處理,或者作為后端進行后處理。 神經(jīng)網(wǎng)絡依靠連接權能夠進行長時間記憶和知識存儲,但對于輸入模式的瞬時響應的短時記憶能力比較差。而在動態(tài)分類網(wǎng)絡中,神經(jīng)網(wǎng)絡輸入一幀加窗語音矢量序列,這個窗在語音矢量序列上滑動,網(wǎng)絡就做出一系列局部決策,這些局部決策不斷地整合形成一個全局決策。 河南理工大學畢業(yè)設計(論文)說明書 20 圖 基于神經(jīng)網(wǎng)絡的語音識別方法原理圖 神經(jīng)網(wǎng)絡對語音進行分類有兩個基本方法:靜態(tài)識別和動態(tài)識別。但神經(jīng)網(wǎng)絡識別方法有個較大的缺點,就是時序性很差,沒有解決時間對準問題。從信息處理的角度來看:一組信息的存儲在神經(jīng)網(wǎng)絡內(nèi)部 是混迭在一起的,在存儲過程中對信息進行了大量的加工,而絕對不是只把它們孤立地放在那里。它完全不同于傳統(tǒng)識別方法的地方在于:單個權值與識別基元之間不存在明確的對應關系,只存在整個權值構成的系統(tǒng)參數(shù)與整個識別空間之間的對應關系。這些實驗都取得了很好的分類結果,充分顯示了神經(jīng)網(wǎng)絡強大的分類區(qū)分能力。 人工神經(jīng)網(wǎng)絡在語音識別中的主要應用,如矢量量化、分類區(qū)分、降噪濾波、共振峰檢測等,其中用的最多的是神經(jīng)網(wǎng)絡的區(qū)分能力。連接權的建立是通過訓練算法進行的。 一個神經(jīng)網(wǎng)絡包含大量類似大腦神 經(jīng)元的處理單元,這些單元之間相互連接形成一定的拓撲結構,并相互影響。 人工神經(jīng)網(wǎng)絡方法 人工神經(jīng)網(wǎng)絡的出發(fā)點是通過模擬大腦的機制 (實際上人們到目前為止還不完全清楚大腦的思維機制 ),將包括聽覺系統(tǒng)的生物神經(jīng)系統(tǒng)的信息處理機制引入機器學習的研究中,使其具有學習和理解的能力。所以從七十年代后期到現(xiàn)在,雖然仍然有人應用人工智 能的方法進行語音識別,但他們很少取得成果。這個系統(tǒng)應用了“黑板模式”完成底層和頂層之間不同層次的信息交換和規(guī)則調(diào)用 ,在人工句法約束的 1000 詞表的連續(xù)語音識別任務中,所產(chǎn)生的語義誤差不大于10%,雖然從人工智能的角度看,對這個系統(tǒng)評價很高,但從語音識別的角度所做的評價與此相反,因為從語音識別的角度看,語音的多變性和不確定性是其固有的,一些研究者經(jīng)長期研究后著重宣稱:人們對于語音的最大知識就是確認對于語音的無知,正是需要在這一前提下來研制具有高識別率的系統(tǒng)。另一方面,人類的語言要受詞、句法、語 義等約束,人在識別語音的過程中充分應用了這些約束以及對話環(huán)境的有關信息,將來自聲學 —— 語音學的“區(qū)別性特征” (這稱為一個識別系統(tǒng)的“底層” )與來自構詞、句法、語義和語用約束 (這稱為識別系統(tǒng)的“頂層” )相互結合,就可以構成一個“由底向上 (Bottomup)”和“由頂向下 (Topdown)”交互作用的識別系統(tǒng),不同層次的知識可以用若干規(guī)則來描述。如果能將這些原理加以發(fā)現(xiàn)并且歸納為一些規(guī)則,由計算機執(zhí)行,就能接近人類同樣的水平。 但是,如果系統(tǒng)稍微復雜一些,這種算法就顯得力不從心了。 圖 基于 DTW 的語音識別流程圖 基于動態(tài)時間歸整匹配的 DTW算法從目前來看,可能是一個最為小巧的語音識別的算法。也不容易將底層和頂層的各種知識用到識別算法中,因此在解決大詞匯表、連續(xù)語音,非特定人語音識別問題時較 HMM 相形見絀。 DTW 算法的優(yōu)點是既簡單又有效,對于小詞匯表孤立詞識別系統(tǒng)十分適用。 DTW 是河南理工大學畢業(yè)設計(論文)說明書 18 一個典型的最優(yōu)化問題。但是這樣的計算沒有考慮到語音中各個段在不同的情況下的持續(xù)時間會產(chǎn)生或長或短的變化,因此識別效果不可能最佳。若 N=M則可以直接計算,否則要考慮將 T(n)和 R(m)對齊。如設 :(1)參考模 板特征矢量序列為 Maaa , 21 ? 。距離函數(shù)取決于實際采用的距離度量,在 DTW算法中通常采用歐氏距離。為了計算這一失真距離,應從 T和 R 中各個對應幀之間的距離算起。參 考模板與測試模板一般采用相同類型的特征矢量(如MFCC 系數(shù))、相同的幀長、相同的窗函數(shù)和相同的幀移。已存入模板庫的各個詞條稱為參考模板,一個參考模板可表示為, m 為訓練語音幀的時序標號, m=1為起點語音幀, m=M為終點語音幀,因此為該模板所包含的語音幀總數(shù),為第幀的語音特征矢量。所以在孤立詞語音識別中, DTW算法仍得到廣泛的應用。 在孤立詞語音識別中,最為簡單有效的方法就是該算法,該算法基于動態(tài)規(guī)劃( DP)的思想,解決了發(fā)音長短不一的模板匹配問題,是語音識別中出現(xiàn)較早、較為經(jīng)典的一種算法。 三、語音識別主要算法 動態(tài)時間伸縮算法 日本學者首先將動態(tài)規(guī)劃的概念用于解決孤立詞識別時說話速度不 均勻的難題,提出了著名的 DTW算法,當詞匯表較小以及各個詞條不易于混淆時,這個算法取得了很大成功。 MFCC系數(shù)為 ? ? ? ?? ? LnMnkkC n ,2,1,/ osl og ???? ? ?? (218) ( 4)將這種直接得到的 MFCC特征作為靜態(tài)特征,再將這種靜態(tài)特征傲一階和二階差河南理工大學畢業(yè)設計(論文)說明書 17 分。 (2)求出頻譜平方,即能量譜,并用 M 個 Mel 帶通濾波器進行濾波;由于每一個頻帶中分量的作用在入耳中是疊加的,因此將每個濾 波器頻帶內(nèi)的能量進行疊加,這時第 k 個濾波器輸出功率譜 X(k)。將頻率按照式 (217)變換到 Mel域后, Mel帶通濾波器組的中心頻率是按照 Mel頻率刻度均勻排列的。這是因為人類在對約 1000Hz以上的聲音頻率范圍的感知不遵循線性關系,而是遵循在對數(shù)頻率坐標上的近似線性關系。在漢語數(shù)碼語音識別中, MFCC參數(shù)的性能明顯優(yōu)于 LPCC參數(shù)。由于充分考慮了人耳的聽覺特性,而且沒有任何的前提假設, MFCC參數(shù)具有良好的識別性能和抗噪聲能力,但其計算量和計算精度要求高。 然而 LPCC同時也繼承了 LPC的缺陷,其主要的一點就是 LPC在所有的頻率上都是線性逼近語音的,而這與人的聽覺的特性是不一致的;而且 LPC 包含了語音高頻部分的大部分噪聲細節(jié),這些都會影響系統(tǒng)的性能。通過分析激勵信號的語音特點以及聲道傳輸函數(shù)的零極點分布情況,可知 ??ne? 的分布范圍很寬, c(n)從低時域延伸到高時域,而 ??nh? 主要分布于低時域中。 LPCC參數(shù)的優(yōu)點是計算量小,易于實現(xiàn),對元音有較好的描述能力,其缺點在于對輔音的描述能力較差,抗噪聲性能較差。圖 。 圖 從帶通濾波器作用理解短時傅里葉變換 ? ?jwneX 可以看作是加窗后函數(shù)的傅立葉變換,為了實現(xiàn)反變換,將 ? ?jwneX 進行頻率河南理工大學畢業(yè)設計(論文)說明書 15 采樣,即令 LKwk /2?? 則有 ? ? ? ? ? ?? ?????? ??? m mjwjwn kk emnwmxeX (212) 式中, L為頻率采樣點數(shù)。 信號 x(盯 )的短時傅立葉變換為: ? ? ? ? ? ?????? ??? m jw mjwn emnwmxeX (211) 式中, w(n)為窗口函數(shù)。傅立葉頻譜分析的基礎是傅立葉變換,用傅立葉變換及其反變換可以求得傅立葉譜、自相關函數(shù)、功率譜、倒譜。 傅立葉頻譜分析是語音信號頻域分析中廣泛采用的一種方法??梢詫V波器組的輸出經(jīng)過自適應增量調(diào)制器變?yōu)槎M制脈沖信號,再經(jīng)過多路開關,變?yōu)橐淮M制脈沖信號。使用窄帶帶通濾波器,其頻率分辨率提高,相當于短時處理時窗寬較寬的那種情況。濾波器可以用寬帶帶通濾波器,也可以用窄帶帶通濾波器。 利用一組濾波器來分析語音信號的頻譜,方法使用簡單、實時性好、受外界環(huán)境的影響小。 語音信號的頻域分析 語音的感知過程與人類聽覺系統(tǒng)具有頻譜分析功能是緊密相關的。與一股的單門限過零率法相河南理工大學畢業(yè)設計(論文)說明書 14 比,可明顯地減少前端誤判,但是有時存在 較大時延。雙門限前端檢測算法用于有話、無話鑒別或詞語前端檢測,通常窗長 (即幀長 )取 10~ 15ms,幀間隔 (即采樣間隔 )取 5~ 10ms,有一定的抗干擾能力,即使存在小的隨機噪聲,只要它不使信號越過正負門限所構成的帶,就不會產(chǎn)生虛假的過零率。語音端點檢測算法主要是根據(jù)語音的一些特征參數(shù),短時能量、過零率等完成端點檢測。如果語音前后噪音保留過多,則會增加不同語音的共同成分,對識別產(chǎn)生干擾;而如果語音部分被切割掉,則會造成語音信息的丟失,若丟失的恰是區(qū)分語音的重要特征,則造成誤識。與 Rn(k)相反的是,在周期的各個整數(shù)倍點上 Fn(k)具有谷值而不是峰值。為此,可定義短時平均幅度差函數(shù): ? ? ? ? ? ?kmxmxkF nkNm nn ??? ????1 0 (210) 顯然,如果 x(n)在窗口取值范圍內(nèi)具有周期性,則將出現(xiàn)極小值。即: ? ? ? ? ? ? ? ??,2,00 pp NNkknxnxnd ??????? (29) 對于實際的語音信號, d(n)雖不為零,但其值很小。 平均幅度差函數(shù)能夠代替自相關函數(shù)進行語音分析,是基于這樣一個事實:如果信號是完全的周 期信號 (設周期為 Np。利用快速傅立葉變換等簡化計算方法都無法避免乘法運算。 短時自相關函數(shù)是語音信號時域分析的重要參量。短時自相關函數(shù)具有一 些性質,如它是偶函數(shù)假設序列具有周期性,則其自相關函數(shù)也是同周期的周期函數(shù)等。如圖 “ 0”的過零率,可為端點檢測提供參考。在背景噪聲較小的情況下,短時 能量比較準確,但當背景噪聲較大時,短時平均過零率可以獲得較好的檢測效果。為了解決低頻的干擾,我們設立一個門限 T,將過零率的含義修改為跨過正負門限的次數(shù)。在一定程度上短時過零率可以反映出頻率的信息,在濁音段一般具有較低的過零率,而在清音段具有較高的過零率,這樣就可以初步 判斷清音和濁音,但只是相對而言,沒有精確的數(shù)值關系。對于連續(xù)語音信號,可以考察其時域波形通過時間軸的情況。從圖中可觀察到,短時平均幅度對能量小的信號累計效果要比短時能量好。在語音識別系統(tǒng)中,一股也作為特征中的一維參數(shù)來表示語音信號能量的大小和超音段信息。 圖 短時能量的方框圖表示 如果用 xw表示 x(n)經(jīng)過加窗處理后的信號,窗函數(shù)的長
點擊復制文檔內(nèi)容
環(huán)評公示相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1