freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

基于matlab的語音識別系統(tǒng)的設計本科畢業(yè)設計-文庫吧在線文庫

2024-10-10 15:19上一頁面

下一頁面
  

【正文】 基于 DTW 的語音識別流程圖 基于動態(tài)時間歸整匹配的 DTW算法從目前來看,可能是一個最為小巧的語音識別的算法。但是這樣的計算沒有考慮到語音中各個段在不同的情況下的持續(xù)時間會產生或長或短的變化,因此識別效果不可能最佳。為了計算這一失真距離,應從 T和 R 中各個對應幀之間的距離算起。 在孤立詞語音識別中,最為簡單有效的方法就是該算法,該算法基于動態(tài)規(guī)劃( DP)的思想,解決了發(fā)音長短不一的模板匹配問題,是語音識別中出現較早、較為經典的一種算法。將頻率按照式 (217)變換到 Mel域后, Mel帶通濾波器組的中心頻率是按照 Mel頻率刻度均勻排列的。 然而 LPCC同時也繼承了 LPC的缺陷,其主要的一點就是 LPC在所有的頻率上都是線性逼近語音的,而這與人的聽覺的特性是不一致的;而且 LPC 包含了語音高頻部分的大部分噪聲細節(jié),這些都會影響系統(tǒng)的性能。 圖 從帶通濾波器作用理解短時傅里葉變換 ? ?jwneX 可以看作是加窗后函數的傅立葉變換,為了實現反變換,將 ? ?jwneX 進行頻率河南理工大學畢業(yè)設計(論文)說明書 15 采樣,即令 LKwk /2?? 則有 ? ? ? ? ? ?? ?????? ??? m mjwjwn kk emnwmxeX (212) 式中, L為頻率采樣點數??梢詫V波器組的輸出經過自適應增量調制器變?yōu)槎M制脈沖信號,再經過多路開關,變?yōu)橐淮M制脈沖信號。 語音信號的頻域分析 語音的感知過程與人類聽覺系統(tǒng)具有頻譜分析功能是緊密相關的。如果語音前后噪音保留過多,則會增加不同語音的共同成分,對識別產生干擾;而如果語音部分被切割掉,則會造成語音信息的丟失,若丟失的恰是區(qū)分語音的重要特征,則造成誤識。 平均幅度差函數能夠代替自相關函數進行語音分析,是基于這樣一個事實:如果信號是完全的周 期信號 (設周期為 Np。如圖 “ 0”的過零率,可為端點檢測提供參考。對于連續(xù)語音信號,可以考察其時域波形通過時間軸的情況。 對于信號 x(n),短時能量定義為: ? ? ? ?? ? ? ? ? ?? ? ? ? ? ?nhnxmnwmxmnwmxE n Nnmmn *1 222 ?? ??????? ????? (23) 式中, h(n)=w2(n), N為窗長, En表示在信號的第 n個點開始加窗函數時的短時能量。這種時間以來處理的基本手段,一般是用 一個長度有限的窗序列 w(n)截取一段語音信號來進行分析,并讓這個窗滑動,以便分析任意時刻附近的信號。一般來說,語音信號處理的幀長一般取 20ms(當 Fs=8kHz 時,相應每幀由 160個信號樣值 )。 圖 語音信號“ 0”的預加重處理效果 A/D轉換之前還需要加一個防混疊濾波器。預加重在防混疊濾波與 A/D 轉換之前進行。此時上式變?yōu)?SNR=。根據采樣定理,當采樣頻率大于信號的 2 倍帶寬時,在采樣過程中不會丟失信息,且從采樣信號中可以精確地重構原始信號波形。圖 給出了單獨說一個音節(jié)時的四種聲調的典型曲線 ( HzF/0 )。 漢語是一種聲調語言,相同聲母和韻母構成的音節(jié)隨聲調的不同而具有完全不同的意義,對應著不同的漢字。清音通過將口腔內有的空氣釋放出來而發(fā)聲,發(fā)聲時喉部封閉,由于該氣流通過一個狹窄通道時在口腔中形成流,因此具有明顯的隨機噪聲的特點。 (3)統(tǒng)計學和模式識別理論;基于各種統(tǒng)計方法對模式進行匹配,以及建立有關的統(tǒng)計模型,對語音特征參數進行估值和分類。目前這種采用聲覺、視覺兩種信息融合進行識別的研究在全球范圍內己經展開,成為語音識別研究的重要發(fā)展方向和研究熱點之一。Nuance的最新版識別軟件所提供的“隨意說 (Say anything)”技術,使用戶可以以自然的河南理工大學畢業(yè)設計(論文)說明書 4 語言說出自己的需求。這將會使識別系統(tǒng)具有很強的適應性。此外,該公司的系統(tǒng)優(yōu)化工具為所有系統(tǒng)提供一個實用、有效的優(yōu)化方法。目前,技術及應用的焦點主要集中在三個方面。對特征參數的要求是: 1,提取的特征參數能有效地代表語音特征,具有很好的區(qū)分性。顯然,連續(xù)非特定人語音識別的難度要大得多,因為不僅有說話人口音的問題,還有協(xié)同發(fā)音、斷字斷句、搜索等問題,除了考慮語音的聲學模型外還要涉及到語言模型,如構詞法、文法等。研究的方向也越來越側重于口語對話系統(tǒng)。每兩年滾動一次,從 1991年開始,專家組每一至二年舉行一次全國性的語音識別系統(tǒng)測試。由于中國的國際地位不斷提高,以及在經濟和市場方面所處的重要地位,漢語語音識別也越來越受到重視。 Bell實驗室的 L. G. Kesta目視觀察語譜圖進行識別,提出了“聲紋 (Voiceprint)”的概念。經過統(tǒng)計,識別效果明顯達到了預期目標。河南理工大學畢業(yè)設計(論文)說明書 I 摘 要 語音識別主要是讓機器聽懂人說的話,即在各種情況下,準確地識別出語音的內容,從而根據其信息執(zhí)行人的各種意圖。本文應用隱馬爾科夫模型 (HMM) 為識別算法,采用 MFCC(MEL 頻率倒譜系數 )為主要語音特征參數,建立了一個漢 語數字語音識別系統(tǒng),其中包括語音信號的預處理、特征參數的提取、識別模板的訓練、識別匹配算法;同時,提出利用 Matlab 圖形用戶界面開發(fā)環(huán)境設計語音識別系統(tǒng)界面,設計簡單,使用方便,系統(tǒng)界面友好。早期的工作主要集中在人耳聽辨試驗和探討聽音識別的可能性方面。語音識別技術進一步成熟,并開始向市場提供產品 。從 1987年開始執(zhí)行 863計劃后,國家 863《智能計算機主題》專家組為語音識別研究立項。 目前在語音識別研究領域非常活躍的課題為穩(wěn)健語音識別、說話人自適應技術、大詞匯量關鍵詞識別算法、語音識別的可信度評測算法、基于類的語言模型和自適應語言模型,以及深層次的自然語音的理解。連續(xù)語音識別是指對說話人以日常自然的方式發(fā)音,通常特指用于語音錄入的聽寫機。語音信號經預處理后,接下來很重要的一環(huán)就是特征參數提取。然而語音技術本身仍在不斷進步,為市場提供更新更好的應用模式和技術。例如 Nuance公司,作為擁有最大市場和最多用戶的公司,也擁有最多的用戶語音數據,保證了它極高的基礎識別率。研究將要解決的問題就是如何把原始語音從背景噪音中分離出來,即所謂提高音質(speech enhancement)或減噪 (noise reduction)的預處理。你也許接觸到一些語音軟件聲稱是可以做到自然語言識別,而在這方面真正有實用商業(yè)系統(tǒng)的只有 Nuance公司。語音識別研究的另一個發(fā)展方向是人體語言與口語相結合的多媒體人機交互。 (2)生理學:有關人的聲道與耳朵的生理結構、耳朵的聽覺特征,在腦內高層的語言處理等。 濁音通過喉部發(fā)聲,發(fā)聲時聲帶振動,聲帶 振動的基本頻率稱為“基音頻率”,其倒數稱為“基音周期”。輔音出現在音節(jié)的前端或者后端或前后兩端。而一段語音,它的起始和結尾處的波形幅度較小,要準確地測出這些地方的基音周期并不容易,因此可將這兩處的波形忽略,只測調型 段這一部分波形的基音周期。 圖 語音信號產生模型 河南理工大學畢業(yè)設計(論文)說明書 7 語音信號數字化和預處理 為了將原始的模擬語音信號變?yōu)閿底中盘?,必須經過采樣和量化兩個步驟,從而得到時間和幅度上均為離散的數字語音信號。若用 2x? 表示輸入語音信號序列的方差, max2X 表示信號的峰值, B 表示量化分辨率 (量化位長 ), 2e? 表示噪聲序列的方差,則量化信噪比為: )lg ()lg (10 m a x22 xex XBS N R ??? ???? ( ) 假設語音信號的幅度服從 Laplacian 分布,此時信號幅度超過 x?4 的概率很小 ,只有%,因而可以取 xX ?4max? 。預加重的目的是提升高頻部分,使信號的頻譜變得平坦,以便于進行聲道參數分析或頻譜分析。從下圖可以明顯河南理工大學畢業(yè)設計(論文)說明書 8 的看出,加重后語音信號中高頻分量增強。在進行處理時,按幀從此數據區(qū)中取出數據,處理完成后再取一幀,如此進行下去。這樣就可以采用平穩(wěn)過程的分析處理方法來處理了。 語音信號的時域分析 對信號分析最自然最直接的方法是以時間為自變量進行分析,語音信號典型的時域特征包括短時能量、短時平均過零率、短時自相關系數和短時平均幅度差。 河南理工大學畢業(yè)設計(論文)說明書 11 圖 語音信號“ 0”的短時平均幅度 短時平均過零率是指每幀內信號通過零值的次數。一次一般的識別系統(tǒng),其前端的端點檢測過程都是將這兩個參數結合用于檢測語音是否真的開始。為了避免乘法,一個簡單的方法就是利用差值,為此常常采用另一種與自相關函數類似作用的參量,即短時平均幅度差函數 (AMDP)。 圖 語音信號“ 0”的自相關函數 語音端點檢測的準確性和可靠性,對系統(tǒng)識別率的提高起著重要的作用當系統(tǒng)收到一段包含語音的信號時,系統(tǒng)需要對語音的端點進行定位,丟棄語音前.后多余的噪音段。因為首次找到高門限越過點,再往前推可能要搜索 200ms左右才能找到清音的起點,這就不便于實現實時特征提取。 語音信號 x(t)輸入帶通濾波器 f1, f2,?? fn,濾波器輸出為具有一定頻帶的中心頻率為 f1, f2,?? fn的信號。圖 。語音信號所攜帶的語音信息主要體現在聲道傳輸函數上,因而在語音識別中通常取 語音信號倒譜的低時域構成 LPC倒譜特征 c,即 ? ? ? ? ? ?? ? 1610,2,1 ??? qqcccc ? (216) 式中, q為 LPC倒譜特征的階數。 Mel頻率可以用如下公式表示 : ? ?700/1lo g2596 ff M e l ??? (217) 對頻率軸的不均勻劃分是 MFCC特征區(qū)別于普通倒譜特征的最重要的特點。從而自 60年代末期開始引起了語音識別的研究熱潮。測試和參考模板分別用 T 和 R 表示,為了比較它們之間的相似度,可以計算它們之間的距離 D[T,R],距離越小則相似度越高。對齊可以采用線性擴張的方法,如果 NM 可以將 T 線性映射為一個 M幀的序列,再計算它與之間的距離。圖 為基于 DTW的孤立字語音識別流程圖。 美國卡內基 —— 梅隆大學在七十年代完成的 Happy系統(tǒng)是基于這個理論的最成功的語河南理工大學畢業(yè)設計(論文)說明書 19 音識別系統(tǒng)。所有的神經元協(xié)同工作,使整個網絡呈現出大規(guī)模的集體計算行為,系統(tǒng)的所有計算都是由這些單元完成的,而單元之間的連接權決定了網絡對任意輸入模式的計算響應。也就是說,系統(tǒng)參數只在整體上有意義,是不可分的。靜態(tài)網絡在音素識別問題上的識別效果非常好,而動態(tài)分類在字以及句子層面上的識別效果比較好。從 20世紀 80年代初人們開始用這種模型來描述語音信號后,就不斷有人對它進行了各種改良和發(fā)展。也正是基于成熟的 HMM方法設計了嵌入式環(huán)境下 (如手機, PDA等 )的語音識別系統(tǒng)。 HMM 和 ANN 的混合模型 語音信號是一種典型的動態(tài)模式序列,前后幀之間的時間相關性非常強,所以要將神經網絡應用于語音識別,必須解決好瞬時輸出的記憶問題。 與傳統(tǒng)的 HMM相比,混合 HMM/ANN模型不僅在理論上拋棄了 HMM一系列不合理假設,而且在訓練過程中自然地引入了 HMM 狀態(tài)之間的區(qū)分機制。在處理語音信號的時變特性方面。但輸出直接映射成 HMM狀態(tài)。用神 經網絡進行聲學建模一般有兩種方法: 第一種方法是預測網絡。 混合模型結構還充分利用了 ANN的下述特性,克服了 HMM的一系列缺陷和不足,主要特點如下: (1)混合模型可以自適應學習以適應語音數據的變化;可以不必拘泥于選取特殊的語音參數面對綜合的輸入模式進行訓練和識別。 在音段層面方式中,神經網絡的輸入來自整個語音段,而不是一幀語音或固定長度的語音窗。 另外,它的一個最主要的缺點是根據詞模型推出的狀態(tài)段長分布是指數分布,這不符合語音的本質屬性,因此,現在推出了一 種非齊次的 HMM 語音識別模型 (Duration Distribution Based Hidden Markov Model,簡稱 DDBHMM)。 如今,各種形式的 }砌模型和算法己日趨成熟,以它為基礎己經形成了語音識別的整體框架模型,它統(tǒng)一了語音識別中聲學層和語音學 層的算法結構,制定了最佳的搜索和匹配算法,以概率的形式將聲學層中得到的信息和語音學層中己有的信息比較理想的結合在一起。總之,是希望通過這種結合充分發(fā)揮各自的特長。圖 。最初是用神經網絡將語音段分成清音和濁音兩 類,或分成鼻音、摩擦音和爆破音三類。人工智能的方法己不再是現代語音識別研究的主流。 基于規(guī)則的人工智能方法 持這種觀點的專家認為,用其識別語音有種種困難,但是人類識別語音卻并不困難。它用滿足一定條件的時間規(guī)正函數 w(n)描述輸入模板和參考模板的時間對應關系,求解二模板匹配時累計距離最小所對應的規(guī)正函數:所以 DTW 保 證了二模板間存在的最大聲學相似性。 DTW 算法是把時間規(guī)正和距離測度計算結合起來的一種非線性規(guī)正技術。 在訓練和建立模板階段以及在識別階段,都采用端點檢測算法確定語音的起點和終點。 (3)將每個濾波器的輸出取對數,得到相應頻帶的對數功率譜;并進行反離散余弦變換,得到 L個 MFCC系數,一般 L取 12~ 16 個左右。 MFCC不同于 LPCC。 圖 幾種基于短時傅里葉變換譜之間的關系 特征參數提取 LPC
點擊復制文檔內容
環(huán)評公示相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1