正文內(nèi)容

基于matlab的語音識別系統(tǒng)的設(shè)計本科畢業(yè)設(shè)計(留存版)

2025-11-01 15:19上一頁面

下一頁面

　　

【正文】 (Connected Word)識別和連續(xù)語音 (Continuous Speech)識別。臺灣的一些大學和研究所也開發(fā)出大詞匯量非特定人連續(xù)語音識別演示系統(tǒng)。因此語音識別技術(shù)既是國際競爭的一項重要技術(shù)，也是每一個國家經(jīng)濟發(fā)展不可缺少的重要技術(shù)支撐。在此基礎(chǔ)上討論了語音識別的五種算法：動態(tài)時間伸縮算法 (Dynamic Time Warping， DTW)、基于規(guī)則的人工智能方法、人工神經(jīng)網(wǎng)絡(luò) (Artificial Neural Network， ANN)方法、隱馬爾可夫 (Hidden Markov Model，HMM)方法、 HMM 和 ANN 的混合模型。研究特點是以孤立字語音識別為主，通常把孤立字作為一個整體來建立模板。語音識別發(fā)展到一定階段，世界各國都加快了語音識別引用系統(tǒng)的研究開發(fā)，通常連續(xù)語音是含有較完整語法信息的連續(xù)語句，最接近于人的自然講話方式，從非連續(xù)語音到連續(xù)語音的研究面臨著很多完全不同的技術(shù)難點，非連續(xù)語音的識別是一些孤立的聲波片段，連續(xù)語音則面臨著如何切分聲波的問題。實際上，非特定人語音識別的初始識別率往往都比較低，一般都要求用戶花一定的時間對系統(tǒng)進行訓練，將系統(tǒng)的參數(shù)進行一定的自適應調(diào)整，才能使識別率達到滿意的程度。例如，中國的八大方言多屬于與普通話 (北方語系 )不同的語系。這就是用戶說話的自由度問題。未來幾年里，真正實用的語音識別和音字轉(zhuǎn)換技術(shù)將首次走出實驗室，走進千家萬戶的電器設(shè)備中。元音構(gòu)成一個音節(jié)的主干，無論從長度還是能量上看，元音在音節(jié)中都占主要部分。理想的模型是線性的，且時不變的；但是語音信號是一連串的時變過程，且聲門和聲道相互耦合形成了語音信號的非線性特性。此時量化后的語音質(zhì)量能滿足一般通信系統(tǒng)的要求。 A/D 轉(zhuǎn)換后采用低通濾波器作為平滑濾波器，對重構(gòu)的語音波形的高次諧波起平滑作用，以去除高次諧波失真。本文主要采用哈明窗，其公式為： ? ?????????????? ? ???其他nLnL mnw,0~0,1 12c o )( ? (22) 其中 L 是窗長。短時平均過零率公式為： ? ?? ? ? ?? ? ? ?? ?? ? ? ?? ?????????????????1 1s g ns g n211s g ns g n21NnnmwwmnmxmxmnwmxmxZ (26) Sgn[*]是符號函數(shù)。這些極小值將出現(xiàn)在整數(shù)倍周期河南理工大學畢業(yè)設(shè)計（論文）說明書 13 的位置上。濾波器組法所用的濾波器可以是模擬濾波器，也可以是數(shù)字濾波器。圖幾種基于短時傅里葉變換譜之間的關(guān)系特征參數(shù)提取 LPCC倒譜系數(shù) 線性預測倒譜參數(shù) (Linear Prediction Cepstrum Coefficient， LPCC)是線性預測系數(shù)在倒譜域中的表示，該特征是基于語音信號為自回歸信號的假設(shè)，利用線性預測分析獲得倒譜系數(shù)。 (3)將每個濾波器的輸出取對數(shù)，得到相應頻帶的對數(shù)功率譜；并進行反離散余弦變換，得到 L個 MFCC系數(shù)，一般 L取 12～ 16 個左右。 DTW 算法是把時間規(guī)正和距離測度計算結(jié)合起來的一種非線性規(guī)正技術(shù)。基于規(guī)則的人工智能方法持這種觀點的專家認為，用其識別語音有種種困難，但是人類識別語音卻并不困難。最初是用神經(jīng)網(wǎng)絡(luò)將語音段分成清音和濁音兩類，或分成鼻音、摩擦音和爆破音三類。總之，是希望通過這種結(jié)合充分發(fā)揮各自的特長。另外，它的一個最主要的缺點是根據(jù)詞模型推出的狀態(tài)段長分布是指數(shù)分布，這不符合語音的本質(zhì)屬性，因此，現(xiàn)在推出了一種非齊次的 HMM 語音識別模型 (Duration Distribution Based Hidden Markov Model，簡稱 DDBHMM)。混合模型結(jié)構(gòu)還充分利用了 ANN的下述特性，克服了 HMM的一系列缺陷和不足，主要特點如下： (1)混合模型可以自適應學習以適應語音數(shù)據(jù)的變化；可以不必拘泥于選取特殊的語音參數(shù)面對綜合的輸入模式進行訓練和識別。但輸出直接映射成 HMM狀態(tài)。與傳統(tǒng)的 HMM相比，混合 HMM/ANN模型不僅在理論上拋棄了 HMM一系列不合理假設(shè)，而且在訓練過程中自然地引入了 HMM 狀態(tài)之間的區(qū)分機制。也正是基于成熟的 HMM方法設(shè)計了嵌入式環(huán)境下 (如手機， PDA等 )的語音識別系統(tǒng)。靜態(tài)網(wǎng)絡(luò)在音素識別問題上的識別效果非常好，而動態(tài)分類在字以及句子層面上的識別效果比較好。所有的神經(jīng)元協(xié)同工作，使整個網(wǎng)絡(luò)呈現(xiàn)出大規(guī)模的集體計算行為，系統(tǒng)的所有計算都是由這些單元完成的，而單元之間的連接權(quán)決定了網(wǎng)絡(luò)對任意輸入模式的計算響應。圖為基于 DTW的孤立字語音識別流程圖。測試和參考模板分別用 T 和 R 表示，為了比較它們之間的相似度，可以計算它們之間的距離 D[T,R]，距離越小則相似度越高。 Mel頻率可以用如下公式表示： ? ?700/1lo g2596 ff M e l ??? (217) 對頻率軸的不均勻劃分是 MFCC特征區(qū)別于普通倒譜特征的最重要的特點。圖。因為首次找到高門限越過點，再往前推可能要搜索 200ms左右才能找到清音的起點，這就不便于實現(xiàn)實時特征提取。為了避免乘法，一個簡單的方法就是利用差值，為此常常采用另一種與自相關(guān)函數(shù)類似作用的參量，即短時平均幅度差函數(shù) (AMDP)。河南理工大學畢業(yè)設(shè)計（論文）說明書 11 圖語音信號“ 0”的短時平均幅度短時平均過零率是指每幀內(nèi)信號通過零值的次數(shù)。這樣就可以采用平穩(wěn)過程的分析處理方法來處理了。從下圖可以明顯河南理工大學畢業(yè)設(shè)計（論文）說明書 8 的看出，加重后語音信號中高頻分量增強。若用 2x? 表示輸入語音信號序列的方差， max2X 表示信號的峰值， B 表示量化分辨率 (量化位長 )， 2e? 表示噪聲序列的方差，則量化信噪比為： )lg ()lg (10 m a x22 xex XBS N R ??? ???? （）假設(shè)語音信號的幅度服從 Laplacian 分布，此時信號幅度超過 x?4 的概率很小 ,只有%，因而可以取 xX ?4max? 。而一段語音，它的起始和結(jié)尾處的波形幅度較小，要準確地測出這些地方的基音周期并不容易，因此可將這兩處的波形忽略，只測調(diào)型段這一部分波形的基音周期。濁音通過喉部發(fā)聲，發(fā)聲時聲帶振動，聲帶振動的基本頻率稱為“基音頻率”，其倒數(shù)稱為“基音周期”。語音識別研究的另一個發(fā)展方向是人體語言與口語相結(jié)合的多媒體人機交互。研究將要解決的問題就是如何把原始語音從背景噪音中分離出來，即所謂提高音質(zhì)(speech enhancement)或減噪 (noise reduction)的預處理。然而語音技術(shù)本身仍在不斷進步，為市場提供更新更好的應用模式和技術(shù)。連續(xù)語音識別是指對說話人以日常自然的方式發(fā)音，通常特指用于語音錄入的聽寫機。從 1987年開始執(zhí)行 863計劃后，國家 863《智能計算機主題》專家組為語音識別研究立項。早期的工作主要集中在人耳聽辨試驗和探討聽音識別的可能性方面。河南理工大學畢業(yè)設(shè)計（論文）說明書 I 摘要語音識別主要是讓機器聽懂人說的話，即在各種情況下，準確地識別出語音的內(nèi)容，從而根據(jù)其信息執(zhí)行人的各種意圖。 Bell實驗室的 L． G． Kesta目視觀察語譜圖進行識別，提出了“聲紋 (Voiceprint)”的概念。每兩年滾動一次，從 1991年開始，專家組每一至二年舉行一次全國性的語音識別系統(tǒng)測試。顯然，連續(xù)非特定人語音識別的難度要大得多，因為不僅有說話人口音的問題，還有協(xié)同發(fā)音、斷字斷句、搜索等問題，除了考慮語音的聲學模型外還要涉及到語言模型，如構(gòu)詞法、文法等。目前，技術(shù)及應用的焦點主要集中在三個方面。這將會使識別系統(tǒng)具有很強的適應性。目前這種采用聲覺、視覺兩種信息融合進行識別的研究在全球范圍內(nèi)己經(jīng)展開，成為語音識別研究的重要發(fā)展方向和研究熱點之一。清音通過將口腔內(nèi)有的空氣釋放出來而發(fā)聲，發(fā)聲時喉部封閉，由于該氣流通過一個狹窄通道時在口腔中形成流，因此具有明顯的隨機噪聲的特點。圖給出了單獨說一個音節(jié)時的四種聲調(diào)的典型曲線 ( HzF/0 )。此時上式變?yōu)?SNR=。圖語音信號“ 0”的預加重處理效果 A/D轉(zhuǎn)換之前還需要加一個防混疊濾波器。這種時間以來處理的基本手段，一般是用一個長度有限的窗序列 w(n)截取一段語音信號來進行分析，并讓這個窗滑動，以便分析任意時刻附近的信號。對于連續(xù)語音信號，可以考察其時域波形通過時間軸的情況。平均幅度差函數(shù)能夠代替自相關(guān)函數(shù)進行語音分析，是基于這樣一個事實：如果信號是完全的周期信號 (設(shè)周期為 Np。語音信號的頻域分析語音的感知過程與人類聽覺系統(tǒng)具有頻譜分析功能是緊密相關(guān)的。圖從帶通濾波器作用理解短時傅里葉變換 ? ?jwneX 可以看作是加窗后函數(shù)的傅立葉變換，為了實現(xiàn)反變換，將 ? ?jwneX 進行頻率河南理工大學畢業(yè)設(shè)計（論文）說明書 15 采樣，即令 LKwk /2?? 則有 ? ? ? ? ? ?? ?????? ??? m mjwjwn kk emnwmxeX (212) 式中， L為頻率采樣點數(shù)。將頻率按照式 (217)變換到 Mel域后， Mel帶通濾波器組的中心頻率是按照 Mel頻率刻度均勻排列的。為了計算這一失真距離，應從 T和 R 中各個對應幀之間的距離算起。圖基于 DTW 的語音識別流程圖基于動態(tài)時間歸整匹配的 DTW算法從目前來看，可能是一個最為小巧的語音識別的算法。連接權(quán)的建立是通過訓練算法進行的。神經(jīng)網(wǎng)絡(luò)依靠連接權(quán)能夠進行長時間記憶和知識存儲，但對于輸入模式的瞬時響應的短時記憶能力比較差。隨著語音識別研究工作的深入開展， HMM 語音識別方法愈來愈收到人們的重視，基于HMM 技術(shù)的識別系統(tǒng)的缺點就在于統(tǒng)計模型的建立需要依賴一個較大的語音庫?；旌夏Ｐ涂朔俗畲笏迫粶蕜t(MLE)區(qū)分能力差的缺陷。分類網(wǎng)絡(luò)可以用 n個輸出節(jié)點表示 n個類，將輸入映射成 n類中的一種。與傳統(tǒng)的 HMM相比，混合 HMM/ANN 模型還為融合多種語音特征矢量，考慮不同層次上的多種約束提供了一個非常方便的接口。且模型所需要的存儲量和匹配計算 (包括特征矢量的輸出概率計算 )的運算量相對較大，通常需要具有一定容量 SRAN的 DSP才能完成。因此考慮將人工神經(jīng)網(wǎng)絡(luò)與已經(jīng)發(fā)展的方法結(jié)合構(gòu)成一種混和系統(tǒng)，在這種系統(tǒng)中，神經(jīng)網(wǎng)絡(luò)或者作為其前端進行預處理，或者作為后端進行后處理。人工神經(jīng)網(wǎng)絡(luò)在語音識別中的主要應用，如矢量量化、分類區(qū)分、降噪濾波、共振峰檢測等，其中用的最多的是神經(jīng)網(wǎng)絡(luò)的區(qū)分能力。但是，如果系統(tǒng)稍微復雜一些，這種算法就顯得力不從心了。距離函數(shù)取決于實際采用的距離度量，在 DTW算法中通常采用歐氏距離。 (2)求出頻譜平方，即能量譜，并用 M 個 Mel 帶通濾波器進行濾波；由于每一個頻帶中分量的作用在入耳中是疊加的，因此將每個濾波器頻帶內(nèi)的能量進行疊加，這時第 k 個濾波器輸出功率譜 X(k)。圖。利用一組濾波器來分析語音信號的頻譜，方法使用簡單、實時性好、受外界環(huán)境的影響小。即： ? ? ? ? ? ? ? ??,2,00 pp NNkknxnxnd ??????? (29) 對于實際的語音信號， d(n)雖不為零，但其值很小。在一定程度上短時過零率可以反映出頻率的信息，在濁音段一般具有較低的過零率，而在清音段具有較高的過零率，這樣就可以初步判斷清音和濁音，但只是相對而言，沒有精確的數(shù)值關(guān)系。通幫采用最多的窗函數(shù)是矩形窗、漢寧窗(Hanning)和哈明窗 (Hamming)。低通濾波器的截至頻率由語音信號帶寬決定，用于慮除高于 l/2 采樣頻率的信號成分或噪聲，并且希望其帶內(nèi)波動和帶外衰減特性盡可能好。當 B=7位時， SNR=35dB。由于在發(fā)音過程中聲道是運動的，因此可以用一個時變線性系統(tǒng)來模擬。當聲帶振動發(fā)出的聲音氣流從喉腔、咽腔進入口腔從唇腔出去時，這些聲腔完全開放，氣流順利通過，這種音稱為元音。語音識別技術(shù)的成熟使人機界面發(fā)生革命性突破，網(wǎng)絡(luò)時代用戶需要更自然、更簡單、更方便的以語音為中心點的人機界面。第三個就是“口語”的問題。首先要明確的是，口音是指同一種語言在不同地區(qū)的發(fā)音有所不同，與同一地區(qū) (例如中國 )的不同方言是有區(qū)別的。特定人是指只針對一個用戶的語音識別，非特定人則可用于不同的用戶。目前我國大詞匯量連續(xù)語音識別系統(tǒng)的研究已經(jīng)接河南理工大學畢業(yè)設(shè)計（論文）說明書 2 近國外最高水平。 60年代末和 70年代初語音識別最重要的發(fā)展是語音信號線性預測編碼 (LPC)技術(shù)和動態(tài)時間規(guī) 整 (DTW)技術(shù)，有效地解決了語音的特征提取和時間不等長匹配問題，對特定人的語音識別十分有效。本文基于語音信號產(chǎn)生的數(shù)學模型，從時域、頻域出發(fā)對語音信號進行分析，論述了語音識別的基本理論。研究語音識別，開發(fā)相應的產(chǎn)品有著廣泛的社會意義和經(jīng)濟意義。日本也先后在語音識別領(lǐng)域大展頭角，還有如 Philips公司開發(fā)的 Speech— Media和 Speech Pearl兩套軟件，涵蓋了自然語音識別與理解的對話系統(tǒng)。孤立詞識別是指說話人每次只說一個詞或短語，每個詞或短語在詞匯表中都算作一個詞條，一般用在語音電話撥號系統(tǒng)中。同時還可以在很多先驗知識的

點擊復制文檔內(nèi)容

環(huán)評公示相關(guān)推薦

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

基于matlab的語音識別系統(tǒng)的設(shè)計本科畢業(yè)設(shè)計(留存版)

基于matlab的圖像處理的課程設(shè)計車牌識別系統(tǒng)畢業(yè)論文-資料下載頁

基于dsp的指紋識別系統(tǒng)設(shè)計畢業(yè)設(shè)計論文word格式-資料下載頁

畢業(yè)論文基于matlab的車牌號碼識別系統(tǒng)設(shè)計-資料下載頁

基于matlab的語音識別系統(tǒng)的設(shè)計本科畢業(yè)設(shè)計-wenkub.com

基于matlab的語音識別系統(tǒng)的設(shè)計本科畢業(yè)設(shè)計(已改無錯字)

基于matlab的語音識別系統(tǒng)的設(shè)計本科畢業(yè)設(shè)計-資料下載頁

基于matlab的語音識別系統(tǒng)的設(shè)計本科畢業(yè)設(shè)計(參考版)

基于matlab的語音識別系統(tǒng)的設(shè)計本科畢業(yè)設(shè)計-文庫吧資料