freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于matlab的語音識別系統(tǒng)的設(shè)計本科畢業(yè)設(shè)計-免費閱讀

2025-07-16 01:17 上一頁面

下一頁面
  

【正文】 本系統(tǒng)采用的是MFCC系數(shù),24個濾波器。端點檢測就是從一段信號中檢測出語音信號的起始點和結(jié)束點。復音數(shù)量代表聲卡能夠同時發(fā)出多少種聲音,復音數(shù)越大,音色就越好,播放聲音時可以聽到的聲部越多、越細膩:采樣頻率是每秒采集聲音樣本的數(shù)量,采樣頻率越高,記錄的聲音波形越準確,保真度就越高,但采樣數(shù)據(jù)量相應(yīng)變大,要求的存儲空間也越多;采樣位數(shù)是指將聲音從模擬信號轉(zhuǎn)化為數(shù)字信號的二進制位數(shù)(bit),位數(shù)越高,在定域內(nèi)能表示的聲波振幅的數(shù)目越多,記錄的音質(zhì)也就越高,例如16位聲卡把音頻信號的大小分為216=65536個量化等級來實施上述轉(zhuǎn)換。從數(shù)據(jù)采集的角度來看,PC聲卡本身就成為一個優(yōu)秀的數(shù)據(jù)采集系統(tǒng),它同時具有A/D和D/A轉(zhuǎn)換功能,不僅價格低廉,而且兼容性好、性能穩(wěn)定、靈活通用,軟件特別是驅(qū)動程序升級方便。相關(guān)算法可參看相關(guān)資料。一般認為,π和A參數(shù)初值選取影響不大,可以隨機選取或均勻取值,只要滿足概率要求即可,但B初值對訓練出的HMM影響較大,一般傾向采取較為復雜的初值選取方法。前向變量可按下列步驟進行迭代計算:(1) 初始化 (433)(2) 迭代計算(434)后向算法的改進:與前向算法相類似,定義后向變量: (435)即在給定模型λ和n1時狀態(tài)為Si,n時狀態(tài)為Sj的條件下,從n+l時到最后的部分觀測序列的概率,可按如下步驟進行迭代計算:(1) 初始化 (2) 迭代計算在給定模型λ下,產(chǎn)生觀測序列O的概率,根據(jù)前向變量和后向變量的定義可得: (437)以上方法可以推廣到Viterbi算法,BaumWelch算法。為了彌補這一缺點,對經(jīng)典的HMM模型的狀態(tài)轉(zhuǎn)移和輸出觀測值的馬爾可夫假設(shè)條件做一定的改進,并導出新模型的前向和后向算法。假設(shè)b39。假設(shè)此概率最大值記為,有(417)則由式(4—16)很容易推導出 (418)另外,為了描述路徑節(jié)點之間的遞推關(guān)系,定義其意義為xn+1=Sj的一條最優(yōu)路徑x1x2…xnxn+1中xn的狀態(tài)序號。后向概率的具體計算算法如下:(1) 初始化: (49)(2) 遞推計算: (410)在定義了前向概率以及后向概率及其計算方法以后,考察整體概率,即出現(xiàn)整個觀察矢量序列Y=[y1,y2,……,yn]的概率: (411)事實上,上述公式和系統(tǒng)當前所處的時刻n無關(guān),用公式(47)代入有: (412)即系統(tǒng)在模型下名出現(xiàn)觀察序列Y的概率是唯一的。解決三個問題的具體算法:問題1:前向后向算法對于已經(jīng)確定某個觀察矢量序列,考察n時刻。 最優(yōu)狀態(tài)序列搜索:已知觀察序列O和模型λ,即如何選擇最佳的狀態(tài)序X。π為初始狀態(tài)概率分布。由此產(chǎn)生的狀態(tài)序列(x1,x2,x3,……)是一條一階馬爾可夫鏈。,是一種常用的HMM模型,它用同一狀態(tài)的駐留描述發(fā)音的長短,用狀態(tài)的轉(zhuǎn)移描述發(fā)音單元的變化。另一方面它引入了概率統(tǒng)計模型,不再用動態(tài)時間對齊的方法求匹配距離,而是通過搜索最佳狀態(tài)序列并計算最大后驗概率找到識別結(jié)果,HMM模型較好地描述了語音信號在時間和聲學特性兩個方面的統(tǒng)計變化。預測網(wǎng)絡(luò)的輸入是相繼的幾幀語音特征矢量,輸出下一幀語音的預測值,通過給每一個音子分配一個預測網(wǎng)絡(luò),就可以比較每個音素預測網(wǎng)絡(luò)的預測誤差,選取其中具有最小預測誤差的網(wǎng)絡(luò)與當前語音段匹配,體現(xiàn)了相鄰語音幀之間的時域相關(guān)性。(2) 可以把人的聽覺模型融合于ANN中,在ANN的輸入端可以同時加載相鄰數(shù)幀的語音特征矢量,因而和語音信號的實際情況更加符合。這樣就可以讓網(wǎng)絡(luò)更好地利用存在音段中的所有語音幀之間的相關(guān)性,而且還可以更容易地利用其它信息,比如時長。在此模型中用狀態(tài)的段長分布函數(shù)替代了齊次HMM中的狀態(tài)轉(zhuǎn)移矩陣,徹底拋棄了“平穩(wěn)的假設(shè)”,而從非平穩(wěn)的角度考慮問題,使模型成為一種基于狀態(tài)段長分布的隱含Markov模型。如今,各種形式的}砌模型和算法己日趨成熟,以它為基礎(chǔ)己經(jīng)形成了語音識別的整體框架模型,它統(tǒng)一了語音識別中聲學層和語音學層的算法結(jié)構(gòu),制定了最佳的搜索和匹配算法,以概率的形式將聲學層中得到的信息和語音學層中己有的信息比較理想的結(jié)合在一起??傊窍Mㄟ^這種結(jié)合充分發(fā)揮各自的特長。但神經(jīng)網(wǎng)絡(luò)識別方法有個較大的缺點,就是時序性很差,沒有解決時間對準問題。人工神經(jīng)網(wǎng)絡(luò)在語音識別中的主要應(yīng)用,如矢量量化、分類區(qū)分、降噪濾波、共振峰檢測等,其中用的最多的是神經(jīng)網(wǎng)絡(luò)的區(qū)分能力。所以從七十年代后期到現(xiàn)在,雖然仍然有人應(yīng)用人工智能的方法進行語音識別,但他們很少取得成果。但是,如果系統(tǒng)稍微復雜一些,這種算法就顯得力不從心了。因而更多地是采用動態(tài)規(guī)劃(DP)的方法。設(shè)n和m分別是T和R中任意選擇的幀號,d[T(n),R(m)]表示這兩幀之間的距離。用于孤立詞識別,DTW算法與HMM算法在相同的環(huán)境條件下,識別效果相差不大,但HMM算法要復雜得多,主要體現(xiàn)在HMM算法在訓練階段需要提供大量的語音數(shù)據(jù),通過反復計算才能得到模型參數(shù),而DTW算法的訓練中幾乎不需要額外的計算。在實際應(yīng)用中,MFCC倒譜系數(shù)計算過程如下:(1) 將信號進行分幀,預加重和加哈明窗處理,然后進行短時傅立葉變換并得到其頻譜。 Mel頻率倒譜系數(shù)美爾頻標倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,MFCC)考慮了人耳的聽覺特性,將頻譜轉(zhuǎn)化為基于Mel頻標的非線性頻譜,然后轉(zhuǎn)換到倒譜域上。 從帶通濾波器作用理解短時傅里葉變換可以看作是加窗后函數(shù)的傅立葉變換,為了實現(xiàn)反變換,將進行頻率采樣,即令則有 (212) 式中,L為頻率采樣點數(shù)。語音信號x(t)輸入帶通濾波器f1,f2,…… fn,濾波器輸出為具有一定頻帶的中心頻率為f1,f2,…… fn的信號。因為首次找到高門限越過點,再往前推可能要搜索200ms左右才能找到清音的起點,這就不便于實現(xiàn)實時特征提取?!?”的自相關(guān)函數(shù)語音端點檢測的準確性和可靠性,對系統(tǒng)識別率的提高起著重要的作用當系統(tǒng)收到一段包含語音的信號時,系統(tǒng)需要對語音的端點進行定位,丟棄語音前.后多余的噪音段。為了避免乘法,一個簡單的方法就是利用差值,為此常常采用另一種與自相關(guān)函數(shù)類似作用的參量,即短時平均幅度差函數(shù)(AMDP)。一次一般的識別系統(tǒng),其前端的端點檢測過程都是將這兩個參數(shù)結(jié)合用于檢測語音是否真的開始?!?”的短時平均幅度短時平均過零率是指每幀內(nèi)信號通過零值的次數(shù)。對信號分析最自然最直接的方法是以時間為自變量進行分析,語音信號典型的時域特征包括短時能量、短時平均過零率、短時自相關(guān)系數(shù)和短時平均幅度差。這樣就可以采用平穩(wěn)過程的分析處理方法來處理了。在進行處理時,按幀從此數(shù)據(jù)區(qū)中取出數(shù)據(jù),處理完成后再取一幀,如此進行下去。從下圖可以明顯的看出,加重后語音信號中高頻分量增強。預加重的目的是提升高頻部分,使信號的頻譜變得平坦,以便于進行聲道參數(shù)分析或頻譜分析。若用表示輸入語音信號序列的方差,表示信號的峰值,B表示量化分辨率(量化位長),表示噪聲序列的方差,則量化信噪比為: ()假設(shè)語音信號的幅度服從Laplacian分布,此時信號幅度超過的概率很小,%,因而可以取。為了將原始的模擬語音信號變?yōu)閿?shù)字信號,必須經(jīng)過采樣和量化兩個步驟,從而得到時間和幅度上均為離散的數(shù)字語音信號。而一段語音,它的起始和結(jié)尾處的波形幅度較小,要準確地測出這些地方的基音周期并不容易,因此可將這兩處的波形忽略,只測調(diào)型段這一部分波形的基音周期。輔音出現(xiàn)在音節(jié)的前端或者后端或前后兩端。濁音通過喉部發(fā)聲,發(fā)聲時聲帶振動,聲帶振動的基本頻率稱為“基音頻率”,其倒數(shù)稱為“基音周期”。(2)生理學:有關(guān)人的聲道與耳朵的生理結(jié)構(gòu)、耳朵的聽覺特征,在腦內(nèi)高層的語言處理等。語音識別研究的另一個發(fā)展方向是人體語言與口語相結(jié)合的多媒體人機交互。你也許接觸到一些語音軟件聲稱是可以做到自然語言識別,而在這方面真正有實用商業(yè)系統(tǒng)的只有Nuance公司。研究將要解決的問題就是如何把原始語音從背景噪音中分離出來,即所謂提高音質(zhì)(speech enhancement)或減噪(noise reduction)的預處理。例如Nuance公司,作為擁有最大市場和最多用戶的公司,也擁有最多的用戶語音數(shù)據(jù),保證了它極高的基礎(chǔ)識別率。然而語音技術(shù)本身仍在不斷進步,為市場提供更新更好的應(yīng)用模式和技術(shù)。語音信號經(jīng)預處理后,接下來很重要的一環(huán)就是特征參數(shù)提取。連續(xù)語音識別是指對說話人以日常自然的方式發(fā)音,通常特指用于語音錄入的聽寫機。目前在語音識別研究領(lǐng)域非?;钴S的課題為穩(wěn)健語音識別、說話人自適應(yīng)技術(shù)、大詞匯量關(guān)鍵詞識別算法、語音識別的可信度評測算法、基于類的語言模型和自適應(yīng)語言模型,以及深層次的自然語音的理解。從1987年開始執(zhí)行863計劃后,國家863《智能計算機主題》專家組為語音識別研究立項。語音識別技術(shù)進一步成熟,并開始向市場提供產(chǎn)品。早期的工作主要集中在人耳聽辨試驗和探討聽音識別的可能性方面。本文應(yīng)用隱馬爾科夫模型(HMM) 為識別算法,采用MFCC(MEL頻率倒譜系數(shù))為主要語音特征參數(shù),建立了一個漢語數(shù)字語音識別系統(tǒng),其中包括語音信號的預處理、特征參數(shù)的提取、識別模板的訓練、識別匹配算法;同時,提出利用Matlab圖形用戶界面開發(fā)環(huán)境設(shè)計語音識別系統(tǒng)界面,設(shè)計簡單,使用方便,系統(tǒng)界面友好。河南理工大學畢業(yè)設(shè)計(論文)說明書摘 要語音識別主要是讓機器聽懂人說的話,即在各種情況下,準確地識別出語音的內(nèi)容,從而根據(jù)其信息執(zhí)行人的各種意圖。經(jīng)過統(tǒng)計,識別效果明顯達到了預期目標。Bell實驗室的L.G.Kesta目視觀察語譜圖進行識別,提出了“聲紋(Voiceprint)”的概念。由于中國的國際地位不斷提高,以及在經(jīng)濟和市場方面所處的重要地位,漢語語音識別也越來越受到重視。每兩年滾動一次,從1991年開始,專家組每一至二年舉行一次全國性的語音識別系統(tǒng)測試。研究的方向也越來越側(cè)重于口語對話系統(tǒng)。顯然,連續(xù)非特定人語音識別的難度要大得多,因為不僅有說話人口音的問題,還有協(xié)同發(fā)音、斷字斷句、搜索等問題,除了考慮語音的聲學模型外還要涉及到語言模型,如構(gòu)詞法、文法等。對特征參數(shù)的要求是:1,提取的特征參數(shù)能有效地代表語音特征,具有很好的區(qū)分性。目前,技術(shù)及應(yīng)用的焦點主要集中在三個方面。此外,該公司的系統(tǒng)優(yōu)化工具為所有系統(tǒng)提供一個實用、有效的優(yōu)化方法。這將會使識別系統(tǒng)具有很強的適應(yīng)性。Nuance的最新版識別軟件所提供的“隨意說(Say anything)”技術(shù),使用戶可以以自然的語言說出自己的需求。目前這種采用聲覺、視覺兩種信息融合進行識別的研究在全球范圍內(nèi)己經(jīng)展開,成為語音識別研究的重要發(fā)展方向和研究熱點之一。(3)統(tǒng)計學和模式識別理論;基于各種統(tǒng)計方法對模式進行匹配,以及建立有關(guān)的統(tǒng)計模型,對語音特征參數(shù)進行估值和分類。清音通過將口腔內(nèi)有的空氣釋放出來而發(fā)聲,發(fā)聲時喉部封閉,由于該氣流通過一個狹窄通道時在口腔中形成流,因此具有明顯的隨機噪聲的特點。漢語是一種聲調(diào)語言,相同聲母和韻母構(gòu)成的音節(jié)隨聲調(diào)的不同而具有完全不同的意義,對應(yīng)著不同的漢字。()。根據(jù)采樣定理,當采樣頻率大于信號的2倍帶寬時,在采樣過程中不會丟失信息,且從采樣信號中可以精確地重構(gòu)原始信號波形。此時上式變?yōu)镾NR=。預加重在防混疊濾波與A/D轉(zhuǎn)換之前進行?!?”的預加重處理效果A/D轉(zhuǎn)換之前還需要加一個防混疊濾波器。一般來說,語音信號處理的幀長一般取20ms(當Fs=8kHz時,相應(yīng)每幀由160個信號樣值)。這種時間以來處理的基本手段,一般是用一個長度有限的窗序列w(n)截取一段語音信號來進行分析,并讓這個窗滑動,以便分析任意時刻附近的信號。對于信號x(n),短時能量定義為: (23)式中,h(n)=w2(n),N為窗長,En表示在信號的第n個點開始加窗函數(shù)時的短時能量。對于連續(xù)語音信號,可以考察其時域波形通過時間軸的情況。“0”的過零率,可為端點檢測提供參考。平均幅度差函數(shù)能夠代替自相關(guān)函數(shù)進行語音分析,是基于這樣一個事實:如果信號是完全的周期信號(設(shè)周期為Np。如果語音前后噪音保留過多,則會增加不同語音的共同成分,對識別產(chǎn)生干擾;而如果語音部分被切割掉,則會造成語音信息的丟失,若丟失的恰是區(qū)分語音的重要特征,則造成誤識。語音的感知過程與人類聽覺系統(tǒng)具有頻譜分析功能是緊密相關(guān)的??梢詫V波器組的輸出經(jīng)過自適應(yīng)增量調(diào)制器變?yōu)槎M制脈沖信號,再經(jīng)過多路開關(guān),變?yōu)橐淮M制脈沖信號。短時功率譜實際上是短時傅立葉變換幅度的平方,它是信號x(n)的短時自相關(guān)函數(shù)的傅立葉變換,即 (213)式中Rn(k)是自相關(guān)函數(shù)。由于充分考慮了人耳的聽覺特性,而且沒有任何的前提假設(shè),MFCC參數(shù)具有良好的識別性能和抗噪聲能力,但其計算量和計算精度要求高。(2) 求出頻譜平方,即能量譜,并用M個Mel帶通濾波器進行濾波;由于每一個頻帶中分量的作用在入耳中是疊加的,因此將每個濾波器頻帶內(nèi)的能量進行疊加,這時第k個濾波器輸出功率譜X(k)。所以在孤立詞語音識別中,DTW算法仍得到廣泛的應(yīng)用。距離函數(shù)取決于實際采用的距離度量,在DTW算法中通常采用歐氏距離。DTW是一個典型的最優(yōu)化問題。持這種觀點的專家認為,用其識別語音有種種困難,但是人類識別語音卻并不困難。人工智能的方法己不再是現(xiàn)代語音識別研究的主流。最初是用神經(jīng)網(wǎng)絡(luò)將語音段分成清音和濁音兩類,或分成鼻音、摩擦音和爆破音三類。 基于神經(jīng)網(wǎng)絡(luò)的語音識別方法原理圖神經(jīng)網(wǎng)絡(luò)對語音進行分類有兩個基本方法:靜態(tài)識別和動態(tài)識別?;诮y(tǒng)計的HMM算法可能是目前最為成功的一種語音識別模型和算法了。因此,HMM語音識別模型與算法是迄今為止最為完美的一個語音識別模型,從中也可看出好的理論體系對研究工作所起的重要的指導作用。段長分布函數(shù)的引入澄清了經(jīng)典HMM語音識別模的許多矛盾,DDBHMM比國際上流行的HMM語音識別模型有更好的識別性能和更低的計算復雜度(訓練算法比較流行的Baum算法復雜度低兩個數(shù)量級)。這個方法的缺點是必須先對語音進行分段,神經(jīng)網(wǎng)絡(luò)才能對分出的各
點擊復制文檔內(nèi)容
語文相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1