freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于matlab的語音識別系統(tǒng)的設(shè)計本科畢業(yè)設(shè)計-wenkub.com

2024-08-23 15:19 本頁面
   

【正文】 但輸出直接映射成 HMM狀態(tài)。用神 經(jīng)網(wǎng)絡(luò)進(jìn)行聲學(xué)建模一般有兩種方法: 第一種方法是預(yù)測網(wǎng)絡(luò)。在處理語音信號的時變特性方面。 混合模型結(jié)構(gòu)還充分利用了 ANN的下述特性,克服了 HMM的一系列缺陷和不足,主要特點(diǎn)如下: (1)混合模型可以自適應(yīng)學(xué)習(xí)以適應(yīng)語音數(shù)據(jù)的變化;可以不必拘泥于選取特殊的語音參數(shù)面對綜合的輸入模式進(jìn)行訓(xùn)練和識別。 與傳統(tǒng)的 HMM相比,混合 HMM/ANN模型不僅在理論上拋棄了 HMM一系列不合理假設(shè),而且在訓(xùn)練過程中自然地引入了 HMM 狀態(tài)之間的區(qū)分機(jī)制。 在音段層面方式中,神經(jīng)網(wǎng)絡(luò)的輸入來自整個語音段,而不是一幀語音或固定長度的語音窗。 HMM 和 ANN 的混合模型 語音信號是一種典型的動態(tài)模式序列,前后幀之間的時間相關(guān)性非常強(qiáng),所以要將神經(jīng)網(wǎng)絡(luò)應(yīng)用于語音識別,必須解決好瞬時輸出的記憶問題。 另外,它的一個最主要的缺點(diǎn)是根據(jù)詞模型推出的狀態(tài)段長分布是指數(shù)分布,這不符合語音的本質(zhì)屬性,因此,現(xiàn)在推出了一 種非齊次的 HMM 語音識別模型 (Duration Distribution Based Hidden Markov Model,簡稱 DDBHMM)。也正是基于成熟的 HMM方法設(shè)計了嵌入式環(huán)境下 (如手機(jī), PDA等 )的語音識別系統(tǒng)。 如今,各種形式的 }砌模型和算法己日趨成熟,以它為基礎(chǔ)己經(jīng)形成了語音識別的整體框架模型,它統(tǒng)一了語音識別中聲學(xué)層和語音學(xué) 層的算法結(jié)構(gòu),制定了最佳的搜索和匹配算法,以概率的形式將聲學(xué)層中得到的信息和語音學(xué)層中己有的信息比較理想的結(jié)合在一起。從 20世紀(jì) 80年代初人們開始用這種模型來描述語音信號后,就不斷有人對它進(jìn)行了各種改良和發(fā)展??傊窍Mㄟ^這種結(jié)合充分發(fā)揮各自的特長。靜態(tài)網(wǎng)絡(luò)在音素識別問題上的識別效果非常好,而動態(tài)分類在字以及句子層面上的識別效果比較好。圖 。也就是說,系統(tǒng)參數(shù)只在整體上有意義,是不可分的。最初是用神經(jīng)網(wǎng)絡(luò)將語音段分成清音和濁音兩 類,或分成鼻音、摩擦音和爆破音三類。所有的神經(jīng)元協(xié)同工作,使整個網(wǎng)絡(luò)呈現(xiàn)出大規(guī)模的集體計算行為,系統(tǒng)的所有計算都是由這些單元完成的,而單元之間的連接權(quán)決定了網(wǎng)絡(luò)對任意輸入模式的計算響應(yīng)。人工智能的方法己不再是現(xiàn)代語音識別研究的主流。 美國卡內(nèi)基 —— 梅隆大學(xué)在七十年代完成的 Happy系統(tǒng)是基于這個理論的最成功的語河南理工大學(xué)畢業(yè)設(shè)計(論文)說明書 19 音識別系統(tǒng)。 基于規(guī)則的人工智能方法 持這種觀點(diǎn)的專家認(rèn)為,用其識別語音有種種困難,但是人類識別語音卻并不困難。圖 為基于 DTW的孤立字語音識別流程圖。它用滿足一定條件的時間規(guī)正函數(shù) w(n)描述輸入模板和參考模板的時間對應(yīng)關(guān)系,求解二模板匹配時累計距離最小所對應(yīng)的規(guī)正函數(shù):所以 DTW 保 證了二模板間存在的最大聲學(xué)相似性。對齊可以采用線性擴(kuò)張的方法,如果 NM 可以將 T 線性映射為一個 M幀的序列,再計算它與之間的距離。 DTW 算法是把時間規(guī)正和距離測度計算結(jié)合起來的一種非線性規(guī)正技術(shù)。測試和參考模板分別用 T 和 R 表示,為了比較它們之間的相似度,可以計算它們之間的距離 D[T,R],距離越小則相似度越高。 在訓(xùn)練和建立模板階段以及在識別階段,都采用端點(diǎn)檢測算法確定語音的起點(diǎn)和終點(diǎn)。從而自 60年代末期開始引起了語音識別的研究熱潮。 (3)將每個濾波器的輸出取對數(shù),得到相應(yīng)頻帶的對數(shù)功率譜;并進(jìn)行反離散余弦變換,得到 L個 MFCC系數(shù),一般 L取 12~ 16 個左右。 Mel頻率可以用如下公式表示 : ? ?700/1lo g2596 ff M e l ??? (217) 對頻率軸的不均勻劃分是 MFCC特征區(qū)別于普通倒譜特征的最重要的特點(diǎn)。 MFCC不同于 LPCC。語音信號所攜帶的語音信息主要體現(xiàn)在聲道傳輸函數(shù)上,因而在語音識別中通常取 語音信號倒譜的低時域構(gòu)成 LPC倒譜特征 c,即 ? ? ? ? ? ?? ? 1610,2,1 ??? qqcccc ? (216) 式中, q為 LPC倒譜特征的階數(shù)。 圖 幾種基于短時傅里葉變換譜之間的關(guān)系 特征參數(shù)提取 LPCC倒譜系數(shù) 線性預(yù)測倒譜參數(shù) (Linear Prediction Cepstrum Coefficient, LPCC)是線性預(yù)測系數(shù)在倒譜域中的表示,該特征是基于語音信號為自回歸信號的假設(shè),利用線性預(yù)測分析獲得倒譜系數(shù)。圖 。它是 法國科學(xué)家J. Fourier 在 1807 年為了得到熱傳導(dǎo)方程的簡便解法而提出的。 語音信號 x(t)輸入帶通濾波器 f1, f2,?? fn,濾波器輸出為具有一定頻帶的中心頻率為 f1, f2,?? fn的信號。濾波器組法所用的濾波器可以是模擬濾波器,也可以是數(shù)字濾波器。因為首次找到高門限越過點(diǎn),再往前推可能要搜索 200ms左右才能找到清音的起點(diǎn),這就不便于實現(xiàn)實時特征提取。 端點(diǎn)檢測有雙門限前端檢測算法和多門限過零率前端檢測算法。 圖 語音信號“ 0”的自相關(guān)函數(shù) 語音端點(diǎn)檢測的準(zhǔn)確性和可靠性,對系統(tǒng)識別率的提高起著重要的作用當(dāng)系統(tǒng)收到一段包含語音的信號時,系統(tǒng)需要對語音的端點(diǎn)進(jìn)行定位,丟棄語音前.后多余的噪音段。這些極小值將出現(xiàn)在整數(shù)倍周期河南理工大學(xué)畢業(yè)設(shè)計(論文)說明書 13 的位置上。為了避免乘法,一個簡單的方法就是利用差值,為此常常采用另一種與自相關(guān)函數(shù)類似作用的參量,即短時平均幅度差函數(shù) (AMDP)。因此對于濁音語音可以用自相關(guān)函數(shù)求出語音波形序列的基音周期。一次一般的識別系統(tǒng),其前端的端點(diǎn)檢測過程都是將這兩個參數(shù)結(jié)合用于檢測語音是否真的開始。短時平均過零率公式為: ? ?? ? ? ?? ? ? ?? ?? ? ? ?? ?????????????????1 1s g ns g n211s g ns g n21NnnmwwmnmxmxmnwmxmxZ (26) Sgn[*]是符號函數(shù)。 河南理工大學(xué)畢業(yè)設(shè)計(論文)說明書 11 圖 語音信號“ 0”的短時平均幅度 短時平均過零率是指每幀內(nèi)信號通過零值的次數(shù)。 圖 “ 0”的短時能力函數(shù) 利用短時能量可以區(qū)分清音和濁音,因為濁音的能量比清音的能量大得多;其次可以用短時能量對有聲段和無聲段進(jìn)行判定,對聲母和韻母分界,以及對連字分界等。 語音信號的時域分析 對信號分析最自然最直接的方法是以時間為自變量進(jìn)行分析,語音信號典型的時域特征包括短時能量、短時平均過零率、短時自相關(guān)系數(shù)和短時平均幅度差。本文主要采用哈明窗,其公式為: ? ?????????????? ? ???其他nLnL mnw,0~0,1 12c o )( ? (22) 其中 L 是窗長。這樣就可以采用平穩(wěn)過程的分析處理方法來處理了。在對語音信號進(jìn)行短時分析的過程中,信號流的處理用分段或分幀來實現(xiàn)。在進(jìn)行處理時,按幀從此數(shù)據(jù)區(qū)中取出數(shù)據(jù),處理完成后再取一幀,如此進(jìn)行下去。 A/D 轉(zhuǎn)換后采用低通濾波器作為平滑濾波器,對重構(gòu)的語音波形的高次諧波起平滑作用,以去除高次諧波失真。從下圖可以明顯河南理工大學(xué)畢業(yè)設(shè)計(論文)說明書 8 的看出,加重后語音信號中高頻分量增強(qiáng)。同時,預(yù)加重也可在 A/D 轉(zhuǎn)換之后進(jìn)行,用具有 6dB/oct 地提升高頻特性地預(yù)加重數(shù)字濾波器實現(xiàn)。預(yù)加重的目的是提升高頻部分,使信號的頻譜變得平坦,以便于進(jìn)行聲道參數(shù)分析或頻譜分析。此時量化后的語音質(zhì)量能滿足一般通信系統(tǒng)的要求。若用 2x? 表示輸入語音信號序列的方差, max2X 表示信號的峰值, B 表示量化分辨率 (量化位長 ), 2e? 表示噪聲序列的方差,則量化信噪比為: )lg ()lg (10 m a x22 xex XBS N R ??? ???? ( ) 假設(shè)語音信號的幅度服從 Laplacian 分布,此時信號幅度超過 x?4 的概率很小 ,只有%,因而可以取 xX ?4max? 。此時,信號中的高頻成分將產(chǎn)生失真。 圖 語音信號產(chǎn)生模型 河南理工大學(xué)畢業(yè)設(shè)計(論文)說明書 7 語音信號數(shù)字化和預(yù)處理 為了將原始的模擬語音信號變?yōu)閿?shù)字信號,必須經(jīng)過采樣和量化兩個步驟,從而得到時間和幅度上均為離散的數(shù)字語音信號。理想的模型是線性的,且時不變的;但是語音信號是一連串的時變過程,且聲門和聲道相互耦合形成了語音信號的非線性特性。而一段語音,它的起始和結(jié)尾處的波形幅度較小,要準(zhǔn)確地測出這些地方的基音周期并不容易,因此可將這兩處的波形忽略,只測調(diào)型 段這一部分波形的基音周期。聲調(diào)的變化就是濁音基音周期 (或基音頻率 )的變化,各個韻母段中基音周期隨時問的變化產(chǎn)生了聲調(diào),變化的軌跡稱為聲調(diào)曲線。輔音出現(xiàn)在音節(jié)的前端或者后端或前后兩端。元音構(gòu)成一個音節(jié)的主干,無論從長度還是能量上看,元音在音節(jié)中都占主要部分。 濁音通過喉部發(fā)聲,發(fā)聲時聲帶振動,聲帶 振動的基本頻率稱為“基音頻率”,其倒數(shù)稱為“基音周期”。 (7)數(shù)字信號處理技術(shù):信號的時域分析、 噪聲消除、數(shù)字濾波、線性預(yù)測等方面的知識。 (2)生理學(xué):有關(guān)人的聲道與耳朵的生理結(jié)構(gòu)、耳朵的聽覺特征,在腦內(nèi)高層的語言處理等。未來幾年里,真正實用的語音識別和音字轉(zhuǎn)換技術(shù)將首次走出實驗室,走進(jìn)千家萬戶的電器設(shè)備中。語音識別研究的另一個發(fā)展方向是人體語言與口語相結(jié)合的多媒體人機(jī)交互。 語音識別發(fā)展前景 語音技術(shù)是目前世界上最熱門和最具有發(fā)展前景的技術(shù)之一。你也許接觸到一些語音軟件聲稱是可以做到自然語言識別,而在這方面真正有實用商業(yè)系統(tǒng)的只有 Nuance公司。這就是用戶說話的自由度問題。研究將要解決的問題就是如何把原始語音從背景噪音中分離出來,即所謂提高音質(zhì)(speech enhancement)或減噪 (noise reduction)的預(yù)處理。 焦點(diǎn)之二是背景噪音。例如 Nuance公司,作為擁有最大市場和最多用戶的公司,也擁有最多的用戶語音數(shù)據(jù),保證了它極高的基礎(chǔ)識別率。例如,中國的八大方言多屬于與普通話 (北方語系 )不同的語系。然而語音技術(shù)本身仍在不斷進(jìn)步,為市場提供更新更好的應(yīng)用模式和技術(shù)。 在訓(xùn)練階段,將特征參數(shù)進(jìn)行一定的處理之后,為每個詞條得到一個模型,保存為模版庫。語音信號經(jīng)預(yù)處理后,接下來很重要的一環(huán)就是特征參數(shù)提取。實際上,非特定人語音識別的初始識別率往往都比較低,一般都要求用戶花一定的時間對系統(tǒng)進(jìn)行訓(xùn)練,將系統(tǒng)的參數(shù)進(jìn)行一定的自適應(yīng)調(diào)整,才能使識別率達(dá)到滿意的程度。連續(xù)語音識別是指對說話人以日常自然的方式發(fā)音,通常特指用于語音錄入的聽寫機(jī)。本文介紹了語音識別的基本流程、所用到的語音參數(shù)算法、語音識別的訓(xùn)練算法和識別算法做初步的探究,主要運(yùn)用了特定人孤立詞識別的 DTW算法和非特定人識別的連續(xù) HMM算法的 Matlab識別系統(tǒng)。 目前在語音識別研究領(lǐng)域非?;钴S的課題為穩(wěn)健語音識別、說話人自適應(yīng)技術(shù)、大詞匯量關(guān)鍵詞識別算法、語音識別的可信度評測算法、基于類的語言模型和自適應(yīng)語言模型,以及深層次的自然語音的理解。 語音識別發(fā)展到一定階段,世界各國都加快了語音識別引用系統(tǒng)的研究開發(fā),通常連續(xù)語音是含有較完整語法信息的連續(xù)語句,最接近于人的自然講話方式,從非連續(xù)語音到連續(xù)語音的研究 面臨著很多完全不同的技術(shù)難點(diǎn),非連續(xù)語音的識別是一些孤立的聲波片段,連續(xù)語音則面臨著如何切分聲波的問題。從 1987年開始執(zhí)行 863計劃后,國家 863《智能計算機(jī)主題》專家組為語音識別研究立項。 IBM開發(fā)的 Viavoice和 Microsoft開發(fā)的中文識別引擎代表了當(dāng)前漢語語音識別的最高水平。語音識別技術(shù)進(jìn)一步成熟,并開始向市場提供產(chǎn)品 。研究特點(diǎn)是以孤立字語音識別為主,通常把孤立字作為一個整體來建立模板。早期的工作主要集中在人耳聽辨試驗和探討聽音識別的可能性方面。以語音識別開發(fā)出的產(chǎn)品應(yīng)用領(lǐng)域非常廣泛,有聲控電話交換、語音撥號系統(tǒng)、信息網(wǎng)絡(luò)查詢、家庭服務(wù)、賓館服務(wù)、旅行社服務(wù)系統(tǒng)、訂票系統(tǒng)、聲控智能玩具、醫(yī)療服務(wù)、銀行服務(wù)、股票查詢服務(wù)、計算機(jī)控制、工業(yè)控制、語音通信系統(tǒng)、軍事監(jiān)聽、信息檢索、應(yīng)急服務(wù)、翻譯系統(tǒng)等,幾乎深入到社會的每個行業(yè)、每個方面,其應(yīng)用和經(jīng)濟(jì)社會效益前景非常廣泛。本文應(yīng)用隱馬爾科夫模型 (HMM) 為識別算法,采用 MFCC(MEL 頻率倒譜系數(shù) )為主要語音特征參數(shù),建立了一個漢 語數(shù)字語音識別系統(tǒng),其中包括語音信號的預(yù)處理、特征參數(shù)的提取、識別模板的訓(xùn)練、識別匹配算法;同時,提出利用 Matlab 圖形用戶界面開發(fā)環(huán)境設(shè)計語音識別系統(tǒng)界面,設(shè)計簡單,使用方便,系統(tǒng)界面友好。在此基礎(chǔ)上討論了語音識別的五種算法:動態(tài)時間伸縮算法 (Dynamic Time Warping, DTW)、基于規(guī)則的人工智能方法、人工神經(jīng)網(wǎng)絡(luò) (Artificial Neural Network, ANN)方法、隱馬爾 可夫 (Hidden Markov Model,HMM)方法、 HMM 和 ANN 的混合模型。河南理工大學(xué)畢業(yè)設(shè)計(論文)說明書 I 摘 要 語音識別主要是讓機(jī)器聽懂人說的話,即在各種情況下,準(zhǔn)確地識別出語音的內(nèi)容,從而根據(jù)其信息執(zhí)行人的各種意圖。重點(diǎn)是從理論上研究隱馬爾可夫 (HMM)模型算法,對經(jīng)典的 HMM 模型算法進(jìn)行改進(jìn)。經(jīng)過統(tǒng)計,識別效果明顯達(dá)到了預(yù)期目標(biāo)。因此語音識別技術(shù)既是國際競爭的一項重要技術(shù),也是每一個
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1