freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于matlab的語音識(shí)別系統(tǒng)的設(shè)計(jì)本科畢業(yè)設(shè)計(jì)-文庫吧在線文庫

2025-10-12 15:19上一頁面

下一頁面
  

【正文】 基于 DTW 的語音識(shí)別流程圖 基于動(dòng)態(tài)時(shí)間歸整匹配的 DTW算法從目前來看,可能是一個(gè)最為小巧的語音識(shí)別的算法。但是這樣的計(jì)算沒有考慮到語音中各個(gè)段在不同的情況下的持續(xù)時(shí)間會(huì)產(chǎn)生或長或短的變化,因此識(shí)別效果不可能最佳。為了計(jì)算這一失真距離,應(yīng)從 T和 R 中各個(gè)對(duì)應(yīng)幀之間的距離算起。 在孤立詞語音識(shí)別中,最為簡單有效的方法就是該算法,該算法基于動(dòng)態(tài)規(guī)劃( DP)的思想,解決了發(fā)音長短不一的模板匹配問題,是語音識(shí)別中出現(xiàn)較早、較為經(jīng)典的一種算法。將頻率按照式 (217)變換到 Mel域后, Mel帶通濾波器組的中心頻率是按照 Mel頻率刻度均勻排列的。 然而 LPCC同時(shí)也繼承了 LPC的缺陷,其主要的一點(diǎn)就是 LPC在所有的頻率上都是線性逼近語音的,而這與人的聽覺的特性是不一致的;而且 LPC 包含了語音高頻部分的大部分噪聲細(xì)節(jié),這些都會(huì)影響系統(tǒng)的性能。 圖 從帶通濾波器作用理解短時(shí)傅里葉變換 ? ?jwneX 可以看作是加窗后函數(shù)的傅立葉變換,為了實(shí)現(xiàn)反變換,將 ? ?jwneX 進(jìn)行頻率河南理工大學(xué)畢業(yè)設(shè)計(jì)(論文)說明書 15 采樣,即令 LKwk /2?? 則有 ? ? ? ? ? ?? ?????? ??? m mjwjwn kk emnwmxeX (212) 式中, L為頻率采樣點(diǎn)數(shù)??梢詫V波器組的輸出經(jīng)過自適應(yīng)增量調(diào)制器變?yōu)槎M(jìn)制脈沖信號(hào),再經(jīng)過多路開關(guān),變?yōu)橐淮M(jìn)制脈沖信號(hào)。 語音信號(hào)的頻域分析 語音的感知過程與人類聽覺系統(tǒng)具有頻譜分析功能是緊密相關(guān)的。如果語音前后噪音保留過多,則會(huì)增加不同語音的共同成分,對(duì)識(shí)別產(chǎn)生干擾;而如果語音部分被切割掉,則會(huì)造成語音信息的丟失,若丟失的恰是區(qū)分語音的重要特征,則造成誤識(shí)。 平均幅度差函數(shù)能夠代替自相關(guān)函數(shù)進(jìn)行語音分析,是基于這樣一個(gè)事實(shí):如果信號(hào)是完全的周 期信號(hào) (設(shè)周期為 Np。如圖 “ 0”的過零率,可為端點(diǎn)檢測(cè)提供參考。對(duì)于連續(xù)語音信號(hào),可以考察其時(shí)域波形通過時(shí)間軸的情況。 對(duì)于信號(hào) x(n),短時(shí)能量定義為: ? ? ? ?? ? ? ? ? ?? ? ? ? ? ?nhnxmnwmxmnwmxE n Nnmmn *1 222 ?? ??????? ????? (23) 式中, h(n)=w2(n), N為窗長, En表示在信號(hào)的第 n個(gè)點(diǎn)開始加窗函數(shù)時(shí)的短時(shí)能量。這種時(shí)間以來處理的基本手段,一般是用 一個(gè)長度有限的窗序列 w(n)截取一段語音信號(hào)來進(jìn)行分析,并讓這個(gè)窗滑動(dòng),以便分析任意時(shí)刻附近的信號(hào)。一般來說,語音信號(hào)處理的幀長一般取 20ms(當(dāng) Fs=8kHz 時(shí),相應(yīng)每幀由 160個(gè)信號(hào)樣值 )。 圖 語音信號(hào)“ 0”的預(yù)加重處理效果 A/D轉(zhuǎn)換之前還需要加一個(gè)防混疊濾波器。預(yù)加重在防混疊濾波與 A/D 轉(zhuǎn)換之前進(jìn)行。此時(shí)上式變?yōu)?SNR=。根據(jù)采樣定理,當(dāng)采樣頻率大于信號(hào)的 2 倍帶寬時(shí),在采樣過程中不會(huì)丟失信息,且從采樣信號(hào)中可以精確地重構(gòu)原始信號(hào)波形。圖 給出了單獨(dú)說一個(gè)音節(jié)時(shí)的四種聲調(diào)的典型曲線 ( HzF/0 )。 漢語是一種聲調(diào)語言,相同聲母和韻母構(gòu)成的音節(jié)隨聲調(diào)的不同而具有完全不同的意義,對(duì)應(yīng)著不同的漢字。清音通過將口腔內(nèi)有的空氣釋放出來而發(fā)聲,發(fā)聲時(shí)喉部封閉,由于該氣流通過一個(gè)狹窄通道時(shí)在口腔中形成流,因此具有明顯的隨機(jī)噪聲的特點(diǎn)。 (3)統(tǒng)計(jì)學(xué)和模式識(shí)別理論;基于各種統(tǒng)計(jì)方法對(duì)模式進(jìn)行匹配,以及建立有關(guān)的統(tǒng)計(jì)模型,對(duì)語音特征參數(shù)進(jìn)行估值和分類。目前這種采用聲覺、視覺兩種信息融合進(jìn)行識(shí)別的研究在全球范圍內(nèi)己經(jīng)展開,成為語音識(shí)別研究的重要發(fā)展方向和研究熱點(diǎn)之一。Nuance的最新版識(shí)別軟件所提供的“隨意說 (Say anything)”技術(shù),使用戶可以以自然的河南理工大學(xué)畢業(yè)設(shè)計(jì)(論文)說明書 4 語言說出自己的需求。這將會(huì)使識(shí)別系統(tǒng)具有很強(qiáng)的適應(yīng)性。此外,該公司的系統(tǒng)優(yōu)化工具為所有系統(tǒng)提供一個(gè)實(shí)用、有效的優(yōu)化方法。目前,技術(shù)及應(yīng)用的焦點(diǎn)主要集中在三個(gè)方面。對(duì)特征參數(shù)的要求是: 1,提取的特征參數(shù)能有效地代表語音特征,具有很好的區(qū)分性。顯然,連續(xù)非特定人語音識(shí)別的難度要大得多,因?yàn)椴粌H有說話人口音的問題,還有協(xié)同發(fā)音、斷字?jǐn)嗑?、搜索等問題,除了考慮語音的聲學(xué)模型外還要涉及到語言模型,如構(gòu)詞法、文法等。研究的方向也越來越側(cè)重于口語對(duì)話系統(tǒng)。每兩年滾動(dòng)一次,從 1991年開始,專家組每一至二年舉行一次全國性的語音識(shí)別系統(tǒng)測(cè)試。由于中國的國際地位不斷提高,以及在經(jīng)濟(jì)和市場方面所處的重要地位,漢語語音識(shí)別也越來越受到重視。 Bell實(shí)驗(yàn)室的 L. G. Kesta目視觀察語譜圖進(jìn)行識(shí)別,提出了“聲紋 (Voiceprint)”的概念。經(jīng)過統(tǒng)計(jì),識(shí)別效果明顯達(dá)到了預(yù)期目標(biāo)。河南理工大學(xué)畢業(yè)設(shè)計(jì)(論文)說明書 I 摘 要 語音識(shí)別主要是讓機(jī)器聽懂人說的話,即在各種情況下,準(zhǔn)確地識(shí)別出語音的內(nèi)容,從而根據(jù)其信息執(zhí)行人的各種意圖。本文應(yīng)用隱馬爾科夫模型 (HMM) 為識(shí)別算法,采用 MFCC(MEL 頻率倒譜系數(shù) )為主要語音特征參數(shù),建立了一個(gè)漢 語數(shù)字語音識(shí)別系統(tǒng),其中包括語音信號(hào)的預(yù)處理、特征參數(shù)的提取、識(shí)別模板的訓(xùn)練、識(shí)別匹配算法;同時(shí),提出利用 Matlab 圖形用戶界面開發(fā)環(huán)境設(shè)計(jì)語音識(shí)別系統(tǒng)界面,設(shè)計(jì)簡單,使用方便,系統(tǒng)界面友好。早期的工作主要集中在人耳聽辨試驗(yàn)和探討聽音識(shí)別的可能性方面。語音識(shí)別技術(shù)進(jìn)一步成熟,并開始向市場提供產(chǎn)品 。從 1987年開始執(zhí)行 863計(jì)劃后,國家 863《智能計(jì)算機(jī)主題》專家組為語音識(shí)別研究立項(xiàng)。 目前在語音識(shí)別研究領(lǐng)域非?;钴S的課題為穩(wěn)健語音識(shí)別、說話人自適應(yīng)技術(shù)、大詞匯量關(guān)鍵詞識(shí)別算法、語音識(shí)別的可信度評(píng)測(cè)算法、基于類的語言模型和自適應(yīng)語言模型,以及深層次的自然語音的理解。連續(xù)語音識(shí)別是指對(duì)說話人以日常自然的方式發(fā)音,通常特指用于語音錄入的聽寫機(jī)。語音信號(hào)經(jīng)預(yù)處理后,接下來很重要的一環(huán)就是特征參數(shù)提取。然而語音技術(shù)本身仍在不斷進(jìn)步,為市場提供更新更好的應(yīng)用模式和技術(shù)。例如 Nuance公司,作為擁有最大市場和最多用戶的公司,也擁有最多的用戶語音數(shù)據(jù),保證了它極高的基礎(chǔ)識(shí)別率。研究將要解決的問題就是如何把原始語音從背景噪音中分離出來,即所謂提高音質(zhì)(speech enhancement)或減噪 (noise reduction)的預(yù)處理。你也許接觸到一些語音軟件聲稱是可以做到自然語言識(shí)別,而在這方面真正有實(shí)用商業(yè)系統(tǒng)的只有 Nuance公司。語音識(shí)別研究的另一個(gè)發(fā)展方向是人體語言與口語相結(jié)合的多媒體人機(jī)交互。 (2)生理學(xué):有關(guān)人的聲道與耳朵的生理結(jié)構(gòu)、耳朵的聽覺特征,在腦內(nèi)高層的語言處理等。 濁音通過喉部發(fā)聲,發(fā)聲時(shí)聲帶振動(dòng),聲帶 振動(dòng)的基本頻率稱為“基音頻率”,其倒數(shù)稱為“基音周期”。輔音出現(xiàn)在音節(jié)的前端或者后端或前后兩端。而一段語音,它的起始和結(jié)尾處的波形幅度較小,要準(zhǔn)確地測(cè)出這些地方的基音周期并不容易,因此可將這兩處的波形忽略,只測(cè)調(diào)型 段這一部分波形的基音周期。 圖 語音信號(hào)產(chǎn)生模型 河南理工大學(xué)畢業(yè)設(shè)計(jì)(論文)說明書 7 語音信號(hào)數(shù)字化和預(yù)處理 為了將原始的模擬語音信號(hào)變?yōu)閿?shù)字信號(hào),必須經(jīng)過采樣和量化兩個(gè)步驟,從而得到時(shí)間和幅度上均為離散的數(shù)字語音信號(hào)。若用 2x? 表示輸入語音信號(hào)序列的方差, max2X 表示信號(hào)的峰值, B 表示量化分辨率 (量化位長 ), 2e? 表示噪聲序列的方差,則量化信噪比為: )lg ()lg (10 m a x22 xex XBS N R ??? ???? ( ) 假設(shè)語音信號(hào)的幅度服從 Laplacian 分布,此時(shí)信號(hào)幅度超過 x?4 的概率很小 ,只有%,因而可以取 xX ?4max? 。預(yù)加重的目的是提升高頻部分,使信號(hào)的頻譜變得平坦,以便于進(jìn)行聲道參數(shù)分析或頻譜分析。從下圖可以明顯河南理工大學(xué)畢業(yè)設(shè)計(jì)(論文)說明書 8 的看出,加重后語音信號(hào)中高頻分量增強(qiáng)。在進(jìn)行處理時(shí),按幀從此數(shù)據(jù)區(qū)中取出數(shù)據(jù),處理完成后再取一幀,如此進(jìn)行下去。這樣就可以采用平穩(wěn)過程的分析處理方法來處理了。 語音信號(hào)的時(shí)域分析 對(duì)信號(hào)分析最自然最直接的方法是以時(shí)間為自變量進(jìn)行分析,語音信號(hào)典型的時(shí)域特征包括短時(shí)能量、短時(shí)平均過零率、短時(shí)自相關(guān)系數(shù)和短時(shí)平均幅度差。 河南理工大學(xué)畢業(yè)設(shè)計(jì)(論文)說明書 11 圖 語音信號(hào)“ 0”的短時(shí)平均幅度 短時(shí)平均過零率是指每幀內(nèi)信號(hào)通過零值的次數(shù)。一次一般的識(shí)別系統(tǒng),其前端的端點(diǎn)檢測(cè)過程都是將這兩個(gè)參數(shù)結(jié)合用于檢測(cè)語音是否真的開始。為了避免乘法,一個(gè)簡單的方法就是利用差值,為此常常采用另一種與自相關(guān)函數(shù)類似作用的參量,即短時(shí)平均幅度差函數(shù) (AMDP)。 圖 語音信號(hào)“ 0”的自相關(guān)函數(shù) 語音端點(diǎn)檢測(cè)的準(zhǔn)確性和可靠性,對(duì)系統(tǒng)識(shí)別率的提高起著重要的作用當(dāng)系統(tǒng)收到一段包含語音的信號(hào)時(shí),系統(tǒng)需要對(duì)語音的端點(diǎn)進(jìn)行定位,丟棄語音前.后多余的噪音段。因?yàn)槭状握业礁唛T限越過點(diǎn),再往前推可能要搜索 200ms左右才能找到清音的起點(diǎn),這就不便于實(shí)現(xiàn)實(shí)時(shí)特征提取。 語音信號(hào) x(t)輸入帶通濾波器 f1, f2,?? fn,濾波器輸出為具有一定頻帶的中心頻率為 f1, f2,?? fn的信號(hào)。圖 。語音信號(hào)所攜帶的語音信息主要體現(xiàn)在聲道傳輸函數(shù)上,因而在語音識(shí)別中通常取 語音信號(hào)倒譜的低時(shí)域構(gòu)成 LPC倒譜特征 c,即 ? ? ? ? ? ?? ? 1610,2,1 ??? qqcccc ? (216) 式中, q為 LPC倒譜特征的階數(shù)。 Mel頻率可以用如下公式表示 : ? ?700/1lo g2596 ff M e l ??? (217) 對(duì)頻率軸的不均勻劃分是 MFCC特征區(qū)別于普通倒譜特征的最重要的特點(diǎn)。從而自 60年代末期開始引起了語音識(shí)別的研究熱潮。測(cè)試和參考模板分別用 T 和 R 表示,為了比較它們之間的相似度,可以計(jì)算它們之間的距離 D[T,R],距離越小則相似度越高。對(duì)齊可以采用線性擴(kuò)張的方法,如果 NM 可以將 T 線性映射為一個(gè) M幀的序列,再計(jì)算它與之間的距離。圖 為基于 DTW的孤立字語音識(shí)別流程圖。 美國卡內(nèi)基 —— 梅隆大學(xué)在七十年代完成的 Happy系統(tǒng)是基于這個(gè)理論的最成功的語河南理工大學(xué)畢業(yè)設(shè)計(jì)(論文)說明書 19 音識(shí)別系統(tǒng)。所有的神經(jīng)元協(xié)同工作,使整個(gè)網(wǎng)絡(luò)呈現(xiàn)出大規(guī)模的集體計(jì)算行為,系統(tǒng)的所有計(jì)算都是由這些單元完成的,而單元之間的連接權(quán)決定了網(wǎng)絡(luò)對(duì)任意輸入模式的計(jì)算響應(yīng)。也就是說,系統(tǒng)參數(shù)只在整體上有意義,是不可分的。靜態(tài)網(wǎng)絡(luò)在音素識(shí)別問題上的識(shí)別效果非常好,而動(dòng)態(tài)分類在字以及句子層面上的識(shí)別效果比較好。從 20世紀(jì) 80年代初人們開始用這種模型來描述語音信號(hào)后,就不斷有人對(duì)它進(jìn)行了各種改良和發(fā)展。也正是基于成熟的 HMM方法設(shè)計(jì)了嵌入式環(huán)境下 (如手機(jī), PDA等 )的語音識(shí)別系統(tǒng)。 HMM 和 ANN 的混合模型 語音信號(hào)是一種典型的動(dòng)態(tài)模式序列,前后幀之間的時(shí)間相關(guān)性非常強(qiáng),所以要將神經(jīng)網(wǎng)絡(luò)應(yīng)用于語音識(shí)別,必須解決好瞬時(shí)輸出的記憶問題。 與傳統(tǒng)的 HMM相比,混合 HMM/ANN模型不僅在理論上拋棄了 HMM一系列不合理假設(shè),而且在訓(xùn)練過程中自然地引入了 HMM 狀態(tài)之間的區(qū)分機(jī)制。在處理語音信號(hào)的時(shí)變特性方面。但輸出直接映射成 HMM狀態(tài)。用神 經(jīng)網(wǎng)絡(luò)進(jìn)行聲學(xué)建模一般有兩種方法: 第一種方法是預(yù)測(cè)網(wǎng)絡(luò)。 混合模型結(jié)構(gòu)還充分利用了 ANN的下述特性,克服了 HMM的一系列缺陷和不足,主要特點(diǎn)如下: (1)混合模型可以自適應(yīng)學(xué)習(xí)以適應(yīng)語音數(shù)據(jù)的變化;可以不必拘泥于選取特殊的語音參數(shù)面對(duì)綜合的輸入模式進(jìn)行訓(xùn)練和識(shí)別。 在音段層面方式中,神經(jīng)網(wǎng)絡(luò)的輸入來自整個(gè)語音段,而不是一幀語音或固定長度的語音窗。 另外,它的一個(gè)最主要的缺點(diǎn)是根據(jù)詞模型推出的狀態(tài)段長分布是指數(shù)分布,這不符合語音的本質(zhì)屬性,因此,現(xiàn)在推出了一 種非齊次的 HMM 語音識(shí)別模型 (Duration Distribution Based Hidden Markov Model,簡稱 DDBHMM)。 如今,各種形式的 }砌模型和算法己日趨成熟,以它為基礎(chǔ)己經(jīng)形成了語音識(shí)別的整體框架模型,它統(tǒng)一了語音識(shí)別中聲學(xué)層和語音學(xué) 層的算法結(jié)構(gòu),制定了最佳的搜索和匹配算法,以概率的形式將聲學(xué)層中得到的信息和語音學(xué)層中己有的信息比較理想的結(jié)合在一起??傊?,是希望通過這種結(jié)合充分發(fā)揮各自的特長。圖 。最初是用神經(jīng)網(wǎng)絡(luò)將語音段分成清音和濁音兩 類,或分成鼻音、摩擦音和爆破音三類。人工智能的方法己不再是現(xiàn)代語音識(shí)別研究的主流。 基于規(guī)則的人工智能方法 持這種觀點(diǎn)的專家認(rèn)為,用其識(shí)別語音有種種困難,但是人類識(shí)別語音卻并不困難。它用滿足一定條件的時(shí)間規(guī)正函數(shù) w(n)描述輸入模板和參考模板的時(shí)間對(duì)應(yīng)關(guān)系,求解二模板匹配時(shí)累計(jì)距離最小所對(duì)應(yīng)的規(guī)正函數(shù):所以 DTW 保 證了二模板間存在的最大聲學(xué)相似性。 DTW 算法是把時(shí)間規(guī)正和距離測(cè)度計(jì)算結(jié)合起來的一種非線性規(guī)正技術(shù)。 在訓(xùn)練和建立模板階段以及在識(shí)別階段,都采用端點(diǎn)檢測(cè)算法確定語音的起點(diǎn)和終點(diǎn)。 (3)將每個(gè)濾波器的輸出取對(duì)數(shù),得到相應(yīng)頻帶的對(duì)數(shù)功率譜;并進(jìn)行反離散余弦變換,得到 L個(gè) MFCC系數(shù),一般 L取 12~ 16 個(gè)左右。 MFCC不同于 LPCC。 圖 幾種基于短時(shí)傅里葉變換譜之間的關(guān)系 特征參數(shù)提取 LPC
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1