freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于倒譜的大學(xué)生語音識別算法研究畢業(yè)論文(文件)

2025-07-30 23:34 上一頁面

下一頁面
 

【正文】 最后第 五章具體研究了倒譜在語音信號處理中的實現(xiàn)方法,主要是語音信號識別的參數(shù)提取。與說話人識別 和 說話人確認(rèn)不同,后者 嘗試識別或確認(rèn)發(fā)出語音的說話人而非其中所包含的詞匯內(nèi)容。 LPCC 參數(shù)是根據(jù)聲管模型建立的特征參數(shù) ,主要反映聲道響應(yīng)。降噪后,通過對語音信號的短時能量和短時過零率檢測可以剔除掉靜默幀、白噪聲幀和清音幀,最后保留對求取基音、 LPCC、 MFCC 等特征參數(shù)非常有用的語音信號。 3)對音頻信號進(jìn)行重疊分幀:為避免信號間斷一般取 256 點為一幀 ,幀間重疊為 128 點。圖 21 蘭州理工大學(xué)畢業(yè)論文 6 是語音信號數(shù)字分析或處理的系統(tǒng)框圖。同時,它一般包括了一些信號處理技術(shù),以盡可能 的 降低環(huán)境噪聲、信道、說話人等因素對特征造成的影響。語言模型 : 語言模型對系統(tǒng)所針對的語言進(jìn)行建模。首先,統(tǒng)計語音識別的最基本問題是,給定輸入信號或特征序列,符號集(詞典),求解符號串使得: )0/(m a xa rg WPW ? ( 22) 通過貝葉斯公式,上式可寫為: )()/0(m a xa r g WPWPW ? ( 23) 由于對于確定的輸入串 P(O)[4]是確定的,因此省略它并不會影響上式的最終結(jié)果,因此,一般來說語音識別所討論的問題可以用 上 面的公式來表示,可以將它稱為語音識別的基本 公式。 語音識別是一門交叉學(xué)科,語音識別正逐步成為 信息技術(shù) 中人機接口的關(guān)鍵技術(shù),語音識別技術(shù)與語音合成技術(shù)結(jié)合使人們能夠甩掉鍵盤,通過語音命令進(jìn)行操作。語音識別是一門交叉學(xué)科 , 近二十年來,語音識別技術(shù)取得顯著進(jìn)步,開始從實驗室走向市場。語音的壓縮和恢復(fù)是語音信號處理的關(guān)鍵技術(shù)。 語音識別的技術(shù)原理是找出特征參數(shù)。進(jìn)行語音信號分析時,最先接觸到的,也是最直觀的是它的時域波形。另外,語音信號的頻譜具有非常明顯的聲學(xué)特性,利用頻域分析獲得的語音特征具有實際的物理意義。使讀者對相關(guān)技術(shù)的基本理論,方法和基本應(yīng)用有一個系統(tǒng)的了解。 從識別系統(tǒng)的詞匯量大小考慮 : 也可以將識別系統(tǒng)分為 3類: (1)小詞匯量語音識別系統(tǒng) : 通常包括幾十個詞的語音識別系統(tǒng)。目前是中等詞匯量的識別系統(tǒng)到將來可能就是小詞匯量的語音識別系統(tǒng)。 通常認(rèn)為常用語言中有有限個不同的語音 基 元,而且可以通過其語音信號的頻域或時域特性來區(qū)分。 模板匹配的方法: 模板匹配的方法發(fā)展比較成熟,目前已達(dá)到了實用階段。所謂 端點 檢測就是在語音信號中的各種段落 (如音素、音節(jié)、詞素 )的始點和終點的位置,從語音信號中排除無聲段。 算法的思想就是把未知量均勻的升長或縮短 ,直到與參考模式的長度一致。 HMM 是對語音信號的時間序列結(jié)構(gòu)建立 統(tǒng)計模型 ,將之看作一個數(shù)學(xué)上的雙重隨機過程:一個是用具有有限狀態(tài)數(shù)的Markov 鏈來模擬語音信號統(tǒng)計特性變化的隱含的隨機過程,另一個是與 Markov 鏈的每一個狀態(tài)相關(guān)聯(lián)的觀測序列的隨機過程。 矢量量化 (VQ) 矢量量化 (VectorQuantization)是一種重要的信號壓縮方法。 矢量量化 器的設(shè)計就是從大量信號樣本中訓(xùn)練出好的碼書,從實際效果出發(fā)尋找到好的失真測度定義 公式 ,設(shè)計出最佳的矢量量化系統(tǒng),用最少的搜索和計算失真的運算量,實現(xiàn)最大可能的平均信噪比 [9]。 神經(jīng)網(wǎng)絡(luò)的方法: 利用人工神經(jīng)網(wǎng)絡(luò)的方法是 80 年代末期提出的一種新的語音識別方法 。 語音識別系統(tǒng)基本結(jié)構(gòu) 一個完整的基于統(tǒng)計的語音識別系統(tǒng)可大致分為三部分: (1)語音信號預(yù)處理與 特征提取 ; (2)聲學(xué)模型 與模式匹配 ; (3)語言模型與語言處理 。 音節(jié)單元多見于漢語語音識別,主要因 為漢語是單音節(jié)結(jié)構(gòu)的語言,而英語是多音節(jié),并且漢語雖然有大約 1300 個音節(jié),但若不考慮聲調(diào),約有 408 個無調(diào)音節(jié),數(shù)量相對較少。實際應(yīng)用中常把聲母依后續(xù)韻母的不同而構(gòu)成細(xì)化聲母,這樣雖然增加了模型數(shù)目,但提高了易混淆音節(jié)的區(qū)分能力。在實際應(yīng)用中,語音信號的 壓縮率 介于 10100 之間。但線性 預(yù)測模型 是純數(shù)學(xué)模型,沒有考慮人類聽覺系統(tǒng)對語音的處理特點。 也有研究者嘗試把 小波分析 技術(shù)應(yīng)用于 特征提取 ,但目前性能難以與上述技術(shù)相比,有待進(jìn)一步研究。 聲學(xué)模型 的目的是提供一種 有效的方法計算語音的 特征矢量 序列和每個發(fā)音模板之間的距離。 蘭州理工大學(xué)畢業(yè)論文 12 以漢語為例:漢語按音素的發(fā)音特征分類分為輔音、單元音、復(fù)元音、復(fù)鼻尾音四種,按音節(jié)結(jié)構(gòu)分類為聲母和 韻母。漢語的一個音節(jié)就是漢語一個字的音,即音節(jié)字。 目前常用的 聲學(xué)模型 基元為聲韻母、音節(jié)或詞,根據(jù)實現(xiàn)目的不同來選取 不同的基元。 語言模型對中、大詞匯量的語音識別系統(tǒng)特別重要。語法結(jié)構(gòu)可以限定不同詞之間的相互連接關(guān)系,減少了識別系統(tǒng)的搜索空間,這有利于提高系統(tǒng)的識別。 倒譜分析的優(yōu)點和缺點 對信號進(jìn)行分析得出它的倒譜參數(shù)的過程稱為同態(tài)處理。為了區(qū)別于用一般方法所求得的頻譜 (spectrum),將spectrum 這一詞前半部 (spec)字母順序顛倒即成 cepstrum, 根據(jù)詞形定名為倒譜。我們稱其中的時域序列為信號序列的“復(fù)倒頻譜”,簡稱“復(fù)倒譜”,也叫對數(shù)復(fù)倒譜。值得注意的是,倒譜不能通過逆特征系統(tǒng)還原成自身,因為在計算中相位信息丟失了。這種頻率彎曲可以更好的表示 聲音,例如 音頻壓縮 [13] 。對不同的頻率,在相應(yīng)的臨界帶寬內(nèi)的信號會引起基礎(chǔ)膜上不同位置的振動。對頻率軸的不均勻劃分是 MFCC 特征的特點。 Mel 頻率倒譜系數(shù)提取過程 人的聽覺系統(tǒng)是一個特殊的非線性系統(tǒng),它響應(yīng)不同頻率信號的靈敏度是不同的,基本上是一個對數(shù)的關(guān)系。 蘭州理工大學(xué)畢業(yè)論文 17 圖 MFCC參數(shù)提取基本流程 MFCC 算法流程 設(shè)某語音信號為 x(n) ,則算法處理流程為 1)預(yù)加重,其中 k 為預(yù)加重系數(shù),一般取 ; 2)加窗( hamming 窗),幀長為 N; 3) DFT 變 換; 4)設(shè)計一個具有 M 個帶通濾波器的濾波器組,采用三角濾波器,中心頻率從 0~F/2 之間按 Mel頻率分布; 5)計算每個濾波器組輸出的對數(shù)能量; 6)求得 MFCC 特征參數(shù)。其分幀函數(shù)調(diào)用為:f=enframe(X, hamming(256), 128)。由圖可知,信號幅值在 15 處上 下波動,與此同時,隨著采樣點的增多,信號幅值的上下波動減小,可以預(yù)測,在無窮遠(yuǎn)處,信號幅值將在 15 處固定不變。 由于 MFCC參數(shù)是 對人耳聽覺特征的描述,因此,可以認(rèn)為,不同聲紋的 MFCC參數(shù)距離,能夠代表人耳對兩個語音聽覺上的差異,可以為聲紋的識別提供可靠的依據(jù) 。為了能夠提取出這些參數(shù),就要借助一些工具,本節(jié)通過 MATLAB 完成倒譜在語音處理的各方面應(yīng)用。由于語音信號可以視為聲門激勵信號和聲道響應(yīng)信號的卷積結(jié)果。由于對其進(jìn)行如下處理: )(?)(?)(?)](?[ 21 zYzYzYnyZ ??? (46) )()()())(?e x p ( 21 zYzYzYzY ??? (47) )()()]()([)( 21211 nynyzYzYZny ???? ? (48) ( 4)特征系統(tǒng) D*[]和逆特征系統(tǒng) D*1[]的區(qū)別 。基音周期具有時變性和準(zhǔn)周期性,它的大小與個人聲帶的長短、厚薄、韌性和發(fā)音習(xí)慣有關(guān),還與發(fā)音者的性別、年齡、發(fā)音時的力度及情感有關(guān),是語音信號處理中的重要參數(shù)之一,它描述了語音激勵源的一個重要特征。 2 基音的周期 基音是指發(fā)濁音時聲帶振動所引起的周期性,而基音周期是指聲帶振動頻率的倒數(shù)。 3 基音檢測的難點 自進(jìn)行語音信號分析研究以來,基音檢測一直是一個重點研究的課題,很多方法已被提出,然而這些方法都有它們的局限性。 2)要從語音信號中去除聲道的影響,直接取出僅與聲帶振動有關(guān)的聲源信息并非易事。另外,濁音信號可能包含有三四十次諧波分量,而基波分量往往不是最強的分量。借此,可從倒譜波形中估計出基音周期。如果倒譜的峰值超出了預(yù)先規(guī)定的門限,則輸入語音段定為濁音,而峰的位置就是基音周期的良好估計。 基音檢測的實現(xiàn)框圖和流程 圖如圖 和 所示。共振峰信息包括在語音頻譜包絡(luò)中。倒譜分析技術(shù)可以較好地分離出語音信號頻譜包絡(luò)結(jié)構(gòu)。與基音檢測類似,共振峰估計也是表面上看起來很容易,而實際上又受很多問題困擾。甚至在采用線性預(yù)測方法時,也并非沒有虛假峰值。這時會產(chǎn)生共振峰合并現(xiàn)象,而探討一種理想的能對共振峰合并進(jìn)行識別的共振峰提取算法存在很多實際困難。即使采用線性預(yù)測進(jìn)行頻譜包絡(luò)估計也會出現(xiàn)這個問題。對倒譜進(jìn)行低時窗選,通過語音倒譜分析系統(tǒng)的最后一級,進(jìn) 行 DFT 后的輸出即為平滑后的對數(shù)模函數(shù),這個平滑的對數(shù)譜顯示了特定輸入語音段的諧振結(jié)構(gòu),即譜的峰值基本上對應(yīng)于共振峰頻率,對平滑過的對數(shù)譜中的峰值進(jìn)行定位,即可估計共振峰。包括波形自相關(guān)法,平均振幅差分函數(shù)法( AMDF),簡化逆濾波法( SIFT)等。 在發(fā)濁音時,聲門激勵是以基音周期為周期的沖激序列: 0( ) ( )MrPrx n n r N?????? (51) 式中, M 是正整數(shù); r 是正整數(shù),且 0≤ r≤ M。 (程序見附錄 ) 0 0 . 0 0 5 0 . 0 1 0 . 0 1 5 0 . 0 2 0 . 0 2 5 0 . 0 3 0 . 0 3 500 . 10 . 20 . 30 . 40 . 50 . 60 . 7z = r c e p s ( y )振幅倒頻譜 圖 由 rceps 函數(shù)得到的倒譜圖 圖( )為運用 rceps 函數(shù)繪制的倒譜圖,在圖中可以清楚的發(fā)現(xiàn) 附近的峰值點即為所求點。根據(jù)復(fù)倒譜的定義,可以得到 x(n)的復(fù)倒譜為: 0( ) ( )kPkx n n k N???????? (52) 其中, 0? =ln 0? 11 011 ()MMkk rkrrrkk??? ???? ? ? ??? (53) MATLAB 中的設(shè)計與實 現(xiàn) 當(dāng)語音采樣率 sf =8kHz 時,倒譜的第一個峰值點即等于基音周期值 Np,其變化范圍在蘭州理工大學(xué)畢業(yè)論文 26 25200 之間,因而應(yīng)在此范圍內(nèi)搜索峰值點。雖然倒譜分析算法比較復(fù)雜,但基 音估計效果較好 [14]。包括并行處理法,數(shù)據(jù)減少法等。 基于倒譜的共振峰的算法 倒譜將基音 諧波和聲道的頻譜包絡(luò)分離開來。傳統(tǒng)的頻譜包絡(luò)估計方法是利用由諧波峰值提供的樣點。 2)共振 峰合并。在正常情況下,頻譜包絡(luò)中的極大值完全是又共振峰引起的。所以共振峰是語音信號處理中非常重要的特征參數(shù),已經(jīng)廣泛地用作語音識別的主要特征和語音編碼傳輸?shù)幕拘畔ⅰK怨舱穹逡呀?jīng)廣泛地用作語音識別的主要特征和語讀入語音數(shù)據(jù) 到文件尾嗎? 結(jié)束 對該幀數(shù)據(jù)加窗 計算基音周期 pitch 基音周期 pitch=0 找出該搜索范圍內(nèi)倒譜的最大值 max 設(shè)置門限為 求該幀數(shù)據(jù)的倒譜 設(shè)置基音搜索范圍 取出一幀語音數(shù)據(jù) max? Y N N Y 蘭州理工大學(xué)畢業(yè)論文 24 音編碼傳輸?shù)幕拘畔?。它是表征發(fā)音時聲道特性的關(guān)鍵參數(shù),也是區(qū)別不同韻母的重要依據(jù)。如果計算的是一個時變的倒譜,則可估計出激勵源模型及基音周期隨時間的變化。下面給出一種倒譜法求基音周期的框圖及流程圖。豐富的諧波成分使語音信號的波形變的很復(fù)雜,給基音檢測帶來困難,經(jīng)常發(fā)生基頻估計結(jié)果為實際基音頻率的二三次倍頻或二次分頻的情況 [14]。 3)在濁音段很難精確地確定每個基音周期的開始和結(jié)束位置,這不僅因為語音信號本身是準(zhǔn)周期的,也是因為波形的峰受共振峰結(jié)構(gòu),噪聲等影響較大。 Z exp Z1 Z ln Z1 )(nx)(nx)(?nx)(?nx蘭州理工大學(xué)畢業(yè)論文 22 基音檢測的主要難點表現(xiàn)在: 1)語音信號變化十分復(fù)雜,聲門激勵的波形并不是一個完全的周期序列。對于漢語這種有調(diào)語音,基音的變化模式稱為聲調(diào),它攜帶著非常重要的具有辨意作用的信息,有區(qū)別意義的功能。然而由于人的聲道的易變性及其聲道特征的因人而異,而基音周期的范圍又很寬,且同一個人在不同情態(tài)下發(fā)音的基音周期也不同,加之基音周期還受到單詞發(fā)音音調(diào)的影響,故實際中的基音周期的精確檢測是一件比較困難的事情。(運算方式如圖 ) 線性系統(tǒng) 特征系統(tǒng) D*[] 逆特征系統(tǒng) D*1[] y(n) * + + x(n) * 蘭州理工大學(xué)畢業(yè)論文 21 圖 特征系統(tǒng)與逆特征系統(tǒng)的框圖表示 倒譜在基音檢測方面的應(yīng)用 基音是語音信號的一個重要參數(shù),在語音產(chǎn)生的數(shù)字模型中也是激勵源的一個重要參數(shù),準(zhǔn)確地檢測語音信號的基音周期對于高質(zhì)量的語音分析 與合成、語音壓縮編碼、語音識
點擊復(fù)制文檔內(nèi)容
研究報告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1