freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于虛擬儀器的語音識別_算法研究-閱讀頁

2024-09-20 17:21本頁面
  

【正文】 立性; (2)特征參數(shù)能有效地代表該語音段,具有良好的區(qū)分度; (3)特征參數(shù)的計算要高效,最好也比較容易實現(xiàn),保證語音識別的實時實現(xiàn)。對于識別參數(shù)的訓練,根據(jù)識別方法的不同運用不同的訓練方案,參考模板的特征參數(shù)一般是離線計算并存儲起來的,為此,在系統(tǒng)使用前事先要錄入一些已知信號,通過提取它 們的特征參數(shù)矢量序列,根據(jù)不同的識別方法進行訓練,作為參考模式,這個過程就叫做訓練過程。 顯然,最佳識別結(jié)果的準確度跟語音模型的好壞、特征參數(shù)的選擇和參考模板是否準確都有直接關(guān)系,這也正是目前語音識別過程中需要解決的一個難點。 語音信號的采集 通常語音信號是一種連續(xù)的模擬信號,計算機無法直接對其做數(shù)字化處理,因此需要經(jīng)過一種轉(zhuǎn)換將模擬信號轉(zhuǎn)化成數(shù)字信號,我們把這個過程叫做模 /數(shù)轉(zhuǎn)換( A/D 轉(zhuǎn)換)。 將模擬語音信號轉(zhuǎn)化為數(shù)字語音信號需要聲音采集卡即聲卡的支持,不同聲卡的信噪比存在一定的差異,所以質(zhì)量不同的聲卡采集到 的語音信號對系統(tǒng)的識別率也有一定的影響。語音信號的采集顯示見圖 ,其程序框圖如圖 。 14 其中反混疊濾波的目的主要有兩個 :一方面 抑制輸入信號在頻域中的各分量頻率超出 f /2的所有分量 (人為采樣頻率 ),以防止混疊產(chǎn)生的干擾 。在本設(shè)計中由筆記本自帶的麥克風采集語音信號,接著將采集的語音信號從聲音波形轉(zhuǎn)換成電信號,然后借助模數(shù)轉(zhuǎn)換器選擇合適的采樣率對模擬的聲音信號進行采樣,最后再以一定的量化精度對其進行量化,得到計算機能夠處理的數(shù)字語音信號。 在將語音信號進行數(shù)字 化前,必須先進行防混疊濾波,濾除噪聲或高于 1/2 采樣率的信號成分。語音信號的聲波通過麥克輸入到聲卡后就可直接獲得離散的數(shù)字信號,該信號是經(jīng)過防混疊濾波、 A/D 變換、量化處理的。根據(jù)采樣定理,當采樣的頻率大于信號頻率的兩倍帶寬時,采樣的過程中不 會丟失信息,利用理想濾波器就可從采樣信號中不失真地重構(gòu)原始語音信號的波形。 預 加 重分 幀加 窗 端 點 檢 測采 樣 信 號 圖 語音信號預處理過程示意圖 預加重處理 語音信號的平均功率受聲門激勵和口鼻腔輻射的影響,大約在 800Hz 以上的高頻 15 段,平均功率以 6dB/倍頻程下降,所以語音信號高頻部分頻譜比實際語音頻譜要低,因此造成高頻 部分的頻譜比低頻部分頻譜更難計算。預加重是通過數(shù)字濾波器實現(xiàn)的,該數(shù)字濾波器的傳遞函數(shù)為: H??Z???1????z1 (21) 其中α為預加重系數(shù),值接近于 1,典型值取值為 。圖 為預加重后的語音信號及其頻譜與原始語音信號和頻譜圖。 圖 原始信號頻譜與預加重后數(shù)字 5的語音幅頻特性 16 分幀、加窗 語音信號是一種典型的非平穩(wěn)信號,但是由于發(fā)聲器官的物理結(jié)構(gòu)變化速度遠遠小于語音信號的變化,因此 通常我們將語音信號看作是短時平穩(wěn)的,一般認為 20ms ~ 30ms 內(nèi),聲道物理特征基本保持不變,所以對連續(xù)的語音信號進行分幀然后按幀處理。如果用一個數(shù)組表示每一幀語音信號,那么一個連續(xù)的語音信號分幀之后就可以用一個依賴時間的數(shù)組序列來表示。窗函數(shù)為 w( m ),一般形式為: ? ?? ? ? ?mnwmSn mQ ???? ?? ??? ( 23) 其中 N 為窗長,即每幀語音信號所含有的樣本數(shù)量,ψ []是在原信號上的某種變換,線性或者非線性,當 ? ?? ? ? ?msms 2?? 時, nQ 為短時平均能量;當? ?? ? ? ?? ? ? ?? ?1s g ns g ???? msmsms 時, nQ 為短時平均過零率。 由于漢明窗的主瓣較寬而旁瓣幅值較低,能有效地克服窗泄露現(xiàn) 象,具有平滑低通特性,因此應(yīng)用廣泛,同時漢明窗可以加強相鄰幀左右兩端的連續(xù)性。圖 為漢明窗的時域波形和頻域圖形。對于孤立詞識別來說,語音信號端點檢測的正確性直接影響到識別效果。實際應(yīng)用中,末點的誤差不會明顯地影響識別結(jié)果。端點檢測的準確性對識別的效率和結(jié)果有直接影響[11]。例如物體的碰撞、門窗的開關(guān)等引起的噪聲,這些噪聲都可以通過設(shè)定最短的時間門限來判別。否則就標記好結(jié) 束端點,并返回。在靜音段,如果過零率或能量超過了低門限,則開始標記為起始點,隨后進入到過渡段。如果在過渡段中,只要兩個參數(shù)中的任何一個超過了高門限,就可以確信進入真正的語音段了。 端點檢測的短時過零率法 首先介紹一下過零率,在一段語音波形中,單位時間內(nèi)信號通過零線的次數(shù)我們就 19 稱為過零率,它可作為信號頻率的一個度量。由于語音信號是寬帶信號,所以采用了短時平均過零率來粗略的估計其譜特性 [13]。 端點檢測的短時能量法 語音信號的短時能量反映了語音信號幅度隨時間的變化,計算公式為 [12]: ? ? ? ? 2n mE X m W n m?? ????????? (210) 亦可表示為: ? ? ? ?2n mE X m h n m??????? (211) 其中 ? ? ? ?2h n W n? 。 由于式( 211)是卷積形式的,因此 ? ?? ?Wn 可以理解為離散信號 ? ?? ?xn 經(jīng)過一個單位脈沖 ? ?? ?Wn 的 FIR低通濾波器產(chǎn)生的輸出。 這時,能量的主要意義在于能量函數(shù)可用來大致確定出清音語音變?yōu)闈嵋粽Z音的時刻,可用來區(qū)分有聲與無聲,聲母與韻母。由于語音信號中含有能表征說話人語音個性特征的一些信息,并且具有一定的冗余性,因此需要對語音信號進行特征提取,也就是 通過運用一定的數(shù)字信號處理技術(shù)將原始的語音信號進行處理后得到一個矢量序列,這個矢量序列可以認為包含了說話人的語音特征信息。經(jīng)過這樣的處理,就可以得到說話人的語音特征參數(shù),為下一步說話人識別系統(tǒng)的構(gòu)建做好了鋪墊。 近幾年以來,在說話人識別系統(tǒng)中人們用多種特征參數(shù)進行了研究,得到了許多有意義的成果。 LPC 就是對于一個語音信號的每個采樣值,都能用過去的若干個采樣值的線性組合來逼近,同時使實際采樣與線性預測抽樣之間均方誤差最小時解出來的一組系數(shù);線性預測倒譜系數(shù)是由線性預測系數(shù)推導得到能夠反映人的聲道特性的系數(shù);美爾倒譜系數(shù)則是端點檢測后的語音信號經(jīng)過美爾濾波器組并進行相關(guān)的變換得到的反映人耳聽覺特性的系數(shù),其反映了語音的靜態(tài)特征,并且 該參數(shù)的差分參數(shù)能較好地反映人的語音的動態(tài)特征,將美爾倒譜參數(shù)與其一階或多階差分參數(shù)合并作為說話人的語音特征參數(shù),能更好地表征說話人的語音特征 [17]。以上三種參數(shù)的特點如表 所示,相比之下美爾頻率倒譜系數(shù)有較好的優(yōu)越性。 線性預測倒譜系數(shù)( LPCC) 去掉了語音產(chǎn)生過程中的激勵信息,主要反映聲道特性,計算量小。 美爾頻率倒譜系數(shù)( MFCC) 基于人耳的聽覺特性,在低頻段具有較高的譜分辨率,計算簡單,區(qū)分能力和抗噪能力好。這種提取方法非常簡單,使用方便。美爾頻率參數(shù)提取過程為 [1718]:經(jīng)過端點檢測后的語音信號,首先經(jīng)過快速傅里葉變換(FFT)得到語音信號的頻譜,對頻譜取模求平方得到語音信號的能量譜,為了壓縮語音譜的動態(tài)范圍,讓能量譜通過 Mel 濾波器組進行濾波,再對濾波后的功率譜進行對數(shù)操作,使得功率譜的乘性成份變成加性成份,便于濾除乘性噪聲,最后再進行離散余弦變換 (DCT)求出倒譜,這樣得到 L 個 MFCC 系數(shù), L 是濾波器的個數(shù),一般取 12到 16 個左右,這樣便得到了 MFCC 參數(shù),其具體提取過程如圖 所示,其中 x(n)是預處理后的語音信號。 ? ? ? ??? ?????? kkikkiinicind21 (212) 式中 c、 d 為一幀語音的參數(shù), k 一般取常數(shù) 2,用 (212)式求得的參數(shù)就是美爾頻率倒譜一階差分參數(shù) [13],將 n 階差分參數(shù)帶入 (212)式計算就得到 n+1 階差分參數(shù),實際應(yīng)用中根據(jù)需要計算多階差分參數(shù)。 文中通過編寫 MATLAB 程序來實現(xiàn)特征參數(shù)的提取,程序中包含了 MFCC 參數(shù)及其一階差分參數(shù)的提取,并且將這兩種參數(shù)進行了合并,作為語音特征參數(shù)輸出。例如某一說話人的 5 幀語音信號數(shù)據(jù)進行特征參數(shù)提取, 23 每幀為 24 個特征向量,其中前 12 個為 MFCC 參數(shù),后 12 個為 MFCC 參數(shù)的一階差分參數(shù),這樣總共得到了 120 個特征向量,在 LABVIEW 平臺上通過調(diào)用 MATLAB 節(jié)點進行參數(shù)提取,運行后的結(jié)果截圖如圖 所示。 24 第三章 語音識別算法 一般來說,語音識別的方法有三種:基于模板匹配的方法、語音學和聲學的 方法以及人工神經(jīng)網(wǎng)絡(luò)的方法 [40]。在運用模板匹配方法的時候,一般要經(jīng)過四個步驟:特征提取、模板分類、模板訓練和判決。 模板匹配法是模式識別中最為常用的一種相似度計算與匹配方法。 動態(tài)時間規(guī)整算法 DTW 語音信號的端點檢測是進行語音識別中的一個基本步驟,它是特征訓練和識別的基礎(chǔ)。在早期,進行端點檢測的主要依據(jù)是能量、振幅和過零率。 60 年代提出的動態(tài)時間規(guī)整算法 (DTW: Dynamic Time Warping)。在這一過程中,未知單詞的時間軸要不均勻地扭曲或彎折,以使其特征與模型特征對齊 (即時間規(guī)整 ),并在兩者之間不斷的進行兩個矢量距離最小的匹配路徑計算,從而獲得兩個矢量匹配時累積距離最小的規(guī)整函數(shù)。 在實現(xiàn)小詞匯孤立詞語音識別系統(tǒng)時 ,其識別率和其它指標與用 HMM 算法實現(xiàn)的差不多等同。本 25 小節(jié)介紹了 DTW算法的基本原理 ,通過對語音識別數(shù)學模型的研究 ,主要對 DTW算法的實用性進行了少許的改進 ,實現(xiàn)了語音控制媒體播放系統(tǒng)中指令的語音識別。參考模板可以表示為: ? ?)(,),(,),2(),1( MRmRRRR ??? ,其中 M 為參考模板所 包括的語音幀的總數(shù), m 為語音幀的時序標號, R( m)為第 m幀的語音特征矢量。 計算待識別語音模板與參考模板之間的相似程度,可以通過計算它們之間的失真來得到,相似度越高失真就越小。為了計算他們之間的失真,應(yīng)該從 T, R 中的每個對應(yīng)幀之間的失真算起,假設(shè) n, m 分別為 T, R 中任意選擇的幀號, 則這兩幀之間的幀失真用 D[T(n),R (m )]來表示,對于特征矢量之間的失真度,有多種度量方法。 綜合考慮到服務(wù)對象、詞表大小、工作環(huán)境、發(fā)音方式等許多因素,以及孤立詞語音識別系統(tǒng)對響應(yīng)、運算量和造價不應(yīng)過高的要求,本文采用了 DTW 算法為核心的識別算法來實現(xiàn)仿真系統(tǒng)。 HMM 方法現(xiàn)已成為語音識別的主流技術(shù),目前大多數(shù)大詞匯量、連續(xù)語音的非特定人語音識別系統(tǒng)都是基于 HMM 模型的。其中: CHMM 的識別率雖高,但計算量大,其典型就是 Bell Lad 的語音識別系統(tǒng); DHMM 識別率略低些,但計算量最小, IBM 公司的 Via Voice 中文語音識別系統(tǒng),就是該技術(shù)的成功典范; SCHMM 的識別率和計算量 則居中,其典型產(chǎn)品就是美國著名的 SPHINX 語音識別系統(tǒng);而 DDBHMM 是對上述經(jīng)典 HMM 方法的修正,計算量雖大,但識別率最高。它用概率統(tǒng)計的方法來描述時變信號的過程。這樣,站在觀察者的角度,只能看到觀察值,不像 Markov 鏈模型中的觀 察值和狀態(tài)一一對應(yīng),因此,不能直接看到狀態(tài),而只能通過一個隨機過程感知狀態(tài)的存在及其特性。 HMM 可分為兩部分,一個是 Markov鏈產(chǎn)生的輸出為狀態(tài)序列。 高斯混合模型法 GMM 自 80 年代以來,隱馬爾科夫模型( HMM)被廣泛地用來描述語音信號在特征空間的分布。所以可用就有一個狀態(tài)的特殊的連續(xù) HMM 為與文本無關(guān)的說話人識別系統(tǒng)中的說話人建模,這種模型就是高斯混合模型( Guassian Mixrure Model, GMM)。 GMM 系統(tǒng)訓練簡單,它既不需要經(jīng)過正字法標音也無需音標標注的訓練數(shù)據(jù):識別過程采用最大似然比準則。 矢量量化 VQ 矢量量化 (Vector Quantization)是一種重要的信號壓縮方法。其過程是:將語音信號波形的 k個樣點的每一幀,或有 k 個參數(shù)的每一參數(shù)幀,構(gòu)成 k 維空 間中的一個矢量,然后對矢量進行量化。 矢量量化的基本原理是:將語音數(shù)據(jù)中提取的特征矢量在多維空間給與整體量化。把 K 維歐幾里德空間 KR 無遺漏的劃分為 J 個互相交的子空間 JRRR , 21 ? ,即滿足: ???????????jiJjKjRRRR1 ji? ( 32) 這些子空間稱為 Voronoi 胞腔 (Cell),簡稱為
點擊復制文檔內(nèi)容
研究報告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1