freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

特定人孤立詞語(yǔ)音識(shí)別的研究畢業(yè)論文(編輯修改稿)

2024-07-19 16:00 本頁(yè)面
 

【文章內(nèi)容簡(jiǎn)介】 y of isolated word speech recognition system and analyses the basic work process of isolated word speech it introduces two kinds of isolated word speech recognition algorithms in mon use,Dynamic Time Warping(DTW) and advanced DTW,carrying on the parison to the to the parison results and considering this system’s characteristic,it adopts advanced DTW at present to improve recognition this paper,it proposes a fourstate endpoint detection algorithm based on dynamic noise and gives the detailed algorithm flow chart as well as the concrete parameters also gives the isolatedword endpoint detection effect using the algorithm in noise and nonnoise situation with the software experimental results indicate that this algorithm has the antinoise ability.【Key words】speech recognition  isolated word  speakerdependent  DTW緒 論語(yǔ)音識(shí)別(Speech Recognition)是機(jī)器通過識(shí)別和理解過程把語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本文件或命令的高技術(shù)。作為專門的研究領(lǐng)域,語(yǔ)音識(shí)別又是一門交叉學(xué)科,它與聲學(xué)、語(yǔ)音學(xué)、語(yǔ)言學(xué)、數(shù)字信號(hào)處理理論、信息論、計(jì)算機(jī)科學(xué)、人工智能、數(shù)理統(tǒng)計(jì)等眾多學(xué)科緊密相連。語(yǔ)音識(shí)別經(jīng)過四十多年的發(fā)展,已經(jīng)顯示出巨大的應(yīng)用前景[1]。隨著計(jì)算機(jī)技術(shù)、模式識(shí)別和信號(hào)處理技術(shù)以及聲學(xué)技術(shù)等的發(fā)展,使得語(yǔ)音識(shí)別技術(shù)取得顯著進(jìn)步,開始從實(shí)驗(yàn)室走向市場(chǎng)。近二三十年來,語(yǔ)音識(shí)別技術(shù)在工業(yè)、家電、通信、汽車電子、醫(yī)療、家庭服務(wù)、消費(fèi)電子產(chǎn)品等領(lǐng)域有著廣泛應(yīng)用。當(dāng)今,語(yǔ)音識(shí)別產(chǎn)品在人機(jī)交互應(yīng)用中,已經(jīng)占到了越來越大的比例。其主要應(yīng)用在語(yǔ)音命令、應(yīng)用于電信增值業(yè)務(wù)、數(shù)據(jù)庫(kù)檢索等方面。語(yǔ)音識(shí)別系統(tǒng)從不同角度、不同的應(yīng)用范圍等都會(huì)有不同的分類。一般語(yǔ)音識(shí)別系統(tǒng)按不同的角度有下面幾種分類: 1.按說話人的講話方式可以分為孤立詞(Isolated Word)識(shí)別連續(xù)語(yǔ)音(Continuous Speech)識(shí)別。孤立詞識(shí)別是指說話人每次只說一個(gè)詞或短語(yǔ),每個(gè)詞或短語(yǔ)在詞匯表中都算作一個(gè)孤立詞條。因此,可以用來實(shí)現(xiàn)簡(jiǎn)單的家用電器控制。連續(xù)語(yǔ)音識(shí)別是指對(duì)說話人以日常自然的方式發(fā)音,通常特指用于語(yǔ)音錄入的聽寫機(jī)。 2.按識(shí)別對(duì)象的類型可以分為特定人(Speaker Dependent)語(yǔ)音識(shí)別和非特定人(Speaker Independent)語(yǔ)音識(shí)別。特定人是指定只針對(duì)一個(gè)用戶的語(yǔ)音識(shí)別,比較簡(jiǎn)單,能得到較高的識(shí)別率,但使用前必須由特定人的用戶輸入大量的發(fā)音數(shù)據(jù)對(duì)其進(jìn)行訓(xùn)練。非特定人則可用于不同的用戶,這種識(shí)別系統(tǒng)的通用性好,應(yīng)用面廣,但難度也較大,不容易得到高的識(shí)別率,它的實(shí)用化將會(huì)有很高的經(jīng)濟(jì)價(jià)值和深遠(yuǎn)的社會(huì)意義。 3.按識(shí)別的詞匯量可以分為小詞匯、中詞匯和大詞匯量語(yǔ)音識(shí)別。一般來講,1~20個(gè)詞匯屬于小詞匯量語(yǔ)音識(shí)別系統(tǒng)、20~1000個(gè)詞匯屬于中詞匯量語(yǔ)音識(shí)別系統(tǒng)、大于1000個(gè)詞匯屬于大詞匯量語(yǔ)音識(shí)別系統(tǒng)。語(yǔ)音識(shí)別研究從二十世紀(jì)50年代開始到現(xiàn)在已經(jīng)歷半個(gè)多世紀(jì)的蓬勃發(fā)展,在這期間獲得了巨大的進(jìn)展。這里僅僅按照一些重要方法的出現(xiàn)和發(fā)展為線索進(jìn)行簡(jiǎn)要回顧。50年代,ATamp。 T Bell實(shí)驗(yàn)室實(shí)現(xiàn)了第一個(gè)可識(shí)別十個(gè)英文數(shù)字的語(yǔ)音識(shí)別系統(tǒng)——Audry系統(tǒng)。60年代,提出了動(dòng)態(tài)規(guī)劃(DP)和線性預(yù)測(cè)分析技術(shù)(LP),其中后者較好地解決了語(yǔ)音信號(hào)產(chǎn)生模型的問題,對(duì)語(yǔ)音識(shí)別的發(fā)展產(chǎn)生了深遠(yuǎn)影響。70年代,在模式識(shí)別思想、動(dòng)態(tài)規(guī)劃方法、線性預(yù)測(cè)思想等基礎(chǔ)研究的成功應(yīng)用的支撐下,孤立詞發(fā)音和孤立語(yǔ)句發(fā)音的識(shí)別成為了可行的有用技術(shù)。80年代,的最大特點(diǎn)是從基于模板的方法向統(tǒng)計(jì)模型方法的轉(zhuǎn)變,特別是轉(zhuǎn)向研究隱馬爾柯夫模型HMM的理論、方法和實(shí)現(xiàn)問題。90年代,語(yǔ)音識(shí)別研究的重點(diǎn)轉(zhuǎn)向自然語(yǔ)言的識(shí)別處理,任務(wù)轉(zhuǎn)移到航空旅行信息的索取。同時(shí),語(yǔ)音識(shí)別技術(shù)不斷應(yīng)用于電話網(wǎng)絡(luò),增強(qiáng)話務(wù)員服務(wù)和自動(dòng)化。2000年以來,人機(jī)語(yǔ)音交互成為研究的焦點(diǎn)。研究重點(diǎn)包括即興口語(yǔ)的識(shí)別和理解,自然口語(yǔ)對(duì)話,以及多語(yǔ)種的語(yǔ)音同聲翻譯[5]。語(yǔ)音識(shí)別技術(shù)經(jīng)過全球半個(gè)多世紀(jì)的研究,目前已經(jīng)發(fā)展到了接近實(shí)用的階段。在實(shí)驗(yàn)室環(huán)境下,大詞匯量的朗讀式連續(xù)說話的寬帶語(yǔ)音信號(hào)的平均識(shí)別率可以達(dá)到90%以上。在這樣的水平基礎(chǔ)上,語(yǔ)音識(shí)別技術(shù)開始嘗試從實(shí)驗(yàn)室演示系統(tǒng)走向?qū)嵱没唐贰5Z(yǔ)音識(shí)別技術(shù)要進(jìn)入成熟的商業(yè)運(yùn)用還有一段艱難的路程,還必須在很多方面取得突破性進(jìn)展。主要包括高可靠性;增加詞匯量;應(yīng)用拓展;降低成本減小體積四個(gè)方面。語(yǔ)音識(shí)別ASR(Automatic Speech Recognition)系統(tǒng)的實(shí)用化研究是近十年語(yǔ)音識(shí)別研究的一個(gè)主要方向。近年來,消費(fèi)類電子產(chǎn)品對(duì)低成本、高穩(wěn)健性的語(yǔ)音識(shí)別片上系統(tǒng)的需要快速增加,語(yǔ)音識(shí)別系統(tǒng)大量地從實(shí)驗(yàn)室的PC平臺(tái)轉(zhuǎn)移到嵌入式設(shè)備中。本文主要是針對(duì)普通控制命令詞,小詞匯量的特定人孤立詞語(yǔ)音識(shí)別的研究。全文共分3章,具體的研究?jī)?nèi)容如下:第1章:介紹了語(yǔ)音識(shí)別系統(tǒng)的實(shí)現(xiàn)方案,給出了孤立詞識(shí)別中需要的語(yǔ)音信號(hào)處理理論,如預(yù)加重、端點(diǎn)檢測(cè)和特征參數(shù)提取等。第2章:介紹了基于動(dòng)態(tài)規(guī)劃(DP)思想的DTW算法,并在此算法的基礎(chǔ)上,討論了快速DTW算法的實(shí)現(xiàn)。最后給出了兩者的對(duì)比仿真。第3章:針對(duì)本文采集的語(yǔ)音樣本,對(duì)預(yù)處理后的語(yǔ)音提出了基于動(dòng)態(tài)噪聲有四狀態(tài)端點(diǎn)檢測(cè)法。闡述了系統(tǒng)的軟件設(shè)計(jì)過程,對(duì)各部分給出了相應(yīng)的軟件流程圖,并且對(duì)具體算法進(jìn)行了MATLAB仿真論證。1 語(yǔ)音識(shí)別系統(tǒng)基本理論 語(yǔ)音識(shí)別系統(tǒng)的組成語(yǔ)音識(shí)別系統(tǒng)的典型實(shí)現(xiàn)方案如框圖1所示。預(yù)處理特征提取輸入語(yǔ)音測(cè)度估計(jì)識(shí)別判決參考模板識(shí)別結(jié)果模板庫(kù)識(shí)別訓(xùn)練圖1 一般語(yǔ)音識(shí)別系統(tǒng)框圖一個(gè)完整特定人孤立詞語(yǔ)音識(shí)別系統(tǒng)通常包括語(yǔ)音的輸入、語(yǔ)音的預(yù)處理(預(yù)加重、加窗分幀、端點(diǎn)檢測(cè)等)、特征提取、訓(xùn)練與識(shí)別等幾個(gè)環(huán)節(jié),基本構(gòu)成如圖1所示。語(yǔ)音識(shí)別的過程可以被看作模式匹配的過程,模式匹配是指根據(jù)一定的準(zhǔn)則,使未知模式與模型庫(kù)中的某一個(gè)模型獲得最佳匹配的過程。 模式匹配中需要用到的參考模板通過模板訓(xùn)練獲得。 在訓(xùn)練階段,用戶將詞匯表中的每個(gè)詞依次說一遍作為模板保存為模板庫(kù)。 在識(shí)別階段,語(yǔ)音信號(hào)經(jīng)過相同的通道得到語(yǔ)音特征參數(shù),生成測(cè)試模板并與參考模板進(jìn)行匹配,將匹配分?jǐn)?shù)最高的參考模板作為識(shí)別結(jié)果。同時(shí),還可以在一些先驗(yàn)知識(shí)的幫助下,提高識(shí)別的準(zhǔn)確率[3]。 預(yù)處理由于語(yǔ)音信號(hào)的平均功率譜受聲門激勵(lì)和口鼻輻射影響,高頻端大約在800Hz以上按6dB/倍頻程跌落,所以在語(yǔ)音信號(hào)頻譜時(shí),頻率越高相應(yīng)的成分越小,高頻部分的頻譜比低頻部分的難求,為此要在預(yù)處理中進(jìn)行預(yù)加重(Preemphasis)處理。預(yù)加重通過濾波提升高頻分量并消除50Hz或60Hz的工頻干擾,使信號(hào)的頻譜變得平坦,保持在低頻到高頻的整個(gè)頻帶中,能用同樣的信噪比求頻譜,以便于頻譜分析或聲道參數(shù)分析。通常用一階FIR數(shù)字濾波器來實(shí)現(xiàn),系統(tǒng)函數(shù)為:H(z)= 1 – a z –1 (a 接近于1) (11)進(jìn)行預(yù)加重?cái)?shù)字濾波處理后,接下來就要進(jìn)行加窗分幀處理。分幀采用可移動(dòng)的有限窗口進(jìn)行加權(quán)的方法實(shí)現(xiàn),即用窗函數(shù)ω(n)來乘X(n),從而形成加窗語(yǔ)音信號(hào)Xω(n)=X(n)* ω(n)。在語(yǔ)音信號(hào)處理中,常用的窗函數(shù)是矩形窗和漢明窗。本文中,8kHz采樣,幀長(zhǎng)為256,幀移為80的漢明窗。 端點(diǎn)檢測(cè)的目的是從包含語(yǔ)音的一般信號(hào)中確定出語(yǔ)音的起點(diǎn)以及終點(diǎn), 有效的端點(diǎn)檢測(cè)不僅能使處理時(shí)間最小, 而且能排除無聲段的噪聲干擾, 從而使識(shí)別系統(tǒng)具有良好的識(shí)別性能, 端點(diǎn)檢測(cè)的成功與否甚至在某種程度上直接決定了整個(gè)語(yǔ)音識(shí)別系統(tǒng)的成敗。 在實(shí)際應(yīng)用中,通常是利用過零率來檢測(cè)清音,用短時(shí)能量來檢測(cè)濁音,兩者配合實(shí)現(xiàn)可靠的端點(diǎn)檢測(cè)。用得比較多的是經(jīng)典的雙門限端點(diǎn)檢測(cè)算法。如圖2所示。幅值amp2amp10N0N1N2n過零率ZCR00N0N1N2n圖2 用能量和過零率進(jìn)行端點(diǎn)檢測(cè)輸入的語(yǔ)音信號(hào)X(l),加窗分幀處理后得到的第n幀的語(yǔ)音信號(hào)為Xn(m),則:Xn(m)= ω(m)X(n+m) m=0 ~ (N1) (12)其中,n=0,1T,2T,…,并且N為幀長(zhǎng),T為幀移。第n幀語(yǔ)音信號(hào)Xn(m)的短時(shí)能量En為:En = Σ |Xn(m)|N 1m=0 (13) 這里定義短時(shí)能量即短時(shí)幅值,它的主要作用:①區(qū)分濁音和清音,因?yàn)闈嵋舻亩虝r(shí)能量比清音大得多。②區(qū)分聲母與韻母的邊界,無聲和有聲的分界,連字的分界等。③作為一種超音段信息,用于語(yǔ)音識(shí)別中。 一幀信號(hào)中波形穿越零電平的次數(shù),稱為過零率。定義Xn(m)的短時(shí)過零率Zn為:Zn = — Σ |sgn [Xn(m)]sgn[Xn(m1)]|N 1m=012 (14) 上式中,sgn[ ] 是符號(hào)函數(shù)。 考慮到開始以后總會(huì)出現(xiàn)能量較大的濁音,設(shè)一個(gè)較高的門限amp1用以確定語(yǔ)音已開始,再取一比amp1稍低的門限amp2,用以確定語(yǔ)音的起始點(diǎn)N1,和結(jié)束點(diǎn)N2,由于語(yǔ)音起始段往往存在著能量很弱的清輔音(如[s]、[f]等),只用能量去判斷,很難把它們和無聲區(qū)分開,但發(fā)現(xiàn)它們的過零率明顯高于無聲段,因此可以用過零率來精確起點(diǎn)。第四將仔細(xì)介紹端點(diǎn)檢測(cè)算法。 特征參數(shù)的提取特征參數(shù)提取的目的是抽取語(yǔ)音特征,以使在語(yǔ)音識(shí)別時(shí)類內(nèi)距離盡量小,類間距離盡量大。語(yǔ)音特征參數(shù)提取是語(yǔ)音識(shí)別的關(guān)鍵問題,特征參數(shù)的好壞對(duì)于語(yǔ)音識(shí)別精度和識(shí)別時(shí)間有很大影響。 常用的參數(shù)有線性預(yù)測(cè)的倒譜系數(shù)(LPCC)和Mel頻率的倒譜系數(shù)(MFCC)。全極點(diǎn)線性預(yù)測(cè)模型(LPC)是基于發(fā)音模型建立的,并假設(shè)語(yǔ)音信號(hào)為自回歸信號(hào),利用線性預(yù)測(cè)分析獲得倒譜參數(shù)。因此,LPCC系數(shù)也是基于合成的參數(shù),沒有充分利用人耳的聽覺特性,對(duì)輔音的描述能力較差,抗噪聲性能較差。實(shí)際上,人的聽覺系統(tǒng)是一個(gè)特殊的非線性系統(tǒng),它響應(yīng)不同頻率信號(hào)的靈敏度是不同的,基本上是一個(gè)對(duì)數(shù)的關(guān)系。由于充分模擬了人的聽覺特性,而且沒有任何前提假設(shè),因此MFCC參數(shù)具有很好的識(shí)別性能和抗噪能力。研究表明, Mel頻率的倒譜參數(shù)所含的信息量比其它參數(shù)多,能較好的表現(xiàn)語(yǔ)音信號(hào),并且比較充分利用人耳特殊感知特性,性能優(yōu)于LPCC參數(shù)。因此。 MFCC參數(shù)計(jì)算流程MFCC參數(shù)計(jì)算的要點(diǎn)是將線性功率譜S ( n)轉(zhuǎn)換成為mel頻率下的功率譜, 這需要在計(jì)算之前先在語(yǔ)音的頻譜范圍內(nèi)設(shè)置若干個(gè)帶通濾波器:Hm ( n) ,m = 0 … Y – 1,n = 0 … H /2 – 1Y為濾波器個(gè)數(shù),H為一幀語(yǔ)音信號(hào)的點(diǎn)數(shù)。每個(gè)濾波器具有三角形特性,其中心頻率為fm,它們?cè)?Mel 頻率軸上是均勻分布的。在線性頻率上,當(dāng) m 較小時(shí),相鄰的 fm 間隔很小,隨著 m 的增加相鄰的 fm 間隔逐漸拉開。另外在頻率較低的區(qū)域,fm 和 f 之間有一段是線性的。如圖3所示:m圖3 線性頻率上 fm 和 f 關(guān)系MFCC參數(shù)的計(jì)算是以“bark”為頻率基準(zhǔn)的,Mel頻率與線性頻率的轉(zhuǎn)換關(guān)系為:f mel = 2595 log10 (1+ )f700 (15)其中,線性頻率 f 的單位是 Hz [8]。 求MFCC參數(shù)的過程為:( 1 ) 對(duì)輸入語(yǔ)音幀作快速傅利葉變換FFT,將時(shí)域信號(hào)轉(zhuǎn)化為頻域信號(hào)。計(jì)算 FFT 之前,要把一幀數(shù)據(jù)(256點(diǎn))乘以一個(gè) hamming 窗,以克服 Gibbs 現(xiàn)象。( 2 ) 把功率譜通過帶通濾波器,然后再取自然對(duì)數(shù)。( 3 ) 計(jì)算其離散余弦變換。為每幀數(shù)據(jù)計(jì)算出 L 階 MFCC 參數(shù)后,一般還要為這 L 個(gè)系數(shù)分別乘以不同的權(quán)系數(shù),實(shí)際上是一個(gè)短窗口:Cm = Wm Cm^L2Wm = 1 + — sin ( — ), 1≤m≤LπLm (16) 差分倒譜參數(shù)標(biāo)準(zhǔn)的 MFCC 參數(shù)反映了語(yǔ)音參數(shù)的靜音特特性,而人耳對(duì)語(yǔ)音的動(dòng)態(tài)特征更為敏感,所以通常是用差分倒譜參數(shù)來描述語(yǔ)音特征的動(dòng)態(tài)特性。ld (n) =
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1