【正文】
端點(diǎn)檢測輸入的語音信號X(l),加窗分幀處理后得到的第n幀的語音信號為Xn(m),則:Xn(m)= ω(m)X(n+m) m=0 ~ (N1) (12)其中,n=0,1T,2T,…,并且N為幀長,T為幀移。用得比較多的是經(jīng)典的雙門限端點(diǎn)檢測算法。 端點(diǎn)檢測的目的是從包含語音的一般信號中確定出語音的起點(diǎn)以及終點(diǎn), 有效的端點(diǎn)檢測不僅能使處理時間最小, 而且能排除無聲段的噪聲干擾, 從而使識別系統(tǒng)具有良好的識別性能, 端點(diǎn)檢測的成功與否甚至在某種程度上直接決定了整個語音識別系統(tǒng)的成敗。在語音信號處理中,常用的窗函數(shù)是矩形窗和漢明窗。通常用一階FIR數(shù)字濾波器來實現(xiàn),系統(tǒng)函數(shù)為:H(z)= 1 – a z –1 (a 接近于1) (11)進(jìn)行預(yù)加重數(shù)字濾波處理后,接下來就要進(jìn)行加窗分幀處理。 預(yù)處理由于語音信號的平均功率譜受聲門激勵和口鼻輻射影響,高頻端大約在800Hz以上按6dB/倍頻程跌落,所以在語音信號頻譜時,頻率越高相應(yīng)的成分越小,高頻部分的頻譜比低頻部分的難求,為此要在預(yù)處理中進(jìn)行預(yù)加重(Preemphasis)處理。 在識別階段,語音信號經(jīng)過相同的通道得到語音特征參數(shù),生成測試模板并與參考模板進(jìn)行匹配,將匹配分?jǐn)?shù)最高的參考模板作為識別結(jié)果。 模式匹配中需要用到的參考模板通過模板訓(xùn)練獲得。預(yù)處理特征提取輸入語音測度估計識別判決參考模板識別結(jié)果模板庫識別訓(xùn)練圖1 一般語音識別系統(tǒng)框圖一個完整特定人孤立詞語音識別系統(tǒng)通常包括語音的輸入、語音的預(yù)處理(預(yù)加重、加窗分幀、端點(diǎn)檢測等)、特征提取、訓(xùn)練與識別等幾個環(huán)節(jié),基本構(gòu)成如圖1所示。闡述了系統(tǒng)的軟件設(shè)計過程,對各部分給出了相應(yīng)的軟件流程圖,并且對具體算法進(jìn)行了MATLAB仿真論證。最后給出了兩者的對比仿真。全文共分3章,具體的研究內(nèi)容如下:第1章:介紹了語音識別系統(tǒng)的實現(xiàn)方案,給出了孤立詞識別中需要的語音信號處理理論,如預(yù)加重、端點(diǎn)檢測和特征參數(shù)提取等。近年來,消費(fèi)類電子產(chǎn)品對低成本、高穩(wěn)健性的語音識別片上系統(tǒng)的需要快速增加,語音識別系統(tǒng)大量地從實驗室的PC平臺轉(zhuǎn)移到嵌入式設(shè)備中。主要包括高可靠性;增加詞匯量;應(yīng)用拓展;降低成本減小體積四個方面。在這樣的水平基礎(chǔ)上,語音識別技術(shù)開始嘗試從實驗室演示系統(tǒng)走向?qū)嵱没唐?。語音識別技術(shù)經(jīng)過全球半個多世紀(jì)的研究,目前已經(jīng)發(fā)展到了接近實用的階段。2000年以來,人機(jī)語音交互成為研究的焦點(diǎn)。90年代,語音識別研究的重點(diǎn)轉(zhuǎn)向自然語言的識別處理,任務(wù)轉(zhuǎn)移到航空旅行信息的索取。70年代,在模式識別思想、動態(tài)規(guī)劃方法、線性預(yù)測思想等基礎(chǔ)研究的成功應(yīng)用的支撐下,孤立詞發(fā)音和孤立語句發(fā)音的識別成為了可行的有用技術(shù)。 T Bell實驗室實現(xiàn)了第一個可識別十個英文數(shù)字的語音識別系統(tǒng)——Audry系統(tǒng)。這里僅僅按照一些重要方法的出現(xiàn)和發(fā)展為線索進(jìn)行簡要回顧。一般來講,1~20個詞匯屬于小詞匯量語音識別系統(tǒng)、20~1000個詞匯屬于中詞匯量語音識別系統(tǒng)、大于1000個詞匯屬于大詞匯量語音識別系統(tǒng)。非特定人則可用于不同的用戶,這種識別系統(tǒng)的通用性好,應(yīng)用面廣,但難度也較大,不容易得到高的識別率,它的實用化將會有很高的經(jīng)濟(jì)價值和深遠(yuǎn)的社會意義。 2.按識別對象的類型可以分為特定人(Speaker Dependent)語音識別和非特定人(Speaker Independent)語音識別。因此,可以用來實現(xiàn)簡單的家用電器控制。一般語音識別系統(tǒng)按不同的角度有下面幾種分類: 1.按說話人的講話方式可以分為孤立詞(Isolated Word)識別連續(xù)語音(Continuous Speech)識別。其主要應(yīng)用在語音命令、應(yīng)用于電信增值業(yè)務(wù)、數(shù)據(jù)庫檢索等方面。近二三十年來,語音識別技術(shù)在工業(yè)、家電、通信、汽車電子、醫(yī)療、家庭服務(wù)、消費(fèi)電子產(chǎn)品等領(lǐng)域有著廣泛應(yīng)用。語音識別經(jīng)過四十多年的發(fā)展,已經(jīng)顯示出巨大的應(yīng)用前景[1]?!娟P(guān)鍵詞】語音識別 孤立詞 特定人 DTWResearch Of Speakerdependent Isolatedword Speech RecognitionAbstractSpeech is the means that human being carries on ,using speech as a humanputer interaction approach is the most natural way for the the same time,equipment miniaturization also demands omitting the keyboard to economize recent years,the speech recognition technology has been widely applied to industrial control,consuming product and mobile is a hot research spot in high technology application thesis makes some discussions on speakerindependent isolated word speech recognition system in this case.The thesis first introduces the elementary theory of isolated word speech recognition system and analyses the basic work process of isolated word speech it introduces two kinds of isolated word speech recognition algorithms in mon use,Dynamic Time Warping(DTW) and advanced DTW,carrying on the parison to the to the parison results and considering this system’s characteristic,it adopts advanced DTW at present to improve recognition this paper,it proposes a fourstate endpoint detection algorithm based on dynamic noise and gives the detailed algorithm flow chart as well as the concrete parameters also gives the isolatedword endpoint detection effect using the algorithm in noise and nonnoise situation with the software experimental results indicate that this algorithm has the antinoise ability.【Key words】speech recognition isolated word speakerdependent DTW緒 論語音識別(Speech Recognition)是機(jī)器通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本文件或命令的高技術(shù)。提出了基于動態(tài)噪聲的四狀態(tài)端點(diǎn)檢測算法,給出了詳細(xì)的算法流程圖以及具體參數(shù)的設(shè)置。論文中首先介紹了孤立詞語音識別系統(tǒng)的基本理論,分析了孤立詞語音識別的基本工作過程。近年來,語音識別技術(shù)被廣泛應(yīng)用于工業(yè)控制、消費(fèi)類產(chǎn)品及移動通信中,是高科技應(yīng)用領(lǐng)域的研究熱點(diǎn)。 論文中只提到了對單個字的識別,能否實現(xiàn)對多字詞的識別?答:DTW能實現(xiàn)對多字詞的識別,但本文中的四端點(diǎn)檢測法是針對單字詞設(shè)計的,不過根據(jù)本文中四端點(diǎn)檢測法的方法進(jìn)行擴(kuò)展,便能輕易實現(xiàn)對多字詞的識別。 論文中用到的端點(diǎn)檢測算法為何能抗噪聲?答:論文中的端點(diǎn)檢測算法設(shè)定了高低短時能量、高低過零率、最大靜音時間、最小語音長度六個門限值,其中短時能量是用于抗噪聲設(shè)計的,由于語音序列的前10幀一般都為噪聲,而端點(diǎn)檢測算法中的高低能量門限是以前10幀的平均能量值作為參考依據(jù),這樣我們的算法就是基于動態(tài)背景噪聲的。5實評總分 成績等級 評閱教師評審意見: 評閱教師簽名: 說明:評定成績分為優(yōu)秀、良好、中等、及格、不及格五個等級,實評總分90—100分記為優(yōu)秀,80—89分記為良好,70—79分記為中等,60—69分記為及格,60分以下記為不及格。用語、格式、圖表、數(shù)據(jù)、量和單位、各種資料引用規(guī)范化、符合標(biāo)準(zhǔn)。5寫作水平論點(diǎn)鮮明;論據(jù)充分;條理清晰;語言流暢。10外文應(yīng)用能力能閱讀、翻譯一定量的本專業(yè)外文資料、外文摘要和外文參考書目(特殊專業(yè)除外)體現(xiàn)一定的外語水平。10研究方案的設(shè)計能力整體思路清晰;研究方案合理可行。5能力水平40%查閱文獻(xiàn)資料能力能獨(dú)立查閱相關(guān)文獻(xiàn)資料,歸納總結(jié)本論文所涉及的有關(guān)研究狀況及成果。10理論意義或?qū)嶋H價值符合本學(xué)科的理論發(fā)展,有一定的學(xué)術(shù)意義;對經(jīng)濟(jì)建設(shè)和社會發(fā)展的應(yīng)用性研究中的某個理論或方法問題進(jìn)行研究,具有一定的實際價值。5實評總分 成績等級 指導(dǎo)教師評審意見: 指導(dǎo)教師簽名: 說明:評定成績分為優(yōu)秀、良好、中等、及格、不及格五個等級,實評總分90—100分記為優(yōu)秀,80—89分記為良好,70—79分記為中等,60—69分記為及格,60分以下記為不及格。用語、格式、圖表、數(shù)據(jù)、量和單位、各種資料引用規(guī)范化、符合標(biāo)準(zhǔn)。5寫作水平論點(diǎn)鮮明;論據(jù)充分;條理清晰;語言流暢。10外文應(yīng)用能力能閱讀、翻譯一定量的本專業(yè)外文資料、外文摘要和外文參考書目(特殊專業(yè)除外)體現(xiàn)一定的外語水平。10研究方案的設(shè)計能力整體思路清晰;研究方案合理可行。5能力水平40%查閱文獻(xiàn)資料能力能獨(dú)立查閱相關(guān)文獻(xiàn)資料,歸納總結(jié)本論文所涉及的有關(guān)研究狀況及成果。10理論意義或?qū)嶋H價值符合本學(xué)科的理論發(fā)展,有一定的學(xué)術(shù)意義;對經(jīng)濟(jì)建設(shè)和社會發(fā)展的應(yīng)用性研究中的某個理論或方法問題進(jìn)行研究,具有一定的實際價值。利用這些算法對孤立詞的端點(diǎn)檢測效果,實驗結(jié)果表明,些算法具有抗噪聲能力。接著介紹了常用的孤立詞語音識別算法:DTW(Dynamic Time Warping,動態(tài)時間彎折)以及改進(jìn)的DTW,對兩種算法進(jìn)行了比較,根據(jù)比較結(jié)果,采用比較高效的改進(jìn)型DTW,以提高識別效率。學(xué) 生 簽 名: 200 年 月 日 指導(dǎo)教師簽名: 200 年 月 日答辯小組組長意見組長(簽名): 200 年 月 日注:本表與畢業(yè)論文一起裝訂存檔。學(xué) 生 簽 名: 200 年 月 日 指導(dǎo)教師簽名: 200 年 月 日指導(dǎo)內(nèi)容記錄(七)在MATLAB下對程序進(jìn)行編譯和調(diào)試,對DTW算法和快速DTW算法進(jìn)行比較。學(xué) 生 簽 名: 200 年 月 日 指導(dǎo)教師簽名: 200 年 月 日指導(dǎo)過程記錄指導(dǎo)內(nèi)容記錄(五)對采集到的樣本進(jìn)行處理,端點(diǎn)檢測算法的選擇和特征參數(shù)的選擇。學(xué) 生 簽 名: 200 年 月 日 指導(dǎo)教師簽名: 200 年 月 日指導(dǎo)內(nèi)容記錄(三)特定人語音識別系統(tǒng)所需的語音處理理論知識及核心算法DTW算法。湖南科技學(xué)院畢業(yè)設(shè)計(論文)指導(dǎo)過程記錄表畢業(yè)論文(設(shè)計)題目特定人孤立詞語音識別的研究學(xué)生姓名周剛學(xué)號2004010099專業(yè)班級電信0401指導(dǎo)教師楊熙職稱助教系(教研室)電子科學(xué)與技術(shù)指導(dǎo)過程記錄指導(dǎo)內(nèi)容記錄(一)建議畢業(yè)設(shè)計的選題方向,并提供一些參考課題及如何查閱資料。進(jìn)一步優(yōu)化程序,提高識別速度。參考文獻(xiàn)要按照學(xué)校的規(guī)范寫,要在正文出現(xiàn)的位置標(biāo)出。 下一步的工作: 對整個系統(tǒng)在MATLAB下進(jìn)行仿真測試。進(jìn)行資料的整理。[2] 何強(qiáng),何英.MATLAB擴(kuò)展編程[M].第一版,北京:清華大學(xué)出版社.[3]