【正文】
簽名: 注:此表用于指導(dǎo)教師在學(xué)生畢業(yè)論文(設(shè)計)初稿完成后對學(xué)生執(zhí)行任務(wù)書情況進行中期檢查時用,由指導(dǎo)教師填寫。同時繼續(xù)論文的寫作工作。初步完成特定人語音識別系統(tǒng)中的端點檢測、特征提取、傳統(tǒng)DTW算法和改進型DTW算法的比較和編程。聯(lián)系本組設(shè)計成員及畢業(yè)設(shè)計指導(dǎo)師,尋求有關(guān)畢業(yè)設(shè)計信息,確定設(shè)計課題方向與設(shè)計內(nèi)容;二是虛心學(xué)習(xí)。語音識別系統(tǒng)包含的知識面非常廣,對其進行研究對自己各方面知識的應(yīng)用能力會有很大的提高。這是一個將時間規(guī)整和距離測度有機結(jié)合在一起的非線性規(guī)整技術(shù),保證了待識別特征與模板特征之間最大的聲學(xué)相似特性和最小的時差失真。教研室意見: 負(fù)責(zé)人簽名: 注:本任務(wù)書一式三份,由指導(dǎo)教師填寫,經(jīng)教研室審批后一份下達給學(xué)生,一份交指導(dǎo)教師,一份留系里存檔。文獻查閱指引:[1] 趙力.語音信號處理.第一版,北京:機械工業(yè)出版社.[2] 陳立萬.基于語音識別系統(tǒng)中DTW算法改進技術(shù)研究.微計算機信息,2006,2(2).[3] 何強,何英.MATLAB擴展編程.第一版,北京:清華大學(xué)出版社.[4] 李瀟,王大堃.基于MATLAB的孤立字語音識別試驗平臺.四川理工學(xué)院學(xué)報(自然科學(xué)版),19(3).畢業(yè)論文(設(shè)計)進度安排:1. 論文資料收集和整理,完成開題報告。對本文的研究做出重要貢獻的個人和集體均已在文中以明確方式標(biāo)明。盡我所知,除文中特別加以標(biāo)注和致謝的地方外,不包含其他人或組織已經(jīng)發(fā)表或公布過的研究成果,也不包含我為獲得 及其它教育機構(gòu)的學(xué)位或?qū)W歷而使用過的材料。對本研究提供過幫助和做出過貢獻的個人或集體,均已在文中作了明確的說明并表示了謝意。本人完全意識到本聲明的法律結(jié)果由本人承擔(dān)。2. 查找資料,給出系統(tǒng)實現(xiàn)方案,對算法進行編程和調(diào)試并完成畢業(yè)論文初稿。湖南科技學(xué)院本科畢業(yè)論文(設(shè)計)開題報告書論文(設(shè)計)題目特定人孤立詞語音識別的研究作 者 姓 名周 剛所屬系、專業(yè)、年級 物理與電子工程系 電子信息工程專業(yè) 2004年級指導(dǎo)教師姓名、職稱楊 熙預(yù)計字?jǐn)?shù)10000開題日期選題的根據(jù):1)說明本選題的理論、實際意義 2)綜述國內(nèi)外有關(guān)本選題的研究動態(tài)和自己的見解一個完整特定人孤立詞語音識別系統(tǒng)通常包括語音的輸入、語音的預(yù)處理(預(yù)加重、加窗分幀、端點檢測等)、特征提取、訓(xùn)練與識別等幾個環(huán)節(jié)。DTW解決了發(fā)音長短不一的模板匹配問題,是語音識別中出現(xiàn)較早,較為經(jīng)典的一種算法。并且語音識別作為一門正火熱發(fā)展的技術(shù),其發(fā)展前景相當(dāng)可觀,對其進行深入了解,研究是非常必要的。利用課余時間到圖書館和網(wǎng)絡(luò)上查閱資料,并虛心向老師請教和同學(xué)進行學(xué)習(xí)交流,保障畢業(yè)設(shè)計的順利完成。進行資料的整理。參考文獻要按照學(xué)校的規(guī)范寫,要在正文出現(xiàn)的位置標(biāo)出。湖南科技學(xué)院畢業(yè)設(shè)計(論文)指導(dǎo)過程記錄表畢業(yè)論文(設(shè)計)題目特定人孤立詞語音識別的研究學(xué)生姓名周剛學(xué)號2004010099專業(yè)班級電信0401指導(dǎo)教師楊熙職稱助教系(教研室)電子科學(xué)與技術(shù)指導(dǎo)過程記錄指導(dǎo)內(nèi)容記錄(一)建議畢業(yè)設(shè)計的選題方向,并提供一些參考課題及如何查閱資料。學(xué) 生 簽 名: 200 年 月 日 指導(dǎo)教師簽名: 200 年 月 日指導(dǎo)過程記錄指導(dǎo)內(nèi)容記錄(五)對采集到的樣本進行處理,端點檢測算法的選擇和特征參數(shù)的選擇。學(xué) 生 簽 名: 200 年 月 日 指導(dǎo)教師簽名: 200 年 月 日答辯小組組長意見組長(簽名): 200 年 月 日注:本表與畢業(yè)論文一起裝訂存檔。利用這些算法對孤立詞的端點檢測效果,實驗結(jié)果表明,些算法具有抗噪聲能力。5能力水平40%查閱文獻資料能力能獨立查閱相關(guān)文獻資料,歸納總結(jié)本論文所涉及的有關(guān)研究狀況及成果。10外文應(yīng)用能力能閱讀、翻譯一定量的本專業(yè)外文資料、外文摘要和外文參考書目(特殊專業(yè)除外)體現(xiàn)一定的外語水平。用語、格式、圖表、數(shù)據(jù)、量和單位、各種資料引用規(guī)范化、符合標(biāo)準(zhǔn)。10理論意義或?qū)嶋H價值符合本學(xué)科的理論發(fā)展,有一定的學(xué)術(shù)意義;對經(jīng)濟建設(shè)和社會發(fā)展的應(yīng)用性研究中的某個理論或方法問題進行研究,具有一定的實際價值。10研究方案的設(shè)計能力整體思路清晰;研究方案合理可行。5寫作水平論點鮮明;論據(jù)充分;條理清晰;語言流暢。5實評總分 成績等級 評閱教師評審意見: 評閱教師簽名: 說明:評定成績分為優(yōu)秀、良好、中等、及格、不及格五個等級,實評總分90—100分記為優(yōu)秀,80—89分記為良好,70—79分記為中等,60—69分記為及格,60分以下記為不及格。 論文中只提到了對單個字的識別,能否實現(xiàn)對多字詞的識別?答:DTW能實現(xiàn)對多字詞的識別,但本文中的四端點檢測法是針對單字詞設(shè)計的,不過根據(jù)本文中四端點檢測法的方法進行擴展,便能輕易實現(xiàn)對多字詞的識別。論文中首先介紹了孤立詞語音識別系統(tǒng)的基本理論,分析了孤立詞語音識別的基本工作過程?!娟P(guān)鍵詞】語音識別 孤立詞 特定人 DTWResearch Of Speakerdependent Isolatedword Speech RecognitionAbstractSpeech is the means that human being carries on ,using speech as a humanputer interaction approach is the most natural way for the the same time,equipment miniaturization also demands omitting the keyboard to economize recent years,the speech recognition technology has been widely applied to industrial control,consuming product and mobile is a hot research spot in high technology application thesis makes some discussions on speakerindependent isolated word speech recognition system in this case.The thesis first introduces the elementary theory of isolated word speech recognition system and analyses the basic work process of isolated word speech it introduces two kinds of isolated word speech recognition algorithms in mon use,Dynamic Time Warping(DTW) and advanced DTW,carrying on the parison to the to the parison results and considering this system’s characteristic,it adopts advanced DTW at present to improve recognition this paper,it proposes a fourstate endpoint detection algorithm based on dynamic noise and gives the detailed algorithm flow chart as well as the concrete parameters also gives the isolatedword endpoint detection effect using the algorithm in noise and nonnoise situation with the software experimental results indicate that this algorithm has the antinoise ability.【Key words】speech recognition isolated word speakerdependent DTW緒 論語音識別(Speech Recognition)是機器通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本文件或命令的高技術(shù)。近二三十年來,語音識別技術(shù)在工業(yè)、家電、通信、汽車電子、醫(yī)療、家庭服務(wù)、消費電子產(chǎn)品等領(lǐng)域有著廣泛應(yīng)用。一般語音識別系統(tǒng)按不同的角度有下面幾種分類: 1.按說話人的講話方式可以分為孤立詞(Isolated Word)識別連續(xù)語音(Continuous Speech)識別。 2.按識別對象的類型可以分為特定人(Speaker Dependent)語音識別和非特定人(Speaker Independent)語音識別。一般來講,1~20個詞匯屬于小詞匯量語音識別系統(tǒng)、20~1000個詞匯屬于中詞匯量語音識別系統(tǒng)、大于1000個詞匯屬于大詞匯量語音識別系統(tǒng)。 T Bell實驗室實現(xiàn)了第一個可識別十個英文數(shù)字的語音識別系統(tǒng)——Audry系統(tǒng)。90年代,語音識別研究的重點轉(zhuǎn)向自然語言的識別處理,任務(wù)轉(zhuǎn)移到航空旅行信息的索取。語音識別技術(shù)經(jīng)過全球半個多世紀(jì)的研究,目前已經(jīng)發(fā)展到了接近實用的階段。主要包括高可靠性;增加詞匯量;應(yīng)用拓展;降低成本減小體積四個方面。全文共分3章,具體的研究內(nèi)容如下:第1章:介紹了語音識別系統(tǒng)的實現(xiàn)方案,給出了孤立詞識別中需要的語音信號處理理論,如預(yù)加重、端點檢測和特征參數(shù)提取等。闡述了系統(tǒng)的軟件設(shè)計過程,對各部分給出了相應(yīng)的軟件流程圖,并且對具體算法進行了MATLAB仿真論證。 模式匹配中需要用到的參考模板通過模板訓(xùn)練獲得。 預(yù)處理由于語音信號的平均功率譜受聲門激勵和口鼻輻射影響,高頻端大約在800Hz以上按6dB/倍頻程跌落,所以在語音信號頻譜時,頻率越高相應(yīng)的成分越小,高頻部分的頻譜比低頻部分的難求,為此要在預(yù)處理中進行預(yù)加重(Preemphasis)處理。在語音信號處理中,常用的窗函數(shù)是矩形窗和漢明窗。用得比較多的是經(jīng)典的雙門限端點檢測算法。②區(qū)分聲母與韻母的邊界,無聲和有聲的分界,連字的分界等。 考慮到開始以后總會出現(xiàn)能量較大的濁音,設(shè)一個較高的門限amp1用以確定語音已開始,再取一比amp1稍低的門限amp2,用以確定語音的起始點N1,和結(jié)束點N2,由于語音起始段往往存在著能量很弱的清輔音(如[s]、[f]等),只用能量去判斷,很難把它們和無聲區(qū)分開,但發(fā)現(xiàn)它們的過零率明顯高于無聲段,因此可以用過零率來精確起點。 常用的參數(shù)有線性預(yù)測的倒譜系數(shù)(LPCC)和Mel頻率的倒譜系數(shù)(MFCC)。由于充分模擬了人的聽覺特性,而且沒有任何前提假設(shè),因此MFCC參數(shù)具有很好的識別性能和抗噪能力。每個濾波器具有三角形特性,其中心頻率為fm,它們在 Mel 頻率軸上是均勻分布的。 求MFCC參數(shù)的過程為:( 1 ) 對輸入語音幀作快速傅利葉變換FFT,將時域信號轉(zhuǎn)化為頻域信號。為每幀數(shù)據(jù)計算出 L 階 MFCC 參數(shù)后,一般還要為這 L 個系數(shù)分別乘以不同的權(quán)系數(shù),實際上是一個短窗口:Cm = Wm Cm^L2Wm = 1 + — sin ( — ), 1≤m≤LπLm (16) 差分倒譜參數(shù)標(biāo)準(zhǔn)的 MFCC 參數(shù)反映了語音參數(shù)的靜音特特性,而人耳對語音的動態(tài)特征更為敏感,所以通常是用差分倒譜參數(shù)來描述語音特征的動態(tài)特性。2 Dynamic Time Warping算法假定一個孤立詞語音識別系統(tǒng),利用模板匹配法進行識別。因此在進行模板匹配時,把識別信號伸長或縮短至參考模板的長度是必不可少的,但研究表明,簡單的線性拉伸或壓縮并不能有效的提高識別率。DTW解決了發(fā)音長短不一的模板匹配問題,是語音識別中出現(xiàn)較早,較為經(jīng)典的一種算法[10]。2(1,1)NMmnTR2(N,M)D[T(n),R(m)]R(m)T(n)(n,m) 圖4 動態(tài)時間彎曲(DTW)算法求最小失真假設(shè)參考模板和測試模板分別用R和T表示,它們之間的相似度用它們之間的距離D[T,R]來度量,距離越小相似度越高。如上圖所示。路