【正文】
is the means that human being carries on ,using speech as a humanputer interaction approach is the most natural way for the the same time,equipment miniaturization also demands omitting the keyboard to economize recent years,the speech recognition technology has been widely applied to industrial control,consuming product and mobile is a hot research spot in high technology application thesis makes some discussions on speakerindependent isolated word speech recognition system in this case.The thesis first introduces the elementary theory of isolated word speech recognition system and analyses the basic work process of isolated word speech it introduces two kinds of isolated word speech recognition algorithms in mon use,Dynamic Time Warping(DTW) and advanced DTW,carrying on the parison to the to the parison results and considering this system’s characteristic,it adopts advanced DTW at present to improve recognition this paper,it proposes a fourstate endpoint detection algorithm based on dynamic noise and gives the detailed algorithm flow chart as well as the concrete parameters also gives the isolatedword endpoint detection effect using the algorithm in noise and nonnoise situation with the software experimental results indicate that this algorithm has the antinoise ability.【Key words】speech recognition isolated word speakerdependent DTW緒 論語音識別(Speech Recognition)是機(jī)器通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本文件或命令的高技術(shù)。一般語音識別系統(tǒng)按不同的角度有下面幾種分類: 1.按說話人的講話方式可以分為孤立詞(Isolated Word)識別連續(xù)語音(Continuous Speech)識別。一般來講,1~20個(gè)詞匯屬于小詞匯量語音識別系統(tǒng)、20~1000個(gè)詞匯屬于中詞匯量語音識別系統(tǒng)、大于1000個(gè)詞匯屬于大詞匯量語音識別系統(tǒng)。90年代,語音識別研究的重點(diǎn)轉(zhuǎn)向自然語言的識別處理,任務(wù)轉(zhuǎn)移到航空旅行信息的索取。主要包括高可靠性;增加詞匯量;應(yīng)用拓展;降低成本減小體積四個(gè)方面。闡述了系統(tǒng)的軟件設(shè)計(jì)過程,對各部分給出了相應(yīng)的軟件流程圖,并且對具體算法進(jìn)行了MATLAB仿真論證。 預(yù)處理由于語音信號的平均功率譜受聲門激勵(lì)和口鼻輻射影響,高頻端大約在800Hz以上按6dB/倍頻程跌落,所以在語音信號頻譜時(shí),頻率越高相應(yīng)的成分越小,高頻部分的頻譜比低頻部分的難求,為此要在預(yù)處理中進(jìn)行預(yù)加重(Preemphasis)處理。用得比較多的是經(jīng)典的雙門限端點(diǎn)檢測算法。 考慮到開始以后總會(huì)出現(xiàn)能量較大的濁音,設(shè)一個(gè)較高的門限amp1用以確定語音已開始,再取一比amp1稍低的門限amp2,用以確定語音的起始點(diǎn)N1,和結(jié)束點(diǎn)N2,由于語音起始段往往存在著能量很弱的清輔音(如[s]、[f]等),只用能量去判斷,很難把它們和無聲區(qū)分開,但發(fā)現(xiàn)它們的過零率明顯高于無聲段,因此可以用過零率來精確起點(diǎn)。由于充分模擬了人的聽覺特性,而且沒有任何前提假設(shè),因此MFCC參數(shù)具有很好的識別性能和抗噪能力。 求MFCC參數(shù)的過程為:( 1 ) 對輸入語音幀作快速傅利葉變換FFT,將時(shí)域信號轉(zhuǎn)化為頻域信號。2 Dynamic Time Warping算法假定一個(gè)孤立詞語音識別系統(tǒng),利用模板匹配法進(jìn)行識別。DTW解決了發(fā)音長短不一的模板匹配問題,是語音識別中出現(xiàn)較早,較為經(jīng)典的一種算法[10]。如上圖所示。D[(ni,mi)] = d [T(ni),R(mi)] + D[(ni1,mi1)] (22)其中的D[(n i1,m i1)]由下式?jīng)Q定D[(ni1,mi1)]=min{ D[(ni1,mi)],D[(ni1,mi1)],D[(ni1,mi2)]} (23) 從 (ni,mi) =(1,1) 開始往下搜索 (n2,m2),再搜索 (n3,m3) ……,對每一個(gè) (ni,mi) 都存儲(chǔ)相應(yīng)的前一格點(diǎn) (ni1,mi1) 及相應(yīng)的幀匹配距離d[ni,mi]。 充分利用這兩個(gè)特點(diǎn)可以減少計(jì)算量和存儲(chǔ)空間的需求,形成一種高效的DTW 算法。放寬端點(diǎn)限制的DTW算法對于普通DTW對端點(diǎn)檢測比較敏感,端點(diǎn)信息是作為一組獨(dú)立的參數(shù)提供給識別算法,它要求兩個(gè)比較模式起點(diǎn)對起點(diǎn),終點(diǎn)對終點(diǎn),對端點(diǎn)檢測的精度要求比較高,當(dāng)環(huán)境噪聲比較大或語音由摩擦音構(gòu)成時(shí),端點(diǎn)檢測不易進(jìn)行,放松端點(diǎn)限制方法不嚴(yán)格要求端點(diǎn)對齊,克服了由于端點(diǎn)算法不精確造成的測試模式和參考模式起點(diǎn)終點(diǎn)不能對齊的問題,一般情況下,起點(diǎn)和終點(diǎn)在縱橫兩個(gè)方向只要放寬 2 3 幀就可以,也就是起點(diǎn)可以在(1,1)、(1,2)、(1,3)、(2,1)、(3,1),終點(diǎn)也可類似放松,放寬端點(diǎn)后的區(qū)域限制圖8在放松端點(diǎn)限制的動(dòng)態(tài)時(shí)間規(guī)整算法中,累積距離矩陣中的元素(1,1)、(1,2)、(1,3)、(2,1)、(3,1),不是根據(jù)局部判決函數(shù)計(jì)算得到的,而是直接將幀匹配距離矩陣的元素填入,自動(dòng)從其中選擇最小的一個(gè)作為起點(diǎn),對于終點(diǎn)也是從松弛終點(diǎn)的允許范圍內(nèi)選擇一個(gè)最小值作為參考模式和未知模式的匹配距離。圖10為男生命令詞“停止”經(jīng)過預(yù)加重濾波后的仿真結(jié)果。各狀態(tài)之間的轉(zhuǎn)換關(guān)系如圖所示。為此,修正短時(shí)過零率參數(shù),定義為一幀語音波形穿越某個(gè)非零電平T的次數(shù),即下式。門窗的開關(guān)等引起的突發(fā)性噪聲也可以引起短時(shí)能量或過零率的數(shù)值很高,但是往往不能維持足夠長的時(shí)間,通過最短語音時(shí)間門限值來判斷。圖14為有噪聲環(huán)境下的端點(diǎn)檢測。實(shí)驗(yàn)二是對單個(gè)數(shù)字 1 ~ 6 的識別。 在仿真過程中,用tic和toc指令對傳統(tǒng)DTW算法和改進(jìn)DTW算法的仿真時(shí)間進(jìn)行記錄,如表5至表6所示。x = x / max(abs(x))。 % 6*10ms = 30msminlen = 15。zcr = sum(signs.*diffs, 2)。amp1 = 3*temp。 count = count + 1。 elsei。 count = count + 1。%開始端點(diǎn)檢測x1 = 0。%調(diào)整能量門限t=0。count = 0。FrameInc = 80。仿真程序見附錄。每個(gè)錄音兩遍并保存,一個(gè)做參考模板,一個(gè)做測試模板。從圖上可以看出,在語音前端位置有明顯的噪聲,用基于動(dòng)態(tài)噪聲的四狀態(tài)端點(diǎn)檢測方法,仍然可以比較精確地檢測到各個(gè)孤立字的起始端點(diǎn)和結(jié)束端點(diǎn)。流程圖中的四個(gè)狀態(tài)0,1,2,3分別對應(yīng)靜音狀態(tài)、起始過渡狀態(tài)、語音狀態(tài)和結(jié)束狀態(tài)。Zn = — Σ |sgn [Xn(m)T]sgn[Xn(m1)T]|N 1m=012 (33) 下圖為命令詞“停止”的短時(shí)能量和過零率仿真圖,其中過零率是按上式進(jìn)行計(jì)算的。 采用多門限判定。從圖中可以看出預(yù)加重對信號處理的重要性,高頻部分的信號能量得到了加強(qiáng)。軟件設(shè)計(jì)主要是包括語音預(yù)處理子程序、端點(diǎn)檢測子程序以及語音識別子程序。 在X軸上的每一幀不再需要與Y軸上的每一幀進(jìn)行比較,而只是與Y軸上[ymin,ymax]間的幀進(jìn)行比較。 由于DTW不斷地計(jì)算測試矢量與模板矢量的距離以尋找最優(yōu)的匹配路徑,所以得到的兩矢量匹配是累計(jì)距離最小的路徑函數(shù),這保證了它們之間存在最大的聲學(xué)相似特性。路徑不是隨意選擇的,首先任何一種語音的發(fā)音快慢都有可能變化,但是其各部分的先后次序不可能改變,因此所選的路徑必定是從左下角出發(fā),在右上角結(jié)束。語音識別就是要將測試語音的這個(gè)特征向量同模板庫中已存在的語音特征向量進(jìn)行模式匹配,尋找距離最短的模式作為識別結(jié)果。在訓(xùn)練階段,用戶將詞匯表中的每個(gè)詞依次說一遍,作為模板存入模板庫;在識別階段,將輸入語音的特征矢量時(shí)間序列依次與模板庫中的每個(gè)模板進(jìn)行相似度比較,將相似度最高的作為識別結(jié)果輸出。( 2 ) 把功率譜通過帶通濾波器,然后再取自然對數(shù)。因此。 特征參數(shù)的提取特征參數(shù)提取的目的是抽取語音特征,以使在語音識別時(shí)類內(nèi)距離盡量小,類間距離盡量大。幅值amp2amp10N0N1N2n過零率ZCR00N0N1N2n圖2 用能量和過零率進(jìn)行端點(diǎn)檢測輸入的語音信號X(l),加窗分幀處理后得到的第n幀的語音信號為Xn(m),則:Xn(m)= ω(m)X(n+m) m=0 ~ (N1) (12)其中,n=0,1T,2T,…,并且N為幀長,T為幀移。通常用一階FIR數(shù)字濾波器來實(shí)現(xiàn),系統(tǒng)函數(shù)為:H(z)= 1 – a z –1 (a 接近于1) (11)進(jìn)行預(yù)加重?cái)?shù)字濾波處理后,接下來就要進(jìn)行加窗分幀處理。預(yù)處理特征提取輸入語音測度估計(jì)識別判決參考模板識別結(jié)果模板庫識別訓(xùn)練圖1 一般語音識別系統(tǒng)框圖一個(gè)完整特定人孤立詞語音識別系統(tǒng)通常包括語音的輸入、語音的預(yù)處理(預(yù)加重、加窗分幀、端點(diǎn)檢測等)、特征提取、訓(xùn)練與識別等幾個(gè)環(huán)節(jié),基本構(gòu)成如圖1所示。近年來,消費(fèi)類電子產(chǎn)品對低成本、高穩(wěn)健性的語音識別片上系統(tǒng)的需要快速增加,語音識別系統(tǒng)大量地從實(shí)驗(yàn)室的PC平臺轉(zhuǎn)移到嵌入式設(shè)備中。2000年以來,人機(jī)語音交互成為研究的焦點(diǎn)。這里僅僅按照一些重要方法的出現(xiàn)和發(fā)展為線索進(jìn)行簡要回顧。因此,可以用來實(shí)現(xiàn)簡單的家用電器控制。語音識別經(jīng)過四十多年的發(fā)展,已經(jīng)顯示出巨大的應(yīng)用前景[1]。近年來,語音識別技術(shù)被廣泛應(yīng)用于工業(yè)控制、消費(fèi)類產(chǎn)品及移動(dòng)通信中,是高科技應(yīng)用領(lǐng)域的研究熱點(diǎn)。用語、格式、圖表、數(shù)據(jù)、量和單位、各種資料引用規(guī)范化、符合標(biāo)準(zhǔn)。5能力水平40%查閱文獻(xiàn)資料能力能獨(dú)立查閱相關(guān)文獻(xiàn)資料,歸納總結(jié)本論文所涉及的有關(guān)研究狀況及成果。5寫作水平論點(diǎn)鮮明;論據(jù)充分;條理清晰;語言流暢。10理論意義或?qū)嶋H價(jià)值符合本學(xué)科的理論發(fā)展,有一定的學(xué)術(shù)意義;對經(jīng)濟(jì)建設(shè)和社會(huì)發(fā)展的應(yīng)用性研究中的某個(gè)理論或方法問題進(jìn)行研究,具有一定的實(shí)際價(jià)值。學(xué) 生 簽 名: 200 年 月 日 指導(dǎo)教師簽名: 200 年 月 日指導(dǎo)內(nèi)容記錄(七)在MATLAB下對程序進(jìn)行編譯和調(diào)試,對DTW算法和快速DTW算法進(jìn)行比較。進(jìn)一步優(yōu)化程序,提高識別速度。[2] 何強(qiáng),何英.MATLAB擴(kuò)展編程[M].第一版,北京:清華大學(xué)出版社.[3] 徐文盛,戴蓓倩,方紹武,陸偉.特定人漢語數(shù)碼語音抗噪識別方法[J].電路與系統(tǒng)學(xué)報(bào), 5(2).[4] 陳立萬.基于語音識別系統(tǒng)中DTW 算法改進(jìn)技術(shù)研究[J].《微計(jì)算機(jī)信息》(嵌入式與SOC),2006,22(2).[5] 李瀟,王大堃.基于MATLAB 的孤立字語音識別試驗(yàn)平臺[J].四川理工學(xué)院學(xué)報(bào)(自然科學(xué)版),2006,19(3).[6] 黃文梅,楊勇,熊桂林,成曉明.系統(tǒng)仿真分析與設(shè)計(jì)——Matlab語音工程應(yīng)用[M].長沙:國防科技大學(xué)出版社.[7] 林波,呂明.基于DTW改進(jìn)算法的孤立詞識別系統(tǒng)的仿真與分析[J].信息技術(shù),2006年第4期.指導(dǎo)教師意見: 指導(dǎo)教師簽名: 教研室意見:簽 名: 年 月 日開 題 報(bào) 告 會(huì) 紀(jì) 要時(shí)間2008年1月15日地點(diǎn)第三教學(xué)樓317與會(huì)人員姓 名職務(wù)(職稱)姓 名職務(wù)(職稱)姓 名職務(wù)(職稱)李春樹副教授楊熙助教李艷芳副教授周玲助教