【正文】
2. 結(jié)合 LABVIEW 開(kāi)發(fā)平臺(tái)的特點(diǎn),對(duì)語(yǔ)音特征參數(shù)提取算法進(jìn)行改進(jìn),提高了計(jì)算效率,減少了識(shí)別時(shí)間。第六章 總結(jié)與展望 總結(jié)本文研究的具體實(shí)現(xiàn)如下:(1) 把計(jì)算機(jī)內(nèi)部自帶的聲卡作為本次設(shè)計(jì)系統(tǒng)的數(shù)據(jù)采集卡,充分應(yīng)用了虛擬儀器的聲音信號(hào)數(shù)據(jù)實(shí)時(shí)采集分析的功能。 MFCC特征參數(shù)的提取的實(shí)現(xiàn)過(guò)程 模板的建立與讀取 建立模板建立模板是把語(yǔ)音信號(hào)的特征參數(shù)轉(zhuǎn)化為相應(yīng)的二進(jìn)制文件,并把生成的二進(jìn)制文件轉(zhuǎn)化為相應(yīng)的MFCC數(shù)組,進(jìn)行顯示。 語(yǔ)音信號(hào)實(shí)時(shí)采集、消噪的實(shí)現(xiàn)過(guò)程 語(yǔ)音信號(hào)的預(yù)處理語(yǔ)音信號(hào)的預(yù)處理主要包括語(yǔ)音信號(hào)的采集、消噪、預(yù)加重以及端點(diǎn)檢測(cè),在其運(yùn)行過(guò)程中須調(diào)用語(yǔ)音信號(hào)采集程序。(3) 對(duì)待測(cè)的語(yǔ)音信號(hào)能夠準(zhǔn)確的檢測(cè)出有效語(yǔ)音信號(hào)的起止端點(diǎn)。在基于模式匹配的語(yǔ)音識(shí)別中,原始語(yǔ)音要經(jīng)過(guò)訓(xùn)練,產(chǎn)生一系列的特征模板,隨后存儲(chǔ)在特征模板庫(kù)中,然后將待識(shí)別語(yǔ)音通過(guò)相似度量,最后得到識(shí)別結(jié)果。 神經(jīng)網(wǎng)絡(luò)的方法一般而言,針對(duì)小詞匯量、孤立詞和特定人的語(yǔ)音識(shí)別系統(tǒng)采用模板匹配的方法就可以達(dá)到很好的效果。IBM公司的Via Voice中文語(yǔ)音識(shí)別系統(tǒng)就是VQHMM 混合模式的典范,類(lèi)似的國(guó)內(nèi)產(chǎn)品還有方正友文系統(tǒng)和Dutty++語(yǔ)音識(shí)別系統(tǒng)。不同的劃分或不同的代表矢量選取方法可以構(gòu)成不同的矢量量化器。 矢量量化 VQ矢量量化(Vector Quantization)是一種重要的信號(hào)壓縮方法。HMM可分為兩部分,一個(gè)是Markov鏈產(chǎn)生的輸出為狀態(tài)序列。HMM方法現(xiàn)已成為語(yǔ)音識(shí)別的主流技術(shù),目前大多數(shù)大詞匯量、連續(xù)語(yǔ)音的非特定人語(yǔ)音識(shí)別系統(tǒng)都是基于HMM模型的。參考模板可以表示為:,其中 M 為參考模板所包括的語(yǔ)音幀的總數(shù),m 為語(yǔ)音幀的時(shí)序標(biāo)號(hào),R(m)為第 m幀的語(yǔ)音特征矢量。60年代提出的動(dòng)態(tài)時(shí)間規(guī)整算法(DTW:Dynamic Time Warping)。在運(yùn)用模板匹配方法的時(shí)候,一般要經(jīng)過(guò)四個(gè)步驟:特征提取、模板分類(lèi)、模板訓(xùn)練和判決。 (212)式中 c、d 為一幀語(yǔ)音的參數(shù),k 一般取常數(shù) 2,用(212)式求得的參數(shù)就是美爾頻率倒譜一階差分參數(shù) [13],將 n 階差分參數(shù)帶入(212)式計(jì)算就得到 n+1 階差分參數(shù),實(shí)際應(yīng)用中根據(jù)需要計(jì)算多階差分參數(shù)。線(xiàn)性預(yù)測(cè)倒譜系數(shù)(LPCC)去掉了語(yǔ)音產(chǎn)生過(guò)程中的激勵(lì)信息,主要反映聲道特性,計(jì)算量小。經(jīng)過(guò)這樣的處理,就可以得到說(shuō)話(huà)人的語(yǔ)音特征參數(shù),為下一步說(shuō)話(huà)人識(shí)別系統(tǒng)的構(gòu)建做好了鋪墊。端點(diǎn)檢測(cè)的短時(shí)能量法語(yǔ)音信號(hào)的短時(shí)能量反映了語(yǔ)音信號(hào)幅度隨時(shí)間的變化,計(jì)算公式為[12]: (210)亦可表示為: (211) 其中。在靜音段,如果過(guò)零率或能量超過(guò)了低門(mén)限,則開(kāi)始標(biāo)記為起始點(diǎn),隨后進(jìn)入到過(guò)渡段。實(shí)際應(yīng)用中,末點(diǎn)的誤差不會(huì)明顯地影響識(shí)別結(jié)果。 語(yǔ)音信號(hào)預(yù)處理語(yǔ)音信號(hào)的預(yù)處理過(guò)程一般包括預(yù)加重處理、分幀處理、加窗處理、端點(diǎn)檢測(cè)幾個(gè)部分, 描述了整個(gè)預(yù)處理過(guò)程。另一方面抑制50Hz的電源產(chǎn)生的工頻干擾。下面根據(jù)語(yǔ)音識(shí)別的過(guò)程,分別介紹各個(gè)過(guò)程的關(guān)鍵技術(shù)和基本理論,預(yù)處理和語(yǔ)音自動(dòng)分割算法以及三種語(yǔ)音特征參數(shù)提取技術(shù)。 所示,主要分為信號(hào)預(yù)處理、特征參數(shù)提取、模式匹配和參考模板庫(kù)幾個(gè)單元。第四章介紹了非特定人連續(xù)語(yǔ)音識(shí)別系統(tǒng)的實(shí)現(xiàn)問(wèn)題,介紹了系統(tǒng)的具體設(shè)計(jì)步驟,及其模板的建立與讀取,并對(duì)試驗(yàn)結(jié)果進(jìn)行了分析。3.當(dāng)使用M文件編輯器調(diào)試并保存文件時(shí),或在MATLAB指令窗中運(yùn)行M文件時(shí)。“Keyboard amp。具體方法是:選中菜單項(xiàng)[File:Page setup],引出一個(gè)頁(yè)面設(shè)置對(duì)話(huà)框,該對(duì)話(huà)框可以對(duì)版面布局(Layout)、版頭(Header)、字體(Fonts)等參數(shù)進(jìn)行設(shè)置。(3)與在指令窗中直接運(yùn)行質(zhì)量一樣,腳本文件運(yùn)行時(shí)產(chǎn)生的變量都駐留在MATLAB基本工作空間中。(2)開(kāi)放式的體系結(jié)構(gòu) 除了內(nèi)部函數(shù)外,所有的MATLAB主包文件和各工具包文件都是對(duì)用戶(hù)開(kāi)放的源程序文件,用戶(hù)可以通過(guò)修改源程序文件來(lái)構(gòu)成新的適合自己使用的專(zhuān)用工具包。(3)I/O接口儀器驅(qū)動(dòng)程序的設(shè)計(jì)I/O接口儀器驅(qū)動(dòng)程序是控制硬件設(shè)備的驅(qū)動(dòng)程序,也是連接主控計(jì)算機(jī)與儀器設(shè)備的紐帶。虛擬儀器的構(gòu)成,: 虛擬儀器的構(gòu)成LABVIEW軟件工具的特點(diǎn)可歸納為:(1)圖形化的編程方式,無(wú)須寫(xiě)任何文本格式的代碼,是真正的工程師語(yǔ)言。使用者只要用鼠標(biāo)點(diǎn)擊虛擬面板,就可以操作這臺(tái)計(jì)算機(jī)系統(tǒng)硬件平臺(tái),就如同使用一臺(tái)專(zhuān)用的測(cè)量?jī)x器。清華大學(xué)電子工程系研究的語(yǔ)音識(shí)別系統(tǒng)以 1183 個(gè)單音節(jié)詞作為識(shí)別單元,它采用的是分段概率的模型,對(duì)詞的組成音節(jié)進(jìn)行仔細(xì)的分解,最后用搜索匹配算法來(lái)計(jì)算整體的識(shí)別率,使二字詞和三字詞的識(shí)別率達(dá)到 %。90 年代以前,語(yǔ)音識(shí)別系統(tǒng)主要是在實(shí)驗(yàn)室中進(jìn)行的。這使得孤立詞發(fā)音和孤立詞發(fā)音的識(shí)別技術(shù)成為可行的生活實(shí)用技術(shù)。起初,語(yǔ)音識(shí)別是通過(guò)人工分析語(yǔ)譜圖而進(jìn)行識(shí)別的。該系統(tǒng)也可稱(chēng)為家庭幼兒輔導(dǎo)老師及中小學(xué)教育不可或缺的輔助工具。(3)語(yǔ)音識(shí)別技術(shù)在扶殘扶弱方面的應(yīng)用為了幫助殘疾人士由于肢體功能方面的缺陷而引起的動(dòng)作不便,運(yùn)用語(yǔ)音識(shí)別系統(tǒng),則能對(duì)其給予一定的方便。它與自動(dòng)撥號(hào),健康和福利,生命支持系統(tǒng)和其他實(shí)際應(yīng)用相互銜接,直接控制商業(yè),制造業(yè),金融業(yè),運(yùn)輸業(yè),旅游業(yè),公安消防等工業(yè)生產(chǎn)部門(mén)和應(yīng)用領(lǐng)域,該技術(shù)的日益成熟有望成為下一代的操作系統(tǒng)和應(yīng)用程序的用戶(hù)界面。 Followed, this paper realizes automatically speech signal acquisition , and uses multithread of LABVIEW to calculate the feature parameters in aparallel way and short 1/4 of the calculating time which improve the efficiency of the feature functional testing。在這里我們利用MATLAB 中的小波工具包,實(shí)現(xiàn)了利用小波的方法對(duì)含有雜聲的語(yǔ)音信號(hào)進(jìn)行噪聲消除的工作。利用筆記本自帶的聲卡進(jìn)行語(yǔ)音信號(hào)的采集,接著對(duì)語(yǔ)音信號(hào)進(jìn)行數(shù)字化的轉(zhuǎn)換后再做進(jìn)一步的處理。關(guān)鍵詞 :語(yǔ)音識(shí)別;LABVIEW;聲卡;小波消噪;特征提取The speech recognition algorithm based on virtual instrumentAbstractWith the rapid development of technology, intelligent human and machine interfaces are used in appliances in people39。 本文的應(yīng)用背景和研究意義語(yǔ)音識(shí)別技術(shù)是現(xiàn)代高科技信息領(lǐng)域的研究熱點(diǎn),對(duì)于信號(hào)處理的研究,從理論的產(chǎn)生到專(zhuān)業(yè)產(chǎn)品的系統(tǒng)開(kāi)發(fā)應(yīng)用已經(jīng)經(jīng)歷了數(shù)十年,終于獲得了極大的突破。另一個(gè)例子是,利用語(yǔ)音識(shí)別的自動(dòng)訂票系統(tǒng),只要站在預(yù)訂系統(tǒng)前,說(shuō)出搭乘的時(shí)間和地點(diǎn),系統(tǒng)便會(huì)自動(dòng)顯示出符合要求的車(chē)費(fèi)、班次和車(chē)票銷(xiāo)售的記錄,根據(jù)實(shí)際情況,用戶(hù)可以做出最佳的選擇。當(dāng)車(chē)在開(kāi)啟時(shí),只要告訴它繼續(xù)行駛和目前的位置,就能夠順利地行使到目的地。再有,在司法刑偵檢測(cè)時(shí),犯罪嫌疑人的聲音也可以作為破案的重要線(xiàn)索,因?yàn)槊總€(gè)人說(shuō)話(huà)的聲音是不一樣的,語(yǔ)音數(shù)據(jù)將會(huì)和 DNA測(cè)試結(jié)果一起作為證據(jù),這種方法已經(jīng)得到了法律上的認(rèn)可。這期間出現(xiàn)了語(yǔ)音識(shí)別的幾個(gè)重要的思想,前蘇聯(lián)研究人員 Vintsyuk 提出使用動(dòng)態(tài)規(guī)劃來(lái)對(duì)齊兩個(gè)長(zhǎng)度不同的語(yǔ)音音段。識(shí)別的方法也逐漸從最初的模板匹配方法轉(zhuǎn)變到了統(tǒng)計(jì)模型方法,其中典型的統(tǒng)計(jì)方法代表是隱馬爾可夫模型,由于這種方法在結(jié)構(gòu)、參數(shù)和訓(xùn)練方法的選擇上有很大的靈活性,逐漸成為了語(yǔ)音識(shí)別技術(shù)的主流。國(guó)內(nèi)的語(yǔ)音識(shí)別研究開(kāi)始于 50 年代后期,中科院聲學(xué)所利用頻譜分析的方法成功研究出漢語(yǔ)的10個(gè)元音的語(yǔ)音識(shí)別, 70 年代后期,研究出了基于模板匹配的孤立詞語(yǔ)音識(shí)別系統(tǒng)。虛擬儀器(Virtual Instrument,簡(jiǎn)稱(chēng)VI)是現(xiàn)代計(jì)算機(jī)技術(shù)和儀器技術(shù)相結(jié)合的產(chǎn)物,是目前計(jì)算機(jī)輔助測(cè)試(CAT)領(lǐng)域的一項(xiàng)重要技術(shù)。(5)虛擬儀器開(kāi)放、靈活,可與計(jì)算機(jī)同步發(fā)展,可與網(wǎng)絡(luò)及其它周邊設(shè)備互聯(lián)。(6)提供大量與外部代碼或軟件進(jìn)行連接的機(jī)制,諸如DLLs(動(dòng)態(tài)連接庫(kù))、DDE(共享庫(kù))、ActiveX 等。同時(shí)MATLAB為用戶(hù)提供了豐富而實(shí)用的資源,它涵蓋了許多門(mén)類(lèi)的科學(xué)研究,如控制、通信、數(shù)學(xué)、經(jīng)濟(jì)、地理、數(shù)字信號(hào)處理和數(shù)字圖像處理等。設(shè)計(jì)M腳本文件就是用來(lái)解決這個(gè)矛盾的。點(diǎn)擊MATLAB桌面上的“”圖標(biāo),或選中菜單項(xiàng)[File:Open],可引出Windows平臺(tái)上標(biāo)準(zhǔn)的“Open”文件選擇對(duì)話(huà)框,通過(guò)常規(guī)的工具條操作,找到待打開(kāi)文件所在文件夾,點(diǎn)選那個(gè)文件名后,再點(diǎn)擊[打開(kāi)]鍵,即可引出相應(yīng)文件夾的M文件編輯器。具體方法是:選中菜單項(xiàng)[File:Preferences],引出一個(gè)參數(shù)設(shè)置對(duì)話(huà)框;展開(kāi)彈出對(duì)話(huà)框左欄中的“Editor/Debugger”項(xiàng),出現(xiàn)以下4個(gè)子項(xiàng):“Font amp。2.腳本文件第一行中的注釋文件名一般與實(shí)際存放在目錄上的文件名相同。本文共分為六個(gè)章節(jié),具體結(jié)構(gòu)如下:第一章介紹了語(yǔ)音識(shí)別的學(xué)科背景與研究的發(fā)展歷程,歷史意義,本設(shè)計(jì)的軟件平臺(tái)以及本文選題的依據(jù)和內(nèi)容安排。本章主要介紹語(yǔ)音識(shí)別基本技術(shù)。對(duì)于識(shí)別參數(shù)的訓(xùn)練,根據(jù)識(shí)別方法的不同運(yùn)用不同的訓(xùn)練方案,參考模板的特征參數(shù)一般是離線(xiàn)計(jì)算并存儲(chǔ)起來(lái)的,為此,在系統(tǒng)使用前事先要錄入一些已知信號(hào),通過(guò)提取它們的特征參數(shù)矢量序列,根據(jù)不同的識(shí)別方法進(jìn)行訓(xùn)練,作為參考模式,這個(gè)過(guò)程就叫做訓(xùn)練過(guò)程。 本文采用筆記本電腦自帶的聲卡進(jìn)行語(yǔ)音信號(hào)的采集,此次設(shè)計(jì)采集的語(yǔ)音信號(hào)以8KHz,16位,單通道格式錄入存儲(chǔ),得到需要的*.wav文件。語(yǔ)音信號(hào)的聲波通過(guò)麥克輸入到聲卡后就可直接獲得離散的數(shù)字信號(hào),該信號(hào)是經(jīng)過(guò)防混疊濾波、A/D變換、量化處理的。 (22)預(yù)加重的物理意義是,通過(guò)數(shù)字濾波增加一個(gè)零點(diǎn),信號(hào)的頻譜變得平坦而且各共振峰幅度接近,即高頻部分得到提升,語(yǔ)音中聲道部分得到強(qiáng)化,所提取的特征更能符合原聲道模型,有利于語(yǔ)音信號(hào)的識(shí)別。窗函數(shù)為 w( m ),一般形式為: (23)其中 N 為窗長(zhǎng),即每幀語(yǔ)音信號(hào)所含有的樣本數(shù)量,ψ[]是在原信號(hào)上的某種變換,線(xiàn)性或者非線(xiàn)性,當(dāng)時(shí), 為短時(shí)平均能量;當(dāng)時(shí),為短時(shí)平均過(guò)零率。 漢明窗時(shí)域波形與頻譜圖 端點(diǎn)檢測(cè)語(yǔ)音端點(diǎn)檢測(cè)是從一段語(yǔ)音信號(hào)中計(jì)算真正語(yǔ)音信號(hào)的起始點(diǎn)和終止點(diǎn),來(lái)獲得真正語(yǔ)音信號(hào)的方法。如果當(dāng)前狀態(tài)處于語(yǔ)音段時(shí),兩個(gè)參數(shù)的數(shù)值也降低到低門(mén)限以下,且最短時(shí)間門(mén)限也大于總的計(jì)時(shí)長(zhǎng)度,那么就認(rèn)為這是一段噪音,繼續(xù)掃描以后的語(yǔ)音數(shù)據(jù)。離散時(shí)間情況下,如果相鄰的抽樣具有不同的代數(shù)符號(hào),也就是相鄰抽樣的代數(shù)符號(hào)不同就稱(chēng)為發(fā)生了過(guò)零。 語(yǔ)音信號(hào)的特征參數(shù)提取語(yǔ)音信號(hào)的特征參數(shù)選取是說(shuō)話(huà)人識(shí)別系統(tǒng)中的一個(gè)重要部分,不同的語(yǔ)音特征參數(shù)對(duì)說(shuō)話(huà)人識(shí)別系統(tǒng)性能有不同的影響。通常將這種組合參數(shù)用于說(shuō)話(huà)人識(shí)別系統(tǒng)中,能得到較好的識(shí)別效果。因?yàn)槿说穆?tīng)覺(jué)系統(tǒng)是一個(gè)很好的語(yǔ)音識(shí)別系統(tǒng),對(duì)不同頻率的聲音有較好的分辨能力,而 MFCC 又是基于人耳聽(tīng)覺(jué)特性的參數(shù),能夠充分利用人耳這種感知特性并結(jié)合語(yǔ)音產(chǎn)生機(jī)理,在說(shuō)話(huà)人識(shí)別系統(tǒng)中得到了廣泛的應(yīng)用。圖 說(shuō)話(huà)人的美爾特征參數(shù)提取部分截圖說(shuō)話(huà)人的原始語(yǔ)音信號(hào)經(jīng)過(guò)上述兩大部分的相關(guān)處理后,得到了包含說(shuō)話(huà)人語(yǔ)音特征的多個(gè)特征向量,這些向量之間有一定的相關(guān)性,能更好地表征說(shuō)話(huà)人的語(yǔ)音特性,為說(shuō)話(huà)人識(shí)別系統(tǒng)的建立奠定了基礎(chǔ)。所謂端點(diǎn)檢測(cè)就是在語(yǔ)音信號(hào)中檢測(cè)出的各種段落(如音素、音節(jié)、詞素)的起點(diǎn)和終點(diǎn)的位置,從語(yǔ)音信號(hào)中排除無(wú)聲段。動(dòng)態(tài)時(shí)間規(guī)整(Dynamic Time Warping)是語(yǔ)音識(shí)別中較為經(jīng)典的一種算法,又由于DTW算法其本身既簡(jiǎn)單又有效,因此在許多特定的場(chǎng)合下得到了廣泛的應(yīng)用。為了簡(jiǎn)單和便于處理,通常適用歐氏距離(歐基里德距離)或其變形來(lái)進(jìn)行度量。在該模型中,馬爾可夫鏈中的一個(gè)狀態(tài)轉(zhuǎn)移到另一個(gè)狀態(tài)與否取決于該狀態(tài)的統(tǒng)計(jì)特性(或狀態(tài)轉(zhuǎn)移概率),而某一狀態(tài)產(chǎn)生的觀察值也取決于該狀態(tài)生成語(yǔ)音觀察值的概率(狀態(tài)生成概率)。在基于 GMM 的說(shuō)話(huà)人識(shí)別系統(tǒng)中,訓(xùn)練階段首先用高斯混合模型為系統(tǒng)中的每個(gè)說(shuō)話(huà)人建立概率模型;在識(shí)別階段,利用系統(tǒng)中所有人的 GMM 模型計(jì)算待識(shí)別矢量積的對(duì)數(shù)似然函數(shù),根據(jù)最大似然準(zhǔn)則做出判決。設(shè)有N個(gè)K維特征矢量(X在K維歐幾里德空間中),其中第 i 個(gè)矢量可以記為: (31)它可以被看作是語(yǔ)音信號(hào)中某幀參數(shù)組成的矢量。FSVQ和LVQ2技術(shù)在孤立詞和連續(xù)語(yǔ)音的漢語(yǔ)語(yǔ)音識(shí)別中也得到應(yīng)用,但沒(méi)有DTW技術(shù)和HMM技術(shù)普遍。把語(yǔ)音信號(hào)分成按時(shí)間離散的語(yǔ)音段,每小段對(duì)應(yīng)一個(gè)或幾個(gè)語(yǔ)音基元的聲學(xué)特性,然后再根據(jù)相應(yīng)的聲學(xué)特性對(duì)每個(gè)小分段的語(yǔ)音與給出的語(yǔ)音進(jìn)行比對(duì),按照相近的做標(biāo)號(hào)。但是,它的訓(xùn)練和識(shí)別時(shí)間太長(zhǎng),而且ANN對(duì)語(yǔ)音信號(hào)的時(shí)間動(dòng)態(tài)特性不能進(jìn)行很好的描述,由于這些缺點(diǎn),仍然處于實(shí)驗(yàn)探索的階段。下面將具體介紹該系統(tǒng)的實(shí)現(xiàn)過(guò)程并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析。: 非特定人連續(xù)語(yǔ)音識(shí)別系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn) 語(yǔ)音信號(hào)的實(shí)時(shí)采集與小波消噪處理 對(duì)原始語(yǔ)音信號(hào)進(jìn)行實(shí)時(shí)采集以及消噪處理,與此同