【正文】
( 24) 漢明窗: ? ?????? ????????? ???o th e r sNnN mmw,010,12c o ? ( 25) 漢寧窗: ? ? ? ?????? ????????? ???o th e r sNnN mmw,010,12c o ? ( 26) 17 其中 N 為窗長(zhǎng)。為了保證特征矢量參數(shù)變換的平滑性,分幀時(shí)使幀與幀之間有部分樣本重疊,這樣就可以用平穩(wěn)過(guò)程的分析方法來(lái)處理非平穩(wěn)的語(yǔ)音信號(hào)了。其時(shí)域表達(dá)式為: s? ? ? ? ? ? ?19 3 7 ??? nsnsn ( 22) 預(yù)加重的物理意義是,通過(guò)數(shù)字濾波增加一個(gè)零點(diǎn),信號(hào)的頻譜變得平坦而且各共振峰幅度接近,即高頻部分得到提升,語(yǔ)音中聲道部分得到強(qiáng)化,所提取的特征更能符合原聲道模型,有利于語(yǔ)音信號(hào)的識(shí)別。 語(yǔ)音信號(hào)預(yù)處理 語(yǔ)音信號(hào)的預(yù)處理過(guò)程一般包括預(yù)加重處理、分幀處理、加窗處理、端點(diǎn)檢測(cè)幾個(gè)部分,如圖 描述了整個(gè)預(yù)處理過(guò)程。一般模數(shù)轉(zhuǎn)換器和防混疊濾波通常做在一個(gè)集成塊內(nèi),就目前來(lái)說(shuō),從市面上購(gòu)買(mǎi)到的普通聲卡在這方面做的都還可以,對(duì)語(yǔ)音信號(hào)進(jìn)行數(shù)字化的質(zhì)量還是有一定保證的。另一方面抑制 50Hz的電源產(chǎn)生的工頻干擾。 本文采用筆記本電腦自帶的聲卡進(jìn)行語(yǔ)音信號(hào)的采集,此次設(shè)計(jì)采集的語(yǔ)音信號(hào)以 8KHz, 16 位,單通道格式錄入存儲(chǔ),得到需要的 *.wav 文件。下面根據(jù)語(yǔ)音識(shí)別的過(guò)程,分別介紹各個(gè)過(guò)程的關(guān)鍵技術(shù)和基本理論,預(yù)處理和語(yǔ)音自動(dòng)分割算法以及三種語(yǔ)音特征參數(shù)提取技術(shù)。由于語(yǔ)音信號(hào)具有短時(shí)平穩(wěn)的特性,所以語(yǔ)音信號(hào)的特征參數(shù)都是以一段短時(shí)語(yǔ)音信號(hào)為單位的,一般短時(shí)時(shí)間段取值為 20ms~ 30ms 之間。它的基本結(jié)構(gòu)如圖 所示,主要分為信號(hào)預(yù)處理、特征參數(shù)提取、模 式匹配和參考模板庫(kù)幾個(gè)單元。 11 第二章 語(yǔ)音識(shí)別基本技術(shù) 語(yǔ)音識(shí)別基本技術(shù)包括語(yǔ)音信號(hào)的預(yù)處理、分幀、加窗和端點(diǎn)檢測(cè)等時(shí)域和頻域分析。 第三章 介紹了語(yǔ)音識(shí)別的幾種算法,并對(duì)這幾種算法作進(jìn)一步的研究和改進(jìn),選擇一種自認(rèn)為比較合適的算法用于本次設(shè)計(jì)。 結(jié)構(gòu) 本課題研究的主要內(nèi)容和方法如下: 根據(jù)識(shí)別 的需求,分析語(yǔ)音識(shí)別技術(shù)的重要性,針對(duì)語(yǔ)音識(shí)別系統(tǒng)的實(shí)用性提出本文研究的目標(biāo)就是設(shè)計(jì)實(shí)現(xiàn)一個(gè)基于模板匹配識(shí)別算法的語(yǔ)音識(shí)別系統(tǒng)。事實(shí)上, *.m 的存放和調(diào)用與注釋行中的名稱(chēng)并無(wú)關(guān)聯(lián)。通過(guò)該子項(xiàng)中的“ Save options”欄,可以設(shè)置自動(dòng)備份的時(shí)間間隔。 “ Display”子項(xiàng):如果勾選“ Enable data tips in edit mode” ,那么當(dāng)光標(biāo)移動(dòng)到該編輯器文件中的某個(gè)變量名時(shí),就會(huì)出現(xiàn)一個(gè)現(xiàn)場(chǎng)菜單,但顯示出該變量?jī)?nèi)容的前提是,改變量已存在于 MATLAB 的工作空間。 “ Fonts”字體設(shè)置子項(xiàng):如果不點(diǎn)選“ Use editor font”,那么硬拷貝中的字體可能與編輯器顯示的字體不同,一般情況下硬拷貝中的字體較大。 2) 編輯器使用中的注意事項(xiàng) 9 ( 1) 編輯器的打印效果設(shè)置。 M 編輯器有多種功能:不僅可以編寫(xiě) M文件,而且可以對(duì) M 文件進(jìn)行交互式調(diào)試;此外, M文件編輯器不僅可以處理帶 .m擴(kuò)展名的文件,而且可以閱讀和編輯其他 ASCII 碼的文件。 ( 2) MATLAB 在運(yùn)行這個(gè)腳本時(shí),簡(jiǎn)單地從文件中讀取那一條條指令,然后送到MATLAB 中去運(yùn)行。 對(duì)于比較簡(jiǎn)單的和“一次性”的問(wèn)題,通過(guò)在直欞窗中直接輸入一組指令求解是比較簡(jiǎn)便、快捷的。用 MATLAB 編程時(shí),就如同在現(xiàn)實(shí)中的便簽上列公式和求解一樣。它擁有功能全面的函數(shù)庫(kù),為了讓用戶(hù)脫離了復(fù)雜繁瑣的程序計(jì)算過(guò)程,把大量的函數(shù)封裝起來(lái),大大提高了 工作效率。 ( 2) 儀器流程和算法的設(shè)計(jì) 儀器流程和算法的設(shè)計(jì)是根據(jù)儀器功能的要求,利用虛擬儀器開(kāi)發(fā)平臺(tái)所提供的子模板,確定程序的流程圖、所實(shí)現(xiàn)的 技術(shù)方法和主要的處理算法。 ( 4) 32bit 的編譯器編譯生成 32bit 的編譯程序,保證數(shù)據(jù)采集、測(cè)試和測(cè)量方案的高速執(zhí)行。 LABVIEW( Laboratory Virtual Instrument Engineering Workbench,實(shí)驗(yàn)室虛擬儀器工程平臺(tái))是美國(guó) NI 公司 (National Instrument Company)推出的一種基于 G語(yǔ)言( Graphics Language,圖形化編程語(yǔ)言)的虛擬儀器軟件開(kāi)發(fā)工具。 ( 3)儀器性能的改進(jìn)和功能擴(kuò)展只需進(jìn)行相關(guān)軟件的設(shè)計(jì)更新,而不需購(gòu)買(mǎi)新的儀器。 所謂虛擬 儀器,就是以通用計(jì)算機(jī)為核心,借助這個(gè)硬件平臺(tái),由用戶(hù)自己設(shè)計(jì)定義,其具有虛擬面板并且測(cè)試功能由測(cè)試軟件實(shí)現(xiàn)的一種計(jì)算機(jī)儀器系統(tǒng)。鑒于中國(guó)龐大的市場(chǎng),國(guó)外也非常重視漢語(yǔ)語(yǔ)音識(shí)別的研究。越來(lái)越多的大學(xué)和科研院所紛紛作出響應(yīng),加大投資,加 入到語(yǔ)音識(shí)別的研究行列,大大推動(dòng)了漢語(yǔ)語(yǔ)音識(shí)別技術(shù)的發(fā)展。T、 NTT) 都為語(yǔ)音識(shí)別系統(tǒng)的實(shí)用化研究開(kāi)發(fā)投入巨大資金和人力,研制出大詞匯量語(yǔ)音識(shí)別系統(tǒng) [1,4,8]。隨著 HMM模型和人工神經(jīng)網(wǎng)絡(luò)等技術(shù)在語(yǔ)音識(shí)別中的廣泛應(yīng)用,科學(xué)家們已經(jīng)在實(shí)驗(yàn)室突破了單個(gè)詞匯量的識(shí)別,并且對(duì)大詞匯量、連續(xù)語(yǔ)音和非特定人的語(yǔ)音識(shí)別技術(shù)也取得了顯著 進(jìn)展。這些研究為后來(lái)非特定人模式聚類(lèi)技術(shù)的研究奠定了基礎(chǔ),現(xiàn)在已經(jīng)得到了廣泛的應(yīng)用。 4 70 年代初, 日本學(xué)者板倉(cāng) (Itakura)提出了動(dòng)態(tài)時(shí)間規(guī)整 (DTW)技術(shù) [4],使語(yǔ)音識(shí)別技術(shù)研究在匹配算法方面開(kāi)辟了新思路;中期的線(xiàn)性預(yù)測(cè)技術(shù) [5] (Linear Prediction, LP)被應(yīng)用于語(yǔ)音信號(hào)處理,然后隱馬爾可夫模型法 [6] (Hidden Markov Model, HMM)也獲得初步的成果,該技術(shù)在語(yǔ)音信號(hào)處理的多個(gè)方面獲 得了巨大成果; 70 年代末,Linda、 Buzo、 Gray 和 Markel 等人首次解決了矢量量化 [7, 11] (Vector Quantization, VQ)碼書(shū)生成的方法,并首先將矢量量化技術(shù)用于語(yǔ)音編碼并且獲得了成功。 60 年代初期,語(yǔ)音識(shí)別系統(tǒng)的構(gòu)成基本上是用硬件實(shí)現(xiàn)的,通過(guò)濾波器組提取頻譜特征,用計(jì)算機(jī)進(jìn)行匹配、計(jì)算和判決。 語(yǔ)音識(shí)別發(fā)展歷史及現(xiàn)狀 語(yǔ)音識(shí)別技術(shù)的研究歷史可以追溯到上個(gè)世紀(jì)三十年代初, 1947 年,貝爾 (Bell)實(shí)驗(yàn)室發(fā)明了語(yǔ)譜圖分析儀,意味著語(yǔ)音識(shí)別技術(shù)研究的萌芽。 ( 7)語(yǔ)音識(shí)別技術(shù)在軍事方面, 刑事調(diào)查方面的應(yīng)用 由于每個(gè)人的發(fā)音都有其獨(dú)特的特點(diǎn),就像人的指紋一樣,具有獨(dú)特性和唯一性,是非常有特點(diǎn)的識(shí)別標(biāo)志,科學(xué)上可以運(yùn)用它來(lái)判斷一個(gè)特定的人。 ( 5)語(yǔ)音識(shí)別技術(shù)在輔助教學(xué)方面的應(yīng)用 在教育領(lǐng)域,已經(jīng)運(yùn)用了多媒體語(yǔ)音識(shí)別應(yīng)用類(lèi)雙向教 學(xué)軟件,客戶(hù)包含清華大學(xué)復(fù)旦大學(xué)等在內(nèi)的多個(gè)高等院校,此語(yǔ)音識(shí)別教學(xué)系統(tǒng)用來(lái)幫助學(xué)生在語(yǔ)言學(xué)習(xí)的過(guò)程中,引導(dǎo)學(xué)生正確發(fā)音,及時(shí)的糾正外語(yǔ)口語(yǔ)的發(fā)音。 ( 4)語(yǔ)音識(shí)別技術(shù)對(duì)各生產(chǎn)領(lǐng)域的應(yīng)用 汽車(chē)工業(yè) 帶來(lái)的經(jīng)濟(jì)收入對(duì)一個(gè)國(guó)家來(lái)說(shuō)是至關(guān)重要的,最新的語(yǔ)音識(shí)別技術(shù)已經(jīng)應(yīng)用到汽車(chē)領(lǐng)域,并且仍在不斷開(kāi)發(fā)和添加新的功能。 ( 2)語(yǔ)音識(shí)別技術(shù)在工業(yè)生產(chǎn)上的應(yīng)用 在一些對(duì)人身有極大傷害(如地下,水深,輻射,高溫環(huán)境下)、環(huán)境比較惡劣的地方,還有無(wú)人時(shí)難以實(shí)現(xiàn)工作的地方都可以運(yùn)用相應(yīng)的語(yǔ)音命令加以控制,通過(guò)遠(yuǎn)程,使用專(zhuān)門(mén)的語(yǔ)言,也就是語(yǔ)音控制系統(tǒng), 控制設(shè)備去完成工作,這就能用各種指令和命令,對(duì)作業(yè)現(xiàn)場(chǎng)進(jìn)行實(shí)時(shí)控制和處理。只要游客對(duì)該系統(tǒng)說(shuō)話(huà),標(biāo)示清楚他們當(dāng)前的所在位置 2 和感興趣的風(fēng)景名稱(chēng),系統(tǒng)會(huì)自動(dòng)顯示出最佳路線(xiàn),實(shí)物圖片和旅游計(jì)劃等人性化的信息。就目前來(lái)說(shuō),該技術(shù)從實(shí)驗(yàn)室的實(shí)驗(yàn)性設(shè)計(jì)開(kāi)發(fā),逐漸進(jìn)入到工廠(chǎng)的應(yīng)用,估計(jì)在不遠(yuǎn)的將來(lái),語(yǔ)音識(shí)別技術(shù)將遍布通訊行業(yè),家電行業(yè),醫(yī)療保健行業(yè),家庭服務(wù)行業(yè),汽車(chē)電子行業(yè),消費(fèi)性電子產(chǎn)品等各大領(lǐng)域。人與機(jī)器的語(yǔ)言交流總體可分為三部分,( 1)讓機(jī)器聽(tīng)懂人的語(yǔ)言( 2)進(jìn)行語(yǔ)言組織( 3)文字轉(zhuǎn)化為聲音輸出。t meet some user demand for various kinds of numerical calculation and analysis. And MATLAB is especially good at numerical analysis and image processing. Here we use of MATLAB wavelet toolkit, realized by using wavelet method to contain the short speech signal noise elimination of work. Due to the small wave has multiscale , multiresolution characteristics, application of wavelet denoising signals when processing of wavelet analysis is a kind of important applications. This paper introduces the basic principle of speech recognition technology, and then analyses some feature parameters such as Linear Prediction Coefficients, Linear Prediction Cepstral Coefficients and Mel Frequency Cepstral Coefficients and chooses the MFCC used in this system。其次系統(tǒng)能夠?qū)崿F(xiàn)語(yǔ)音信號(hào)的自動(dòng)采集;然后針對(duì)語(yǔ)音特征參數(shù)提取,結(jié)合 LABVIEW 的編程特點(diǎn),利用多線(xiàn)程對(duì)特征參數(shù)進(jìn)行提取并運(yùn)算,將計(jì)算時(shí)間縮短了 1/4。而 MATLAB 尤其擅長(zhǎng)數(shù)值分析和圖像處理。 ****大學(xué) 本科生畢業(yè)設(shè)計(jì)說(shuō)明書(shū)(畢業(yè)論文) 題 目:基于虛擬儀器的語(yǔ)音識(shí)別 算法研究 學(xué)生姓名: ** 學(xué) 號(hào): ******* 專(zhuān) 業(yè): ******* 班 級(jí): ******* 指導(dǎo)教師: ***** I 基于虛擬儀器的語(yǔ)音識(shí)別算法研究 摘 要 隨著信息技術(shù)的快速發(fā)展,智能人機(jī)交互通信逐漸滲透到人們的日常生活之中,在許多電器的控制面板中,都加入了利用聲音信息進(jìn)行的人機(jī)交互功能,其中多數(shù)都具備語(yǔ)音提示的功能,這就使人機(jī)交互的效率得到了更大的提高。 利用 MATLAB 中的小波工具包對(duì)采集到的語(yǔ)音信號(hào)進(jìn)行小波消噪處理,并借助 LABVIEW 中提供的 Script Node 子 VI 連接主流算法即仿真分析軟件 MATLAB ,充分發(fā)揮 MATLAB 強(qiáng)大的數(shù)據(jù)處理能力,雖然 LABVIEW 中提供了一些信息處理功能函數(shù),但其畢竟功能有限,仍然無(wú)法滿(mǎn)足部分用戶(hù)對(duì)數(shù)值進(jìn)行各種各樣的計(jì)算和分析的需求。 文中首先 介紹了語(yǔ)音識(shí)別技術(shù)的基本原理,分析了經(jīng)常使用的線(xiàn)性預(yù)測(cè)倒譜系數(shù)和美爾頻率倒譜系數(shù),并選定美爾頻率倒譜系數(shù)作為本系統(tǒng)中采用的語(yǔ)音特征參數(shù) 。s normal life. Currently, a lot of appliances have the function that can give warning messages to the user in sound which improves the efficiency of human and machine interaction. This design is a use of virtual instrument and do speech recognition system design. Will the virtual instrument technology used in speech recognition system, realized the instrument of the software, and reflect the software is instrument thought. Use notes itself with sound card for voice signal collection, the speech signal digital conversion and further processing. MATLAB wavelet in the toolkit of collected a voice signal wavelet denoising treatment, and with the help of LABVIEW provided in the Script Node sub. vi