【正文】
平均過零率。 原始信號頻譜與預加重后數(shù)字5的語音幅頻特性 分幀、加窗語音信號是一種典型的非平穩(wěn)信號,但是由于發(fā)聲器官的物理結(jié)構變化速度遠遠小于語音信號的變化,因此通常我們將語音信號看作是短時平穩(wěn)的,一般認為20ms ~30ms 內(nèi),聲道物理特征基本保持不變,所以對連續(xù)的語音信號進行分幀然后按幀處理。 (22)預加重的物理意義是,通過數(shù)字濾波增加一個零點,信號的頻譜變得平坦而且各共振峰幅度接近,即高頻部分得到提升,語音中聲道部分得到強化,所提取的特征更能符合原聲道模型,有利于語音信號的識別。 語音信號預處理過程示意圖 預加重處理語音信號的平均功率受聲門激勵和口鼻腔輻射的影響,大約在 800Hz 以上的高頻段,平均功率以 6dB/倍頻程下降,所以語音信號高頻部分頻譜比實際語音頻譜要低,因此造成高頻部分的頻譜比低頻部分頻譜更難計算。語音信號的聲波通過麥克輸入到聲卡后就可直接獲得離散的數(shù)字信號,該信號是經(jīng)過防混疊濾波、A/D變換、量化處理的。在本設計中由筆記本自帶的麥克風采集語音信號,接著將采集的語音信號從聲音波形轉(zhuǎn)換成電信號,然后借助模數(shù)轉(zhuǎn)換器選擇合適的采樣率對模擬的聲音信號進行采樣,最后再以一定的量化精度對其進行量化,得到計算機能夠處理的數(shù)字語音信號。 本文采用筆記本電腦自帶的聲卡進行語音信號的采集,此次設計采集的語音信號以8KHz,16位,單通道格式錄入存儲,得到需要的*.wav文件。對于識別參數(shù)的訓練,根據(jù)識別方法的不同運用不同的訓練方案,參考模板的特征參數(shù)一般是離線計算并存儲起來的,為此,在系統(tǒng)使用前事先要錄入一些已知信號,通過提取它們的特征參數(shù)矢量序列,根據(jù)不同的識別方法進行訓練,作為參考模式,這個過程就叫做訓練過程。語音信號是短時平穩(wěn)隨機信號,產(chǎn)生機理非常的復雜、內(nèi)容較豐富并且有很大的不確定性,這使得語音識別比一般模式識別要困難很多。本章主要介紹語音識別基本技術。第五章簡單介紹了整個設計所得出的結(jié)論。本文共分為六個章節(jié),具體結(jié)構如下:第一章介紹了語音識別的學科背景與研究的發(fā)展歷程,歷史意義,本設計的軟件平臺以及本文選題的依據(jù)和內(nèi)容安排。4.在M文件編輯調(diào)試器中,可以用漢字注釋,也可獲得正確顯示。2.腳本文件第一行中的注釋文件名一般與實際存放在目錄上的文件名相同。 indenting”子項:對應欄用來設置快捷鍵習慣和文件段落縮進的習慣。具體方法是:選中菜單項[File:Preferences],引出一個參數(shù)設置對話框;展開彈出對話框左欄中的“Editor/Debugger”項,出現(xiàn)以下4個子項:“Font amp。“Layout”版面布局子項:選擇“Print header”,則打印的硬拷貝將會出現(xiàn)頁眉,顯示文件所在的全部路徑、文件建立日期和頁數(shù)。點擊MATLAB桌面上的“”圖標,或選中菜單項[File:Open],可引出Windows平臺上標準的“Open”文件選擇對話框,通過常規(guī)的工具條操作,找到待打開文件所在文件夾,點選那個文件名后,再點擊[打開]鍵,即可引出相應文件夾的M文件編輯器。(4)文件的擴展名是“.m”。設計M腳本文件就是用來解決這個矛盾的。(3)簡單易學 與FORTRAN和C語言等高級語言相比較,MATLAB語法規(guī)則簡單,語言的思維特點更符合人們在實際應用中的習慣。同時MATLAB為用戶提供了豐富而實用的資源,它涵蓋了許多門類的科學研究,如控制、通信、數(shù)學、經(jīng)濟、地理、數(shù)字信號處理和數(shù)字圖像處理等。用LABVIEW設計的虛擬儀器系統(tǒng)可脫離LABVIEW開發(fā)環(huán)境,最終用戶看見的是和實際的硬件儀器相似的操作面板。(6)提供大量與外部代碼或軟件進行連接的機制,諸如DLLs(動態(tài)連接庫)、DDE(共享庫)、ActiveX 等。(2)提供了豐富的數(shù)據(jù)采集、分析及存儲的庫函數(shù)。(5)虛擬儀器開放、靈活,可與計算機同步發(fā)展,可與網(wǎng)絡及其它周邊設備互聯(lián)。 虛擬儀器的特點可歸納為: (1)在通用硬件平臺確定后,由軟件取代傳統(tǒng)儀器中的硬件來完成儀器的功能。虛擬儀器(Virtual Instrument,簡稱VI)是現(xiàn)代計算機技術和儀器技術相結(jié)合的產(chǎn)物,是目前計算機輔助測試(CAT)領域的一項重要技術。北京中科院自動化系研究所的模式識別實驗室將漢語的音節(jié)切分成韻母和聲母,并結(jié)合聲調(diào)信息,然后進行識別。國內(nèi)的語音識別研究開始于 50 年代后期,中科院聲學所利用頻譜分析的方法成功研究出漢語的10個元音的語音識別, 70 年代后期,研究出了基于模板匹配的孤立詞語音識別系統(tǒng)。90 年代后,隨著 IT 技術的迅速發(fā)展,多媒體時代的來臨,迫切需要語音識別系統(tǒng)走出實驗室,走向人們的日常生活乃至工廠。識別的方法也逐漸從最初的模板匹配方法轉(zhuǎn)變到了統(tǒng)計模型方法,其中典型的統(tǒng)計方法代表是隱馬爾可夫模型,由于這種方法在結(jié)構、參數(shù)和訓練方法的選擇上有很大的靈活性,逐漸成為了語音識別技術的主流。另外,70 年代的里程碑是在 IBM 進行了一個長期持續(xù)的、頗有成效的大詞匯量連續(xù)語音識別研究的集體努力的成果。這期間出現(xiàn)了語音識別的幾個重要的思想,前蘇聯(lián)研究人員 Vintsyuk 提出使用動態(tài)規(guī)劃來對齊兩個長度不同的語音音段。50 年代初期,研究人員大部分致力于聲學—語音學的基本概念進行探索。再有,在司法刑偵檢測時,犯罪嫌疑人的聲音也可以作為破案的重要線索,因為每個人說話的聲音是不一樣的,語音數(shù)據(jù)將會和 DNA測試結(jié)果一起作為證據(jù),這種方法已經(jīng)得到了法律上的認可。(6)語言語音玩具在對孩子進行啟蒙教育的時候,你可以用帶有語音說話功能的娃娃與孩子交談,讓孩子操作服從語音命令的玩具,在孩子們幼小的心靈就播下科學的種子,讓這些玩具引導孩子們探索科技,發(fā)現(xiàn)科學的偉大力量。當車在開啟時,只要告訴它繼續(xù)行駛和目前的位置,就能夠順利地行使到目的地。例如:對于身體殘疾的人或盲人,能夠既準確又靈活地使用現(xiàn)代化設備是比較困難的,但是,如果有了語音控制系統(tǒng),便能為其提供一些很好的生活輔助設施,給他們帶來方便。另一個例子是,利用語音識別的自動訂票系統(tǒng),只要站在預訂系統(tǒng)前,說出搭乘的時間和地點,系統(tǒng)便會自動顯示出符合要求的車費、班次和車票銷售的記錄,根據(jù)實際情況,用戶可以做出最佳的選擇。以下介紹語音識別技術的幾大應用領域:(1)查詢語言的語音識別應用 語音識別可用于查詢航班時間表,電話號碼,巴士時間查詢,火車車次查詢,自動導游,天氣預報,股票行情系統(tǒng)等。 本文的應用背景和研究意義語音識別技術是現(xiàn)代高科技信息領域的研究熱點,對于信號處理的研究,從理論的產(chǎn)生到專業(yè)產(chǎn)品的系統(tǒng)開發(fā)應用已經(jīng)經(jīng)歷了數(shù)十年,終于獲得了極大的突破。 At last, this paper analyses the main requirements of this system, designs the hardware and software in detail and chooses the graphic programming language LABVIEW as the software development platform and then the use of different speech unique feature and pattern matching algorithm, realize voice signal to the final recognition.Keywords: Speech Recognition;Virtual instrument;Sound card;Wavelet Denoising and feature extractio目錄摘 要 IAbstract II目錄 IV第一章 緒論 1 本文的應用背景和研究意義 1 語音識別發(fā)展歷史及現(xiàn)狀 3 5 MATLAB語言 7 10第二章 語音識別基本技術 11 語音信號的采集 11 語音識別系統(tǒng)基本框架 11 語音信號的采集 12 語音信號的數(shù)字化 13 語音信號預處理 14 預加重處理 14 分幀、加窗 16 端點檢測 17 語音信號的特征參數(shù)提取 20 美爾頻率倒譜參數(shù)及提取方法 21 差分倒譜系數(shù)提取方法 22第三章 語音識別算法 24 模板匹配的方法 24 動態(tài)時間規(guī)整算法 DTW 24 隱馬爾可夫模型法 HMM 25 高斯混合模型法 GMM 26 矢量量化 VQ 26 混合型算法 28 基于聲學和語音學的方法 28 神經(jīng)網(wǎng)絡的方法 29第四章 非特定人連續(xù)語音識別系統(tǒng)的實現(xiàn) 30 概述 30 非特定人連續(xù)語音識別系統(tǒng)設計與實現(xiàn) 30 語音信號的實時采集與小波消噪處理 30 語音信號的預處理 33 語音信號的特征提取 36 模板的建立與讀取 38 建立模板 38 讀取模板 40第五章 結(jié) 論 41第六章 總結(jié)與展望 42 總結(jié) 42 展望 42參考文獻 43致 謝 46第一章 緒論語言是人類進行信息交流的最常用、最重要的手段,人類的語言和人的心理活動密切相關,是人們進行思想交流的重要方式,既高效又便捷。關鍵詞 :語音識別;LABVIEW;聲卡;小波消噪;特征提取The speech recognition algorithm based on virtual instrumentAbstractWith the rapid development of technology, intelligent human and machine interfaces are used in appliances in people39。由于小波具有多尺度,多分辨的特點,應用小波進行信號消噪處理是小波分析的一項重要應用。利用筆記本自帶的聲卡進行語音信號的采集,接著對語音信號進行數(shù)字化的轉(zhuǎn)換后再做進一步的處理。本次設計將虛擬儀器技術用于語音識別系統(tǒng),實現(xiàn)了儀器的軟件化,真正體現(xiàn)了“軟件就是儀器”的思想。在這里我們利用MATLAB 中的小波工具包,實現(xiàn)了利用小波的方法對含有雜聲的語音信號進行噪聲消除的工作。最后在分析語音識別系統(tǒng)主要需求的基礎上,對識別系統(tǒng)的軟硬件進行了設計,并對語音信號做噪聲消除以及預處理后進行特征提取,利用不同語音獨特的特征和模式匹配算法,實現(xiàn)說話人語音信號的最終識別。 Followed, this paper realizes automatically speech signal acquisition , and uses multithread of LABVIEW to calculate the feature parameters in aparallel way and short 1/4 of the calculating time which improve the efficiency of the feature functional testing。語音識別研究的就是如何讓機器聽懂人的語音內(nèi)容,同時辨別是否是主人所發(fā)出的指令,執(zhí)行相應的操作。它與自動撥號,健康和福利,生命支持系統(tǒng)和其他實際應用相互銜接,直接控制商業(yè),制造業(yè),金融業(yè),運輸業(yè),旅游業(yè),公安消防等工業(yè)生產(chǎn)部門和應用領域,該技術的日益成熟有望成為下一代的操作系統(tǒng)和應用程序的用戶界面。該系統(tǒng)不僅能提供英語和漢語查詢,而且可以用其它語言來查詢。(3)語音識別技術在扶殘扶弱方面的應用為了幫助殘疾人士由于肢體功能方面的缺陷而引起的動作不便,運用語音識別系統(tǒng),則能對其給予一定的方便。一些國內(nèi)外知名的汽車制造公司,很早就預見了語音技術在汽車行業(yè)的發(fā)展前景,他們已經(jīng)提出了無需操控的、在后座說話就可以駕駛的智能汽車,完全告別了手動駕駛車輛的模式。該系統(tǒng)也可稱為家庭幼兒輔導老師及中小學教育不可或缺的輔助工具。比如,在外國科幻電影中,我們經(jīng)常會看到高精密發(fā)射的核設施發(fā)射系統(tǒng),它除了一般的發(fā)射檢測程序外,總統(tǒng)聲音命令也成為了核發(fā)射系統(tǒng)的重要密匙,在最終確認發(fā)射時,需要通過總統(tǒng)的特定語音命令,才可進行程序釋放,核發(fā)射才進入相應倒計時階段。起初,語音識別是通過人工分析語譜圖而進行識別的。計算機的使用在很大程度上加快了語音識別方法的研究。這使得孤立詞發(fā)音和孤立詞發(fā)音的識別技術成為可行的生活實用技術。繼70年代的孤立詞語音識別研究后,80 年代主要研究的是連接詞語音識別的問題,由單個詞的模式串接在一起的短連接詞語音進行匹配識別。90 年代以前,語音識別系統(tǒng)主要是在實驗室中進行的。如 IBM 的 ViaVoice 系統(tǒng)、劍橋大學的 HTK 系統(tǒng)、DARGON 系統(tǒng)、Microsoft 的 Whisper 系統(tǒng)等,這些語音識別系統(tǒng)代表著當時語音識別的最高水平,同時結(jié)合自然語音處理技術,發(fā)展到基于自然口語識別、理解的人機對話系統(tǒng)和不同語種的直接語音翻譯設備。清華大學電子工程系研究的語音識別系統(tǒng)以 1183 個單音節(jié)詞作為識別單元,它采用的是分段概率的模型,對詞的組成音節(jié)進行仔細的分解,最后用搜索匹配算法來計算整體的識別率,使二字詞和三字詞的識別率達到 %。但漢語數(shù)字語音識別技術由于漢語數(shù)字語音存在高混淆的問題,使得其進展相當緩慢,再加上漢語獨特的單音節(jié)特征和多方言語種等問題使得漢語數(shù)字識別系統(tǒng)在噪聲環(huán)境下仍然具有很大難度,任務艱巨。使用者只要用鼠標點擊虛擬面板,就可以操作這臺計算機系統(tǒng)硬件平臺,就如同使用一臺專用的測量儀器。(4)研制周期較傳統(tǒng)儀器大為縮短。虛擬儀器的構成,: 虛擬