正文內(nèi)容

基于倒譜的大學(xué)生語音識別算法研究畢業(yè)論文(已修改)

2025-07-01 12:45 本頁面

　

【正文】 LANZHOU UNIVERSITY OF TECHNOLOGY畢業(yè)論文題目：基于倒譜的大學(xué)生語音識別算法研究 College Students39。Speech Recognition Algorithm based onCepstrum摘要語音是人類最重要的交流工具，隨著電子計算機(jī)和人工智能機(jī)器的廣泛應(yīng)用，人們發(fā)現(xiàn)人和機(jī)器之間最好的通信方式是語言通信，而語音是語言的聲學(xué)表現(xiàn)形式。要使機(jī)器聽的懂人話，就要對語音信號進(jìn)行處理。隨著信息技術(shù)的不斷發(fā)展，尤其是網(wǎng)絡(luò)技術(shù)的日益普及和完善，語音信號處理技術(shù)正發(fā)揮著越來越重要的作用。為了尋找良好性能的特征、提取重要參數(shù)以提高識別系統(tǒng)性能，各種科學(xué)的算法應(yīng)運(yùn)而生。語音識別的關(guān)鍵技術(shù)是提取出語音特征，語音特征有很多，倒譜分析就是其中之一。倒譜法作為信號處理的重要的方法，能夠得到比較好的識別性能。本文主要介紹了語音識別技術(shù)?；緦崿F(xiàn)思想是將輸入的隨機(jī)語音信號通過線性變換系統(tǒng)處理為加性信號，用基于Mel頻率的倒譜系數(shù)（MFCC）以及一些語音信號的固有特征進(jìn)行倒譜分析。接下來通過對語音倒譜在各個方面的應(yīng)用進(jìn)行MATLAB編程仿真，得到語音基音檢測和共振峰檢測的實驗仿真結(jié)果。關(guān)鍵詞：倒譜；語音識別；共振峰檢測；基音檢測；蘭州理工大學(xué)畢業(yè)論文AbstractVoice is one of the most important human munication tools. With the widely application of electronic puters and artificially intellective machine, it was discovered that language munication is the best way to municate between man and machine and the voice was the reflection of the language. If we wanted us understood by the machines, it is necessary to deal with the signal. With the continuous development of IT, especially the popularity of network and perfect system, voice signal processing technology plays an increasingly important role. In order to find a good performance characteristics and extract important parameters to improve the performance of the recognition system, a variety of scientific algorithms have been emerged. The key technology of voice recognition is extracting voice features. While there are many voice features, cepstrum analyses is one of them. The cepstrum, as one of the important signal processing methods, can get better recognition performance. This paper mainly introduce the voice recognition technology. The basic idea is to casually input voice signal and transform the signal by using additive signal to linear transformation, and use the methods based on Mel(MFCC) frequency as well as some of the speech signal to cepstrum analyze. And then by the usage of the voice spectrum of applications in all aspects programs MATLAB simulation, it can get the simulation results of detect voice pitch and formant detection. Keywords: Cepstrum；Voice recognition；Resonance peak detection；Pitch detection；目錄第1章緒論 1 1 1 3第2章語音識別技術(shù)基本理論 5 5 6 7 8 8 10第3章倒譜系數(shù)分析原理 13 13 13 14 MFCC 15 MFCC介紹 15 MFCC的原理 15 Mel頻率倒譜系數(shù)提取過程 16 MFCC算法流程 17 MATLAB中的設(shè)計與實現(xiàn) 17第4章語音倒譜的應(yīng)用 19 19 19 21 23 共振峰的概念 24 基于倒譜的共振峰的算法 24第5章倒譜法提取基音頻率和共振峰 25 倒譜法提取基音頻率 25 提取基音的方法 25 倒譜分析算法的原理 25 MATLAB中的設(shè)計與實現(xiàn) 26 倒譜法提取共振峰 27 提取共振峰的方法 27 倒譜法的原理 27 MATLAB中的設(shè)計與實現(xiàn) 27第6章結(jié)論與展望 30 主要工作總結(jié) 30 后續(xù)工作及展望 30參考文獻(xiàn) 31附錄 32I 相關(guān)程序 32II 外文資料原文 38III 外文資料翻譯 44致謝 55第1章緒論語音是語言的聲學(xué)表現(xiàn),是人類交流信息最自然、最有效、最方便的手段。人類開始進(jìn)入信息化時代,用現(xiàn)代手段研究語音處理技術(shù),使人們能更加有效地產(chǎn)生、傳輸、存儲和獲取語言信息,這對于促進(jìn)社會的發(fā)展具有十分重要的意義。語音作為當(dāng)前通訊系統(tǒng)中最自然的通信媒介,隨著計算機(jī)和語音處理技術(shù)的發(fā)展,不同語種之間的語音一語音翻譯將成為語音研究的熱點。隨著我國改革開放和對外合作的不斷深化,商務(wù)往來、文化交流、跨國旅游等活動日益頻繁,越來越多的人需要學(xué)習(xí)一門外語。學(xué)習(xí)外語存在的主要問題是發(fā)音不準(zhǔn)確,傳統(tǒng)的外語教學(xué)方法有著種種不足之處。例如,課堂教學(xué)通常受時間、地點以及教師教學(xué)水平的限制。廣播電視教學(xué)和錄音錄像教學(xué)等教學(xué)手段不夠靈活,無法及時地分析學(xué)習(xí)者存在的問題,因此也就不能及時地、有針對性地反饋指導(dǎo)意見。利用計算機(jī)來幫助外語教學(xué)是幫助提高外語水平的重要方法之一。在非母語的語言學(xué)習(xí)中,以計算機(jī)輔助使用者進(jìn)行非母語學(xué)習(xí)(ComputerAssistedLanguageLeaming,CALL)己受到相當(dāng)重視,各方也紛紛投入相關(guān)的研究。語音識別技術(shù)，也稱為自動語音識別，其是為了將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計算機(jī)可讀的輸入，例如二進(jìn)制編碼、按鍵或者字符序列。與說話人確認(rèn)及說話人識別不同，前者嘗試識別或確認(rèn)發(fā)出語音的說話人而非其中的詞匯內(nèi)容。語音識別的關(guān)鍵是提取出語音特征，而語音特征有很多，倒譜系數(shù)分析是其中一種。在語音信號處理中可以常用倒譜域來提取語音的共振峰與基音頻率，用于語音識別。倒譜系數(shù)是一種非常有效表征語音特征的參數(shù)矢量, 倒譜具有解卷的特性, 它能將語音信號的聲門激勵信息和聲道響應(yīng)信息分離開，因此倒譜是說話人識別和語音識別中最常用的特征參數(shù)之一。聲學(xué)是物理學(xué)的一個分支學(xué)科，而語言聲學(xué)又是聲學(xué)的一個分支學(xué)科。它主要的研究方向是人的發(fā)聲器官機(jī)理，發(fā)聲器官的類比線路和數(shù)學(xué)模型，聽覺器官的特性(如聽閾、掩蔽、臨界帶寬、聽力損失等) ，聽覺器官的數(shù)學(xué)模型，語音信號的物理特性(如頻譜特性、聲調(diào)特性、相關(guān)特性、概率分布等) ，語音的清晰度和可懂度等。當(dāng)今通信和廣播的發(fā)展非常迅速，語言廣播和語言通信仍然是最重要的部分，而語言聲學(xué)則是這些技術(shù)科學(xué)的基礎(chǔ)。語言聲學(xué)的發(fā)展和電子學(xué)以及計算機(jī)科學(xué)有著非常密切的關(guān)系。在它發(fā)展的過程中，有過幾次飛躍：第一次飛躍是1907年電子管的發(fā)明和1920年無線電廣播的出現(xiàn)。因為有了電子管放大器,很微弱的聲音也可以放大，而且可以定量測量。從而使電聲學(xué)和語言聲學(xué)的一些研究成果，擴(kuò)展到通信和廣播部門。第二次飛躍應(yīng)該是20世紀(jì)70年代初,由于電子計算機(jī)和數(shù)字信號處理的發(fā)展，人們發(fā)現(xiàn)：聲音信號特別是語音信號，可以通過模數(shù)轉(zhuǎn)換器(A /D)采樣和量化，它們轉(zhuǎn)換為數(shù)字信號后，能夠送進(jìn)計算機(jī)。這樣就可以用數(shù)字計算方法，對語音信號進(jìn)行處理和加工。例如頻譜分析可以用傅里葉變換或快速傅里葉變換( FFT)實現(xiàn)，數(shù)字濾波器可以用差分方程實現(xiàn)。在這個基礎(chǔ)上，逐漸形成了一門新學(xué)科——語音信號處理。它的發(fā)展很快，在通信、自動控制等領(lǐng)域，解決了很多用傳統(tǒng)方法難以解決的問題。在信息科學(xué)中占有很重要的地位，其中語音識別的研究也開始了飛速的發(fā)展。語音識別的研究工作可以追溯到20世紀(jì)50年代ATamp。T貝爾實驗室的Audry系統(tǒng)，它是第一個可以識別十個英文數(shù)字的語音識別系統(tǒng)。但真正取得實質(zhì)性進(jìn)展，并將其作為一個重要的課題開展研究則是在60年代末70年代初。這首先是因為計算機(jī)技術(shù)的發(fā)展為語音識別的實現(xiàn)提供了硬件和軟件的可能，更重要的是語音信號線性預(yù)測編碼（LPC）技術(shù)和動態(tài)時間規(guī)整（DTW）技術(shù)的提出，有效的解決了語音信號的特征提取和不等長匹配問題。這一時期的語音識別主要基于模板匹配原理，研究的領(lǐng)域局限在特定人，小詞匯表的孤立詞識別，實現(xiàn)了基于線性預(yù)測倒譜和DTW技術(shù)的特定人孤立詞語音識別系統(tǒng)；同時提出了矢量量化（VQ）和隱馬爾可夫模型（HMM）理論。隨著應(yīng)用領(lǐng)域的擴(kuò)大，小詞匯表，特定人，孤立詞等這些對語音識別的約束條件需要放寬，與此同時也帶來了許多新的問題：第一，詞匯表的擴(kuò)大使得模板的選取和建立發(fā)生困難；第二，連續(xù)的語音中，各個音素、音節(jié)以及詞之間沒有明顯的邊界，各個發(fā)音單位存在受上下文強(qiáng)烈影響的協(xié)同發(fā)音（Coarticulation）現(xiàn)象；第三，在非特定人識別時，不同的人說相同的話相應(yīng)的聲學(xué)特征有很大的差異，即使相同的人在不同的時間、生理、心理狀態(tài)下，說同樣內(nèi)容的話也會有很大的差異；第四，識別的語音中有背景噪聲和其他干擾。因此原有的模板匹配方法已不再適用。20世紀(jì)90年代前期，許多著名的大公司如蘋果、IBM、NTT和ATamp。T都對語音識別系統(tǒng)的實用化研究投以巨資。語音識別技術(shù)有一個很好的評估機(jī)制，那就是識別的準(zhǔn)確率，而這項指標(biāo)在20世紀(jì)90年代中后期實驗室研究中得到了不斷提高。比較有代表性的系統(tǒng)如下：IBM公司推出的ViaVoice和DragonSystem公司的NaturallySpeaking，Nuance公司的NuanceVoicePlatform語音平臺，Microsoft的Whisper，Sun的VoiceTone等。其中IBM公司于1997年開發(fā)出漢語ViaVoice語音識別系統(tǒng)，次年又開發(fā)出可以識別上海話、廣東話和四川話等地方口音的語音識別系統(tǒng)ViaVoice’98。它帶有一個32000詞的基本詞匯表，可以擴(kuò)展到65000詞，還包括辦公常用詞條，具有“糾錯機(jī)制”，其平均識別率可以達(dá)到95%。該系統(tǒng)對新聞?wù)Z音識別具有較高的精確度，是目前最具有代表性的漢語連續(xù)語音。我國語音識別研究工作起步于五十年代初，但近年來發(fā)展很快。研究成果也從實驗室逐步走向?qū)嵱?。?987年開始執(zhí)行國家863計劃后，國家計算機(jī)專家組為語音識別技術(shù)研究專門立項，每兩年滾動一次。我國語音識別技術(shù)的研究水平已經(jīng)基本上和國外同步，在漢語語音識別技術(shù)上還有自己的特點與優(yōu)勢，并達(dá)到國際先進(jìn)水平。中科院自動化所、聲學(xué)所、北京大學(xué)、清華大學(xué)、哈爾濱工業(yè)大學(xué)、中國科技大學(xué)、上海交通大學(xué)、北京郵電大學(xué)、華中科技大學(xué)等科研機(jī)構(gòu)都有實驗室進(jìn)行過語音識別方面的研究，其中具有代表性的研究單位為清華大學(xué)電子工程系和中科院自動化研究所的模式識別國家重點實驗室。清華大學(xué)電子工程系語音技術(shù)與專用芯片設(shè)計課題組，研發(fā)的非特定人漢語數(shù)碼串連續(xù)語音識別系統(tǒng)的識別精度，%（不定長數(shù)字串）%（定長數(shù)字串）。在有5%拒識率情況下，%（不定長數(shù)字串）%（定長數(shù)字串），這是目前國際最好的識別結(jié)果之一，其性能已經(jīng)達(dá)到實用水平。%；并且可以識別四川話和普通話兩種語言，達(dá)到實用要求。中科院自動化所及其所屬模式科技公司2002年發(fā)布了他們共同推出的面向不同計算平臺和應(yīng)用的“天語”中文語音系列產(chǎn)品——PattekASR，結(jié)束了中文語音識別產(chǎn)品自1998年以來一直由國外公司壟斷的歷史。本文研究的是語音信號的倒譜分析，首先第一章的緒論部分，介紹了本文的研究目的與意義、語音信號的研究現(xiàn)狀和本文的研究內(nèi)容。第二章介紹了語音識別技術(shù)基本理論。簡要對其進(jìn)行了分類研究，詳細(xì)說明了語音信號的數(shù)字化和預(yù)處理、語音識別技術(shù)的基本原理、技術(shù)模型、以及處理所使用的基本方法。第三章詳細(xì)敘述了倒譜的定義基本原理以及計算方法，優(yōu)點和缺點。將倒譜化分為實倒譜和復(fù)倒譜，并對二者之間的關(guān)系進(jìn)行區(qū)分，由此奠定了倒譜分析研究的基礎(chǔ)。然后利用到譜進(jìn)行了MFCC參數(shù)的提取。接著第四章介紹了倒譜系數(shù)分析在語音特征提取中的應(yīng)用，包括基音檢測以及共振峰的提取。最后第五章具體研究了倒譜在語音信號處理中的實現(xiàn)方法，主要是語音信號識別的參數(shù)提取。首先通過輸入一段語音，并將其導(dǎo)入到MATLAB程序中進(jìn)行語音的處理，完成語音在MATLAB中的倒譜實現(xiàn)。接著介紹倒譜在同態(tài)信號處理系統(tǒng)中的作用及同態(tài)信號處理系統(tǒng)的工作原理，然后是語音信號的主要應(yīng)用，也是語音倒譜分析的重點內(nèi)容，包括基音檢測和共振峰檢測兩個方面，作為

點擊復(fù)制文檔內(nèi)容

數(shù)學(xué)相關(guān)推薦

論文基于微軟語音引擎的語音識別-資料下載頁

【總結(jié)】本科畢業(yè)論文（設(shè)計）題目：基于微軟語音引擎的語音識別學(xué)生：劉歡學(xué)號：201040620228學(xué)院：物理與電子科學(xué)學(xué)院專

2025-07-27 13:20

基于文本的聚類算法研究畢業(yè)論文-資料下載頁

【總結(jié)】基于文本的聚類算法研究摘要聚類作為一種知識發(fā)現(xiàn)的重要方法，它廣泛地與中文信息處理技術(shù)相結(jié)合，應(yīng)用于網(wǎng)絡(luò)信息處理中以滿足用戶快捷地從互聯(lián)網(wǎng)獲得自己需要的信息資源。文本聚類是聚類問題在文本挖掘中的有效應(yīng)用，它根據(jù)文本數(shù)據(jù)的不同特征，按照文本間的相似性，將其分為不同的文本簇。其目的是要使同一類別的文本間的相似度盡可能大，而不同類別的文本間的相似度盡可能的小。整個聚類過程無需指導(dǎo)，事

2025-06-24 15:57

基于matlab的圖像分割算法研究畢業(yè)論文-資料下載頁

【總結(jié)】摘要本文從原理和應(yīng)用效果上對經(jīng)典的圖像分割方法如邊緣檢測、閾值分割技術(shù)和區(qū)域增長等進(jìn)行了分析。對梯度算法中的Roberts算子、Sobel算子、Prewitt算子、拉普拉斯(Laplacian)算子、LoG(Laplacian-Gauss)算子、坎尼（Canny）算子的分割步驟、分割方式、分割準(zhǔn)則相互比較可以看出根據(jù)坎尼（Canny）邊緣算子的3個準(zhǔn)則得出的邊緣檢測結(jié)果最滿意。而閾值分

2025-06-27 18:13

模板比較的車牌識別算法的研究與實現(xiàn)畢業(yè)論文-資料下載頁

【總結(jié)】1本科畢業(yè)設(shè)計(論文)題目基于模板比較的車牌識別算法的研究與實現(xiàn)學(xué)院名稱　信息學(xué)院　　　　　專業(yè)班級　　　計科08-1　　　　　學(xué)生姓名　　郝高祥　　　　　導(dǎo)師姓名　

2025-08-02 20:20

基于matlab的語音信號處理研究畢業(yè)論文-資料下載頁

【總結(jié)】摘要小波分析理論是一種新興的信號處理理論，它在時間上和頻率上都有很好的局部性，這使得小波分析非常適合于時-頻分析，借助時-頻局部分析特性，小波分析理論已經(jīng)成為信號去噪中的一種重要的工具。利用小波方法去噪，是小波分析應(yīng)用于實際的重要方面。小波去噪的關(guān)鍵是如何選擇閾值和如何利用閾值來處理小波系數(shù)，通過對小波閾值化去噪的原理介紹，運(yùn)用MATLAB中的小波工具箱，

2025-02-26 09:55

語音識別的特征參數(shù)的提取與研究的畢業(yè)論文-資料下載頁

【總結(jié)】桂林航天工業(yè)學(xué)院畢業(yè)設(shè)計（論文）語音識別的特征參數(shù)的提取與研究的畢業(yè)論文目錄評語　　　　　　　　　　　　　　　　　　　　　　　　　　　?、翊疝q記錄　　　　　　　　　　　　　　　　　　　　　　　　　　　?、虍厴I(yè)設(shè)計任務(wù)書Ⅲ畢業(yè)設(shè)計開題報告

2025-06-19 13:41

基于pca算法的人臉識別系統(tǒng)設(shè)計畢業(yè)論文-資料下載頁

【總結(jié)】本科畢業(yè)論文基于PCA算法的人臉識別系統(tǒng)設(shè)計FacerecognitionbasedonPCAalgorithmsystemdesign畢業(yè)設(shè)計（論文）原創(chuàng)性聲明和使用授權(quán)說明原創(chuàng)性聲明本人鄭重承諾：所呈交的畢業(yè)設(shè)計（論文），是我個人在指導(dǎo)教師的指導(dǎo)下進(jìn)行的研究工作及取得的成果。盡

2025-06-20 12:33

基于pca的人臉識別研究畢業(yè)論文-資料下載頁

【總結(jié)】I內(nèi)容摘要生物特征識別是利用人類特有的生理或行為特征來識別個人身份的技術(shù)，它提供了一種高可靠性、高穩(wěn)定性的身份鑒別途徑。人臉檢測和識別是目前生物特征識別中最受人們關(guān)注的一個分支，是當(dāng)前圖像處理、模式識別和計算機(jī)視覺領(lǐng)域內(nèi)的一個熱門研究課題，在公安部門罪犯搜索、安全部門動態(tài)監(jiān)視識別、銀行密碼系統(tǒng)等許多領(lǐng)域有廣泛的研究，本文對此進(jìn)行了較

2025-08-18 15:16

基于pca的人臉識別研究畢業(yè)論文-資料下載頁

【總結(jié)】內(nèi)容摘要生物特征識別是利用人類特有的生理或行為特征來識別個人身份的技術(shù)，它提供了一種高可靠性、高穩(wěn)定性的身份鑒別途徑。人臉檢測和識別是目前生物特征識別中最受人們關(guān)注的一個分支，是當(dāng)前圖像處理、模式識別和計算機(jī)視覺領(lǐng)域內(nèi)的一個熱門研究課題，在公安部門罪犯搜索、安全部門動態(tài)監(jiān)視識別、銀行密碼系統(tǒng)等許多領(lǐng)域有廣泛的研究，本文對此進(jìn)行了較為深入的研究。首先描述了人臉識別技術(shù)的研究內(nèi)

2025-06-24 15:48

大學(xué)生增塑劑水解的研究畢業(yè)論文-資料下載頁

【總結(jié)】畢業(yè)論文（設(shè)計）任務(wù)書班級：環(huán)境05-1姓名：***論文（設(shè)計）題目：增塑劑水解研究專題：要求完成的內(nèi)容：1.文獻(xiàn)調(diào)研

2025-06-22 00:47

提升小波的語音端點檢測算法研究畢業(yè)論文-資料下載頁

【總結(jié)】小波變換在語音端點中的應(yīng)用第1頁共35頁提升小波的語音端點檢測算法研究小波變換在語音端點中的應(yīng)用第2頁共35頁摘要

2025-08-16 15:14

提升小波的語音端點檢測算法研究畢業(yè)論文-資料下載頁

【總結(jié)】小波變換在語音端點中的應(yīng)用提升小波的語音端點檢測算法研究摘　要:以小波變換及多分辨分析為理論基礎(chǔ),對語音端點檢測中小波系數(shù)方差算法和子帶平均能量算法進(jìn)行了分析和研究,利用語音和噪聲的頻域差別,對這兩種算法進(jìn)行了優(yōu)化,并應(yīng)用于端點

2025-06-21 15:25