正文內(nèi)容

基于倒譜的大學生語音識別算法研究畢業(yè)論文(編輯修改稿)

2025-07-16 12:45 本頁面

　

【文章內(nèi)容簡介】識別無關(guān)的冗余信息，獲得影響語音識別的重要信息，同時對語音信號進行壓縮。在實際應用中，語音信號的壓縮率介于10100之間。語音信號包含了大量各種不同的信息，提取哪些信息，用哪種方式提取，需要綜合考慮各方面的因素，如成本，性能，響應時間，計算量等。非特定人語音識別系統(tǒng)一般側(cè)重提取反映語義的特征參數(shù)，盡量去除說話人的個人信息；而特定人語音識別系統(tǒng)則希望在提取反映語義的特征參數(shù)的同時，盡量也包含說話人的個人信息[9]。線性預測（LP）分析技術(shù)是目前應用最廣泛的特征參數(shù)提取技術(shù)，許多成功的應用系統(tǒng)都采用基于LP技術(shù)提取的倒譜參數(shù)。但線性預測模型是純數(shù)學模型，沒有考慮人類聽覺系統(tǒng)對語音的處理特點。Mel參數(shù)和基于感知線性預測（PLP）分析提取的感知線性預測倒譜，在一定程度上模擬了人耳對語音的處理特點，應用了人耳聽覺感知方面的一些研究成果。實驗證明，采用這種技術(shù)，語音識別系統(tǒng)的性能有很大提高。從目前使用的情況來看，梅爾刻度式倒頻譜參數(shù)已逐漸取代原本常用的線性預測編碼導出的倒頻譜參數(shù)，原因是它考慮了人類發(fā)聲與接收聲音的特性，具有更好的魯棒性（Robustness）。也有研究者嘗試把小波分析技術(shù)應用于特征提取，但目前性能難以與上述技術(shù)相比，有待進一步研究。聲學模型與模式匹配：聲學模型通常是將獲取的語音特征使用訓練算法進行訓練后產(chǎn)生。在識別時將輸入的語音特征同聲學模型（模式）進行匹配與比較，得到最佳的識別結(jié)果。聲學模型是識別系統(tǒng)的底層模型，并且是語音識別系統(tǒng)中最關(guān)鍵的一部分。聲學模型的目的是提供一種有效的方法計算語音的特征矢量序列和每個發(fā)音模板之間的距離。聲學模型的設計和語言發(fā)音特點密切相關(guān)。聲學模型單元大?。ㄗ职l(fā)音模型、半音節(jié)模型或音素模型）對語音訓練數(shù)據(jù)量大小、系統(tǒng)識別率，以及靈活性有較大的影響。必須根據(jù)不同語言的特點、識別系統(tǒng)詞匯量的大小決定識別單元[10]的大小。以漢語為例：漢語按音素的發(fā)音特征分類分為輔音、單元音、復元音、復鼻尾音四種，按音節(jié)結(jié)構(gòu)分類為聲母和韻母。并且由音素構(gòu)成聲母或韻母。有時，將含有聲調(diào)的韻母稱為調(diào)母。由單個調(diào)母或由聲母與調(diào)母拼音成為音節(jié)。漢語的一個音節(jié)就是漢語一個字的音，即音節(jié)字。由音節(jié)字構(gòu)成詞，最后再由詞構(gòu)成句子。漢語聲母共有22個，其中包括零聲母，韻母共有38個。按音素分類，漢語輔音共有22個，單元音13個，復元音13個，復鼻尾音16個。目前常用的聲學模型基元為聲韻母、音節(jié)或詞，根據(jù)實現(xiàn)目的不同來選取不同的基元。漢語加上語氣詞共有412個音節(jié)，包括輕音字，共有1282個有調(diào)音節(jié)字，所以當在小詞匯表孤立詞語音識別時常選用詞作為基元，在大詞匯表語音識別時常采用音節(jié)或聲韻母建模，而在連續(xù)語音識別時，由于協(xié)同發(fā)音的影響，常采用聲韻母建模?；诮y(tǒng)計的語音識別模型常用的就是HMM模型λ(N,M,π,A,B)[11]，涉及到HMM模型的相關(guān)理論包括模型的結(jié)構(gòu)選取、模型的初始化、模型參數(shù)的重估以及相應的識別算法等。語言模型與語言處理：語言模型包括由識別語音命令構(gòu)成的語法網(wǎng)絡或由統(tǒng)計方法構(gòu)成的語言模型，語言處理可以進行語法、語義分析。語言模型對中、大詞匯量的語音識別系統(tǒng)特別重要。當分類發(fā)生錯誤時可以根據(jù)語言學模型、語法結(jié)構(gòu)、語義學模型進行判斷糾正，特別是一些同音字則必須通過上下文結(jié)構(gòu)才能確定詞義。語言學理論包括語義結(jié)構(gòu)、語法規(guī)則、語言的數(shù)學描述模型等有關(guān)方面。目前比較成功的語言模型通常是采用統(tǒng)計語法的語言模型和基于規(guī)則語法結(jié)構(gòu)命令的語言模型。語法結(jié)構(gòu)可以限定不同詞之間的相互連接關(guān)系，減少了識別系統(tǒng)的搜索空間，這有利于提高系統(tǒng)的識別。第3章倒譜系數(shù)分析原理在語音信號處理的實際應用中，很多場合需要根據(jù)語音信號反過來求解聲門信號或聲道沖激響應。這就需要在知道卷積結(jié)果的基礎上，利用“解卷”求得參與卷積的各個信號，同態(tài)處理是常用的解卷方法。由于語音信號進行同態(tài)分析后得到的是語音信號的倒譜參數(shù)，因此同態(tài)分析也叫倒譜分析[12]。對信號進行分析得出它的倒譜參數(shù)的過程稱為同態(tài)處理。對語音信號的某一幀同樣可分析出它的短時倒譜參數(shù)，總的說來，無論對于語音通信、語音合成或語音識別，倒譜參數(shù)所含的信息比其他參數(shù)多，也就是語音質(zhì)量好，識別正確率高。但其缺點是運算量比其他參數(shù)大，盡管如此，倒譜分析方法仍不失為一種有效的語音信號的分析方法。在離散信號x(n)情況下，用z變換表示復倒譜，可以寫作復倒譜可以利用同態(tài)系統(tǒng)中一種特定的特征系統(tǒng)來求得，如圖所示。為了區(qū)別于用一般方法所求得的頻譜(spectrum)，將spectrum這一詞前半部(spec)字母順序顛倒即成cepstrum，根據(jù)詞形定名為倒譜。又因頻譜一般為復數(shù)譜，故稱為復倒譜。復倒譜的概念不是唯一的，一般有三種定義。定義如下：其中假設信號為x(n)，則復倒譜的Z變換定義: （31）復倒譜的傅里葉變換定義（32）（33）（34）復倒譜的離散傅立葉變換定義（35）ZlnZ1FTlnIFTDFTlnIDFTx(n)x(t)x(n)x(n)^x(n)ZT ln| |IZT ZT ln IZTc(n)x(n)可以將卷積信號轉(zhuǎn)變?yōu)槌朔e信號，而取對數(shù)運算可以將乘法轉(zhuǎn)化為加法，卷積同態(tài)處理正是采用這樣的一種思路，具體過程如下這里x1(n)和x2(n)分別為聲門激勵信號和聲道沖激響應序列：1 輸入信號（36）2 Z變換（37）3 取對數(shù)運算（38）4 逆Z變換（39）5 為加性信號，經(jīng)過線性系統(tǒng)的處理得到：（310）6 對作Z變換：（311）7 指數(shù)運算（312）8 逆Z變換（313）步驟1~4稱作特征系統(tǒng)，記為；6~8步驟稱為逆特征系統(tǒng)，記為。我們稱其中的時域序列為信號序列的“復倒頻譜”，簡稱“復倒譜”，也叫對數(shù)復倒譜。即：（314）所在的時域被稱作復倒譜域。又注意到，有。（315）如果僅對實部作逆Z變換：（316）稱為“倒頻譜”，簡稱“倒譜”，也稱“倒頻”。值得注意的是，倒譜不能通過逆特征系統(tǒng)還原成自身，因為在計算中相位信息丟失了。在絕大多數(shù)的應用場合，特征系統(tǒng)和逆特征系統(tǒng)中的正反Z變換都可以用正反離散傅里葉變換來代替，此時倒譜的定義變?yōu)? （317） MFCC MFCC介紹梅爾頻率倒譜系數(shù) (MelFrequency Cepstral Coefficients，MFCCs)就是組成梅爾頻率倒譜的系數(shù)。他們派生自音頻片段的倒譜(cepstrum)表示(a nonlinearspectrumofaspectrum)。倒譜和梅爾頻率倒譜的區(qū)別在于，梅爾頻率倒譜的頻帶劃分是在梅爾刻度上等距劃分的，它比用于正常的對數(shù)倒頻譜中的線性間隔的頻帶更能近似人類的聽覺系統(tǒng)。這種頻率彎曲可以更好的表示聲音，例如音頻壓縮 [13] 。同時梅爾頻率倒頻譜系數(shù)常利用在辨認語音技術(shù)上，例如辨認電話中說話的人的身份。 MFCC的原理在語音識別和說話人識別中，常用的語音特征是基于Mel頻率的倒譜系數(shù)（mel frequency cepstrum coefficient,MFCC）.由于MFCC參數(shù)是將人耳的聽覺感知特征和語音的產(chǎn)生機制相結(jié)合，因此目前大多數(shù)語音識別系統(tǒng)中廣泛使用這種特征。人的耳朵具有一些特殊的功能，這些功能使得人耳能夠從嘈雜的背景噪聲中，以及各種變異情況下聽到語音信息，這是因為人的內(nèi)耳基礎膜對外來信號會產(chǎn)生調(diào)節(jié)作用。對不同的頻率，在相應的臨界帶寬內(nèi)的信號會引起基礎膜上不同位置的振動。由此可用帶通濾波器組來模仿人耳聽覺，從而減少噪聲對語音的影響。耳蝸實質(zhì)上相當于一個濾波器組，耳蝸的濾波作用是在對數(shù)頻率尺度上進行的，在1000Hz以下為線性尺度，而1000Hz以上為對數(shù)尺度，這就使得人耳對低頻信號比對高頻信號更敏感。根據(jù)這一原則，研究者根據(jù)心理學實驗得到了類似于耳蝸作用的一組濾波器組，就是Mel頻率濾波器組。對頻率軸的不均勻劃分是MFCC特征的特點。將頻率變換到Mel域后，Mel帶通濾波器組的中心頻率是按照Mel頻率刻度均勻排列的[13]。設語音信號的DFT為。（318）其中x(n)為輸入的語音信號, N表示傅立葉變換的點數(shù)。 Mel頻率倒譜系數(shù)提取過程人的聽覺系統(tǒng)是一個特殊的非線性系統(tǒng)，它響應不同頻率信號的靈敏度是不同的，基本上是一個對數(shù)的關(guān)系。MFCC是一種能夠比較充分利用人耳感知特性的參數(shù)。MFCC和線性頻率的轉(zhuǎn)換關(guān)系如下： (319)MFCC參數(shù)是按幀計算的，其提取過程可以用框圖表示()。因為不同的說話人聲道具有區(qū)別于他人的特異性特征，所以在實際信號分析中常采用預加重技術(shù)，即在對信號取樣之后，插入一個一階的高通濾波器，這樣，就加強了聲道部分的特征，便于對聲道參數(shù)進行分析；Mel濾波的作用是利用同人耳聽覺特性相似的三角濾波器組對語音信號的幅度平方譜進行平滑；對數(shù)操作(lg)的用途至少有兩點，其一是壓縮語音譜的動態(tài)范圍，其二是將頻域中的乘性成分變成對數(shù)譜域中的加性成分，以便濾除乘性噪聲；離散余弦變換(DCT)主要用來對不同頻段的頻譜成份進行解相關(guān)處理，使得各向量之間相互獨立。DFT/FFT預加重、分幀、加窗Mel頻率濾波器組F(m) *s(n) *Log對數(shù)能量DCT求倒譜x(n) *X(k) *c(n) * MFCC參數(shù)提取基本流程 MFCC算法流程設某語音信號為x(n) ，則算法處理流程為1）預加重，其中k為預加重系數(shù)，；2）加窗（hamming窗），幀長為N；3）DFT變換；4）設計一個具有 M個帶通濾波器的濾波器組，采用三角濾波器，中心頻率從0~F/2之間按Mel頻率分布；5)計算每個濾波器組輸出的對數(shù)能量；6)求得 MFCC特征參數(shù)。 MATLAB中的設計與實現(xiàn) 采樣點與幅度本次設計采用了漢明窗函數(shù)來對語音分幀，每幀的長度為256，步長為128，即每相鄰兩幀之間有半幀是重疊的。計算中利用了Matlab中漢明窗函數(shù)(hamming)。采用Matlab的語音分析工具箱VoiceBox，可以很容易地對語音進行分幀處理。其分幀函數(shù)調(diào)用為：f=enframe(X，hamming(256)，128)。本文應用了24個三角形濾波器序列。除了提取MFCC參數(shù)外，為描述語音幀間的相關(guān)性，計算中引入了一階差分MFCC的特征參數(shù)，并且與MFCC參數(shù)一起構(gòu)成語音的特征參數(shù)。，將信號幅度作為特征參數(shù)來區(qū)分不同的信號。由圖可知，信號幅值在15處上下波動，與此同時，隨著采樣點的增多，信號幅值的上下波動減小，可以預測，在無窮遠處，信號幅值將在15處固定不變。由于該信號為幅值不等、頻率不等的隨機信號，故在時間軸上幅值有負值。維數(shù)與幅值差的關(guān)系：經(jīng)過等時間間隔進行采樣，采樣頻率為8000HZ，取相鄰采樣點的幅值，并做一階差分，就可得到此圖。由仿真結(jié)果可知，隨著信號采樣點數(shù)量的增多，相鄰點幅值差不斷減小，可以預測，當采樣點取無窮多時，其相鄰幅值差必趨于零，這與實際理論以及客觀事實相符合，故該仿真結(jié)果良好。由于MFCC參數(shù)是對人耳聽覺特征的描述，因此，可以認為，不同聲紋的MFCC參數(shù)距離，能夠代表人耳對兩個語音聽覺上的差異，可以為聲紋的識別提供可靠的依據(jù)。用這些系數(shù)組成語音信號的特征矢量，就可以建立聲紋的模型參考集，進行聲紋識別。它的提取與一般倒譜的提取過程的差別就在于：MFCC模擬了人的聽覺特性，在其求解過程中，F(xiàn)FT的譜線在頻率軸上是不等間隔分布的，而在Mel頻率軸上是等間隔分布的，在有噪聲和頻譜變形的情況下，采用MFCC作為特征參數(shù)識別，其正確率比用LPC等作為特征參數(shù)有比較大的改善。第4章語音倒譜的應用表征一個人聲音個性的參數(shù)主要有反映聲道特性的共振峰頻率和反映聲門特性的基音參數(shù)。為了能夠提取出這些參數(shù)，就要借助一些工具，本節(jié)通過MATLAB完成倒譜在語音處理的各方面應用。本實驗所用的語音樣本是Cooledit在普通室內(nèi)環(huán)境下錄制的一段語音，采樣頻率為8kHz，單聲道。MATLAB仿真結(jié)果如下：（程序見附錄A），第一幅是這段語音的時域波形圖，共取400點語音，在倒譜圖上會看到許多峰值，這些峰值都與基音周期有關(guān)，分別是一次諧振，二次諧振……同態(tài)信號處理也稱為同態(tài)濾波，實現(xiàn)將卷積關(guān)系和乘積關(guān)系變換為求和關(guān)系的分離處理，將非線性信號處理變?yōu)榫€性信號處理的過程。線性系統(tǒng)特征系統(tǒng)D*[]逆特征系統(tǒng)D*1[]y(n) *++x(n) *按照被處理的信號來分類，大體上可以分為乘積同態(tài)信號處理和卷積同態(tài)信號處理。由于語音信號可以視為聲門激勵信號和聲道響應信號的卷積結(jié)果。我們僅討論卷積同態(tài)信號處理系統(tǒng)的問題。（1）特征系統(tǒng)D*[] 完成將卷積信號轉(zhuǎn)化為加性信號的運算。 (41) (42) (43) (44)（2）第二個子系統(tǒng)對加性信號進行所需要的線性處理（滿足線性疊加原理等）

點擊復制文檔內(nèi)容

數(shù)學相關(guān)推薦

基于gabor特征和adaboost算法的人臉表情識別研究-畢業(yè)論文-資料下載頁

【總結(jié)】基于Gabor特征和Adaboost算法的人臉表情識別研究-畢業(yè)論文中南民族大學碩士學位論文基于Gabor特征和Adaboost算法的人臉表情識別研究姓名:劉?申請學位級別:碩士專業(yè):生物醫(yī)學工程指導教師:高智勇2020-05-24中南民族大學

2025-11-01 16:01

改進lbp的人臉識別算法研究畢業(yè)論文-資料下載頁

【總結(jié)】改進LBP的人臉識別算法研究畢業(yè)論文目錄摘要 -1-ABSTRACT -1-第一章緒論 -3-第一節(jié)課題的研究背景及意義 -3-一、生物識別技術(shù) -3-二、生物識別的過程 -4-第二節(jié)人臉識別技術(shù)概況 -5-一、人臉識別技術(shù)國內(nèi)外現(xiàn)狀 -5-二、人臉識別的難點和研究意義 -6-第

2025-06-27 14:53

基于dtw算法的語音識別原理與實現(xiàn)-資料下載頁

【總結(jié)】基于DTW算法的語音識別原理與實現(xiàn)基于DTW算法的語音識別原理與實現(xiàn)[摘　要]以一個能識別數(shù)字0～9的語音識別系統(tǒng)的實現(xiàn)過程為例，闡述了基于DTW算法的特定人孤立詞語音識別的基本原理和關(guān)鍵技術(shù)。其中包括對語音端點檢測方法、特征參數(shù)計算方法和DTW算法實現(xiàn)的詳細討論，最后給出了在Matlab下的編程方法和實驗結(jié)果。[關(guān)鍵字]語音識別；端點檢測；MFCC系數(shù)；DTW算法[中圖分類號]

2025-06-25 01:26

基于dtw算法的語音識別原理與實現(xiàn)-資料下載頁

【總結(jié)】基于DTW算法的語音識別原理與實現(xiàn)您好，歡迎來到阿里巴巴基于DTW算法的語音識別原理與實現(xiàn)(2021/07/1217：44)【摘要】以一個能識別數(shù)字0~9的語音識別系統(tǒng)的實現(xiàn)過程為例，闡述了基于DTW算法的特定人孤立詞語音識別的基本原理和關(guān)鍵技術(shù)。其中包括對語音端點檢測方法、特征參數(shù)計算方法和DTW算法實現(xiàn)的詳細討論，最后給出了在Matlab

2025-05-07 18:25

語音加密解密算法研究_仿真和實現(xiàn)-畢業(yè)論文-資料下載頁

【總結(jié)】畢業(yè)設計學院：信息工程學院系(專業(yè))：通信工程題目：語音加密解密算法研究、仿真和實現(xiàn)

2025-02-04 04:26

特定人孤立詞語音識別的研究畢業(yè)論文-資料下載頁

【總結(jié)】本科學生畢業(yè)論文（設計）題目(中文):特定人孤立詞語音識別的研究(英文):ResearchOfSpeaker-dependentIsolated-wordSpeechrecognition姓名學號院（系）專業(yè)、年級

2025-08-18 04:10

特定人孤立詞語音識別的研究畢業(yè)論文-資料下載頁

【總結(jié)】本科學生畢業(yè)論文（設計）題目(中文):特定人孤立詞語音識別的研究(英文):ResearchOfSpeaker-dependentIsolated-wordSpeechrecognition姓名學號院（系）專業(yè)、年級指導教師畢業(yè)設計（論

2025-06-22 16:00

語音信號端點檢測算法的研究畢業(yè)論文-資料下載頁

【總結(jié)】語音信號端點檢測算法的研究畢業(yè)論文目錄摘要 IAbstract II第1章緒論 1 1 2 4 5第2章語音信號處理基礎 7語音信號的數(shù)學模型 7 8 8 8 8 9 10 10 10 11 11 11 13 13 13 14 16第3章語音端點檢測的相關(guān)算法 17

2025-06-24 18:14

基于文本的聚類算法研究畢業(yè)論文-資料下載頁

【總結(jié)】基于文本的聚類算法研究I摘要聚類作為一種知識發(fā)現(xiàn)的重要方法，它廣泛地與中文信息處理技術(shù)相結(jié)合，應用于網(wǎng)絡信息處理中以滿足用戶快捷地從互聯(lián)網(wǎng)獲得自己需要的信息資源。文本聚類是聚類問題在文本挖掘中的有效應用，它根據(jù)文本數(shù)據(jù)的不同特征，按照文本間的相似性，將其分為不同的文本簇。其目的是要使同一類別的文本間的相似度盡可能大，而不同類別的文本間的相

2025-08-17 14:53

論文基于微軟語音引擎的語音識別-資料下載頁

【總結(jié)】本科畢業(yè)論文（設計）題目：基于微軟語音引擎的語音識別學生：劉歡學號：201040620228學院：物理與電子科學學院專

2025-07-27 13:20

基于文本的聚類算法研究畢業(yè)論文-資料下載頁

【總結(jié)】基于文本的聚類算法研究摘要聚類作為一種知識發(fā)現(xiàn)的重要方法，它廣泛地與中文信息處理技術(shù)相結(jié)合，應用于網(wǎng)絡信息處理中以滿足用戶快捷地從互聯(lián)網(wǎng)獲得自己需要的信息資源。文本聚類是聚類問題在文本挖掘中的有效應用，它根據(jù)文本數(shù)據(jù)的不同特征，按照文本間的相似性，將其分為不同的文本簇。其目的是要使同一類別的文本間的相似度盡可能大，而不同類別的文本間的相似度盡可能的小。整個聚類過程無需指導，事

2025-06-24 15:57

基于matlab的圖像分割算法研究畢業(yè)論文-資料下載頁

【總結(jié)】摘要本文從原理和應用效果上對經(jīng)典的圖像分割方法如邊緣檢測、閾值分割技術(shù)和區(qū)域增長等進行了分析。對梯度算法中的Roberts算子、Sobel算子、Prewitt算子、拉普拉斯(Laplacian)算子、LoG(Laplacian-Gauss)算子、坎尼（Canny）算子的分割步驟、分割方式、分割準則相互比較可以看出根據(jù)坎尼（Canny）邊緣算子的3個準則得出的邊緣檢測結(jié)果最滿意。而閾值分

2025-06-27 18:13

模板比較的車牌識別算法的研究與實現(xiàn)畢業(yè)論文-資料下載頁

【總結(jié)】1本科畢業(yè)設計(論文)題目基于模板比較的車牌識別算法的研究與實現(xiàn)學院名稱　信息學院　　　　　專業(yè)班級　　　計科08-1　　　　　學生姓名　　郝高祥　　　　　導師姓名　

2025-08-02 20:20

基于matlab的語音信號處理研究畢業(yè)論文-資料下載頁

【總結(jié)】摘要小波分析理論是一種新興的信號處理理論，它在時間上和頻率上都有很好的局部性，這使得小波分析非常適合于時-頻分析，借助時-頻局部分析特性，小波分析理論已經(jīng)成為信號去噪中的一種重要的工具。利用小波方法去噪，是小波分析應用于實際的重要方面。小波去噪的關(guān)鍵是如何選擇閾值和如何利用閾值來處理小波系數(shù)，通過對小波閾值化去噪的原理介紹，運用MATLAB中的小波工具箱，

2025-02-26 09:55

語音識別的特征參數(shù)的提取與研究的畢業(yè)論文-資料下載頁

【總結(jié)】桂林航天工業(yè)學院畢業(yè)設計（論文）語音識別的特征參數(shù)的提取與研究的畢業(yè)論文目錄評語　　　　　　　　　　　　　　　　　　　　　　　　　　　?、翊疝q記錄　　　　　　　　　　　　　　　　　　　　　　　　　　　?、虍厴I(yè)設計任務書Ⅲ畢業(yè)設計開題報告

2025-06-19 13:41