freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

基于倒譜的大學生語音識別算法研究畢業(yè)論文(編輯修改稿)

2025-07-16 12:45 本頁面
 

【文章內容簡介】 識別無關的冗余信息,獲得影響語音識別的重要信息,同時對語音信號進行壓縮。在實際應用中,語音信號的壓縮率介于10100之間。語音信號包含了大量各種不同的信息,提取哪些信息,用哪種方式提取,需要綜合考慮各方面的因素,如成本,性能,響應時間,計算量等。非特定人語音識別系統(tǒng)一般側重提取反映語義的特征參數,盡量去除說話人的個人信息;而特定人語音識別系統(tǒng)則希望在提取反映語義的特征參數的同時,盡量也包含說話人的個人信息[9]。線性預測(LP)分析技術是目前應用最廣泛的特征參數提取技術,許多成功的應用系統(tǒng)都采用基于LP技術提取的倒譜參數。但線性預測模型是純數學模型,沒有考慮人類聽覺系統(tǒng)對語音的處理特點。Mel參數和基于感知線性預測(PLP)分析提取的感知線性預測倒譜,在一定程度上模擬了人耳對語音的處理特點,應用了人耳聽覺感知方面的一些研究成果。實驗證明,采用這種技術,語音識別系統(tǒng)的性能有很大提高。從目前使用的情況來看,梅爾刻度式倒頻譜參數已逐漸取代原本常用的線性預測編碼導出的倒頻譜參數,原因是它考慮了人類發(fā)聲與接收聲音的特性,具有更好的魯棒性(Robustness)。也有研究者嘗試把小波分析技術應用于特征提取,但目前性能難以與上述技術相比,有待進一步研究。聲學模型與模式匹配:聲學模型通常是將獲取的語音特征使用訓練算法進行訓練后產生。在識別時將輸入的語音特征同聲學模型(模式)進行匹配與比較,得到最佳的識別結果。聲學模型是識別系統(tǒng)的底層模型,并且是語音識別系統(tǒng)中最關鍵的一部分。聲學模型的目的是提供一種有效的方法計算語音的特征矢量序列和每個發(fā)音模板之間的距離。聲學模型的設計和語言發(fā)音特點密切相關。聲學模型單元大小(字發(fā)音模型、半音節(jié)模型或音素模型)對語音訓練數據量大小、系統(tǒng)識別率,以及靈活性有較大的影響。必須根據不同語言的特點、識別系統(tǒng)詞匯量的大小決定識別單元[10]的大小。以漢語為例:漢語按音素的發(fā)音特征分類分為輔音、單元音、復元音、復鼻尾音四種,按音節(jié)結構分類為聲母和韻母。并且由音素構成聲母或韻母。有時,將含有聲調的韻母稱為調母。由單個調母或由聲母與調母拼音成為音節(jié)。漢語的一個音節(jié)就是漢語一個字的音,即音節(jié)字。由音節(jié)字構成詞,最后再由詞構成句子。漢語聲母共有22個,其中包括零聲母,韻母共有38個。按音素分類,漢語輔音共有22個,單元音13個,復元音13個,復鼻尾音16個。目前常用的聲學模型基元為聲韻母、音節(jié)或詞,根據實現目的不同來選取不同的基元。漢語加上語氣詞共有412個音節(jié),包括輕音字,共有1282個有調音節(jié)字,所以當在小詞匯表孤立詞語音識別時常選用詞作為基元,在大詞匯表語音識別時常采用音節(jié)或聲韻母建模,而在連續(xù)語音識別時,由于協同發(fā)音的影響,常采用聲韻母建模?;诮y(tǒng)計的語音識別模型常用的就是HMM模型λ(N,M,π,A,B)[11],涉及到HMM模型的相關理論包括模型的結構選取、模型的初始化、模型參數的重估以及相應的識別算法等。語言模型與語言處理:語言模型包括由識別語音命令構成的語法網絡或由統(tǒng)計方法構成的語言模型,語言處理可以進行語法、語義分析。語言模型對中、大詞匯量的語音識別系統(tǒng)特別重要。當分類發(fā)生錯誤時可以根據語言學模型、語法結構、語義學模型進行判斷糾正,特別是一些同音字則必須通過上下文結構才能確定詞義。語言學理論包括語義結構、語法規(guī)則、語言的數學描述模型等有關方面。目前比較成功的語言模型通常是采用統(tǒng)計語法的語言模型和基于規(guī)則語法結構命令的語言模型。語法結構可以限定不同詞之間的相互連接關系,減少了識別系統(tǒng)的搜索空間,這有利于提高系統(tǒng)的識別。 第3章 倒譜系數分析原理在語音信號處理的實際應用中,很多場合需要根據語音信號反過來求解聲門信號或聲道沖激響應。這就需要在知道卷積結果的基礎上,利用“解卷”求得參與卷積的各個信號,同態(tài)處理是常用的解卷方法。由于語音信號進行同態(tài)分析后得到的是語音信號的倒譜參數,因此同態(tài)分析也叫倒譜分析[12]。對信號進行分析得出它的倒譜參數的過程稱為同態(tài)處理。對語音信號的某一幀同樣可分析出它的短時倒譜參數,總的說來,無論對于語音通信、語音合成或語音識別,倒譜參數所含的信息比其他參數多,也就是語音質量好,識別正確率高。但其缺點是運算量比其他參數大,盡管如此,倒譜分析方法仍不失為一種有效的語音信號的分析方法。在離散信號x(n)情況下,用z變換表示復倒譜,可以寫作 復倒譜可以利用同態(tài)系統(tǒng)中一種特定的特征系統(tǒng)來求得,如圖所示。為了區(qū)別于用一般方法所求得的頻譜(spectrum),將spectrum這一詞前半部(spec)字母順序顛倒即成cepstrum,根據詞形定名為倒譜。又因頻譜一般為復數譜,故稱為復倒譜。復倒譜的概念不是唯一的,一般有三種定義。定義如下:其中假設信號為x(n),則復倒譜的Z變換定義: (31) 復倒譜的傅里葉變換定義 (32) (33) (34)復倒譜的離散傅立葉變換定義 (35)ZlnZ1FTlnIFTDFTlnIDFTx(n)x(t)x(n)x(n)^x(n)ZT ln| |IZT ZT ln IZTc(n)x(n)可以將卷積信號轉變?yōu)槌朔e信號,而取對數運算可以將乘法轉化為加法,卷積同態(tài)處理正是采用這樣的一種思路,具體過程如下這里x1(n)和x2(n)分別為聲門激勵信號和聲道沖激響應序列:1 輸入信號 (36)2 Z變換 (37)3 取對數運算(38)4 逆Z變換 (39)5 為加性信號,經過線性系統(tǒng)的處理得到: (310)6 對作Z變換: (311)7 指數運算(312)8 逆Z變換 (313)步驟1~4稱作特征系統(tǒng),記為;6~8步驟稱為逆特征系統(tǒng),記為。我們稱其中的時域序列為信號序列的“復倒頻譜”,簡稱“復倒譜”,也叫對數復倒譜。即: (314)所在的時域被稱作復倒譜域。又注意到,有 。 (315)如果僅對實部作逆Z變換: (316)稱為“倒頻譜”,簡稱“倒譜”,也稱“倒頻”。值得注意的是,倒譜不能通過逆特征系統(tǒng)還原成自身,因為在計算中相位信息丟失了。在絕大多數的應用場合,特征系統(tǒng)和逆特征系統(tǒng)中的正反Z變換都可以用正反離散傅里葉變換來代替,此時倒譜的定義變?yōu)? (317) MFCC MFCC介紹梅爾頻率倒譜系數 (MelFrequency Cepstral Coefficients,MFCCs)就是組成梅爾頻率倒譜的系數。他們派生自音頻片段的倒譜(cepstrum)表示(a nonlinearspectrumofaspectrum)。倒譜和梅爾頻率倒譜的區(qū)別在于,梅爾頻率倒譜的頻帶劃分是在梅爾刻度上等距劃分的,它比用于正常的對數倒頻譜中的線性間隔的頻帶更能近似人類的聽覺系統(tǒng)。這種頻率彎曲可以更好的表示聲音,例如音頻壓縮 [13] 。同時梅爾頻率倒頻譜系數常利用在辨認語音技術上,例如辨認電話中說話的人的身份。 MFCC的原理 在語音識別和說話人識別中,常用的語音特征是基于Mel頻率的倒譜系數(mel frequency cepstrum coefficient,MFCC).由于MFCC參數是將人耳的聽覺感知特征和語音的產生機制相結合,因此目前大多數語音識別系統(tǒng)中廣泛使用這種特征。人的耳朵具有一些特殊的功能,這些功能使得人耳能夠從嘈雜的背景噪聲中,以及各種變異情況下聽到語音信息,這是因為人的內耳基礎膜對外來信號會產生調節(jié)作用。對不同的頻率,在相應的臨界帶寬內的信號會引起基礎膜上不同位置的振動。由此可用帶通濾波器組來模仿人耳聽覺,從而減少噪聲對語音的影響。耳蝸實質上相當于一個濾波器組,耳蝸的濾波作用是在對數頻率尺度上進行的,在1000Hz以下為線性尺度,而1000Hz以上為對數尺度,這就使得人耳對低頻信號比對高頻信號更敏感。根據這一原則,研究者根據心理學實驗得到了類似于耳蝸作用的一組濾波器組,就是Mel頻率濾波器組。對頻率軸的不均勻劃分是MFCC特征的特點。將頻率變換到Mel域后,Mel帶通濾波器組的中心頻率是按照Mel頻率刻度均勻排列的[13]。設語音信號的DFT為 。 (318)其中x(n)為輸入的語音信號, N表示傅立葉變換的點數。 Mel頻率倒譜系數提取過程人的聽覺系統(tǒng)是一個特殊的非線性系統(tǒng),它響應不同頻率信號的靈敏度是不同的,基本上是一個對數的關系。MFCC是一種能夠比較充分利用人耳感知特性的參數。MFCC和線性頻率的轉換關系如下: (319)MFCC參數是按幀計算的,其提取過程可以用框圖表示()。因為不同的說話人聲道具有區(qū)別于他人的特異性特征,所以在實際信號分析中常采用預加重技術,即在對信號取樣之后,插入一個一階的高通濾波器,這樣,就加強了聲道部分的特征,便于對聲道參數進行分析;Mel濾波的作用是利用同人耳聽覺特性相似的三角濾波器組對語音信號的幅度平方譜進行平滑;對數操作(lg)的用途至少有兩點,其一是壓縮語音譜的動態(tài)范圍,其二是將頻域中的乘性成分變成對數譜域中的加性成分,以便濾除乘性噪聲;離散余弦變換(DCT)主要用來對不同頻段的頻譜成份進行解相關處理,使得各向量之間相互獨立。DFT/FFT預加重、分幀、加窗Mel頻率濾波器組F(m) *s(n) *Log對數能量DCT求倒譜x(n) *X(k) *c(n) * MFCC參數提取基本流程 MFCC算法流程設某語音信號為x(n) ,則算法處理流程為1)預加重,其中k為預加重系數,;2)加窗(hamming窗),幀長為N;3)DFT變換;4)設計一個具有 M個帶通濾波器的濾波器組,采用三角濾波器,中心頻率從0~F/2之間按Mel頻率分布;5)計算每個濾波器組輸出的對數能量;6)求得 MFCC特征參數。 MATLAB中的設計與實現 采樣點與幅度 本次設計采用了漢明窗函數來對語音分幀,每幀的長度為256,步長為128,即每相鄰兩幀之間有半幀是重疊的。計算中利用了Matlab中漢明窗函數(hamming)。采用Matlab的語音分析工具箱VoiceBox,可以很容易地對語音進行分幀處理。其分幀函數調用為:f=enframe(X,hamming(256),128)。本文應用了24個三角形濾波器序列。除了提取MFCC參數外,為描述語音幀間的相關性,計算中引入了一階差分MFCC的特征參數,并且與MFCC參數一起構成語音的特征參數。 ,將信號幅度作為特征參數來區(qū)分不同的信號。由圖可知,信號幅值在15處上下波動,與此同時,隨著采樣點的增多,信號幅值的上下波動減小,可以預測,在無窮遠處,信號幅值將在15處固定不變。由于該信號為幅值不等、頻率不等的隨機信號,故在時間軸上幅值有負值。 維數與幅值差的關系:經過等時間間隔進行采樣,采樣頻率為8000HZ,取相鄰采樣點的幅值,并做一階差分,就可得到此圖。由仿真結果可知,隨著信號采樣點數量的增多,相鄰點幅值差不斷減小,可以預測,當采樣點取無窮多時,其相鄰幅值差必趨于零,這與實際理論以及客觀事實相符合,故該仿真結果良好。由于MFCC參數是對人耳聽覺特征的描述,因此,可以認為,不同聲紋的MFCC參數距離,能夠代表人耳對兩個語音聽覺上的差異,可以為聲紋的識別提供可靠的依據。用這些系數組成語音信號的特征矢量,就可以建立聲紋的模型參考集,進行聲紋識別。它的提取與一般倒譜的提取過程的差別就在于:MFCC模擬了人的聽覺特性,在其求解過程中,FFT的譜線在頻率軸上是不等間隔分布的,而在Mel頻率軸上是等間隔分布的,在有噪聲和頻譜變形的情況下,采用MFCC作為特征參數識別,其正確率比用LPC等作為特征參數有比較大的改善。 第4章 語音倒譜的應用表征一個人聲音個性的參數主要有反映聲道特性的共振峰頻率和反映聲門特性的基音參數。為了能夠提取出這些參數,就要借助一些工具,本節(jié)通過MATLAB完成倒譜在語音處理的各方面應用。本實驗所用的語音樣本是Cooledit在普通室內環(huán)境下錄制的一段語音,采樣頻率為8kHz,單聲道。MATLAB仿真結果如下:(程序見附錄A) ,第一幅是這段語音的時域波形圖,共取400點語音,在倒譜圖上會看到許多峰值,這些峰值都與基音周期有關,分別是一次諧振,二次諧振……同態(tài)信號處理也稱為同態(tài)濾波,實現將卷積關系和乘積關系變換為求和關系的分離處理,將非線性信號處理變?yōu)榫€性信號處理的過程。線性系統(tǒng)特征系統(tǒng)D*[]逆特征系統(tǒng)D*1[]y(n) *++x(n) *按照被處理的信號來分類,大體上可以分為乘積同態(tài)信號處理和卷積同態(tài)信號處理。由于語音信號可以視為聲門激勵信號和聲道響應信號的卷積結果。我們僅討論卷積同態(tài)信號處理系統(tǒng)的問題。(1)特征系統(tǒng)D*[] 完成將卷積信號轉化為加性信號的運算。 (41) (42) (43) (44)(2)第二個子系統(tǒng)對加性信號進行所需要的線性處理(滿足線性疊加原理等)
點擊復制文檔內容
數學相關推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1