freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于倒譜的大學(xué)生語(yǔ)音識(shí)別算法研究畢業(yè)論文(編輯修改稿)

2025-07-16 12:45 本頁(yè)面
 

【文章內(nèi)容簡(jiǎn)介】 識(shí)別無(wú)關(guān)的冗余信息,獲得影響語(yǔ)音識(shí)別的重要信息,同時(shí)對(duì)語(yǔ)音信號(hào)進(jìn)行壓縮。在實(shí)際應(yīng)用中,語(yǔ)音信號(hào)的壓縮率介于10100之間。語(yǔ)音信號(hào)包含了大量各種不同的信息,提取哪些信息,用哪種方式提取,需要綜合考慮各方面的因素,如成本,性能,響應(yīng)時(shí)間,計(jì)算量等。非特定人語(yǔ)音識(shí)別系統(tǒng)一般側(cè)重提取反映語(yǔ)義的特征參數(shù),盡量去除說話人的個(gè)人信息;而特定人語(yǔ)音識(shí)別系統(tǒng)則希望在提取反映語(yǔ)義的特征參數(shù)的同時(shí),盡量也包含說話人的個(gè)人信息[9]。線性預(yù)測(cè)(LP)分析技術(shù)是目前應(yīng)用最廣泛的特征參數(shù)提取技術(shù),許多成功的應(yīng)用系統(tǒng)都采用基于LP技術(shù)提取的倒譜參數(shù)。但線性預(yù)測(cè)模型是純數(shù)學(xué)模型,沒有考慮人類聽覺系統(tǒng)對(duì)語(yǔ)音的處理特點(diǎn)。Mel參數(shù)和基于感知線性預(yù)測(cè)(PLP)分析提取的感知線性預(yù)測(cè)倒譜,在一定程度上模擬了人耳對(duì)語(yǔ)音的處理特點(diǎn),應(yīng)用了人耳聽覺感知方面的一些研究成果。實(shí)驗(yàn)證明,采用這種技術(shù),語(yǔ)音識(shí)別系統(tǒng)的性能有很大提高。從目前使用的情況來(lái)看,梅爾刻度式倒頻譜參數(shù)已逐漸取代原本常用的線性預(yù)測(cè)編碼導(dǎo)出的倒頻譜參數(shù),原因是它考慮了人類發(fā)聲與接收聲音的特性,具有更好的魯棒性(Robustness)。也有研究者嘗試把小波分析技術(shù)應(yīng)用于特征提取,但目前性能難以與上述技術(shù)相比,有待進(jìn)一步研究。聲學(xué)模型與模式匹配:聲學(xué)模型通常是將獲取的語(yǔ)音特征使用訓(xùn)練算法進(jìn)行訓(xùn)練后產(chǎn)生。在識(shí)別時(shí)將輸入的語(yǔ)音特征同聲學(xué)模型(模式)進(jìn)行匹配與比較,得到最佳的識(shí)別結(jié)果。聲學(xué)模型是識(shí)別系統(tǒng)的底層模型,并且是語(yǔ)音識(shí)別系統(tǒng)中最關(guān)鍵的一部分。聲學(xué)模型的目的是提供一種有效的方法計(jì)算語(yǔ)音的特征矢量序列和每個(gè)發(fā)音模板之間的距離。聲學(xué)模型的設(shè)計(jì)和語(yǔ)言發(fā)音特點(diǎn)密切相關(guān)。聲學(xué)模型單元大?。ㄗ职l(fā)音模型、半音節(jié)模型或音素模型)對(duì)語(yǔ)音訓(xùn)練數(shù)據(jù)量大小、系統(tǒng)識(shí)別率,以及靈活性有較大的影響。必須根據(jù)不同語(yǔ)言的特點(diǎn)、識(shí)別系統(tǒng)詞匯量的大小決定識(shí)別單元[10]的大小。以漢語(yǔ)為例:漢語(yǔ)按音素的發(fā)音特征分類分為輔音、單元音、復(fù)元音、復(fù)鼻尾音四種,按音節(jié)結(jié)構(gòu)分類為聲母和韻母。并且由音素構(gòu)成聲母或韻母。有時(shí),將含有聲調(diào)的韻母稱為調(diào)母。由單個(gè)調(diào)母或由聲母與調(diào)母拼音成為音節(jié)。漢語(yǔ)的一個(gè)音節(jié)就是漢語(yǔ)一個(gè)字的音,即音節(jié)字。由音節(jié)字構(gòu)成詞,最后再由詞構(gòu)成句子。漢語(yǔ)聲母共有22個(gè),其中包括零聲母,韻母共有38個(gè)。按音素分類,漢語(yǔ)輔音共有22個(gè),單元音13個(gè),復(fù)元音13個(gè),復(fù)鼻尾音16個(gè)。目前常用的聲學(xué)模型基元為聲韻母、音節(jié)或詞,根據(jù)實(shí)現(xiàn)目的不同來(lái)選取不同的基元。漢語(yǔ)加上語(yǔ)氣詞共有412個(gè)音節(jié),包括輕音字,共有1282個(gè)有調(diào)音節(jié)字,所以當(dāng)在小詞匯表孤立詞語(yǔ)音識(shí)別時(shí)常選用詞作為基元,在大詞匯表語(yǔ)音識(shí)別時(shí)常采用音節(jié)或聲韻母建模,而在連續(xù)語(yǔ)音識(shí)別時(shí),由于協(xié)同發(fā)音的影響,常采用聲韻母建模?;诮y(tǒng)計(jì)的語(yǔ)音識(shí)別模型常用的就是HMM模型λ(N,M,π,A,B)[11],涉及到HMM模型的相關(guān)理論包括模型的結(jié)構(gòu)選取、模型的初始化、模型參數(shù)的重估以及相應(yīng)的識(shí)別算法等。語(yǔ)言模型與語(yǔ)言處理:語(yǔ)言模型包括由識(shí)別語(yǔ)音命令構(gòu)成的語(yǔ)法網(wǎng)絡(luò)或由統(tǒng)計(jì)方法構(gòu)成的語(yǔ)言模型,語(yǔ)言處理可以進(jìn)行語(yǔ)法、語(yǔ)義分析。語(yǔ)言模型對(duì)中、大詞匯量的語(yǔ)音識(shí)別系統(tǒng)特別重要。當(dāng)分類發(fā)生錯(cuò)誤時(shí)可以根據(jù)語(yǔ)言學(xué)模型、語(yǔ)法結(jié)構(gòu)、語(yǔ)義學(xué)模型進(jìn)行判斷糾正,特別是一些同音字則必須通過上下文結(jié)構(gòu)才能確定詞義。語(yǔ)言學(xué)理論包括語(yǔ)義結(jié)構(gòu)、語(yǔ)法規(guī)則、語(yǔ)言的數(shù)學(xué)描述模型等有關(guān)方面。目前比較成功的語(yǔ)言模型通常是采用統(tǒng)計(jì)語(yǔ)法的語(yǔ)言模型和基于規(guī)則語(yǔ)法結(jié)構(gòu)命令的語(yǔ)言模型。語(yǔ)法結(jié)構(gòu)可以限定不同詞之間的相互連接關(guān)系,減少了識(shí)別系統(tǒng)的搜索空間,這有利于提高系統(tǒng)的識(shí)別。 第3章 倒譜系數(shù)分析原理在語(yǔ)音信號(hào)處理的實(shí)際應(yīng)用中,很多場(chǎng)合需要根據(jù)語(yǔ)音信號(hào)反過來(lái)求解聲門信號(hào)或聲道沖激響應(yīng)。這就需要在知道卷積結(jié)果的基礎(chǔ)上,利用“解卷”求得參與卷積的各個(gè)信號(hào),同態(tài)處理是常用的解卷方法。由于語(yǔ)音信號(hào)進(jìn)行同態(tài)分析后得到的是語(yǔ)音信號(hào)的倒譜參數(shù),因此同態(tài)分析也叫倒譜分析[12]。對(duì)信號(hào)進(jìn)行分析得出它的倒譜參數(shù)的過程稱為同態(tài)處理。對(duì)語(yǔ)音信號(hào)的某一幀同樣可分析出它的短時(shí)倒譜參數(shù),總的說來(lái),無(wú)論對(duì)于語(yǔ)音通信、語(yǔ)音合成或語(yǔ)音識(shí)別,倒譜參數(shù)所含的信息比其他參數(shù)多,也就是語(yǔ)音質(zhì)量好,識(shí)別正確率高。但其缺點(diǎn)是運(yùn)算量比其他參數(shù)大,盡管如此,倒譜分析方法仍不失為一種有效的語(yǔ)音信號(hào)的分析方法。在離散信號(hào)x(n)情況下,用z變換表示復(fù)倒譜,可以寫作 復(fù)倒譜可以利用同態(tài)系統(tǒng)中一種特定的特征系統(tǒng)來(lái)求得,如圖所示。為了區(qū)別于用一般方法所求得的頻譜(spectrum),將spectrum這一詞前半部(spec)字母順序顛倒即成cepstrum,根據(jù)詞形定名為倒譜。又因頻譜一般為復(fù)數(shù)譜,故稱為復(fù)倒譜。復(fù)倒譜的概念不是唯一的,一般有三種定義。定義如下:其中假設(shè)信號(hào)為x(n),則復(fù)倒譜的Z變換定義: (31) 復(fù)倒譜的傅里葉變換定義 (32) (33) (34)復(fù)倒譜的離散傅立葉變換定義 (35)ZlnZ1FTlnIFTDFTlnIDFTx(n)x(t)x(n)x(n)^x(n)ZT ln| |IZT ZT ln IZTc(n)x(n)可以將卷積信號(hào)轉(zhuǎn)變?yōu)槌朔e信號(hào),而取對(duì)數(shù)運(yùn)算可以將乘法轉(zhuǎn)化為加法,卷積同態(tài)處理正是采用這樣的一種思路,具體過程如下這里x1(n)和x2(n)分別為聲門激勵(lì)信號(hào)和聲道沖激響應(yīng)序列:1 輸入信號(hào) (36)2 Z變換 (37)3 取對(duì)數(shù)運(yùn)算(38)4 逆Z變換 (39)5 為加性信號(hào),經(jīng)過線性系統(tǒng)的處理得到: (310)6 對(duì)作Z變換: (311)7 指數(shù)運(yùn)算(312)8 逆Z變換 (313)步驟1~4稱作特征系統(tǒng),記為;6~8步驟稱為逆特征系統(tǒng),記為。我們稱其中的時(shí)域序列為信號(hào)序列的“復(fù)倒頻譜”,簡(jiǎn)稱“復(fù)倒譜”,也叫對(duì)數(shù)復(fù)倒譜。即: (314)所在的時(shí)域被稱作復(fù)倒譜域。又注意到,有 。 (315)如果僅對(duì)實(shí)部作逆Z變換: (316)稱為“倒頻譜”,簡(jiǎn)稱“倒譜”,也稱“倒頻”。值得注意的是,倒譜不能通過逆特征系統(tǒng)還原成自身,因?yàn)樵谟?jì)算中相位信息丟失了。在絕大多數(shù)的應(yīng)用場(chǎng)合,特征系統(tǒng)和逆特征系統(tǒng)中的正反Z變換都可以用正反離散傅里葉變換來(lái)代替,此時(shí)倒譜的定義變?yōu)? (317) MFCC MFCC介紹梅爾頻率倒譜系數(shù) (MelFrequency Cepstral Coefficients,MFCCs)就是組成梅爾頻率倒譜的系數(shù)。他們派生自音頻片段的倒譜(cepstrum)表示(a nonlinearspectrumofaspectrum)。倒譜和梅爾頻率倒譜的區(qū)別在于,梅爾頻率倒譜的頻帶劃分是在梅爾刻度上等距劃分的,它比用于正常的對(duì)數(shù)倒頻譜中的線性間隔的頻帶更能近似人類的聽覺系統(tǒng)。這種頻率彎曲可以更好的表示聲音,例如音頻壓縮 [13] 。同時(shí)梅爾頻率倒頻譜系數(shù)常利用在辨認(rèn)語(yǔ)音技術(shù)上,例如辨認(rèn)電話中說話的人的身份。 MFCC的原理 在語(yǔ)音識(shí)別和說話人識(shí)別中,常用的語(yǔ)音特征是基于Mel頻率的倒譜系數(shù)(mel frequency cepstrum coefficient,MFCC).由于MFCC參數(shù)是將人耳的聽覺感知特征和語(yǔ)音的產(chǎn)生機(jī)制相結(jié)合,因此目前大多數(shù)語(yǔ)音識(shí)別系統(tǒng)中廣泛使用這種特征。人的耳朵具有一些特殊的功能,這些功能使得人耳能夠從嘈雜的背景噪聲中,以及各種變異情況下聽到語(yǔ)音信息,這是因?yàn)槿说膬?nèi)耳基礎(chǔ)膜對(duì)外來(lái)信號(hào)會(huì)產(chǎn)生調(diào)節(jié)作用。對(duì)不同的頻率,在相應(yīng)的臨界帶寬內(nèi)的信號(hào)會(huì)引起基礎(chǔ)膜上不同位置的振動(dòng)。由此可用帶通濾波器組來(lái)模仿人耳聽覺,從而減少噪聲對(duì)語(yǔ)音的影響。耳蝸實(shí)質(zhì)上相當(dāng)于一個(gè)濾波器組,耳蝸的濾波作用是在對(duì)數(shù)頻率尺度上進(jìn)行的,在1000Hz以下為線性尺度,而1000Hz以上為對(duì)數(shù)尺度,這就使得人耳對(duì)低頻信號(hào)比對(duì)高頻信號(hào)更敏感。根據(jù)這一原則,研究者根據(jù)心理學(xué)實(shí)驗(yàn)得到了類似于耳蝸?zhàn)饔玫囊唤M濾波器組,就是Mel頻率濾波器組。對(duì)頻率軸的不均勻劃分是MFCC特征的特點(diǎn)。將頻率變換到Mel域后,Mel帶通濾波器組的中心頻率是按照Mel頻率刻度均勻排列的[13]。設(shè)語(yǔ)音信號(hào)的DFT為 。 (318)其中x(n)為輸入的語(yǔ)音信號(hào), N表示傅立葉變換的點(diǎn)數(shù)。 Mel頻率倒譜系數(shù)提取過程人的聽覺系統(tǒng)是一個(gè)特殊的非線性系統(tǒng),它響應(yīng)不同頻率信號(hào)的靈敏度是不同的,基本上是一個(gè)對(duì)數(shù)的關(guān)系。MFCC是一種能夠比較充分利用人耳感知特性的參數(shù)。MFCC和線性頻率的轉(zhuǎn)換關(guān)系如下: (319)MFCC參數(shù)是按幀計(jì)算的,其提取過程可以用框圖表示()。因?yàn)椴煌恼f話人聲道具有區(qū)別于他人的特異性特征,所以在實(shí)際信號(hào)分析中常采用預(yù)加重技術(shù),即在對(duì)信號(hào)取樣之后,插入一個(gè)一階的高通濾波器,這樣,就加強(qiáng)了聲道部分的特征,便于對(duì)聲道參數(shù)進(jìn)行分析;Mel濾波的作用是利用同人耳聽覺特性相似的三角濾波器組對(duì)語(yǔ)音信號(hào)的幅度平方譜進(jìn)行平滑;對(duì)數(shù)操作(lg)的用途至少有兩點(diǎn),其一是壓縮語(yǔ)音譜的動(dòng)態(tài)范圍,其二是將頻域中的乘性成分變成對(duì)數(shù)譜域中的加性成分,以便濾除乘性噪聲;離散余弦變換(DCT)主要用來(lái)對(duì)不同頻段的頻譜成份進(jìn)行解相關(guān)處理,使得各向量之間相互獨(dú)立。DFT/FFT預(yù)加重、分幀、加窗Mel頻率濾波器組F(m) *s(n) *Log對(duì)數(shù)能量DCT求倒譜x(n) *X(k) *c(n) * MFCC參數(shù)提取基本流程 MFCC算法流程設(shè)某語(yǔ)音信號(hào)為x(n) ,則算法處理流程為1)預(yù)加重,其中k為預(yù)加重系數(shù),;2)加窗(hamming窗),幀長(zhǎng)為N;3)DFT變換;4)設(shè)計(jì)一個(gè)具有 M個(gè)帶通濾波器的濾波器組,采用三角濾波器,中心頻率從0~F/2之間按Mel頻率分布;5)計(jì)算每個(gè)濾波器組輸出的對(duì)數(shù)能量;6)求得 MFCC特征參數(shù)。 MATLAB中的設(shè)計(jì)與實(shí)現(xiàn) 采樣點(diǎn)與幅度 本次設(shè)計(jì)采用了漢明窗函數(shù)來(lái)對(duì)語(yǔ)音分幀,每幀的長(zhǎng)度為256,步長(zhǎng)為128,即每相鄰兩幀之間有半幀是重疊的。計(jì)算中利用了Matlab中漢明窗函數(shù)(hamming)。采用Matlab的語(yǔ)音分析工具箱VoiceBox,可以很容易地對(duì)語(yǔ)音進(jìn)行分幀處理。其分幀函數(shù)調(diào)用為:f=enframe(X,hamming(256),128)。本文應(yīng)用了24個(gè)三角形濾波器序列。除了提取MFCC參數(shù)外,為描述語(yǔ)音幀間的相關(guān)性,計(jì)算中引入了一階差分MFCC的特征參數(shù),并且與MFCC參數(shù)一起構(gòu)成語(yǔ)音的特征參數(shù)。 ,將信號(hào)幅度作為特征參數(shù)來(lái)區(qū)分不同的信號(hào)。由圖可知,信號(hào)幅值在15處上下波動(dòng),與此同時(shí),隨著采樣點(diǎn)的增多,信號(hào)幅值的上下波動(dòng)減小,可以預(yù)測(cè),在無(wú)窮遠(yuǎn)處,信號(hào)幅值將在15處固定不變。由于該信號(hào)為幅值不等、頻率不等的隨機(jī)信號(hào),故在時(shí)間軸上幅值有負(fù)值。 維數(shù)與幅值差的關(guān)系:經(jīng)過等時(shí)間間隔進(jìn)行采樣,采樣頻率為8000HZ,取相鄰采樣點(diǎn)的幅值,并做一階差分,就可得到此圖。由仿真結(jié)果可知,隨著信號(hào)采樣點(diǎn)數(shù)量的增多,相鄰點(diǎn)幅值差不斷減小,可以預(yù)測(cè),當(dāng)采樣點(diǎn)取無(wú)窮多時(shí),其相鄰幅值差必趨于零,這與實(shí)際理論以及客觀事實(shí)相符合,故該仿真結(jié)果良好。由于MFCC參數(shù)是對(duì)人耳聽覺特征的描述,因此,可以認(rèn)為,不同聲紋的MFCC參數(shù)距離,能夠代表人耳對(duì)兩個(gè)語(yǔ)音聽覺上的差異,可以為聲紋的識(shí)別提供可靠的依據(jù)。用這些系數(shù)組成語(yǔ)音信號(hào)的特征矢量,就可以建立聲紋的模型參考集,進(jìn)行聲紋識(shí)別。它的提取與一般倒譜的提取過程的差別就在于:MFCC模擬了人的聽覺特性,在其求解過程中,F(xiàn)FT的譜線在頻率軸上是不等間隔分布的,而在Mel頻率軸上是等間隔分布的,在有噪聲和頻譜變形的情況下,采用MFCC作為特征參數(shù)識(shí)別,其正確率比用LPC等作為特征參數(shù)有比較大的改善。 第4章 語(yǔ)音倒譜的應(yīng)用表征一個(gè)人聲音個(gè)性的參數(shù)主要有反映聲道特性的共振峰頻率和反映聲門特性的基音參數(shù)。為了能夠提取出這些參數(shù),就要借助一些工具,本節(jié)通過MATLAB完成倒譜在語(yǔ)音處理的各方面應(yīng)用。本實(shí)驗(yàn)所用的語(yǔ)音樣本是Cooledit在普通室內(nèi)環(huán)境下錄制的一段語(yǔ)音,采樣頻率為8kHz,單聲道。MATLAB仿真結(jié)果如下:(程序見附錄A) ,第一幅是這段語(yǔ)音的時(shí)域波形圖,共取400點(diǎn)語(yǔ)音,在倒譜圖上會(huì)看到許多峰值,這些峰值都與基音周期有關(guān),分別是一次諧振,二次諧振……同態(tài)信號(hào)處理也稱為同態(tài)濾波,實(shí)現(xiàn)將卷積關(guān)系和乘積關(guān)系變換為求和關(guān)系的分離處理,將非線性信號(hào)處理變?yōu)榫€性信號(hào)處理的過程。線性系統(tǒng)特征系統(tǒng)D*[]逆特征系統(tǒng)D*1[]y(n) *++x(n) *按照被處理的信號(hào)來(lái)分類,大體上可以分為乘積同態(tài)信號(hào)處理和卷積同態(tài)信號(hào)處理。由于語(yǔ)音信號(hào)可以視為聲門激勵(lì)信號(hào)和聲道響應(yīng)信號(hào)的卷積結(jié)果。我們僅討論卷積同態(tài)信號(hào)處理系統(tǒng)的問題。(1)特征系統(tǒng)D*[] 完成將卷積信號(hào)轉(zhuǎn)化為加性信號(hào)的運(yùn)算。 (41) (42) (43) (44)(2)第二個(gè)子系統(tǒng)對(duì)加性信號(hào)進(jìn)行所需要的線性處理(滿足線性疊加原理等)
點(diǎn)擊復(fù)制文檔內(nèi)容
數(shù)學(xué)相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1