freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于遺傳算法的混合高斯模型在與文本無關(guān)的_說話人識別中的應(yīng)用_碩士畢業(yè)設(shè)計(jì)論文(完整版)

2025-09-04 15:43上一頁面

下一頁面
  

【正文】 可分幀求取語音序列的LPC系數(shù)。非線性系統(tǒng)的分析非常困難。這時(shí)便成了加性信號了,最后還原即對求變換: (315)可把上述過程用圖 33表示如下: 圖 33卷積組合變?yōu)榫€性組合詳解圖所得結(jié)果稱為復(fù)倒譜: (316)其中的變換為:,可以表示為。于是 (320)當(dāng)我們在單位圓上計(jì)算上式時(shí),只在復(fù)對數(shù)的虛部中出現(xiàn)因它只攜帶時(shí)間原點(diǎn)的位置信息,討論是可以略去這一項(xiàng)。此時(shí)復(fù)倒譜和倒譜間的關(guān)系為: (325)若,則僅在單位圓外有極零點(diǎn),稱為最大相位信號。最后我們根據(jù)確保定義的唯一性(即避免相位卷繞)而強(qiáng)加的不同的約束條件,分析得出不同的復(fù)倒譜的求取方法:限制法:限制各倒譜分量的總相位在范圍之內(nèi),即。所以我們可以利用最小相位信號序列的復(fù)倒譜性質(zhì)和希爾伯特變換的性質(zhì)導(dǎo)出新的求解方法:的變換可寫成:,則。所以: (345)可得的結(jié)果: (346)因此只要先求出就可得其他的結(jié)果,根據(jù) (347)得: (348)注意4兩種求法中,當(dāng)為最大相位信號序列是,需要修改的分別如下: (349) (350)其中。根據(jù)Zwicker的工作,臨界帶寬隨著頻率的變化而變化,并與Mel頻率的增長一致,在1000Hz一以下,大致呈線性分布,帶寬為100Hz左右;在1000Hz以上呈對數(shù)增長。由于隱馬爾可夫模型本身的特點(diǎn),為了保證HMM計(jì)算的有效性和訓(xùn)練的可實(shí)現(xiàn)性,基本的HMM模型本身隱含了以下三個(gè)假設(shè):假設(shè)1:狀態(tài)轉(zhuǎn)移概率與觀測序列無關(guān),且具有時(shí)不變特性;假設(shè)2:狀態(tài)觀察概率密度函數(shù)與過去狀態(tài)無關(guān);假設(shè)3:狀態(tài)觀察概率密度函數(shù)與過去觀察無關(guān);由于語音是發(fā)音系統(tǒng)連續(xù)變化所產(chǎn)生的,具有很強(qiáng)的相關(guān)性,所以基本HMM的假設(shè)是不合理的。式中是指對說話人作平均。兩者之比體現(xiàn)了說話人的區(qū)分特征: (360)統(tǒng)計(jì)分析中的距離量度歐氏距離 (361)漢明距離 (362). 本章小結(jié)本章主要介紹了說話人識別的特征參數(shù),介紹并分析了各種說話人識別的特征參數(shù),包括基音頻率、線性預(yù)測編碼、復(fù)倒譜和倒譜、MEL倒譜和差值倒譜。本課題就是研究利用VQ技術(shù)進(jìn)行說話人識別,所以以下詳細(xì)介紹VQ技術(shù)及其在說話人識別中的應(yīng)用。為此,通常的做法是將所有要識別矢量的集合分成若干子集,各子集中的矢量有相似的特征,因而能用一個(gè)具有代表性的矢量來表示,完成這一任務(wù)的算法稱為“聚類算法”。在具體應(yīng)用中到底選擇哪種矢量則應(yīng)該根據(jù)所要達(dá)到的目標(biāo)而定。圖 42矢量量化系統(tǒng)框圖如果用表示X和Y之間的畸變,那么VQ的任務(wù)就是在給定R的條件下,使得此畸變的統(tǒng)計(jì)平均值D達(dá)到最小。一個(gè)VQ系統(tǒng)能否給出較低的D值從而具有較高的質(zhì)量,關(guān)鍵在于碼本的設(shè)計(jì)。設(shè)置畸變初值。第一,為了避免算法陷入死循環(huán),設(shè)置了和L兩個(gè)閾值參數(shù),的值設(shè)得遠(yuǎn)小于1,當(dāng)?shù)闹当刃r(shí),表明運(yùn)算畸變已經(jīng)很小,可停止計(jì)算。這樣每完成一次迭代計(jì)算,總畸變必然有所下降,因此這個(gè)算法是一種使總畸變單調(diào)下降的算法。依此類推,若(B為整數(shù)),只要進(jìn)行B次分裂可以得到M個(gè)子集。HMM模型的狀態(tài)是隱含的,可以觀察到的的是狀態(tài)產(chǎn)生的觀察值,因此稱為隱馬爾可夫模型(HMM)。這樣,可以記一個(gè)HMM為或簡寫為更形象地說,HMM可分為兩部分,一個(gè)是Markov鏈,由π、A描述,產(chǎn)生的輸出為狀態(tài)序列,另一個(gè)是一個(gè)隨機(jī)過程,由B描述,產(chǎn)生的輸出為觀察值序列。常用的量化方法有矢量量化(VQ),下面簡單介紹一下矢量量化技術(shù)。顯然,由(413)和(417)式定義的前向和后向變量,有:, (418)這里,求取λ,使最大。如何調(diào)整模型參數(shù)使得觀察值序列O出現(xiàn)的的概率最大對給定的觀察值序列和模型,如何獲得相應(yīng)的狀態(tài)轉(zhuǎn)移序列對以上三個(gè)問題的解決方法是前向―后向算法,BaumWelch算法和Viterbi算法:前向-后向算法:這個(gè)算法是用來計(jì)算給定一個(gè)觀察值序列以及一個(gè)模型時(shí),由模型λ產(chǎn)生出O的概率。通常認(rèn)為語音信號是一個(gè)短時(shí)平穩(wěn)的隨機(jī)過程,在10~30ms的短時(shí)段內(nèi),語音信號是平穩(wěn)的,而從整體來看,語音信號是時(shí)變的。記N個(gè)狀態(tài)為,記t時(shí)刻Markov鏈所處狀態(tài)為,顯然。第一類是歐氏距離準(zhǔn)則,這時(shí)兩個(gè)矢量X和Y之間的畸變或誤差用它們的歐氏距離的平方值來衡量,如下: (46)其中表示取一個(gè)矢量的模值。初始碼本的設(shè)置方法和畸變準(zhǔn)則的選擇:隨機(jī)初始碼本 最簡單的方法是從X的集合中隨意選出M個(gè)矢量作為初始碼本。第二,此算法的第(7)步完成的工作時(shí)以第(m1)形成的M個(gè)碼字為基準(zhǔn),將全部X的集合按照最鄰近準(zhǔn)則劃分為M個(gè)子集,其中。根據(jù)最近鄰原則將S分成M個(gè)子集,即當(dāng)時(shí),下式應(yīng)成立: (45)計(jì)算總畸變:計(jì)算畸變改進(jìn)量的相對值:計(jì)算新碼字: 判斷是否小于:若是,轉(zhuǎn)入13)執(zhí)行。,。為了實(shí)現(xiàn)這一目的,應(yīng)該遵循以下兩條原則。如無特別聲明,將始終約定X和的各個(gè)分量都是實(shí)數(shù)。其中特征矢量形成部分的作用是每輸入一幀語音采樣信號(若幀長為N,則可表示為),則輸出一個(gè)與之相 對應(yīng)的特征矢量X,若其維數(shù)為K,則。第一,該理論指出,對于一定的量化速率R(用比特/采樣表示),量化畸變D(以量化信號與原信號之間的誤差均方值和原信號均方值之比來衡量)是一定的。第4章 說話人識別的識別方法第4章 說話人識別的識別方法. 引言1983年K. Li 和E. Wrench[15]和1985年F. K. Soong、A. E. Rosenberg、L. R. Rabiner和B. H. Juang[12]把矢量量化方法從語音識別中移至說話人識別并成為當(dāng)時(shí)與文本無關(guān)說話人識別的基準(zhǔn)方法、隨后出現(xiàn)經(jīng)典的統(tǒng)計(jì)形式的識別方法:1988年J. B. Attilli的貝葉斯辨別分析[16]和1993年A. L. Higgins、. Bahler和J. E. Porter的最近鄰分類器[17]、接著有各種人工神經(jīng)網(wǎng)絡(luò)(ANN)方法:1990年J. Oglesby和J. S. Mason的多層感知器(MLP)[18]、1990年Y. Bennani和P. Galllinari的學(xué)習(xí)矢量量化(LVQ)[21]、1991年J. Oglesby和J. S. Mason的放射狀基函數(shù)(RBF)[20]和1991年Y. Bennani和P. Galllinari的時(shí)延神經(jīng)網(wǎng)絡(luò)(TDNN)[19]、在這期間提出了利用說話人識別模型來進(jìn)行說話人識別:1990年M. Savic和S. K. Gupta[22]和1991年N. Z. Tishby[23]的離散隱馬爾可夫模型(DHMM)、1991年A. E. Rosenberg、C. H. Lee和S. Gokeen[24]的連續(xù)密度的隱馬爾可夫模型(CDHMM)和1990年R. C. Rose和D. A. Reynolds[25]的高斯混合模型(GMM)。是第個(gè)說話人的各次特征的估計(jì)平均值?;綡MM的三個(gè)假設(shè),尤其是假設(shè)2,導(dǎo)致HMM不能保證語音的軌跡信息,容易產(chǎn)生軌跡折疊的現(xiàn)象,使HMM在復(fù)雜的上下文環(huán)境中鑒別能力不高。本實(shí)驗(yàn)的臨界帶通濾波器的個(gè)數(shù)D=14,所覆蓋的最高頻率為4KHz,MFCC參數(shù)的具體計(jì)算過程可以參考圖 36,其中m為幀標(biāo)號,N為一幀內(nèi)的采樣點(diǎn)數(shù)。將式(352)代入式(351),并兩邊對求導(dǎo),得 b (353)即 b (354)將上式左側(cè)的分布移到右側(cè),并令兩側(cè)的同冪項(xiàng)系數(shù)相等,可得 (355)根據(jù)上式即可由LPC系數(shù)推導(dǎo)出倒譜系數(shù),這樣的倒譜稱為LPC倒譜。再由希爾伯特變換的任一因果序列都可分解為偶對稱分量和奇對稱分量之和可知:。所以這不是解決相位卷繞的有效方法。則其變換為: (328)兩邊取對數(shù)并用泰勒公式展開如下: (329)根據(jù),且兩邊恒等。則為 (323)根據(jù)上述結(jié)果可得復(fù)倒譜的性質(zhì):復(fù)倒譜總是一個(gè)無限長的序列。為確保定義的唯一性,通常要用上約束條件,不同的約束條件將產(chǎn)生不同的結(jié)果,后面將作具體的展開。而非線性信號中有乘積組合和卷積組合。其中主要有杜賓(Durbin)算法、格型算法和舒爾遞推算法(Schur)。其穩(wěn)態(tài)系統(tǒng)響應(yīng)函數(shù)為: (32)現(xiàn)在對這個(gè)模型在加以一些限制以便于得到一種高效的求解算法。另一方面,為了克服聲道的共振峰特性的干擾,可以對語音信號進(jìn)行非線性變換后再求自相關(guān)函數(shù)。語音按其發(fā)生方式分為清音和濁音。其缺點(diǎn)是訓(xùn)練時(shí)間長,動態(tài)時(shí)間規(guī)整能力弱,網(wǎng)絡(luò)規(guī)模隨說話人數(shù)目增加時(shí)可能大到難以訓(xùn)練的程度。這種方法的識別精度較高,且判斷速度快。這些方法大體可歸為下述幾種:概率統(tǒng)計(jì)方法語音中說話人信息在短時(shí)內(nèi)較為平穩(wěn),通過對穩(wěn)態(tài)特征如基音、聲門增益、低階反射系數(shù)的統(tǒng)計(jì)分析,可以利用均值、方差等統(tǒng)計(jì)量和概率密度函數(shù)進(jìn)行分類判決。提取的特征應(yīng)能有效地區(qū)分不同地說話人,并且對同一說話人保持相對穩(wěn)定。分幀一般要采用交疊分段的方法,這是為了使得幀與幀之間平滑過渡,保持其連續(xù)性。為了從帶噪聲的語音信號中獲得盡可能純凈的語音信號,減少噪音的干擾,就需要進(jìn)行語音增強(qiáng)。[40]發(fā)現(xiàn)語音段的熵與噪聲段有明顯不同,將熵作為端點(diǎn)檢測的參數(shù)。研究表明[33],即使在安靜的環(huán)境下,語音識別系統(tǒng)一半以上的錯(cuò)誤來自端點(diǎn)檢測。在訓(xùn)練階段,系統(tǒng)的每一說話人說出若干訓(xùn)練語料,系統(tǒng)根據(jù)這些訓(xùn)練語料,通過訓(xùn)練學(xué)習(xí)建立每個(gè)使用者的模板或模型參數(shù)參考集。但語音又可以分割成可辨別的基本語音單位,即音素,且這樣的音素是有限的。激勵(lì)源分清音和濁音兩個(gè)分支。當(dāng)小舌下垂時(shí),鼻道與聲道發(fā)生耦合而產(chǎn)生語音中的鼻音。此外,在進(jìn)行自動說話人識別時(shí),按被輸入的識別用測試語音來分,還可將說話人識別分為三類,即與文本無關(guān)(TextIndependent)、與文本有關(guān)(TextDependent)和文本指定型(Textdepend)。簡單介紹了各種噪聲處理的方法和端點(diǎn)檢測方法,其中包括利用三電平和應(yīng)用信噪比進(jìn)行端點(diǎn)檢測的方法?,F(xiàn)有的說話人識別系統(tǒng)還不能很好解決由時(shí)間、特別是病變引起的說話人特征變化帶來的問題。實(shí)際環(huán)境下的說話人識別系統(tǒng)性能還很有待提高實(shí)際環(huán)境中,噪聲和干擾遠(yuǎn)比實(shí)驗(yàn)室環(huán)境來的復(fù)雜,目前的常用降噪算法對平穩(wěn)噪聲能夠取得較好的效果,對非平穩(wěn)噪聲的降噪效果往往效果不佳,如何有效地針對實(shí)際環(huán)境,去除各種加性噪聲和乘性噪聲的干擾,是噪聲環(huán)境下說話人識別面臨的問題;目前常用的降噪算法都是基于語音識別的,這些算法雖然有效地提高了信噪比,卻往往丟失了說話人的特征。一方面,實(shí)驗(yàn)室條件較少考慮到噪聲的問題,而在實(shí)際應(yīng)用中,噪聲是不可避免的,尤其在一些特殊應(yīng)用中,如犯罪現(xiàn)場錄制的犯罪嫌疑人的聲音不可能很清晰;又如Internet信息服務(wù)中,聲音在通過通訊線路的傳播時(shí)不可避免的會引入噪聲。混合高斯模型(Gaussian Mixture Model:GMM)[28][29]和隱馬爾科夫模型(Hidden Markov Models:HMM)也逐漸應(yīng)用于說話人識別中[30][31][32]。. 說話人識別的國內(nèi)外發(fā)展現(xiàn)狀和存在問題. 說話人識別的發(fā)展和現(xiàn)狀隨著社會、軍事以及安全等領(lǐng)域需求的增長,美國、日本、歐洲等一些發(fā)達(dá)國家都相繼加強(qiáng)了說話人識別的研究工作,我國一些高校和研究機(jī)構(gòu)也對說話人識別進(jìn)行了深入研究,并取得了一定的成果。前者是把待測說話人的語音判定為屬于語音庫中多個(gè)參考人之中的某一個(gè),是多者擇一的問題。. Kesta用目視觀察語譜圖的方法進(jìn)行識別,提出了聲紋 (voiceprint) 的概念。日本警方研究人員經(jīng)過長期研究表明說話人識別可以作為可信的法庭證據(jù)。語音是人的自然屬性之一,由于各個(gè)說話人發(fā)音器官的生理差異以及后天形成的行為差異,每個(gè)人的語音都帶有強(qiáng)烈的個(gè)人色彩。在模型的初始化方面,方法一利用最大似然估計(jì)算法對模型進(jìn)行初始化;方法二利用時(shí)間規(guī)整化方法對語音進(jìn)行預(yù)先處理,用聚類后的語音對高斯模型的各成員密度函數(shù)分別進(jìn)行初始化和訓(xùn)練。東 南 大 學(xué)碩 士 學(xué) 位 論 文基于遺傳算法的混合高斯模型在與文本無關(guān)的說話人識別中的應(yīng)用Textindependent Speaker Recognition using GMM based on Genetic AlgorithmA Dissertation Submitted toSoutheast UniversityFor the Academic Degree of MasterBY Supervised by Department of Radio EngineeringSoutheast UniversityJanuary 2007獨(dú)創(chuàng)性聲明東 南 大 學(xué) 學(xué) 位 論 文 獨(dú) 創(chuàng) 性 聲 明本人聲明所呈交的學(xué)位論文是我個(gè)人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果。研究生簽名: 導(dǎo)師簽名: 日 期: 目錄摘 要基于遺傳算法的混合高斯模型在與文本無關(guān)的說話人識別中的應(yīng)用本文主要從說話人識別模型的初始化、訓(xùn)練和判別方法以及語音的端點(diǎn)
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報(bào)告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1