freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于遺傳算法的混合高斯模型在與文本無關(guān)的_說話人識(shí)別中的應(yīng)用_碩士畢業(yè)設(shè)計(jì)論文-文庫吧

2025-06-11 15:43 本頁面


【正文】 是一個(gè)既有巨大吸引力而又有相當(dāng)難度的課題。說話人識(shí)別又可以劃分為兩個(gè)范疇,即說話人辨認(rèn)(Speaker Identification)和說話人確認(rèn)(Speaker Verification)。前者是把待測(cè)說話人的語音判定為屬于語音庫中多個(gè)參考人之中的某一個(gè),是多者擇一的問題。后者則是根據(jù)待測(cè)說話人的語音,確定是否與其所聲稱的參考說話人相符,這種確認(rèn)只有兩個(gè)結(jié)果,或是肯定(即得到確認(rèn)),或是否定(拒絕承認(rèn))。另外對(duì)于說話人認(rèn)識(shí)別來說,不管是辨認(rèn)還是確認(rèn),都可以按照話語的文本可分為與文本有關(guān)(TexDependent)的說話人識(shí)別和與文本無關(guān)(TextIndependent)的說話人識(shí)別。其中與文本有關(guān)話者識(shí)別可以采用很多方法。由于已知文本,提供了大量的信息,因此這些方法能獲得較好的效果。然而,對(duì)于用戶來說固定的文本可能很不方便。而且,當(dāng)說話人不合作或在日常會(huì)議中進(jìn)行確認(rèn)時(shí)與文本有關(guān)的話者識(shí)別就不起作用。為了避免這個(gè)問題,發(fā)展與文本無關(guān)的話者識(shí)別方法顯得尤為重要。. 說話人識(shí)別的國內(nèi)外發(fā)展現(xiàn)狀和存在問題. 說話人識(shí)別的發(fā)展和現(xiàn)狀隨著社會(huì)、軍事以及安全等領(lǐng)域需求的增長(zhǎng),美國、日本、歐洲等一些發(fā)達(dá)國家都相繼加強(qiáng)了說話人識(shí)別的研究工作,我國一些高校和研究機(jī)構(gòu)也對(duì)說話人識(shí)別進(jìn)行了深入研究,并取得了一定的成果。在說話人識(shí)別的特征參數(shù)提取方面,[2][3]提出了用短時(shí)譜中的信息作為說話人特征;[4]采用基音頻率、[5]采用共振峰頻率、[6]用線性預(yù)測(cè)系數(shù)(LPC)、[7]、[8][9]從元音和鼻音中提取出較好的說話人特征、[10]通過比較各種參數(shù)得出倒譜系數(shù)為說話人識(shí)別提供最好的結(jié)果,倒譜成為說話人識(shí)別系統(tǒng)的首選參數(shù);1983年Li and Wrench采用LPC倒譜參數(shù)[11]、1995年Reynolds等人[12][13]采用了Mel倒譜,取得了較好的效果,Attili[14]于1988年采用倒譜、LPC系數(shù)和自相關(guān)系數(shù)作為特征參數(shù)獲得了很好的效果,從而使得倒譜參數(shù)與其他特征參數(shù)相組合的研究成為了說話人識(shí)別參數(shù)提取的研究熱點(diǎn)[15][16][17][18];1996年Colombi[15]將倒譜、差分倒譜相結(jié)合作為混合特征參數(shù);Reynolds[16]采用了Mel倒譜和差分Mel倒譜相結(jié)合;Jungpa Seo[17]、Petry等人[18]于2001年將分形維數(shù)與差分LPC倒譜參數(shù)相結(jié)合均取得了很好的效果。在識(shí)別方法方面,七十年代到八十年代初,大多數(shù)說話人識(shí)別系統(tǒng)都采用模板匹配法(Pattern match)[10][11],如1974年,ATamp。T的Atal用模板匹配法研究了10人的與文本有關(guān)的說話人識(shí)別,其說話人辨識(shí)()的誤識(shí)率及說話人確認(rèn)(1s)的等差錯(cuò)率都是2%[10];同屬ATamp。T的Furui將倒譜矢量規(guī)格化,仍然用模板匹配法對(duì)說話人確認(rèn)進(jìn)行了研究,%的等差錯(cuò)率[11];1979年Markel和Davis[20]采用線性預(yù)測(cè)(linear Predictive:LP)系數(shù)和長(zhǎng)時(shí)統(tǒng)計(jì)的方法建立了17人的與文本無關(guān)的說話人辨認(rèn)系統(tǒng),測(cè)試語音長(zhǎng)度為39秒,其誤識(shí)率為2%;Attili等人[14]在此基礎(chǔ)上加入投影的方法將測(cè)試語音的長(zhǎng)度縮短為3秒。1982年Schwartz[21]等人利用功率譜密度估計(jì)的方法分析了對(duì)數(shù)面積比系數(shù)(Log area ratio:LAR)在與文本無關(guān)說話人辨認(rèn)中的應(yīng)用,%。此后,矢量量化(Vector Quantization:VQ)方法在說話人識(shí)別中得到了廣泛應(yīng)用[11][22][23],如Soonge等人[22]提取孤立數(shù)字語音的LP系數(shù)并使用矢量量化進(jìn)行說話人辨認(rèn)實(shí)驗(yàn),得到了5%()%()的誤識(shí)率,矢量量化逐漸成為與文本無關(guān)說話人識(shí)別系統(tǒng)的主要方法,同時(shí)統(tǒng)計(jì)形式的識(shí)別方法也開始出現(xiàn):[14][24]等人的最近鄰分類器。進(jìn)入九十年代以來,神經(jīng)網(wǎng)絡(luò)技術(shù)開始應(yīng)用于說話人識(shí)別,(MLP)[25]和1991年的放射狀基函數(shù)[26],(TDNN)[27]。混合高斯模型(Gaussian Mixture Model:GMM)[28][29]和隱馬爾科夫模型(Hidden Markov Models:HMM)也逐漸應(yīng)用于說話人識(shí)別中[30][31][32]。在產(chǎn)業(yè)化方面,美國的Sprint公司推出了語音電話卡業(yè)務(wù),用戶直接對(duì)著電話念出對(duì)方號(hào)碼,系統(tǒng)就可識(shí)別說話人并作出是否撥通的決定,歐洲電信聯(lián)盟在電信與金融結(jié)合領(lǐng)域應(yīng)用說話人識(shí)別技術(shù),于1998年完成了CAVE(Caller Verification in Banking and Telemunication:CAVE)計(jì)劃,在電信網(wǎng)上完成了說話人識(shí)別。同時(shí)Motorola和Visa等公司成立了Vmerce聯(lián)盟,希望實(shí)行電子交易的自動(dòng)化,其中通過聲音確認(rèn)人的身份是該項(xiàng)目的重要組成部分。其他一些商用系統(tǒng)還包括:ITT公司的SpeakerKey、Keyware公司的VoiceGuardian、TNETIX公司的SpeakEZ等。我國自執(zhí)行863計(jì)劃以來,對(duì)說話人識(shí)別技術(shù)的研究不斷深入,研究水平已經(jīng)基本與國外同步。中國科學(xué)院自動(dòng)化所模式識(shí)別公司成功推出了PATTEK SV聲紋識(shí)別產(chǎn)品,是目前國內(nèi)推出的同類產(chǎn)品中最優(yōu)秀的產(chǎn)品之一,具有良好的性能。北極星軟件公司、北京中科信利等公司也推出了自己的說話人識(shí)別系統(tǒng)。. 說話人識(shí)別目前存在的問題盡管目前說話人識(shí)別技術(shù)已經(jīng)取得了相當(dāng)大的進(jìn)展,但將說話人識(shí)別技術(shù)大規(guī)模地應(yīng)用到實(shí)際生活中仍有很長(zhǎng)的一段路要走,這主要是因?yàn)閷?shí)驗(yàn)室條件和實(shí)際條件的差異很大。一方面,實(shí)驗(yàn)室條件較少考慮到噪聲的問題,而在實(shí)際應(yīng)用中,噪聲是不可避免的,尤其在一些特殊應(yīng)用中,如犯罪現(xiàn)場(chǎng)錄制的犯罪嫌疑人的聲音不可能很清晰;又如Internet信息服務(wù)中,聲音在通過通訊線路的傳播時(shí)不可避免的會(huì)引入噪聲。另一方面,實(shí)驗(yàn)室使用的說話人集合往往比較小的,而在實(shí)際應(yīng)用中說話人集合可能非常大,當(dāng)說話人集合擴(kuò)大時(shí),無論是系統(tǒng)效率,還是識(shí)別率往往會(huì)急劇下降。主要難點(diǎn)包括以下幾個(gè)方面: 語音信號(hào)特征中的說話人的個(gè)性特征難以分離和提取。說話人識(shí)別的信息來源是說話人所說的話,其語音信號(hào)中既包含了說話人所說話的內(nèi)容信息,也包含了說話人的個(gè)性信息,是話音特征和說話人個(gè)性特征的混合體。目前還沒有很好的方法把說話人的特征和說話人的語音特征分離開來。關(guān)于語音中語義內(nèi)容和說話人個(gè)人性的分離,系統(tǒng)地全面地進(jìn)行研究的人還很少?,F(xiàn)在語音內(nèi)容和其聲學(xué)特性的關(guān)系已經(jīng)較明確,但是有關(guān)說話人個(gè)人特性和其語音聲學(xué)特性的關(guān)系還沒有完全搞清楚。目前對(duì)于人是怎樣通過語音來識(shí)別他人的這一點(diǎn)尚無基本的了解,還不清楚究竟是何種語音特征(或其變換)能夠唯一地?cái)y帶說話人識(shí)別所需的特征,什么特征對(duì)說話人識(shí)別最有效,如何有效地利用非聲道特性,是說話人識(shí)別中參數(shù)提取首要考慮的問題;由于缺少對(duì)上述問題的基本了解,因此在這樣做的過程中,很可能不自覺地丟失了許多本質(zhì)的東西。實(shí)際環(huán)境下的說話人識(shí)別系統(tǒng)性能還很有待提高實(shí)際環(huán)境中,噪聲和干擾遠(yuǎn)比實(shí)驗(yàn)室環(huán)境來的復(fù)雜,目前的常用降噪算法對(duì)平穩(wěn)噪聲能夠取得較好的效果,對(duì)非平穩(wěn)噪聲的降噪效果往往效果不佳,如何有效地針對(duì)實(shí)際環(huán)境,去除各種加性噪聲和乘性噪聲的干擾,是噪聲環(huán)境下說話人識(shí)別面臨的問題;目前常用的降噪算法都是基于語音識(shí)別的,這些算法雖然有效地提高了信噪比,卻往往丟失了說話人的特征。使得降噪后識(shí)別率沒有明顯的提高。說話人個(gè)性特征的變化和樣本選擇問題。對(duì)于由時(shí)間、特別是病變引起的說話人特征的變化研究的還很少。感冒引起鼻塞時(shí),各種音尤其是鼻音的頻率特性會(huì)有很大的變化;喉頭有炎癥時(shí)會(huì)發(fā)生基音周期的變化。因此,由于感冒而不能進(jìn)公司大門,這是一個(gè)大問題。另外對(duì)于樣本選擇的系統(tǒng)研究還很少。根據(jù)聽音實(shí)驗(yàn),不同的音素所包含的個(gè)人信息是不同的,所以樣本的合理選擇對(duì)識(shí)別率也有很大影響。現(xiàn)有的說話人識(shí)別系統(tǒng)還不能很好解決由時(shí)間、特別是病變引起的說話人特征變化帶來的問題。. 本文組織結(jié)構(gòu)第一章主要介紹說話人識(shí)別的研究意義、基本概念和分類,并簡(jiǎn)述說話人識(shí)別的發(fā)展和研究現(xiàn)狀,以及說話人是識(shí)別中目前存在的問題。第二章主要介紹說話人識(shí)別的基本原理,介紹了語音發(fā)聲的原理和說話人識(shí)別系統(tǒng)的基本結(jié)構(gòu),包括語音的預(yù)處理、說話人特征的提取、說話人的識(shí)別。第三章主要分析了語音參數(shù)對(duì)說話人識(shí)別性能的影響,并詳細(xì)介紹了基音頻率、共振峰頻率、LPC系數(shù)、復(fù)倒譜、倒譜、MEL倒譜、LPC倒譜和差值倒譜等參數(shù)特征,最后介紹了說話人識(shí)別的參數(shù)選取的方法。第四章主要說話人識(shí)別的識(shí)別方法,講述了矢量量化(VQ)、隱馬爾可夫模型(HMM)、人工神經(jīng)網(wǎng)絡(luò)(ANN)和混合高斯模型(GMM)的等識(shí)別理論。第五章給出一些高斯混合模型的模型訓(xùn)練方法,最大似然概率(ML)算法、最大期望(EM)算法、改進(jìn)EM算法,并介紹了模型初始化和訓(xùn)練的改進(jìn)方法,包括改進(jìn)的模型初始化方法和基于遺傳算法的改進(jìn)模型訓(xùn)練方法。第六章闡述說話人識(shí)別中判決方法,介紹了條件概率和使用條件概率時(shí)的各種幀概率變換。第七章論述說話人識(shí)別中的端點(diǎn)檢測(cè)方法。簡(jiǎn)單介紹了各種噪聲處理的方法和端點(diǎn)檢測(cè)方法,其中包括利用三電平和應(yīng)用信噪比進(jìn)行端點(diǎn)檢測(cè)的方法。第八章介紹各實(shí)驗(yàn)結(jié)果及相應(yīng)的結(jié)論。第2章 說話人識(shí)別的基本原理第2章 說話人識(shí)別的基本原理. 引言自動(dòng)說話人識(shí)別[1](Automatic Speaker Recognition:ASR )是一種自動(dòng)識(shí)別說話人的過程。說話人識(shí)別和語音識(shí)別的區(qū)別在于,它不注重包含在語音信號(hào)中的文字符號(hào)以及語義內(nèi)容信息,而是著眼于包含在語音信號(hào)中的個(gè)人特征,提取說話人的這些個(gè)人信息特征,達(dá)到識(shí)別說話人的目的。自動(dòng)說話人識(shí)別按照其完成的任務(wù)可以分為兩類:自動(dòng)說話人確認(rèn)(Automatic Speaker Verification:ASV)和自動(dòng)說話人辨認(rèn)(Automatic Speaker Identification:ASI)。本質(zhì)上它們都是根據(jù)說話人所說的測(cè)試語句或關(guān)鍵詞,從中提取與說話人本人特征有關(guān)的信息,再與存儲(chǔ)的參考模型比較,做出正確的判斷。不過自動(dòng)說話人確認(rèn)是確認(rèn)一個(gè)人的身份,只涉及一個(gè)特定的參考模型和待識(shí)別模式之間的比較,系統(tǒng)只做出“是”或“不是”的二元判決;而對(duì)于自動(dòng)說話人辨認(rèn),系統(tǒng)則必須辨認(rèn)出待識(shí)別的語音是來自待考察的個(gè)人中的哪一個(gè),有時(shí)還要對(duì)這個(gè)人以外的語音做出拒絕的判別。由于需要次比較和判決,所以自動(dòng)說話人辨認(rèn)的誤識(shí)率要大于自動(dòng)說話人確認(rèn),并且隨著的增加,其性能將會(huì)逐漸下降。此外,在進(jìn)行自動(dòng)說話人識(shí)別時(shí),按被輸入的識(shí)別用測(cè)試語音來分,還可將說話人識(shí)別分為三類,即與文本無關(guān)(TextIndependent)、與文本有關(guān)(TextDependent)和文本指定型(Textdepend)。前二類,一種是不規(guī)定說話內(nèi)容的說話人識(shí)別(識(shí)別時(shí)不限定所用的語音的語句內(nèi)容),另一種是規(guī)定內(nèi)容的說話人識(shí)別(只能用規(guī)定內(nèi)容的語句進(jìn)行識(shí)別)。然而光有這二種類型是不完全的,因?yàn)槿绻O(shè)法事先用錄音裝置把說話人本人的講話內(nèi)容記錄下來,然后用于識(shí)別,則往往有被識(shí)別裝置錯(cuò)誤接受的危險(xiǎn)。而在指定文本型說話人識(shí)別中,每一次識(shí)別時(shí)必須先由識(shí)別裝置向說話人指定需發(fā)音的文本內(nèi)容,只有在系統(tǒng)確認(rèn)說話人對(duì)指定文本內(nèi)容正確發(fā)音時(shí)才可以被接受,這樣做可以防止本人的語聲被盜用。說話人識(shí)別方法的基本原理與語音識(shí)別相同,也是根據(jù)從語音中提取的不同特征,通過判斷邏輯來判定該語句的歸屬類別。但它也具有其特點(diǎn):①語音按說話人劃分,因而特征空間的界限也應(yīng)按說話人劃分;②應(yīng)選用對(duì)說話人區(qū)分度大,而對(duì)語音內(nèi)容不敏感的特征參量;③由于說話人識(shí)別的目的是識(shí)別出說話人而不是所發(fā)的語音內(nèi)容,故采取的方法也有所不同,包括用以比較的幀和幀長(zhǎng)的選定,識(shí)別邏輯的制定等。. 語音的發(fā)聲原理人類的發(fā)聲過程是由于肺部的收縮,壓迫氣流由支氣管經(jīng)過聲門和聲道引起音頻振蕩而產(chǎn)生的,其中聲道起始于聲門處而終止于嘴唇,包括咽喉、口腔。鼻道則是從小舌開始到鼻孔為止。當(dāng)小舌下垂時(shí),鼻道與聲道發(fā)生耦合而產(chǎn)生語音中的鼻音。發(fā)音過程中,聲道各處的截面積會(huì)隨著不同語音發(fā)生不同變化,且不同的人的聲道各處的截面積也不一樣。而聲道各處的截面積取決于舌、唇、下頜以及小舌的位置。聲道截面積隨著縱向位置而變化的函數(shù),稱為聲道截面積函數(shù)。聲道的共振峰特性主要決定于聲道截面積函數(shù)。而聲道的共振峰特性又決定了所發(fā)聲音的頻譜特性,即音色。圖 21語音產(chǎn)生模型圖 21給出一個(gè)離散時(shí)域的語音產(chǎn)生模型。這個(gè)模型是許多研究和應(yīng)用的基礎(chǔ),它由激勵(lì)源、聲道模型和輻射模型三個(gè)部分組成。激勵(lì)源分清音和濁音兩個(gè)分支。聲道模型改出了離散時(shí)域的聲道傳輸函數(shù)V(z),把實(shí)際聲道等效成一個(gè)變截面管來研究,在大多數(shù)情況下可以看成一個(gè)全極點(diǎn)函數(shù)。人類發(fā)音過程有三類不同的激勵(lì)方式,因而能產(chǎn)生三類不同的聲音,即濁音、清音和爆破音。當(dāng)氣流通過聲門時(shí)聲帶的張力剛好使聲帶發(fā)生較低頻率的張馳振蕩,形成準(zhǔn)周期性的空氣脈沖。這些空氣脈沖激勵(lì)聲道便產(chǎn)生濁音。若聲道中某處截面積很小,氣流高速?zèng)_過此處時(shí)而產(chǎn)生湍流,當(dāng)氣流速度與橫截面積之比大于某個(gè)門限值時(shí)便產(chǎn)生摩擦音,即清音。而聲道某處完全閉合建立起氣壓,然后突然釋放而產(chǎn)生的聲音就是爆破音。由發(fā)音方式和聲道形狀的不同,人類可以發(fā)出無窮多種、聽覺系統(tǒng)可以將它們相互區(qū)分的聲音。但語音又可以分割成可辨別的基本語音單位,即音素,且這樣的音素是有限的。這樣一個(gè)語句就可以分解為一串音素,但一串音素不等于一個(gè)語句,語句中還含有反映語義、語感的韻律信息。這里的韻律信息包括各音素的相對(duì)強(qiáng)度、相對(duì)時(shí)長(zhǎng)、相對(duì)音高、音高之間的停頓以及音素之間相互影響而產(chǎn)生音素的變異等。. 說話人識(shí)別的基本結(jié)構(gòu)說話人識(shí)別就是從說話人的一段語音中提取出說話人的個(gè)性特征,通過對(duì)這些個(gè)性特征的分析和識(shí)別,從而達(dá)到對(duì)說話人進(jìn)行識(shí)別或者確認(rèn)的目的。說話人識(shí)別不同于語音識(shí)別,前者利用的是語音信號(hào)中說話人的個(gè)性特征,不考慮包含在語音中的字詞的含義,強(qiáng)調(diào)的是說話人的個(gè)性;而后者的目的是識(shí)別出語音信號(hào)中的語義內(nèi)容,并不考慮說話人的個(gè)性,強(qiáng)調(diào)的是語音的共性。圖 22說話人識(shí)別系統(tǒng)框圖是說話人識(shí)別系統(tǒng)的結(jié)構(gòu)框圖,它有預(yù)處理、特征提取、模式匹配和判決等幾大部分組成。除此之外,完整的說話人識(shí)別系統(tǒng)還
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報(bào)告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1