freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于聲紋的說話人特征識別畢業(yè)論文-文庫吧

2025-06-12 20:15 本頁面


【正文】 防止身份復(fù)制和賬號、密碼的盜竊,并且用戶不需要記憶和修改任何東西。因此,在網(wǎng)上交易時采用說話人識別技術(shù)要比其他生物識別技術(shù)更具有優(yōu)勢,且操作方便、簡潔,很容易為廣大計算機(jī)使用者接受。3. 語音檢索——對于大量的錄音素材,將說話人識別技術(shù)與連續(xù)語音識別技術(shù)相結(jié)合,可以檢索出其中我們感興趣的特定人所說的內(nèi)容。4. 用于身份鑒別——利用不同人的聲紋特征進(jìn)行身份鑒別,為用戶設(shè)計聲紋打卡系統(tǒng)、聲紋鎖、聲控防盜門、聲控車載啟動系統(tǒng)等等。如國內(nèi)的“得意身份證”、“昭德數(shù)字”聲紋門禁系統(tǒng)等。5. 用于軍事安全——隨著現(xiàn)代信息技術(shù)的發(fā)展,現(xiàn)在各國的國防部門也已經(jīng)逐步采用聲紋信息管理系統(tǒng),并將其應(yīng)用到軍事命令、機(jī)密情報等重要信息的獲取和鑒別中。6. 醫(yī)學(xué)應(yīng)用——說話人識別的主要依據(jù)是說話人聲道結(jié)構(gòu)的差異,從而可知說話人識別技術(shù)的研究和醫(yī)學(xué)中生理學(xué)的發(fā)展是相互促進(jìn)的,一方面生理學(xué)和解剖學(xué)的進(jìn)展可以促進(jìn)說話人識別問題的研究,另一方面也可借助說話人識別技術(shù)進(jìn)行聲道特性的研究。例如為響應(yīng)病人請求的命令,設(shè)計一個針對患者的說話人識別系統(tǒng),可方便地實現(xiàn)患者需求的控制等。、刑事案件偵破——對于各種電話勒索、綁架、電話人身攻擊等案件,說話人識別技術(shù)可以在一段錄音中查找出嫌疑人,幫助對嫌疑人的查證,1971年美國警方就利用此技術(shù)協(xié)助破案。另外,現(xiàn)在很多法庭已經(jīng)使用聲紋作為鑒別犯罪的依據(jù)。當(dāng)然,這也需要防止發(fā)音偽裝的問題。生物識別技術(shù)是目前最為方便、安全和環(huán)保的識別技術(shù),具有不會遺失、無需記憶等優(yōu)點。此外,與其他生物認(rèn)證技術(shù)相比,說話人識別技術(shù)還有以下幾個方面的優(yōu)勢:(1) 用戶接受程度高——以說話人的聲音作為特征進(jìn)行識別,用戶不需要記住復(fù)雜、繁多、易忘的密碼,不需要隨時準(zhǔn)備著攜帶智能卡、鑰匙之類的東西,更不需要像其他生物識別技術(shù)一樣,刻意的用手觸摸傳感器或把眼睛湊向攝像頭,是一種比較自然的識別技術(shù)。(2) 設(shè)備成本低——說話人識別是一種比較經(jīng)濟(jì)的識別方式,一方面它所用的設(shè)備(如PC機(jī)、麥克風(fēng)等)成本要求較低;另一方面聲音的采樣、量化芯片的要求也不高。而如虹膜、視網(wǎng)膜等技術(shù),雖然識別精確度很高,但設(shè)備造價也很高,性價比不高。(3) 可用于移動傳輸中——隨著信息智能化發(fā)展,語音特征將成為嵌入式系統(tǒng)和手持移動設(shè)備最好的交互手段的可能性越來越明顯,因此,以聲音作為身份識別特征的技術(shù)也越來越受到重視,說話人識別技術(shù)也越來越重要。(4)可實現(xiàn)遠(yuǎn)程操作——適合遠(yuǎn)程身份確認(rèn),通過麥克風(fēng)或電話、手機(jī)就可以由網(wǎng)絡(luò)(通訊網(wǎng)絡(luò)或互聯(lián)網(wǎng)絡(luò))實現(xiàn)遠(yuǎn)程登陸。(5)實現(xiàn)算法簡單——聲紋辨認(rèn)和確認(rèn)的算法復(fù)雜度低,配合一些其他措施,如通過語音識別進(jìn)行內(nèi)容鑒別等,可以提高準(zhǔn)確率。(6)隱私保護(hù)性強——說話人識別技術(shù)采用語音特征進(jìn)行身份確認(rèn),只需提供語音信號,不涉及隱私問題,用戶無任何心理障礙。盡管對說話人識別的研究已長達(dá)半個世紀(jì),說話人識別技術(shù)也已從實驗階段走向市場,進(jìn)入是實用階段。但要使其普遍,并像指紋識別一樣成為十分可靠的生物特征識別技術(shù),得到廣泛應(yīng)用,還有許多尚需進(jìn)一步探索研究的難題,主要有以下幾個方面:1 .尚未找到簡單可靠的說話人語音特征參數(shù)。說話人語音信號中既包含了說話人語音內(nèi)容的信息,也包含了說話人的個人信息,是語義特征和說話人特征的混合體。目前還沒有很好的方法把說話人的個性特征從語音特征中分離出來,也沒找到簡單的聲學(xué)特征參數(shù)能夠可靠的識別說話人。2. 語音信號的變異。即對于同一說話人和同一文本,語音信號也有很大的變異性。因為說話人的發(fā)音常常與環(huán)境、說話人的情緒、說話人的健康狀況有密切關(guān)系,說話人的語音特征不是靜態(tài)的、固定不變的,它具有時變特性。會隨時間、年齡和健康狀況的變化而變化;另外,傳輸語音的通信通道的時變效應(yīng)問題也是語音信號產(chǎn)生變異的重要方面。語音信號的變異性從本質(zhì)上說是說話人特征空間發(fā)生移動,說話人模式發(fā)生變異,從而增加識別過程中的不確定性。說話人識別中存在的噪音、多通道、情感等熱點研究方向都屬于這方面。3. 聲音容易被錄音模仿。如何處理故意偽裝問題,在法庭的說話人識別應(yīng)用中,這個問題具有特殊的重要性 。比如在法庭查證的識別應(yīng)用中,罪犯可能會偽裝他們的聲音或模仿另一個人的聲音來逃避罪名。4. 特征空間有限。在漢語語音識別中,全體音節(jié)的集合很小,其數(shù)目僅幾百個,而全體漢語說話人卻有14億多,對于由同一語音信號組成的特征空間,語音識別要將其劃分為M個子空間,M為音節(jié)個數(shù),而說話人識別要將其劃分為N個子空間,N為說話人個數(shù),由于N遠(yuǎn)大于M,使得識別說話人要比識別所說的內(nèi)容復(fù)雜,而且當(dāng)N很大時,說話人識別還在理論上存在將有限特征空間進(jìn)行無限劃分的問題,這是說話人識別所面臨的新問題。5. 噪聲問題。魯棒性問題一直是說話人識別研究的難點,像用麥克風(fēng)錄音時會產(chǎn)生低頻干擾噪聲,而在移動信道中傳送語音時也會有加性或卷積噪聲產(chǎn)生,這些噪聲都會使得得到的信號產(chǎn)生失真,最終降低識別率。目前說話人識別中存在的去噪、多通道等研究熱點都屬于這個方面的改善。另外,說話人識別還存在以下一些實用性的問題需要在將來的研究中加以考慮和解決。1. 說話人識別系統(tǒng)設(shè)計的合理化及優(yōu)化問題。即在一定的應(yīng)用場合下對系統(tǒng)的功能和指標(biāo)合理定義、對使用者實行明智的控制以及選擇有效而可靠的識別方法等問題,使得既能正確識別說話人,又能拒絕模仿者。2. 如何處理長時間和短時說話人的語音波動,如何區(qū)別有意模仿的聲音,這點對于說話人識別在司法上應(yīng)用尤為重要。如何將語音識別和說話人識別有機(jī)的結(jié)合起來,對于這一點,指定文本型的說話人識別是一個有益的嘗試。3. 說話人識別系統(tǒng)的性能評價問題。需要建立與試聽人試驗對比的方法和指標(biāo);由于目前對于說話人識別的性能尚無一致的評價方法,所以這一問題的解決還需長期的努力。4. 可靠性和經(jīng)濟(jì)性。和語音識別系統(tǒng)相比,說話人識別的使用者要多幾個數(shù)量級,例如有信用卡的人可以是幾百萬或上千萬,當(dāng)然不一定所有的都用同一個系統(tǒng)來處理,但是在把說話人識別系統(tǒng)用于社會以前,必須現(xiàn)設(shè)想萬位以上的說話人進(jìn)行可靠的實驗。同理,在經(jīng)濟(jì)性方面,每一個說話人的標(biāo)準(zhǔn)模型必須使用盡量少的信息,因此樣本和特征量的精選也是亟待解決的。說話人識別的關(guān)鍵步驟可分為:語音的預(yù)處理、語音特征提取、識別系統(tǒng)模型的建立、根據(jù)相似性準(zhǔn)則進(jìn)行判定等。想要提高說話人識別的正確率,應(yīng)從以上幾個方面進(jìn)行研究。其中語音特征提取和識別系統(tǒng)模型的建立是說話人識別技術(shù)研究的重點。上述提到的問題主要是這兩方面引起的,其系統(tǒng)的優(yōu)劣性也往往取決于這兩方面。識別模型常用的是高斯混合模型(GMM)、矢量量化模型(VQ)和隱馬爾可夫模型(HMM),已有實驗表明,對于相同的特征參數(shù)的與文本無關(guān)的說話人識別系統(tǒng),%,性能也是最好的,其次是HMM,%,模型處理的主要問題集中在算法的準(zhǔn)確度和復(fù)雜度上。此外,由于目前大多數(shù)研究的說話人識別過程都認(rèn)為相鄰幀間的特征參數(shù)是相互獨立的,所以如何尋求新的更具個性和更強魯棒性的動態(tài)語音特征,或者對現(xiàn)有的特征參數(shù)進(jìn)行優(yōu)化的選擇、補償?shù)?,仍然是說話人識別技術(shù)領(lǐng)域中的研究熱點。由于應(yīng)用的需求和數(shù)字信號處理技術(shù)的飛速發(fā)展,說話人識別的研究越來越受到人們的重視。在國際聲學(xué)、語音和信號處理會議(International Conferrence on Acoustic Speech and Signal Processing,ICASSP)論文集中,每年都有關(guān)于說話人識別的專題。說話人識別的研究已經(jīng)逐漸從實驗室走向?qū)嶋H應(yīng)用。目前,說話人識別的研究主要集中在如下幾個方面:1. 語音特征參數(shù)的提取和混合。語音特征參數(shù)對說話人識別系統(tǒng)的性能至關(guān)重要,雖然倒譜參數(shù)得到廣泛應(yīng)用,但語音特征參數(shù)仍是一個研究熱點。尋找新的有效的語音特征參數(shù)以及已有特征參數(shù)的有效組合是語音特征參數(shù)研究的兩個方向。2. 在模型訓(xùn)練和識別技術(shù)方面:HMM模型與其他模型結(jié)合,改善說話人識別系統(tǒng)的性能。如HMM模型與神經(jīng)網(wǎng)絡(luò),HMM模型與支持向量機(jī)SVM(Support Vector Machine)的結(jié)合都可以有效地改善系統(tǒng)的性能。高斯混合模型方面:模型參數(shù)估計方法的改進(jìn),減少模型運算量及算法復(fù)雜度的研究。矢量量化方面:量化方法的魯棒性及改進(jìn)算法。神經(jīng)網(wǎng)絡(luò)方面:大人群識別,級聯(lián)神經(jīng)網(wǎng)絡(luò)。3. 帶噪音,特別是電話和移動通信環(huán)境中的語音的說話人識別是現(xiàn)今說話人識別的一個熱點。4. 文本無關(guān)的說話人識別技術(shù)是當(dāng)今說話人識別研究的又一個熱點。說話人識別技術(shù)發(fā)展至今已經(jīng)變的相當(dāng)成熟,而且在國際上已經(jīng)有了一些成功的應(yīng)用。但是在實際的問題中,說話人識別技術(shù)仍然有一些弱點。人們常認(rèn)為說話人識別的難點在于有些人的聲音非常相似,以至于有時連我們自己都會弄錯。不過這只是原因之一,說話人識別技術(shù)中的難點并不局限于此。最關(guān)鍵的問題是語音信號本身的多變性,而不是相似性。也就是說,難度在于要從多變的語音信號中找出每個說話人的特有特征。語音信號的變化是如此錯綜復(fù)雜,其原因之一就在于說話人自身語音的變化。人與人之間聲音存在差異使得自動說話人識別技術(shù)能夠成為可能,但同時也正是因為人的語音具有多變性使得這個問題變得復(fù)雜起來。語音是人的固有生物特征,但同時也是人的一種行為,它同時具有行為和屬性兩種特點,個人的屬性可以不變,而行為卻是每一次都不完全相同的。語音產(chǎn)生的變化有些是刻意為之,有些則不然。僅僅依靠發(fā)音器官的特點而提取出來的特征不足以表示每個說話人的特點。由于健康狀況、緊張程度、不愿意合作等生理和心理因素會大大降低說話人識別系統(tǒng)的辨識率。除了說話人自身的因素以外,還有其他方面也會造成說話人識別系統(tǒng)性能表現(xiàn)不穩(wěn)定。如噪聲、傳輸信道匹配、系統(tǒng)使用時間長短的。1. 噪聲——噪聲的影響是語音信號處理中最常見也是影響系統(tǒng)性能最關(guān)鍵的因素之一。,通常的說話人識別系統(tǒng)在噪聲干擾情況下識別效果會嚴(yán)重下降。DOBTOTH等學(xué)者從電話交換機(jī)上獲取的語音信號表示,%的對話過程中都含有其他噪聲信號干擾。因此如何解決噪聲條件下的說話人識別是第一重要問題。通常研究者會從兩個方面來解決:一是如何在噪聲環(huán)境下提高識別率,另外就是訓(xùn)練時和識別時噪聲環(huán)境不同的情況下如何保證識別效果。目前多數(shù)說話人識別系統(tǒng)都是在實驗室里完成的,其訓(xùn)練和識別的數(shù)據(jù)結(jié)果在實驗環(huán)境中得到。實際情況中像實驗室那種相對安靜理想的環(huán)境并不是很多,由此帶來的問題就是容易造成訓(xùn)練環(huán)境和識別環(huán)境的不匹配?,F(xiàn)有的識別系統(tǒng)在噪聲環(huán)境中其實別效果下降的很嚴(yán)重。語音增強技術(shù)屬于信號級抗噪處理方法,假設(shè)在加性噪聲環(huán)境下,可以根據(jù)噪聲的短時平穩(wěn)特征,通過譜減法來處理帶噪語音。在進(jìn)行語音信號提取之前,將語音中噪聲部分有效的去除,使去噪后的語音背景和信噪比與訓(xùn)練語音相似,特征提取的時候就能得到較為理想的語音特征。提取對噪聲不敏感的語音特征參數(shù)屬于特征級抗噪處理方法,如果所提取的特征對噪聲免疫,這種語音特征就有了抗噪聲的能力。語音信號處理技術(shù)和物理學(xué)、心理學(xué)、醫(yī)學(xué)都有密切聯(lián)系,任何一門學(xué)科的發(fā)展都有可能推動語音信號處理技術(shù)的進(jìn)步。隨著人們對人耳聽覺系統(tǒng)生理特征的認(rèn)識,這兩年語音識別領(lǐng)域提出了一些比較新的抗噪聲語音特征,比如基于聽覺掩蔽特性的特征參數(shù)、基于人耳聽覺響度特性的特征參數(shù)、基于人耳聽覺子帶特征的提取。2. 傳輸信道匹配問題——在遠(yuǎn)距離通信系統(tǒng)中通常會遇到此類問題。不同的麥克風(fēng),不同的采用精度,不同的傳輸信道(如固定電話和無線移動通信)都會帶來信道匹配的問題??梢哉f,只要系統(tǒng)存在失真,那么信道不匹配問題就會一直存在。解決這一問題的方法通常是采用補償技術(shù)。目前補償技術(shù)主要從三個方面考慮,即分別從特征域、模型域和似然比得分進(jìn)行模型補償?!ǔ嶒炇抑械恼f話人識別系統(tǒng)都要求使用者花費大量的時間來訓(xùn)練和識別,以獲取高識別率,或者通過大容量的語音數(shù)據(jù)庫來做到這一點。近年來流行的GMM,HMM等基于統(tǒng)計模型的說話人識別系統(tǒng)都存在這樣的問題。在實際使用時,在實際使用時,這樣的說話人識別系統(tǒng)據(jù)需要用戶花費更多的時間和耐心來完成訓(xùn)練和識別。實際使用證明,用戶通常會對超過30秒的訓(xùn)練過程感到厭煩,在這種情況下,很難保證獲得足夠的、高質(zhì)量的訓(xùn)練數(shù)據(jù)。識別精度也就更無從談起。因此更短的系統(tǒng)使用時間也應(yīng)該是研究者追求的目標(biāo)之一。全文分為四章,按以下順序組織:第一章 概述了說話人識別研究的意義、應(yīng)用領(lǐng)域、技術(shù)優(yōu)勢和研究的熱點、難點。第二章 介紹了說話人識別的基本原理和說話人識別系統(tǒng)的結(jié)果、模型。第三章 對本文所采用的特征參數(shù)線性預(yù)測倒譜、Mel頻率倒譜和基音周期進(jìn)行介紹,以及給出在MATLAB中對這些參數(shù)提取的方法。第四章 介紹了說話人系統(tǒng)的實現(xiàn)過程,并對實驗結(jié)果進(jìn)行分析總結(jié)。第二章 說話人識別的基本介紹在前面我們提到過一些語音的相關(guān)知識,這里我們將繼續(xù)并更加詳細(xì)具體的談到語音方面的知識。語音是由發(fā)聲器官的運動產(chǎn)生的,發(fā)聲器官主要有三個子系統(tǒng)構(gòu)成:肺、氣管、支氣管構(gòu)成的次生門系統(tǒng),聲帶以及位于聲帶以上的由咽喉、口咽、口腔組成的聲道,鼻咽和鼻腔組成的鼻道。喉中有聲帶,決定基音的頻率。聲道始于聲門止于嘴唇,是氣流傳輸?shù)耐ǖ馈1堑绖t從小舌開始到鼻道孔止。當(dāng)鼻道下垂時,鼻道和聲道發(fā)生耦合而產(chǎn)生語音中的鼻音。這些結(jié)構(gòu)對每個人來說都是有差異的,由此造成了每個人的生源普、基音頻率、共振峰頻率以及帶寬的不同。產(chǎn)生語音的能量來源于正常呼吸時肺部呼出的穩(wěn)定氣流,喉部的聲帶既是閥門,又是振動部件。說話人聲門氣流沖擊聲帶振動,然后通過聲道相應(yīng)變化成語音。發(fā)不同的聲音時,聲道的形狀不同,因此聽到不同的聲音。聲帶的運動還只能控制進(jìn)入口腔的氣流,而音色是有口腔的形狀,如動作快慢、開口大小、衰減時間等決定的。短促的氣流使聲音短脆而明快,長的氣流使聲音柔和而渾厚。要使人發(fā)出的聲音豐富多彩,還得借助口腔和鼻腔,把從聲門沖出的氣流形成聲音。而要發(fā)出構(gòu)成語音的音素,還需靠唇、齒、舌、腭。盡管世界上有著上千種不同的語音,構(gòu)成語音的音素卻是大同小異。聲帶不振動時產(chǎn)生的音為清音,它是空氣通過聲道時,受聲道某些部分的擠壓而引起的,一般分為摩擦音和爆破音。清音具有一定的隨機(jī)性。研究表明,發(fā)清音時聲道被阻形成湍流,所以可被模擬成隨機(jī)白噪聲。聲道是一個分布式參數(shù)系統(tǒng),它是一個諧振腔,因而具有
點擊復(fù)制文檔內(nèi)容
畢業(yè)設(shè)計相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1