freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于聲紋的說話人特征識別畢業(yè)論文-wenkub.com

2025-06-24 20:15 本頁面
   

【正文】 上述各種方法分屬于時域法、變換域法和混合法。基音周期是語音的一個非常重要的特征參數(shù),它反映了語音激勵源的一個重要特征,在語音編碼、語音合成、說話人識別和語音識別等方面有著廣泛的應(yīng)用,是語音研究的一個重要階段。由于MFCC參數(shù)是對人耳聽覺特征的描述,因此,可以認(rèn)為不同聲紋的MFCC參數(shù)距離,能夠代表人耳對兩個語音聽覺上的差異,可以為聲紋的識別提供可靠的依據(jù)。下面是語音信號MFCC參數(shù)提取的具體實現(xiàn):設(shè)定mel濾波器系數(shù); 設(shè)定DCT系數(shù); 設(shè)置歸一化的倒譜提升窗口; 設(shè)置預(yù)加重濾波器; 對語音信號進行分幀; 計算每幀的mfcc參數(shù); 對信號s進行fft計算; 對fft參數(shù)進行mel濾波取對數(shù)再計算倒譜; 給定mfcc參數(shù); 計算mfcc參數(shù)的一階差分; 合并mfcc參數(shù)和一階差分參數(shù); 去除首尾兩幀,因為這兩幀一階差分參數(shù)為0。如果s比較長,將會按照128點的間隔將s分為若干幀,再分別計算。采用Matlab的語音分析工具箱VoiceBox,可以很容易地對語音進行分幀處理。在譜失真測度定義中通常不用0階倒譜系數(shù),因為它是反映頻譜能量的。采用的濾波器為三角濾波器,中心頻率為f(m),m=1,2,再經(jīng)過離散FFT變換,取模的平方得到離散功率譜s(n)。Mel濾波器的中心頻率定義為: (317)其中fH和fl分別為濾波器組的最高頻率和最低頻率,F(xiàn)S采樣頻率,單位為Hz。因為不同的說話人聲道具有區(qū)別于他人的特異特征,所以在實際信號分析中常采用預(yù)加重技術(shù),即在對信號采樣之后,插入一個一階高通濾波器,這樣就加強了聲道部分的特征,便于對聲道參數(shù)進行分析。所以符合人的聽覺系統(tǒng)的頻率刻度劃分應(yīng)該在低頻上有較高的分辨率,在高頻上具有較低的分辨率。很多研究也證明,由于Mel頻率特性反映了人耳的聽覺特性,因而在用于代替人耳來分析語音時,其性能和魯棒性都是最符合實際聽音效果的。這就導(dǎo)致人們?nèi)ザx新的頻率單位,新的頻率單位的劃分應(yīng)該考慮到人耳聽覺系統(tǒng)的非線性特性,而不同于物理學(xué)對頻率的描述。 Mel頻率倒譜(MFCC)的提取 Mel頻率介紹 人的耳朵能夠從嘈雜的背景噪聲中聽到語音信號,這是因為人的內(nèi)耳基礎(chǔ)膜對外來的信號會產(chǎn)生調(diào)節(jié)作用。end end for n=n_lpc+1:n_lpcc lpcc(n)=0。 lpcc=zeros(n_lpcc,1)。程序中首先計算x的LPC系數(shù),由于函數(shù)cceps不是基于遞推公式的,因此要保留所有階的LPC系數(shù),即a的長度與序列x的長度相同。但是,LPCC倒譜系數(shù)也有它的缺點,因為它基于全極點模型的假設(shè),因此對于清音和鼻音來說并不確切,而聲道響應(yīng)都含有零點的影響,因此,從理論上講,應(yīng)該采用極點模型。p)是線性預(yù)測系數(shù)。在線性預(yù)測分析中,聲道模型是式(39)表示的全極點模型。LPCC的優(yōu)點是計算量小,易于實現(xiàn),對元音有較好的描述能力,其缺點是對輔音描述能力差。為此式(32)、(34)可用下面的式子表示: (35) (36) (37)實際上,有另一種同態(tài)處理方法,將式(36)、(37)改寫為: (38)上式表明:c(n)是序列x(n)對數(shù)幅度譜的傅立葉逆變換。特征系統(tǒng)D*[ ]將卷積信號轉(zhuǎn)化為加性信號。第三個系統(tǒng)是第一個系統(tǒng)的逆變換,它將加性信號反變換為卷積信號。同態(tài)系統(tǒng)的輸入卷積信號經(jīng)過系統(tǒng)變換后輸出的書一個能夠處理的卷積信號。第三章 特征參數(shù)的提取 倒譜在語音識別系統(tǒng)中,常使用的語音參數(shù)有線性預(yù)測倒譜系數(shù)LPCC和Mel頻率倒譜系數(shù)MPCC等。具體數(shù)值可以用如下公式計算: (210) (211) 對說話人確認(rèn)系統(tǒng),則常用兩個錯誤率來表示:錯誤拒絕率(False Rejection,F(xiàn)R)和錯誤接受率(False Acceptance,F(xiàn)A)。對于文本無關(guān)的說話人辨認(rèn),此算法訓(xùn)練速度慢且復(fù)雜度高。其缺點是訓(xùn)練時間長,動態(tài)時間規(guī)整能力弱,網(wǎng)絡(luò)規(guī)模隨說話人數(shù)目增加時可能大到難以訓(xùn)練的程度,目前這種方法還處于研究和實驗階段。人工神經(jīng)網(wǎng)絡(luò)模仿人腦的信息處理機制,把大量結(jié)構(gòu)非常簡單的計算單元相互連接起來,實現(xiàn)高度并行和分散的信息處理。目前,此方法也成為與文本無關(guān)說話人確認(rèn)的主流方法。GMM不像HMM那樣需要利用狀態(tài)轉(zhuǎn)移概率信息來約束相鄰特征參數(shù)的變化,所以計算量要小的多。HMM在與文本有關(guān)的說話人識別中取得了較好的商用化效果,像現(xiàn)在使用的IBM公司的Via Voice軟件等。其中一個是馬爾可夫鏈,他描述了狀態(tài)之間的轉(zhuǎn)移,這是一個比較重要的概念,特別在與文本有關(guān)的識別中起了很好的作用;另一個隨機過程則描述了狀態(tài)和觀察值之間的對應(yīng)關(guān)系。M個碼本矢量構(gòu)成了該說話人的矢量量化模型。從語音信號中提取的說話人特征,常是一多維矢量的時間序列。DTW是在一種常用的補償說話率偏差的方法,缺點是對說話人模型參數(shù)的存儲需要比較大,在數(shù)據(jù)量比較大時,識別性能不好。(1) 動態(tài)時間規(guī)整法(Dynamic TimeWarping,DTW)DTW是將距離測度與時間規(guī)整結(jié)合起來的一種非線性規(guī)整技術(shù)。統(tǒng)計概率模型法是目前比較常用且有效的方法。在說話人識別中,不同識別方法的區(qū)別在選用什么樣的模型以及測試語音信號與模型匹配的方法上。②參數(shù)模型是指采用某種概率密度函數(shù)來描述說話人的語音特征空間的分布情況,并以該概率密度函數(shù)的一組參數(shù)來作為說話人的模型。2. 模式匹配測試音的特征與說話人模型進行匹配,計算匹配距離。因此特征提取是說話人識別系統(tǒng)中的重要組成部分。說話人識別系統(tǒng)結(jié)構(gòu)如圖26所示 圖26說話人識別系統(tǒng)結(jié)構(gòu)從圖26中,我們可知說話人識別系統(tǒng)主要包括兩個部分:特征提取和模式匹配。MFCC則完全不同于LPCC,它是對人的聽覺特性研究得到的特征參數(shù),無任何前提假設(shè),魯棒性也比較好,是目前與文本無關(guān)的說話人識別研究中普遍采用的參數(shù)。不同的特征參數(shù)其物理意義不同。說話人語音特征,是指說話人的語音信號中能唯一表征個人特征的向量序列。通常為每一個說話人建議一個模型。2. 特征提取特征提取是從預(yù)處理處得到的語音中獲得反映說話人個性特質(zhì)的特征參數(shù)。預(yù)處理之后的工作都是基于平穩(wěn)這一假設(shè)。說話人識別的原理框圖如圖25所示。說話人識別原理主要包括兩個階段——訓(xùn)練(注冊)階段和識別(驗證)階段。 假設(shè)訓(xùn)練庫中有SN個說話人 開集(Openset),是指待測試的說話人的可能不在訓(xùn)練庫中,在識別時還要對SN個說話人以外的語音做出拒絕的判別,這就需要設(shè)定一個合適的判決門限值。使用這種方法建立的模型相對麻煩,但用戶使用方便,應(yīng)用范圍較寬,不易被錄音模仿,是當(dāng)前的研究重點。一般采用基于模板的方法,如動態(tài)時間規(guī)整(DTW)。 S1 ...SiSN 待識別語音判斷是否是Si說的 圖24說話人確認(rèn) 說話人切分和聚類(Speaker Segmentation and Clustering),也稱說話人探測與跟蹤,是指在一長段包含特定說話人Z的多人語音中,使用某種方法找出語音Z的起止位置點并正確標(biāo)注出來。其目的就是提取說話人的這些特征信息用來識別是哪一個說話人。短時平均過零率可以粗略估計語音的頻譜特性,它與語音的清濁特性存在著一定的對應(yīng)關(guān)系。選取何種參數(shù)進行語音端點檢測,取決于各音段特征參數(shù)的聚集性,簡單而有效的是時域參數(shù),諸如短時能量、短時平均幅度和短時過零率等。在實際使用中通常選用其中的一種。理想窗函數(shù)的頻率響應(yīng)要求主瓣無限狹窄且沒有旁瓣,這種窗函數(shù)在實際中是無法實現(xiàn)的。2. 分幀、加窗——語音信號的準(zhǔn)平穩(wěn)特性,使得只在短時段上才可視為一個平穩(wěn)過程,可以用對平穩(wěn)過程的分析方法進行分析,因此需將語音信號劃分為一個一個的短時段,每一短時段稱為一幀。在語音信號特征提取之前,首先要對輸入語音信號進行預(yù)處理,預(yù)處理包括預(yù)加重、分幀、加窗以及語音端點檢測等過程。這里介紹的語音信號的數(shù)字模型雖然已經(jīng)在許多方面得到了成功的應(yīng)用,但它畢竟也存在著某些局限性。其表示式為: (22)激勵源、聲道模型和輻射模型構(gòu)成了一個完整的語音數(shù)字模型。P值越大,則模型的傳輸函數(shù)和實際聲道的傳輸函數(shù)的吻合程度越高。激勵源、聲道模型和輻射模型構(gòu)成了一個完整的語音數(shù)字模型。共振峰及其帶寬取決于聲道的形狀和尺寸,因而不同的語音對應(yīng)于一組不同的共振峰參數(shù)。研究表明,發(fā)清音時聲道被阻形成湍流,所以可被模擬成隨機白噪聲。而要發(fā)出構(gòu)成語音的音素,還需靠唇、齒、舌、腭。發(fā)不同的聲音時,聲道的形狀不同,因此聽到不同的聲音。當(dāng)鼻道下垂時,鼻道和聲道發(fā)生耦合而產(chǎn)生語音中的鼻音。語音是由發(fā)聲器官的運動產(chǎn)生的,發(fā)聲器官主要有三個子系統(tǒng)構(gòu)成:肺、氣管、支氣管構(gòu)成的次生門系統(tǒng),聲帶以及位于聲帶以上的由咽喉、口咽、口腔組成的聲道,鼻咽和鼻腔組成的鼻道。第二章 介紹了說話人識別的基本原理和說話人識別系統(tǒng)的結(jié)果、模型。實際使用證明,用戶通常會對超過30秒的訓(xùn)練過程感到厭煩,在這種情況下,很難保證獲得足夠的、高質(zhì)量的訓(xùn)練數(shù)據(jù)。目前補償技術(shù)主要從三個方面考慮,即分別從特征域、模型域和似然比得分進行模型補償。2. 傳輸信道匹配問題——在遠(yuǎn)距離通信系統(tǒng)中通常會遇到此類問題。在進行語音信號提取之前,將語音中噪聲部分有效的去除,使去噪后的語音背景和信噪比與訓(xùn)練語音相似,特征提取的時候就能得到較為理想的語音特征。目前多數(shù)說話人識別系統(tǒng)都是在實驗室里完成的,其訓(xùn)練和識別的數(shù)據(jù)結(jié)果在實驗環(huán)境中得到。通常的說話人識別系統(tǒng)在噪聲干擾情況下識別效果會嚴(yán)重下降。由于健康狀況、緊張程度、不愿意合作等生理和心理因素會大大降低說話人識別系統(tǒng)的辨識率。人與人之間聲音存在差異使得自動說話人識別技術(shù)能夠成為可能,但同時也正是因為人的語音具有多變性使得這個問題變得復(fù)雜起來。不過這只是原因之一,說話人識別技術(shù)中的難點并不局限于此。4. 文本無關(guān)的說話人識別技術(shù)是當(dāng)今說話人識別研究的又一個熱點。高斯混合模型方面:模型參數(shù)估計方法的改進,減少模型運算量及算法復(fù)雜度的研究。語音特征參數(shù)對說話人識別系統(tǒng)的性能至關(guān)重要,雖然倒譜參數(shù)得到廣泛應(yīng)用,但語音特征參數(shù)仍是一個研究熱點。由于應(yīng)用的需求和數(shù)字信號處理技術(shù)的飛速發(fā)展,說話人識別的研究越來越受到人們的重視。其中語音特征提取和識別系統(tǒng)模型的建立是說話人識別技術(shù)研究的重點。和語音識別系統(tǒng)相比,說話人識別的使用者要多幾個數(shù)量級,例如有信用卡的人可以是幾百萬或上千萬,當(dāng)然不一定所有的都用同一個系統(tǒng)來處理,但是在把說話人識別系統(tǒng)用于社會以前,必須現(xiàn)設(shè)想萬位以上的說話人進行可靠的實驗。如何將語音識別和說話人識別有機的結(jié)合起來,對于這一點,指定文本型的說話人識別是一個有益的嘗試。另外,說話人識別還存在以下一些實用性的問題需要在將來的研究中加以考慮和解決。在漢語語音識別中,全體音節(jié)的集合很小,其數(shù)目僅幾百個,而全體漢語說話人卻有14億多,對于由同一語音信號組成的特征空間,語音識別要將其劃分為M個子空間,M為音節(jié)個數(shù),而說話人識別要將其劃分為N個子空間,N為說話人個數(shù),由于N遠(yuǎn)大于M,使得識別說話人要比識別所說的內(nèi)容復(fù)雜,而且當(dāng)N很大時,說話人識別還在理論上存在將有限特征空間進行無限劃分的問題,這是說話人識別所面臨的新問題。3. 聲音容易被錄音模仿。因為說話人的發(fā)音常常與環(huán)境、說話人的情緒、說話人的健康狀況有密切關(guān)系,說話人的語音特征不是靜態(tài)的、固定不變的,它具有時變特性。說話人語音信號中既包含了說話人語音內(nèi)容的信息,也包含了說話人的個人信息,是語義特征和說話人特征的混合體。(5)實現(xiàn)算法簡單——聲紋辨認(rèn)和確認(rèn)的算法復(fù)雜度低,配合一些其他措施,如通過語音識別進行內(nèi)容鑒別等,可以提高準(zhǔn)確率。(2) 設(shè)備成本低——說話人識別是一種比較經(jīng)濟的識別方式,一方面它所用的設(shè)備(如PC機、麥克風(fēng)等)成本要求較低;另一方面聲音的采樣、量化芯片的要求也不高。另外,現(xiàn)在很多法庭已經(jīng)使用聲紋作為鑒別犯罪的依據(jù)。5. 用于軍事安全——隨著現(xiàn)代信息技術(shù)的發(fā)展,現(xiàn)在各國的國防部門也已經(jīng)逐步采用聲紋信息管理系統(tǒng),并將其應(yīng)用到軍事命令、機密情報等重要信息的獲取和鑒別中。因此,在網(wǎng)上交易時采用說話人識別技術(shù)要比其他生物識別技術(shù)更具有優(yōu)勢,且操作方便、簡潔,很容易為廣大計算機使用者接受。、證劵系統(tǒng)——目前電話銀行,炒股等業(yè)務(wù)不斷增加,為了進一步提高這些實時性高、風(fēng)險性高的業(yè)務(wù)操作的安全性,可采用說話人識別技術(shù)并結(jié)合設(shè)定的密碼及其他安全措施進行真實、安全、有效地用戶身份辨認(rèn),從而實現(xiàn)方便、快捷、安全有效地操作。由于每個人的聲音特征都是唯一的,而且?guī)缀鹾苌贂l(fā)生變化的。生物識別技術(shù)的崛起得益于信號檢測與處理、模式識別、人工智能、機器學(xué)習(xí)等理論與技術(shù)的發(fā)展,由于它為身份識別提供了一個可靠的解決方案,其應(yīng)用前景廣闊,并能為構(gòu)筑21世紀(jì)基于自主研究開發(fā)的國家信息安全體系提供強有力的技術(shù)支持。作為生物特征識別技術(shù)的一種,說話人識別技術(shù)在聲音撥號、電話銀行、電話購物、數(shù)據(jù)庫訪問、信息服務(wù)、語音電子郵箱、安全控制、計算機遠(yuǎn)程登陸等互聯(lián)網(wǎng)及通信領(lǐng)域得到廣泛應(yīng)用;在呼叫中心應(yīng)用上,說話人識別技術(shù)同樣提供更加個性化的人機交互;在軍事領(lǐng)域,說話人識別技術(shù)用于戰(zhàn)場監(jiān)聽,以辨認(rèn)出敵方的指揮員;在生物識別技術(shù)領(lǐng)域中,說話人識別技術(shù)日益成為人們?nèi)粘I詈凸ぷ髦兄匾?
點擊復(fù)制文檔內(nèi)容
畢業(yè)設(shè)計相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1