freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于遺傳算法的混合高斯模型在與文本無關(guān)的_說話人識別中的應(yīng)用_碩士畢業(yè)設(shè)計(jì)論文(編輯修改稿)

2025-08-20 15:43 本頁面
 

【文章內(nèi)容簡介】 應(yīng)包括模型訓(xùn)練和判決閾值選擇等部分。圖 22說話人識別系統(tǒng)框圖建立和應(yīng)用這一系統(tǒng)可分為兩個階段,即訓(xùn)練和識別階段。在訓(xùn)練階段,系統(tǒng)的每一說話人說出若干訓(xùn)練語料,系統(tǒng)根據(jù)這些訓(xùn)練語料,通過訓(xùn)練學(xué)習(xí)建立每個使用者的模板或模型參數(shù)參考集。而在識別階段,把從待識別說話人說出的語音信號中導(dǎo)出的特征參數(shù),與在訓(xùn)練過程中得到的參考參量集或模型模板加以比較,并且根據(jù)一定的相似性準(zhǔn)則進(jìn)行判定;對于說話人辨認(rèn)來說,所提取的參數(shù)要與訓(xùn)練過程中的每一人的參考模型加以比較,并把與它距離最近的那個參考模型所對應(yīng)的使用者辨認(rèn)為是發(fā)出輸入語音的說話人。對于說話人確認(rèn)而言,則是將從輸入語音中導(dǎo)出的特征參數(shù)與其聲言為某人的參考量相比較。如果兩者的距離小于規(guī)定的閾值,則予以確認(rèn),否則予以拒絕。. 語音的預(yù)處理預(yù)處理包括對輸入的語音數(shù)據(jù)進(jìn)行端點(diǎn)檢測、降噪、預(yù)加重、加窗、分幀等等。這和語音識別時的預(yù)處理基本相同,但在有些方面也可能有差別,如求取特征參數(shù)時的幀和幀長的選定等,對于噪聲環(huán)境下的說話人識別而言,還需要對含有噪聲的語音進(jìn)行降噪。目前對預(yù)處理的研究主要集中于端點(diǎn)檢測和語音降噪,下面就本論文涉及到的這兩部分作一介紹。 端點(diǎn)檢測語音信號是由語音及各種背景噪聲混合而成的,將語音和各種非語音信號時段區(qū)分開來,準(zhǔn)確地確定出語音信號的起始點(diǎn)被稱為端點(diǎn)檢測。研究表明[33],即使在安靜的環(huán)境下,語音識別系統(tǒng)一半以上的錯誤來自端點(diǎn)檢測。因此,端點(diǎn)檢測的性能對于識別的正確率、識別速度都有著重要的影響[34],這主要表現(xiàn)在以下幾個方面:在語音濾波和增強(qiáng)中,語音信號和噪聲的模型參數(shù)都依賴于對應(yīng)的語音段或噪聲段。只有準(zhǔn)確地判定出語音信號的端點(diǎn),才能正確地進(jìn)行語音處理,提高識別的準(zhǔn)確率;如果在識別前移除信號中的靜音段,使得整句的似然得分累計(jì)更多的集中在語音段,而不是被語音和噪聲所分散,這樣有助于識別率的提高;在不斷變換的環(huán)境下對語音和噪聲建模是非常困難的,準(zhǔn)確的端點(diǎn)檢測可以事先移除單純噪聲的時段對于語音和噪聲模型的準(zhǔn)確建立有很大幫助;當(dāng)處理信號含非語音時段非常長時,準(zhǔn)確的端點(diǎn)檢測可以極大提高計(jì)算速度并節(jié)省電池功率。端點(diǎn)檢測的方法可以分為三大類:基于魯棒性特征的方法、基于特征濾波的方法和基于模型的方法?;隰敯粜蕴卣鞯姆椒ㄊ菍ふ夷鼙碚髡Z音和噪聲在不同域差異的特征來進(jìn)行語音和噪聲時段的區(qū)分,這類方法需要考慮兩方面的問題:(1)提取能夠正確反映不同類型語音信號(清音、濁音和噪聲)的特征;(2)對不同信噪比的信號能計(jì)算出合理的判決門限。常用的特征主要有能量[35]、子帶能量[36]、過零率[37]、基頻[38]、周期度量、熵[39]、能量方差等?;谀芰康姆椒ㄔ诟咝旁氡葪l件下效果很好,隨著噪聲環(huán)境的惡化性能下降很快[39]?;谧訋芰俊⑦^零率、周期度量、基頻的方法對噪聲比較敏感,只適用于某些類型的噪聲環(huán)境,因此,這些參數(shù)不能完全描述語音的特征。[40]發(fā)現(xiàn)語音段的熵與噪聲段有明顯不同,將熵作為端點(diǎn)檢測的參數(shù)。語音熵的研究成為了端點(diǎn)檢測的熱點(diǎn),但是基于熵的方法對babble noise、音樂背景噪聲效果不好;Huang等人將時域能量和熵結(jié)合在一起作為新的參量,使得性能有所提高,但是在實(shí)際噪聲環(huán)境下,無論是基于能量的算法還是基于譜熵的算法效果都不是很理想?;谔卣鳛V波的方法是對特征先進(jìn)行濾波,然后進(jìn)行端點(diǎn)檢測,主要算法有子空間濾波、能量差分自適應(yīng)濾波[34]等。基于特征濾波方法一方面增大了計(jì)算量、另一方面改變了語音譜的結(jié)構(gòu),丟失了部分信息?;谀P偷姆椒ㄊ轻槍υ胍艉驼Z音進(jìn)行建模用來區(qū)分語音時段?;谀P偷姆椒ǖ娜秉c(diǎn)是在于噪音的環(huán)境多種多樣,不可能對各種情況都建立相應(yīng)的模型,當(dāng)噪音環(huán)境與模型不匹配時,性能嚴(yán)重退化。 語音增強(qiáng)在實(shí)際環(huán)境下語音信號常受到周圍環(huán)境、傳輸媒介引入的噪聲、通訊設(shè)備內(nèi)部噪聲以及其他講話者的干擾。這些噪聲和干擾使得接受到的語音信號并非是純凈的原始語音信號,而是受噪聲污染的帶噪聲的語音信號。為了從帶噪聲的語音信號中獲得盡可能純凈的語音信號,減少噪音的干擾,就需要進(jìn)行語音增強(qiáng)。語音增強(qiáng)主要解決兩個問題:(1)改進(jìn)語音質(zhì)量,消除背景噪聲,使聽者樂于接受,不感疲勞,這是一種主觀度量;(2)消除干擾噪聲,提高語音的可懂度,這是一種客觀度量。語音增強(qiáng)有著廣泛的應(yīng)用,因此,尋找一種有效的算法對帶噪聲的語音信號進(jìn)行處理以達(dá)到較高的抗噪聲效果的研究意義很大。在一般情況下干擾信號是隨機(jī)信號,要完全排除噪音是不現(xiàn)實(shí)的,所以語音增強(qiáng)的目標(biāo)是對收聽人而言主要是改善語音質(zhì)量,提高語音可懂度,減少疲勞感,對于說話人識別來說是提高系統(tǒng)的識別率和抗干擾能力。 預(yù)加重、加窗和分幀由于語音信號的平均功率譜受聲門激勵和口鼻輻射影響,高頻端大約在800Hz以上按6dB/倍頻程跌落,所以求語音信號頻譜時,頻率越高相應(yīng)的成分越小,為此要在預(yù)處理中進(jìn)行預(yù)加重(Preemphasis)處理。預(yù)加重的目的是提升高頻部分,使信號的頻譜變得平坦,保持在低頻到高頻的整個頻帶中,能用同樣的信噪比求頻譜,以便于頻譜分析或聲道參數(shù)分析。6dB/倍頻程的提升高頻特性的預(yù)加重數(shù)字濾波器來實(shí)現(xiàn),它一般是一階的數(shù)字濾波器: (21)其中值接近于1。考慮到一個短時間范圍內(nèi)(一般認(rèn)為在10ms~30ms的短時間內(nèi)),其特性基本保持不變即相對穩(wěn)定,因而可以將其看作是一個準(zhǔn)穩(wěn)態(tài)過程,即語音信號具有短時平穩(wěn)性。分幀一般要采用交疊分段的方法,這是為了使得幀與幀之間平滑過渡,保持其連續(xù)性。前一幀和后一幀的交疊部分稱為幀移。幀移與幀長的比值一般取為0~1/2,這種方法稱為加權(quán)交疊平均法,又可以看作是Welch法的推廣,是一種廣泛應(yīng)用的方法,作進(jìn)一步分析可以發(fā)現(xiàn)隨著段數(shù)的增大,它的方差性能會得到改善,而且它估計(jì)出的譜也是漸進(jìn)無偏的[13]。分幀就是用可移動的有限長度窗口的方法來實(shí)現(xiàn)的,加窗語音信號為: (22)其中為窗函數(shù)。在語音信號數(shù)字處理中考慮到帶外衰減一般常用漢明窗,它的表達(dá)式如下所示(其中N為幀長): (23)由于采樣周期、窗口長度N和頻率分辨率之間存在的關(guān)系,既有采樣周期一定時,隨窗口寬度N的增加而減小,如果窗口N取小,頻率分辨率下降,而時間分辨率提高。應(yīng)該根據(jù)不同的需要選擇合適的窗口長度。這樣,語音信號就被分割成一幀一幀的加過窗函數(shù)的短時信號,然后借助平穩(wěn)的隨機(jī)信號處理的理論來提取語音特征參數(shù)。. 說話人識別的特征選取在說話人識別系統(tǒng)中特征提取是最重要的一環(huán),特征提取就是從說話人的語音信號中提取出表示說話人的個性特征。提取的特征應(yīng)能有效地區(qū)分不同地說話人,并且對同一說話人保持相對穩(wěn)定。說話人識別系統(tǒng)中常用的特征有:由語音信號直接導(dǎo)出的參數(shù):短時能量、短時平均幅度、短時平均過零率和基音頻率。由于語音的短時譜中包含有激勵源和聲道的特性,因而可以反映說話人的差別。所以分析語音頻譜導(dǎo)出說話人個人特征的參數(shù):功率譜、基因輪廓、共振峰頻率帶寬及其軌跡、復(fù)倒譜、MEL倒譜系數(shù)等等。由語音信號的線性預(yù)測分析也可得一些表示說話人特征的參數(shù):基因頻率、聲道沖激響應(yīng)、自相關(guān)函數(shù)、聲道面積函數(shù)、線性預(yù)測系數(shù)(LPC)、LPC倒譜系數(shù)和線譜對參數(shù)(LSP)等,其中LPC倒譜系數(shù)有最好的識別效果?;旌蠀?shù):為了提高系統(tǒng)的識別率,部分原因也許是因?yàn)榫烤鼓男﹨?shù)是關(guān)鍵因素把握不充分,相當(dāng)多的系統(tǒng)采用了混合參量構(gòu)成的矢量。Matsui和Furui在與文本無關(guān)的說話人識別系統(tǒng)中利用倒譜系數(shù)、差值倒譜系數(shù)、基音頻率、差值基因頻率作為特征矢量,得到了比單用任意一個參數(shù)好得多的識別效果。. 說話人識別的方法目前針對各種特征而提出的模式匹配方法的研究越來越深入。這些方法大體可歸為下述幾種:概率統(tǒng)計(jì)方法語音中說話人信息在短時內(nèi)較為平穩(wěn),通過對穩(wěn)態(tài)特征如基音、聲門增益、低階反射系數(shù)的統(tǒng)計(jì)分析,可以利用均值、方差等統(tǒng)計(jì)量和概率密度函數(shù)進(jìn)行分類判決。其優(yōu)點(diǎn)是不用對特征參量在時域上進(jìn)行規(guī)整,比較適合文本無關(guān)的說話人識別。動態(tài)時間規(guī)整方法(DTW)說話人信息不僅有穩(wěn)定因素(發(fā)聲器官的結(jié)構(gòu)和發(fā)聲習(xí)慣),而且有時變因素(語速、語調(diào)、重音和韻律)。將識別模板與參考模板進(jìn)行時間對比,按照某種距離測定得出兩模板間的相似程度。常用的方法是基于最近鄰原則的動態(tài)時間規(guī)整DTW。矢量量化方法(VQ)矢量量化最早是基于聚類分析的數(shù)據(jù)壓縮編碼技術(shù)。Helms首次將其用于說話人識別,把每個人的特定文本編成碼本,識別時將測試文本按此碼本進(jìn)行編碼,以量化產(chǎn)生的失真度作為判決標(biāo)準(zhǔn)。Bell實(shí)驗(yàn)室的Rosenberg和Soong用VQ進(jìn)行了孤立數(shù)字文本的說話人識別研究。這種方法的識別精度較高,且判斷速度快。隱馬爾可夫模型方法(HMM)隱馬爾可夫模型是一種基于轉(zhuǎn)移概率和傳輸概率的隨機(jī)模型,最早在CMU和IBM被用于語音識別。它把語音看成由可觀察到的符號序列組成的隨機(jī)過程,符號序列則是發(fā)聲系統(tǒng)狀態(tài)序列的輸出。在使用HMM識別時,為每個說話人建立發(fā)聲模型,通過訓(xùn)練得到狀態(tài)轉(zhuǎn)移概率矩陣和符號輸出概率矩陣。識別時計(jì)算未知語音在狀態(tài)轉(zhuǎn)移過程中的最大概率,根據(jù)最大概率對應(yīng)的模型進(jìn)行判決。HMM不需要時間規(guī)整,可節(jié)約判決時的計(jì)算時間和存儲量,在目前被廣泛應(yīng)用。缺點(diǎn)是訓(xùn)練時計(jì)算量較大。人工神經(jīng)網(wǎng)絡(luò)方法(ANN)人工神經(jīng)網(wǎng)絡(luò)在某種程度上模擬了生物的感知特性,它是一種分布式并行處理結(jié)構(gòu)的網(wǎng)絡(luò)模型,具有自組織和自學(xué)習(xí)能力、很強(qiáng)的復(fù)雜分類邊界區(qū)分能力以及對不完全信息的魯棒性,其性能近似理想的分類器。其缺點(diǎn)是訓(xùn)練時間長,動態(tài)時間規(guī)整能力弱,網(wǎng)絡(luò)規(guī)模隨說話人數(shù)目增加時可能大到難以訓(xùn)練的程度。. 本章小結(jié)本章對說話人識別系統(tǒng)作了一個簡要介紹,首先介紹了人的語音的發(fā)聲原理。然后分別分析了說話人識別系統(tǒng)的幾個主要模塊包括端點(diǎn)檢測、語音增強(qiáng)、語音的預(yù)加重、加窗、分幀、特征提取、識別方法的國內(nèi)外研究現(xiàn)狀和目前采用的主要方法。第3章 說話人識別的特征參數(shù)及其選取第3章 說話人識別的特征參數(shù)及其選取. 引言1963年Bell實(shí)驗(yàn)室的S. Pruzansky[1]和1971年P(guān). D. Breaker et al[2]提出了短時譜中的信息提供說話人特征。隨后在1968年B. S. Atal[3]采用基音頻率、1971年G. Doddington[4]提出共振峰頻率、1972年M. R. Sambur[7]的線性預(yù)測系數(shù)(LPC)、1973年C. Lummis[8]的時域音栓配合法的語音響度、1973年S. Frurui和F. Itakura的語音對數(shù)域比例、1972年J. J. Wolf和1975年M. R. Sambur[9]從元音和鼻音中提取出最好的說話人個人特征、1974年B. Atal[10]通過比較各種參數(shù)得出倒譜系數(shù)為說話人識別提供最好的結(jié)果。如今倒譜系數(shù)已經(jīng)逐步成為說話人識別中的主打參數(shù)[11][12][13]。. 基音頻率基音周期是語音信號最重要的參數(shù)之一。基音周期估計(jì)的方法很多,本設(shè)計(jì)采用了基于求短時自相關(guān)函數(shù)的算法。語音按其發(fā)生方式分為清音和濁音。發(fā)清音時,聲道完全封閉,聲道不受聲門周期脈沖的激勵而是利用口腔內(nèi)存有的空氣釋放出來而發(fā)聲,因而清音并沒有基音。在作基音周期的估計(jì)時,必須先去除清音。本設(shè)計(jì)中利用語音信號的短時過零率來區(qū)分清濁音,一般而言,在相同條件下,清音的短時過零率分布的平均值最高。利用這一點(diǎn),可以設(shè)一門限區(qū)分清濁音。 (31)其中。短時自相關(guān)函數(shù)在基音周期的整數(shù)倍點(diǎn)上有很大的峰值,只要找到第一個最大值點(diǎn)的位置,便可估計(jì)出基音周期。作基音周期估計(jì)時,窗長至少應(yīng)大于兩個基音周期,才可能有較好的效果。另一方面,為了克服聲道的共振峰特性的干擾,可以對語音信號進(jìn)行非線性變換后再求自相關(guān)函數(shù)。一種有效的非線性變換是“中心削波”。若輸入信號為x(n),中心削波的輸出為y(n)=C[x(n)],函數(shù)C[x]如圖 31所示。經(jīng)過削波后的y(n)的自相關(guān)函數(shù)在基音周期點(diǎn)上的峰起更尖銳突出,因此用它來進(jìn)行基音周期估計(jì)的效果可以好很多。圖 31中心削波函數(shù)C[x]求得的基音周期軌跡與真實(shí)的基音周期軌跡不可能完全吻合,實(shí)際上在一些局部段落或區(qū)域中有一個或幾個基音周期估值偏離了正常軌跡(稱為野點(diǎn)),可以采用中值平滑算法和線性平滑算法去除這些野點(diǎn)。. 線性預(yù)測編碼(LPC)將線性預(yù)測(Liner Prediction)分析應(yīng)用于語音信號處理,不僅是為了利用其預(yù)測功能,而且是它為我們提供了一個非常好的聲道模型。線性預(yù)測系數(shù)(Liner Prediction Coefficient)是語音信號處理(語音編碼、語音識別和說話人識別等)的非常重要的參數(shù)之一。按照圖 21所示的語音產(chǎn)生模型,采用全極點(diǎn)模型,聲道、聲門激勵及輻射的全部譜效應(yīng)可以簡化為一個時變的數(shù)字濾波器。其穩(wěn)態(tài)系統(tǒng)響應(yīng)函數(shù)為: (32)現(xiàn)在對這個模型在加以一些限制以便于得到一種高效的求解算法。假定聲道函數(shù)是一個全極點(diǎn)(Autoregressive,AR)模型,不考慮輻射的影響,則(32)可表示成: (33)其中是預(yù)測階數(shù),為是聲道濾波器增益。由此,語音抽樣值 和激勵信號之間的關(guān)系可以用下面的差分方程表示: (34)即語音樣點(diǎn)之間有相關(guān)性,可以用過去的樣點(diǎn)值來預(yù)測未來樣點(diǎn)值。對于濁音,激勵是以基因周期重復(fù)的單位沖激;對于清音,是白噪聲。稱作逆濾波器,傳輸函數(shù)為: (35)設(shè)增益為1,預(yù)測誤差為: (36)要解決的問題是:給定語音序列,根據(jù)特定的準(zhǔn)則求預(yù)測系數(shù)的最佳估計(jì)值,現(xiàn)在以最小均方誤差準(zhǔn)則作為估計(jì)模型參數(shù)的準(zhǔn)則求.
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1