freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于聲紋的說話人特征識別畢業(yè)論文-預(yù)覽頁

2025-08-09 15:07 上一頁面

下一頁面
 

【正文】 ...................................................................................... 46 小結(jié) ............................................................................................................... 46 參考文獻 ...................................................................................................................... 47 附 錄 .......................................................................................................................... 48 致 謝 .......................................................................................................................... 62 九江學(xué)院學(xué)士學(xué)位論文 1 引 言 語音是人類交流信息的基本手段。 目前已知的語音特征包括 基音周期、語譜圖 、 自相關(guān)系數(shù)、能量、平均幅度、過零率、 共振峰、線譜對、線性預(yù)測系數(shù) ( LPC) 、線性預(yù)測倒譜( LPCC)、Mel頻率 倒譜( MFCC)等。它也常被人們稱為聲紋識別技術(shù),是生物認證技術(shù)的一種,其基本思想就是運用某種匹配方法進行特征識別,從而確定說話人的身份。 關(guān)鍵字: 說話人識別;特征參數(shù); 基音周期 ; 線性預(yù)測倒譜 ; Mel頻率 倒譜 基于聲紋的說話人特征識別 II Speaker feature recognition based on the voiceprint Abstract Speaker recognition is the voice parameters in a speech waveform which reflects the speaker39。因此,語音信號處理成為目前發(fā)展最為迅速的信 息科學(xué)研究領(lǐng)域中的一個重要分支。為了得到參數(shù)表述,首先必須對語音進行采樣和量化,然后再進一步處理得到語音產(chǎn)生模型的參數(shù)。 —— 早期形成的數(shù)字濾波器、 FFT等數(shù)字信號處理方法廣泛應(yīng)用在語音信號處理領(lǐng)域,后期出現(xiàn)的線性預(yù)測編碼技術(shù)成為語音信號處理最有效的辦法之一。而且語音合成的音質(zhì)好壞、語音識別率的高低,都取決于對語音信號分析的準確性和精度。根據(jù)所分析的參數(shù)不同,語音信號分析可分為時域、頻域、倒譜域等方法。常用的頻域分析方法有帶通濾波器組方法、傅里葉變化法和線性預(yù)測分析法等。倒譜域是將對數(shù)功率譜進行反傅里葉變換后得到,它可以進一步將聲道特征和激勵特征有效的分開,因此可以更好地揭示語音信號的本質(zhì)特征。 人類語言的產(chǎn)生是人體語言中樞與發(fā)音器官之間一個復(fù)雜的生理過程,人在講話時使用的發(fā)生器官 —— 舌頭、牙齒、喉頭、肺、鼻腔在尺寸和形態(tài)方面每個人的差異很大,所以任何兩個人的聲紋圖譜都有差異。 說話人識別 是一項根據(jù)語音波形中反映說話人生理和行為特征的語音參數(shù),而 自動識別說話人身份的技術(shù) ,主要包括特征提取和模式匹配兩個部分。其基本思想就是運用某種匹配方法進行特征 (本文指說話人的語音特征 )識別,從而確定說話人的身份。它是集光學(xué)、傳感技術(shù)、紅外掃描和計算機技術(shù)于一身的第三代身份驗證技術(shù),作為一種更加便捷、先進的信息安全技術(shù),生物識別技術(shù)將全球帶進了電子商務(wù)時代。在當今社會,說話人識別幾乎可以應(yīng)用到人們的日常生活的各個角落,成為人們生活中和工作中重要且普及的安全驗證方式。同時,記憶并定期修改眾多的密碼是非常讓人頭疼的 事情。 —— 利用不同人的聲紋特征進行身份鑒別,為用戶設(shè)計聲紋打卡系統(tǒng)、聲紋鎖、聲控防盜門、聲控車載啟動系統(tǒng)等等。例如為響應(yīng)病人請求的命令,設(shè)計一個針對患者的說話人識別系統(tǒng),可方便地實現(xiàn)患者需求的控制等。 說話人識別的技術(shù)優(yōu)勢 生物識別技術(shù)是目前最為方便、安全和環(huán)保的識別技術(shù),具有不會遺失、無需記憶等優(yōu)點。 ( 3) 可用于移動傳輸中 —— 隨著信息智能化發(fā)展,語音特征將成為嵌入式系統(tǒng)和手持移動設(shè)備最好的交互手段的可能性越來越明顯,因此,以聲音作為身份識別 特征的技術(shù)也越來越受到重視,說話人識別技術(shù)也越來越重要。 說話人識別研究的難點和熱點 說話人識別技術(shù)研究的難點 盡管對說話人識別的研究已長達半個世 紀,說話人識別技術(shù)也已從實驗階段走向市場,進入是實用階段。 2. 語音信號的變異。語音信號的變異性從本質(zhì)上說是說話人特征空間發(fā)生移動,說話人模式發(fā)生變異,從而增加識別過程中的不確定性。比如在法庭查證的識別應(yīng)用中,罪犯可能會偽裝他們的聲音或模仿另一個人的聲音來逃避罪名。魯棒性問題 一直是說話人識別研究的難點,像用麥克風(fēng)錄音時會產(chǎn)生低頻干擾噪聲,而在移動信道中傳送語音時也會有加性或卷積噪聲產(chǎn)生,這些噪聲都會使得得到的信號產(chǎn)生失真,最終降低識別率。即在一定的應(yīng)用場合下對系統(tǒng)的功能和指標合理定義、對使用者實行明智的控制以及選擇有效而可靠的識別方法等問題,使得既能正確識別說話人,又能拒絕模仿者。需要建立與試聽人試驗對比的方法和指標;由于目前對于說話人識別的性能尚無一致的評價方法,所以這一問題的解決還需長期的努力。 說話人識別的關(guān)鍵步驟可分為:語音的預(yù)處理、語音特征提取、識別系統(tǒng)模型的建立、根據(jù)相似性準則進行判定等。 識別模型常用的是高斯混合模型( GMM)、矢量量化模型( VQ)和隱馬 爾九江學(xué)院學(xué)士學(xué)位論文 7 可夫模型( HMM),已有實驗表明,對于相同的特征參數(shù)的與文本無關(guān)的說話人識別系統(tǒng), GMM 的識別率可以達到 %,性能也是最好的,其次是 HMM,而 VQ 的識別率最高僅為 %,模型處理的主要問題集中在算法的準確度和復(fù)雜度上。說話人識別的研究已經(jīng)逐漸從實驗室走向?qū)嶋H應(yīng)用。 2. 在模型訓(xùn)練和識別技術(shù)方面: HMM 模型與其他模型結(jié)合,改善說話人識別系統(tǒng)的性能。 神經(jīng)網(wǎng)絡(luò)方面:大人群識別,級聯(lián)神經(jīng)網(wǎng)絡(luò)。但是在實際的問題中,說話人識別技術(shù)仍然有一些弱點。也就是說,難度在于要從多變的語音信號中找出每個說話人的特有特征。語音產(chǎn)生的變化有些是刻意為之,有些則不然。如噪聲、傳輸信道匹配、系統(tǒng)使用時間長短的。因此如何解決噪聲條件下的說話人識別是第一重要問題?,F(xiàn)有的識別系統(tǒng)在噪聲環(huán)境中其實別效果下降的很嚴重。語音信號處理技術(shù)和物理學(xué)、心理學(xué)、醫(yī)學(xué)都有密切聯(lián)系,任何一門學(xué)科的發(fā)展都有可能推動語音信號處理技術(shù)的進步。可以說,只要系統(tǒng)存在失真,那么信道不匹配問題就會一九江學(xué)院學(xué)士學(xué)位論文 9 直存在。近年來流行的 GMM, HMM 等基于統(tǒng)計模型的說話人識別系統(tǒng)都存在這樣的問題。因此更短的系統(tǒng)使用時間也應(yīng)該是研究者追求的目標之一。 第四章 介紹了說話人系統(tǒng)的實現(xiàn)過程,并對實驗結(jié)果進行分析總結(jié)。聲道始于聲門止于嘴唇,是氣流傳輸?shù)耐ǖ馈? 產(chǎn)生語音的能量來源于正常呼吸時肺部呼出的穩(wěn)定氣流,喉部的聲帶既是閥門,又是振動部件。短促的氣流使聲音短脆而明快,長的氣流使聲音柔和而渾厚。 聲帶不振動時產(chǎn)生的音為清音,它是空氣通過聲道時,受聲道某些部分的擠壓而引起的,一般分為摩擦音和爆破音。稱為共振峰頻率或簡稱共振峰。在研究了語音的產(chǎn)生原理后,下面就可以建立一個離散時域的語音信號產(chǎn)生模型。另外,聲門脈沖模型、聲道模型、輻射模型都是線性時變系統(tǒng),這是在一定的假設(shè)條件下提出的模型,但這樣的假設(shè)不會嚴重限制模型的應(yīng)用。若 P 取偶數(shù),一般有 P/2個共軛極點,極點的頻率分別與語音的各個共振峰相對應(yīng)。 上述語音產(chǎn)生模型的基本思想是將激勵與系統(tǒng)相分離,使語音信號解體來分別進行描述,而不是直接研究信號波形本身的特性。 語音信號的預(yù)處理技術(shù) 為了將原始的語音信號變?yōu)閿?shù)字信號,必須經(jīng)過采樣和量化兩個步驟,從而得到在時間和幅度上均為離散的數(shù)字語音信號。為此要求在預(yù)處理中進行預(yù)濾波,預(yù)濾波的目的是提升高頻部分,使信號的頻譜變的平坦,保持在低頻到高頻的整個頻帶中,能使用相同的信噪比求頻譜,以便于頻譜分析以及聲道參數(shù)分析,并減少尖銳噪聲影響。幀移通常取為幀長的 1/2 或 1/3。加窗過程首先是確定選用的窗函數(shù)并確定窗的長度,然后將每一幀語音序列 S(n)與時間窗函數(shù) W(n)相乘,從而形成加窗語音 ? ? ? ? ? ?nnn WSSW ?? 。然后針對有聲片段,進行特征提取等操作。短時能量的主要用途是:一是可以區(qū)分濁音段和清音段,因為濁音段時的短時能量 ??nE 值比清音時大很多;二是在信噪比較高的情況下,短時能量還可以作為區(qū)分有聲和無聲的依據(jù);三是可以作 為輔助的特征參數(shù)用于說話人識別中。 說話人識別的分類 語音信號的處理是一個比較寬泛的概念,其研究領(lǐng)域有分為幾個分支,說話人識別在語音處理中的具體地位如圖 22 所示。 說話人辨認 (Speaker Identification) ,也稱說話人鑒別,是指說話人事先不聲明身份,辨認出待識別說話人的語音到底屬于 N 個參考說話人之中的哪一個,有時還要對這個 N 個說話人以外的語音做出拒絕的判決, 是“多選一”的判別問題。 文本相關(guān) (TextDependent)的說話人識別,是指用戶模型訓(xùn)練的文本是給定好的,而且文本與測試文本要求一致,說話人的內(nèi)容是已知的。 文本無關(guān) (TextIndependent)的說話 人識別,用戶模型訓(xùn)練的文本不要求特定的語種和內(nèi)容,而且訓(xùn)練文本與測試文本之間也不要求一致,說話人的內(nèi)容是未知的。這樣可以防止用戶的語音被盜用。 閉集 (Closedset),是指待測試的說話人肯定在訓(xùn)練庫中 ,在識別時需要與訓(xùn)練庫中的每個說話人的訓(xùn)練模型都進行一次匹配計算,總共進行 SN 次比較判決。識別階段,把從待識別說話人說出的語音信號中提取的特征參數(shù),與在訓(xùn)練過程中得到的參考參量集或模型模版加以比較,并且根據(jù)一定的相似性準則進行判段。 語音信號是一種典型的非平穩(wěn)信號,但是由于發(fā)音時聲道的物理運動比起聲音振動的速度來講要緩慢的多,因此語音信號可假設(shè)為短時平穩(wěn)的。預(yù)處理在語音識別系統(tǒng)中占有重要地位。特征提取是說話人識別技術(shù)中的關(guān)鍵步驟,其好壞直接影響到最后的識別性能。 根據(jù)匹配計算結(jié)果,采用某種判決準則判斷說話人是否是所聲稱的說話人或者說話人到底是誰。 說話人識別技術(shù)的研究過程中使用個特征參數(shù)主要有:基音頻率、 語譜圖 、共振峰系數(shù)、聲道沖擊響應(yīng)、自相關(guān)系數(shù)、聲道面積函數(shù)、線 性預(yù)測系數(shù)、線譜對系數(shù)( LSP)、美爾倒譜系數(shù)、感知線性預(yù)測系數(shù)( PLP)以及差值倒譜等等。但它是基于信號的 AR 模型上的,所以當遇到動態(tài)特性較強的輔音或者存在噪聲干擾時, AR 信號就會變成 ARMA 信號。 說話人識別系統(tǒng)的結(jié)構(gòu)框架 針對本文研究的用于說話人識別的語音特征提取算法和為了實現(xiàn)說話人識別,我們建立了所需的說話人識別系統(tǒng)。 說話人的模型不是由語音信號得到的,而是通過從語音信號中提取特征而得到的,是說話人語音特征的模型。說話人識別系統(tǒng)主要針對較低層次的聲道學(xué)特征進行建模,主要有基音周期、共振峰、基于線性預(yù)測的倒譜、基于付氏變換的 FFT 倒譜、基于語音信號的濾波器組分析的美爾倒譜和語音譜的過渡信息等。目前針對各種特征而提出的模式匹配方法的研究越來越深入,大致可歸為三類:基于非參數(shù)模型的方法、基于參數(shù)模型的方法、基于神經(jīng)網(wǎng)絡(luò)模型的方法。說話人識別系統(tǒng)中經(jīng)常采用的概率模型有:高斯模型、高斯混合模型、隱馬爾可夫模型等。 模板匹配法是一種較為成熟的傳統(tǒng)說話人識別方法,它是先存儲每個說話人的特征模板,然后將待識別特征參數(shù)的中心矢量值與模板序列比較,取匹配距離最小的那個模板對應(yīng)的說話人最為識別結(jié)果。與模板匹配法相比,統(tǒng)計概率模型法更準確也更具有魯棒性。那么, DTW 法就是要尋找一個映射函數(shù) ? ?nwm? ,使得距離測度滿足? ? ? ?? ????NL1nnw nwndm in 。 用這種方法建立的識別模型,所需要的數(shù)據(jù)量少,訓(xùn)練時間短,識別響應(yīng)快。尋找代表矢量(碼本)為一矢量聚類問題,可通過聚類等算法來實現(xiàn)。這種方法的識別精度較高,且判斷速度快。訓(xùn)練過程中用 BaumWelch 算法或者 Viterbi 算法來估 計 參 數(shù) 。 ( 4) 高斯混合模型( Gassian Mixture Model, GMM) GMM 是一個狀態(tài)數(shù)為 1 的連續(xù)隱馬爾可夫模型,它是用多個高斯分布的線性組合來近似表示多維矢量的概率分布。 基于聲紋的說話人特征識別 22 在實際應(yīng)用中,用于訓(xùn)練的語音往往比較短,因而訓(xùn)練出的模型參數(shù)就不能很好地表征說話人的個性特征,影響識別性能。 ( 5)人工神經(jīng)網(wǎng)絡(luò)( Artificial Neural Network, ANN) ANN 是一種分布式并行處理結(jié)構(gòu)的網(wǎng)絡(luò)模型,可以在一定程度上模仿人腦的功能,多用在生物醫(yī)學(xué)方面的研
點擊復(fù)制文檔內(nèi)容
研究報告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1