freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于聲紋的說話人特征識別畢業(yè)論文-免費閱讀

2025-08-09 15:07 上一頁面

下一頁面
  

【正文】 基于聲紋的說話人特征識別 22 在實際應(yīng)用中,用于訓(xùn)練的語音往往比較短,因而訓(xùn)練出的模型參數(shù)就不能很好地表征說話人的個性特征,影響識別性能。訓(xùn)練過程中用 BaumWelch 算法或者 Viterbi 算法來估 計 參 數(shù) 。尋找代表矢量(碼本)為一矢量聚類問題,可通過聚類等算法來實現(xiàn)。那么, DTW 法就是要尋找一個映射函數(shù) ? ?nwm? ,使得距離測度滿足? ? ? ?? ????NL1nnw nwndm in 。 模板匹配法是一種較為成熟的傳統(tǒng)說話人識別方法,它是先存儲每個說話人的特征模板,然后將待識別特征參數(shù)的中心矢量值與模板序列比較,取匹配距離最小的那個模板對應(yīng)的說話人最為識別結(jié)果。目前針對各種特征而提出的模式匹配方法的研究越來越深入,大致可歸為三類:基于非參數(shù)模型的方法、基于參數(shù)模型的方法、基于神經(jīng)網(wǎng)絡(luò)模型的方法。 說話人的模型不是由語音信號得到的,而是通過從語音信號中提取特征而得到的,是說話人語音特征的模型。但它是基于信號的 AR 模型上的,所以當(dāng)遇到動態(tài)特性較強的輔音或者存在噪聲干擾時, AR 信號就會變成 ARMA 信號。 根據(jù)匹配計算結(jié)果,采用某種判決準(zhǔn)則判斷說話人是否是所聲稱的說話人或者說話人到底是誰。預(yù)處理在語音識別系統(tǒng)中占有重要地位。識別階段,把從待識別說話人說出的語音信號中提取的特征參數(shù),與在訓(xùn)練過程中得到的參考參量集或模型模版加以比較,并且根據(jù)一定的相似性準(zhǔn)則進行判段。這樣可以防止用戶的語音被盜用。 文本相關(guān) (TextDependent)的說話人識別,是指用戶模型訓(xùn)練的文本是給定好的,而且文本與測試文本要求一致,說話人的內(nèi)容是已知的。 說話人識別的分類 語音信號的處理是一個比較寬泛的概念,其研究領(lǐng)域有分為幾個分支,說話人識別在語音處理中的具體地位如圖 22 所示。然后針對有聲片段,進行特征提取等操作。幀移通常取為幀長的 1/2 或 1/3。 語音信號的預(yù)處理技術(shù) 為了將原始的語音信號變?yōu)閿?shù)字信號,必須經(jīng)過采樣和量化兩個步驟,從而得到在時間和幅度上均為離散的數(shù)字語音信號。若 P 取偶數(shù),一般有 P/2個共軛極點,極點的頻率分別與語音的各個共振峰相對應(yīng)。在研究了語音的產(chǎn)生原理后,下面就可以建立一個離散時域的語音信號產(chǎn)生模型。 聲帶不振動時產(chǎn)生的音為清音,它是空氣通過聲道時,受聲道某些部分的擠壓而引起的,一般分為摩擦音和爆破音。 產(chǎn)生語音的能量來源于正常呼吸時肺部呼出的穩(wěn)定氣流,喉部的聲帶既是閥門,又是振動部件。 第四章 介紹了說話人系統(tǒng)的實現(xiàn)過程,并對實驗結(jié)果進行分析總結(jié)。近年來流行的 GMM, HMM 等基于統(tǒng)計模型的說話人識別系統(tǒng)都存在這樣的問題。語音信號處理技術(shù)和物理學(xué)、心理學(xué)、醫(yī)學(xué)都有密切聯(lián)系,任何一門學(xué)科的發(fā)展都有可能推動語音信號處理技術(shù)的進步。因此如何解決噪聲條件下的說話人識別是第一重要問題。語音產(chǎn)生的變化有些是刻意為之,有些則不然。但是在實際的問題中,說話人識別技術(shù)仍然有一些弱點。 2. 在模型訓(xùn)練和識別技術(shù)方面: HMM 模型與其他模型結(jié)合,改善說話人識別系統(tǒng)的性能。 識別模型常用的是高斯混合模型( GMM)、矢量量化模型( VQ)和隱馬 爾九江學(xué)院學(xué)士學(xué)位論文 7 可夫模型( HMM),已有實驗表明,對于相同的特征參數(shù)的與文本無關(guān)的說話人識別系統(tǒng), GMM 的識別率可以達到 %,性能也是最好的,其次是 HMM,而 VQ 的識別率最高僅為 %,模型處理的主要問題集中在算法的準(zhǔn)確度和復(fù)雜度上。需要建立與試聽人試驗對比的方法和指標(biāo);由于目前對于說話人識別的性能尚無一致的評價方法,所以這一問題的解決還需長期的努力。魯棒性問題 一直是說話人識別研究的難點,像用麥克風(fēng)錄音時會產(chǎn)生低頻干擾噪聲,而在移動信道中傳送語音時也會有加性或卷積噪聲產(chǎn)生,這些噪聲都會使得得到的信號產(chǎn)生失真,最終降低識別率。語音信號的變異性從本質(zhì)上說是說話人特征空間發(fā)生移動,說話人模式發(fā)生變異,從而增加識別過程中的不確定性。 說話人識別研究的難點和熱點 說話人識別技術(shù)研究的難點 盡管對說話人識別的研究已長達半個世 紀(jì),說話人識別技術(shù)也已從實驗階段走向市場,進入是實用階段。 說話人識別的技術(shù)優(yōu)勢 生物識別技術(shù)是目前最為方便、安全和環(huán)保的識別技術(shù),具有不會遺失、無需記憶等優(yōu)點。 —— 利用不同人的聲紋特征進行身份鑒別,為用戶設(shè)計聲紋打卡系統(tǒng)、聲紋鎖、聲控防盜門、聲控車載啟動系統(tǒng)等等。在當(dāng)今社會,說話人識別幾乎可以應(yīng)用到人們的日常生活的各個角落,成為人們生活中和工作中重要且普及的安全驗證方式。其基本思想就是運用某種匹配方法進行特征 (本文指說話人的語音特征 )識別,從而確定說話人的身份。 人類語言的產(chǎn)生是人體語言中樞與發(fā)音器官之間一個復(fù)雜的生理過程,人在講話時使用的發(fā)生器官 —— 舌頭、牙齒、喉頭、肺、鼻腔在尺寸和形態(tài)方面每個人的差異很大,所以任何兩個人的聲紋圖譜都有差異。常用的頻域分析方法有帶通濾波器組方法、傅里葉變化法和線性預(yù)測分析法等。而且語音合成的音質(zhì)好壞、語音識別率的高低,都取決于對語音信號分析的準(zhǔn)確性和精度。為了得到參數(shù)表述,首先必須對語音進行采樣和量化,然后再進一步處理得到語音產(chǎn)生模型的參數(shù)。 關(guān)鍵字: 說話人識別;特征參數(shù); 基音周期 ; 線性預(yù)測倒譜 ; Mel頻率 倒譜 基于聲紋的說話人特征識別 II Speaker feature recognition based on the voiceprint Abstract Speaker recognition is the voice parameters in a speech waveform which reflects the speaker39。 目前已知的語音特征包括 基音周期、語譜圖 、 自相關(guān)系數(shù)、能量、平均幅度、過零率、 共振峰、線譜對、線性預(yù)測系數(shù) ( LPC) 、線性預(yù)測倒譜( LPCC)、Mel頻率 倒譜( MFCC)等。 語音信號的研究一般都基于語音信號的數(shù)字表示,因此語音信號的數(shù)字表示是進行語音信號數(shù)字處理的基礎(chǔ)。到了八十年代,出現(xiàn)了分析合成法、碼激勵線性預(yù)測( CELP)、矢量量化( VQ)以及馬爾可夫模型( HMM)等一 系列算法和模型在很大程度上推動了語音編碼和語音識別技術(shù)的研究。進行語音信號分析時,最先接觸基于聲紋的說話人特征識別 2 到的、最直觀的是它的時域波形。 語音信號處理 的主要應(yīng)用包括:語音識別、語音合成、說話人識別、語音編碼、語音增強等幾個分支。 這項 技術(shù) 自 研究發(fā)展至今,以其特有的方便性、經(jīng)濟性 、安全性 和準(zhǔn)確性等優(yōu)點受到特別關(guān)注, 其 研究和應(yīng)用系統(tǒng) 的 開發(fā)具有重要 的現(xiàn)實意義 。 說話人識別作為生物識別的一種,是通過由計算機利用語音波形中所包含的反映特定說話人生理、心理和行為特征的語音特征參數(shù) 來實現(xiàn)自動識別說話人身份的。在說話人識別過程中,每次發(fā)音都可由隨機產(chǎn)生的提示文本來控制,可有效的防止身份復(fù)制和賬號、密碼的盜竊,并且用戶不需要記憶和修改任何東西。 取證、刑事案件偵破 —— 對于各種電話勒索、綁架、電話人身攻擊等案件,說話人識別技術(shù)可以在一段錄音中查找出嫌疑人,幫助對嫌疑人的查證, 1971 年美國警方就利用此技術(shù)協(xié)助破案。 ( 4) 可實現(xiàn)遠程操作 —— 適合遠程身份確認(rèn),通過麥克風(fēng)或電話、手機就可以由網(wǎng)絡(luò)(通訊網(wǎng)絡(luò)或互聯(lián)網(wǎng)絡(luò))實現(xiàn)遠程登陸 。即對于同一說話人和同一文本,語音信號也有很 大的變異性。 4. 特征空間有限。 2. 如何處理長時間 和短時說話人的語音波動,如何區(qū)別有意模仿的聲音,這點對于說話人識別在司法上應(yīng)用尤為重要。想要提高說話人識別的正確率,應(yīng)從以上幾個方面進行研究。目前,說話人識別的研究主要集中在如下幾個方面: 1. 語音特征參數(shù)的提取和混合。 3. 帶噪音,特別是電話和移動通信環(huán)境中的語音的說話人識別是現(xiàn)今說話人識別的一個 熱點。語音信號的變化是如此錯綜復(fù)雜,其原 因之一就在于說話人自身語音的變化。 —— 噪聲的影響是語音信號處理中最常見也是影響系統(tǒng)性能最關(guān)鍵的因素之一。 語音增強技術(shù)屬于信號級抗噪處理方法,假設(shè)在加性噪聲環(huán)境下,可以根據(jù)噪聲的短時平穩(wěn)特征,通過譜減法來處理帶噪語音。解決這一問題的方法通常是采用補償技術(shù)。 論文的內(nèi)容安排 全文分為四章,按以下順序組織: 第一章 概述了說話人識別研究的意義、應(yīng)用領(lǐng)域、技術(shù)優(yōu)勢和研究的熱點、難點。鼻道則從小舌開始到鼻 道孔止。要使人發(fā) 出的聲音豐富多彩,還得借助口腔和鼻腔,把從聲門沖出的氣流形成聲音。聲道的頻譜特性主要反映出這些共振峰的不同位置以及各個峰的頻 率寬帶。對于該 線性識別系統(tǒng),由數(shù)字信號處理的知識,可以得到其系統(tǒng)函數(shù): ? ?? ? ???? p1i1iza11z1zAH (21) 式中 P 為全極點濾波器的階數(shù), ? ? ? ?10 z1z ?? RR , ai( p21i , ?? )為濾波器的系數(shù)。這種思想是帶動語音處理技術(shù)飛速發(fā)展的關(guān)鍵。預(yù)濾波一般是在語音信號數(shù)字化之后,在參數(shù)分析之前具有 6dB/倍頻程的提升高頻特性的預(yù)加重數(shù)字濾波器來實現(xiàn),它一般是一階的數(shù)字濾波器: ?? 1az1z ?H (23) 或表示為: ? ? ? ? ? ?1naxnxny ? (24) 其中 ??nx 是輸入信號, a 稱為預(yù)加重系數(shù),接近于 1,一般取值在 ~1 之間,本文系統(tǒng)中采用 的預(yù)加重系數(shù)值為 。 在語音信號分析中用的最多的三種窗函數(shù)是矩形窗、漢明窗和漢寧窗,其定義分為: 矩形窗: ?????? 01nW elseNn??0 (25) 漢明窗: ? ? ? ????? 0 ]1/n2[c NW ? ? ?else Nn 10 ??? (26) 漢寧窗: ? ? ? ?? ?? ????? 0 1/n2c o NW ? ? ?else nn 10 ??? (27) 加矩形窗往往帶來窗邊處信號的變化,而漢明窗和漢寧窗能有效的減少時間窗兩端的坡度,使窗口邊緣兩端不引起急劇變化而能夠平滑過渡,這樣可以使截取出來的語音波形緩慢降為零,減小語音幀的截斷效應(yīng)。 ( 2) 語音信號的短時平均過零率 基于聲紋的說話人特征識別 14 語音信號的短時平均過零率定義為: ? ? ? ?? ? ? ?? ? ? ?????? m mnw 1mxs g nmxs g nnZ (29) 其中 ??sgn 為符號函數(shù), ??nw 為窗函數(shù),計算時常采用矩形窗。 圖 23 說話人辨認(rèn) 說話人確認(rèn) (Speaker Verification),也稱說話人檢測,是指說話人事先聲明身份,根據(jù)聲明判斷該說話人是否是所聲稱的說話人,這個過程只涉及一個特定的參考模型與待識別語音之間的比較,是“一對一”的判別問題。一般采用基于統(tǒng)計的方法,如隱馬爾可夫模型 (HMM)。 說話人識別的基本原理 說話人識別是利用包含在說話人的語音波形中特有 的個人信息,自動識別說話人身份的過程。即在極短的時間內(nèi)( 10~30ms),其頻譜特性和某些物理特征參數(shù)可近視看作是不變的。 在訓(xùn)練過程中,利用特征提取階段得到的特征串對選用的模型的結(jié)構(gòu)或參數(shù)進行估計和修正。目前,比較主流的是美爾倒譜系數(shù)和線性預(yù)測系數(shù)以及它們的變體。用于檢測算法提取的特征有效性和說別技術(shù)的實現(xiàn)。 總之,較好的特征提取,應(yīng)該能夠有效地區(qū)分不同說話人,但又能在同一說話人語音發(fā)生變化時保持相對的穩(wěn)定;不易被他人 模仿或能夠較好地解決被他人模仿的問題;具有較好的抗噪性能。 ③ 人工神經(jīng)網(wǎng)絡(luò)是一種分布式并進行處理結(jié)構(gòu)的網(wǎng)絡(luò)模型,具有自組織和自學(xué)習(xí)能力、很強的復(fù)雜分類邊界區(qū)分能力以及對不完全信息的魯棒性,其性能近似理想的分類器。 辨別分類器法為說話人識別研究提供了一條新的途徑,它在單純的數(shù)據(jù)分類方面占有很大的優(yōu)勢,但很少考慮語義信息,在描述說話人的個性特征方面不如前面的方法。 矢量量化模型作為一種非參數(shù)模型,是目前文本無關(guān)的說話人識別方法的評估基準(zhǔn)。 ( 3) 隱馬爾可夫模型( Hidden Markov Mode, HMM) 在 HMM 模型中,觀察到的事件和狀態(tài)通過一組概率分布聯(lián)系起來,是一個雙重隨機過程。語音信號特征在空間的分布情況極其復(fù)雜,而不是嚴(yán)格的服從某一特定分布,然而任何分布都可用高斯分布的組和來近似,所以 GMM 能有效地刻畫說話人的特性。但是由于 GMMUBM 系統(tǒng)在為說話人建模時階數(shù)往往很高,如 25 511024 階等,訓(xùn)練識別時運算量都很大,很難達到實時效果,所以沒有很好地
點擊復(fù)制文檔內(nèi)容
研究報告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1