freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于聲紋的說話人特征識別畢業(yè)論文-資料下載頁

2025-06-30 15:07本頁面

【導(dǎo)讀】說話人識別是一項根據(jù)語音波形中反映說話人生理和行為特征的語音參數(shù),而自動識別說話人身份的技術(shù)。它也常被人們稱為聲紋識別技術(shù),是生物認證技。別技術(shù)的應(yīng)用前景。通過在、線性預(yù)測倒譜和。別系統(tǒng),實驗結(jié)果表明實驗正確、有效。KeyWords:SpeakerRecognition;FeatureParameter;Pitch;LinearPrediction

  

【正文】 要對 SN 個說話人以外的語音做出拒絕的判別,這就需要設(shè)定一個合適的判決門限值。如北京得意音通技術(shù)有限公司的“得意”身份證就是采用文本無關(guān)的、開集方式的說話人辨認和確認技術(shù)。 閉集 (Closedset),是指待測試的說話人肯定在訓(xùn)練庫中 ,在識別時需要與訓(xùn)練庫中的每個說話人的訓(xùn)練模型都進行一次匹配計算,總共進行 SN 次比較判決。 說話人識別的基本原理 說話人識別是利用包含在說話人的語音波形中特有 的個人信息,自動識別說話人身份的過程。 說話人識別原理主要包括兩個階段 —— 訓(xùn)練(注冊)階段和識別(驗證)階段。在訓(xùn)練階段,每個用戶分別說出若干訓(xùn)練語句,系統(tǒng)據(jù)此經(jīng)過相應(yīng)的預(yù)處理和特征提取后對其進行分析 ,并為每個用戶建立一個能夠描述這一用戶說話個性特征的模版或模型庫,用來作為這一用戶個性特征的標準圖案。識別階段,把從待識別說話人說出的語音信號中提取的特征參數(shù),與在訓(xùn)練過程中得到的參考參量集或模型模版加以比較,并且根據(jù)一定的相似性準則進行判段。其中在說話人辨認中,取與測試音匹配距離最小的說話人模型所對應(yīng)的說話 人作為識別結(jié)九江學(xué)院學(xué)士學(xué)位論文 17 果;而在說話人確認中,則通過判斷測試音與所聲稱的說話人模型之間匹配距離是否小于系統(tǒng)定義的閥值來做判斷。說話人識別的原理框圖如圖 25 所示。 輸入語音 識別結(jié)論 圖 25 說話人識別原理流程圖 由說話人原理流程 圖可知,識別過程主要有預(yù)處理、特征提取、模型訓(xùn)練、模式匹配、識別判斷和自適應(yīng)六部分組成。 語音信號是一種典型的非平穩(wěn)信號,但是由于發(fā)音時聲道的物理運動比起聲音振動的速度來講要緩慢的多,因此語音信號可假設(shè)為短時平穩(wěn)的。即在極短的時間內(nèi)( 10~30ms),其頻譜特性和某些物理特征參數(shù)可近視看作是不變的。預(yù)處理之后的工作都是基于平穩(wěn)這一假設(shè)。預(yù)處理主要進行以下幾個方面的工作:濾波、模數(shù)轉(zhuǎn)換、自動增益控制、去除噪聲、預(yù)加重、端點檢測和自動分段。預(yù)處理在語音識別系統(tǒng)中占有重要地位。其中端點檢測、自動分 段的準確性與否直接影響系統(tǒng)性能的優(yōu)劣。 特征提取是從預(yù)處理處得到的語音中獲得反映說話人個性特質(zhì)的特征參數(shù)。這一過程還有去除冗余信息、減小數(shù)據(jù)量的作用。特征提取是說話人識別技術(shù)中的關(guān)鍵步驟,其好壞直接影響到最后的識別性能。 在訓(xùn)練過程中,利用特征提取階段得到的特征串對選用的模型的結(jié)構(gòu)或參數(shù)進行估計和修正。通常為每一個說話人建議一個模型。 模式匹配 建立參考模版或模型 識別判斷 預(yù)處理 特征提取 識別 訓(xùn)練 自適應(yīng) 基于聲紋的說話人特征識別 18 計算測試音與說話人模型的匹配距離或者似然概率,來進行匹配計算。 根據(jù)匹配計算結(jié)果,采用某種判決準則判斷說話人是否是所聲稱的說話人或者說話人到底是誰。 為了提高系統(tǒng)的識別性能,在做出識別后,用測試音對相應(yīng)的模型參數(shù)或者結(jié)構(gòu)作調(diào)整訓(xùn)練,以及修正判決策略等等。 說話人識別的常用特征 說話人語音特征,是指說話人的語音信號中能唯一表征個人特征的向量序列。 對于說話人識別,提取的特征需要滿足: 1. 具有高的區(qū)分能力,又對自身不同條件下的差異(如身體狀況等)體現(xiàn)的不明顯; 2. 魯棒性要好,受時間和空間的影響小。 說話人識別技術(shù)的研究過程中使用個特征參數(shù)主要有:基音頻率、 語譜圖 、共振峰系數(shù)、聲道沖擊響應(yīng)、自相關(guān)系數(shù)、聲道面積函數(shù)、線 性預(yù)測系數(shù)、線譜對系數(shù)( LSP)、美爾倒譜系數(shù)、感知線性預(yù)測系數(shù)( PLP)以及差值倒譜等等。目前,比較主流的是美爾倒譜系數(shù)和線性預(yù)測系數(shù)以及它們的變體。 不同的特征參數(shù)其物理意義不同。以全極點模型為基礎(chǔ)的 LPCC 可以很精確的反映語音信號的頻譜幅度,在應(yīng)用于說話人時,一般 8~32 維的 LPCC 就能很好表征聲道特性。但它是基于信號的 AR 模型上的,所以當遇到動態(tài)特性較強的輔音或者存在噪聲干擾時, AR 信號就會變成 ARMA 信號。也就是說,當只假設(shè)用 AR 信號分析時結(jié)果偏差會很大。 MFCC 則完全不同于 LPCC,它是對人的聽 覺特性研究得到的特征參數(shù),無任何前提假設(shè),魯棒性也比較好,是目前與文本無關(guān)的說話人識別研究中普遍采用的參數(shù)。實驗結(jié)果也表明在識別過程中雖然LPCC 的計算量占一定優(yōu)勢,但識別率上明顯不如 MFCC,這也是文本系統(tǒng)選用MFCC 的原因之一。 說話人識別系統(tǒng)的結(jié)構(gòu)框架 針對本文研究的用于說話人識別的語音特征提取算法和為了實現(xiàn)說話人識別,我們建立了所需的說話人識別系統(tǒng)。用于檢測算法提取的特征有效性和說別技術(shù)的實現(xiàn)。說話人識別系統(tǒng)結(jié)構(gòu)如圖 26 所示 九江學(xué)院學(xué)士學(xué)位論文 19 圖 26 說話人識別系統(tǒng)結(jié)構(gòu) 從圖 26 中,我們可知說話人識別系統(tǒng)主要包括兩個部分:特征提取和模式匹配。特征提取的任務(wù)是選取唯一表現(xiàn)說話人身份的有效且穩(wěn)定可靠的用戶語音特征;模式匹配的任務(wù)是對訓(xùn)練和識別時的特征模式進行相似的匹配。 說話人的模型不是由語音信號得到的,而是通過從語音信號中提取特征而得到的,是說話人語音特征的模型。測試音只有在經(jīng)過特征提取后才與說話人的模型進行比較和匹配,訓(xùn)練語音也只有進行語音特征提取后才能得到其特征的模型。因此特征提取是說話人識別系統(tǒng)中的重要組成部分。 與計算機處理相對應(yīng),可以將人類的聲音劃分為以下三個層次 :聲道聲學(xué)層次,在分析短時信號的基礎(chǔ)上,抽取對通道、時間等因素不敏感的特征;韻律特征層次,抽取獨立于聲學(xué)、聲道等因素的超音段特征,如方言、韻律、語速等;語音結(jié)構(gòu)層次,通過對語音信號的識別,獲取更加全面和結(jié)構(gòu)化的語義信息。說話人識別系統(tǒng)主要針對較低層次的聲道學(xué)特征進行建模,主要有基音周期、共振峰、基于線性預(yù)測的倒譜、基于付氏變換的 FFT 倒譜、基于語音信號的濾波器組分析的美爾倒譜和語音譜的過渡信息等。 總之,較好的特征提取,應(yīng)該能夠有效地區(qū)分不同說話人,但又能在同一說話人語音發(fā)生變化時保持相對的穩(wěn)定;不易被他人 模仿或能夠較好地解決被他人模仿的問題;具有較好的抗噪性能。 測試音的特征與說話人模型進行匹配,計算匹配距離。說話人確認時,只與所聲稱說話人的模型進行匹配額匹配距離計算;說話人辨認時,與所有人的模型進行匹配和匹配距離計算。目前針對各種特征而提出的模式匹配方法的研究越來越深入,大致可歸為三類:基于非參數(shù)模型的方法、基于參數(shù)模型的方法、基于神經(jīng)網(wǎng)絡(luò)模型的方法。 ① 典型的 非參數(shù)模型有模板匹配、矢量量化模型等。 ② 參數(shù)模型是指采用某種概率密度函數(shù)來描述說話人的語音特征空間的分布情況,并以該概率密度函數(shù)的一組參數(shù)來作為說話人的模型。這些參數(shù)可以用從訓(xùn)練語音基于聲紋的說話人特征識別 20 中提取的特征參量來估計。說話人識別系統(tǒng)中經(jīng)常采用的概率模型有:高斯模型、高斯混合模型、隱馬爾可夫模型等。 ③ 人工神經(jīng)網(wǎng)絡(luò)是一種分布式并進行處理結(jié)構(gòu)的網(wǎng)絡(luò)模型,具有自組織和自學(xué)習能力、很強的復(fù)雜分類邊界區(qū)分能力以及對不完全信息的魯棒性,其性能近似理想的分類器。 說話人識別的主要模型 在 說話人識別中,不同識別方法的區(qū)別在選用什么樣的模型以及測試語音信號與模型匹配的方法上。常用的模型大體上可以分為三類:模板匹配法 —— 動態(tài)時間規(guī)整法和矢量量化法;概率模型法 —— 高斯混合模型和隱馬爾可夫模型;辨別分類器法 —— 人工神經(jīng)網(wǎng)絡(luò)和支持向量機。 模板匹配法是一種較為成熟的傳統(tǒng)說話人識別方法,它是先存儲每個說話人的特征模板,然后將待識別特征參數(shù)的中心矢量值與模板序列比較,取匹配距離最小的那個模板對應(yīng)的說話人最為識別結(jié)果。匹配方法中經(jīng)常使用歐式距離和馬氏距離來計算,目前概率模型法已將此方法取代。 統(tǒng)計概率模型法 是目前比較常用且有效的方法。它是通過對大量訓(xùn)練樣本集的語音特征參數(shù)進行統(tǒng)計分布描述,建立相應(yīng)的數(shù)學(xué)模型,使其能夠較好的刻畫某一說話人特征參數(shù)中的分布規(guī)律。與模板匹配法相比,統(tǒng)計概率模型法更準確也更具有魯棒性。 辨別分類器法為說話人識別研究提供了一條新的途徑,它在單純的數(shù)據(jù)分類方面占有很大的優(yōu)勢,但很少考慮語義信息,在描述說話人的個性特征方面不如前面的方法。 ( 1) 動態(tài)時間規(guī)整法( Dynamic TimeWarping, DTW) DTW 是將距離測度與時間規(guī)整結(jié)合起來的一種非線性規(guī)整技術(shù)。這里我們假設(shè):參考模板特征 矢量為 M21 aaa ,, ? ;輸入語音特征矢量為 Nbbb 21 ,, ? ,NM? 。那么, DTW 法就是要尋找一個映射函數(shù) ? ?nwm? ,使得距離測度滿足? ? ? ?? ????NL1nnw nwndm in 。此方 法就是通過利用滿足上述條件的 ??nw 來描述輸入模板與參考模板的世間對應(yīng)關(guān)系,求解這兩個模板匹配時累積距離最小所對應(yīng)的規(guī)整函數(shù)。 DTW 是在一種常用的補償說話率偏差的方法,缺點是對說話人模型參數(shù)的存儲需要比較大,在數(shù)據(jù)量比較大時,識別性能不好。 ( 2) 矢量量化( Vector Quantization, VQ) 矢量量化是二十世紀八十年代后發(fā)展起來的信源壓縮編碼技術(shù),在許多方面九江學(xué)院學(xué)士學(xué)位論文 21 有著成功和廣泛的應(yīng)用,像語音合成、數(shù)據(jù)壓縮、說話人識別等領(lǐng)域。 用這種方法建立的識別模型,所需要的數(shù)據(jù)量少,訓(xùn)練時間短,識別響應(yīng)快。 矢量量化模型作為一種非參數(shù)模型,是目前文本無關(guān)的說話人識別方法的評估基準。從語音信號中提取的說話人特征,常是一多維矢量的時間序列。矢量量化模型就是從這些矢量中尋找少數(shù)具有代表性的典型矢量進而構(gòu)成的說話人模型。尋找代表矢量(碼本)為一矢量聚類問題,可通過聚類等算法來實現(xiàn)。用矢量量化模型識別說話人的過程如下: 對某一說話人,其訓(xùn)練語音的特征矢量序列通過聚類算法可聚為 M 類,求每類中的所有矢量的均值(或選擇類中的一個成員)就得到了每類的碼本矢量。M 個碼本矢量構(gòu)成了該說話人的矢量量化模型。在識別過程中,將待識別語音的每一特征矢量到某一說話人的 M 個三本矢量的一個最小距離進行累加,累加和最小的說話人作為識別結(jié)果。這種方法的識別精度較高,且判斷速度快。 ( 3) 隱馬爾可夫模型( Hidden Markov Mode, HMM) 在 HMM 模型中,觀察到的事件和狀態(tài)通過一組概率分布聯(lián)系起來,是一個雙重隨機過程。其中一個是馬爾可夫鏈,他描述了狀態(tài)之間的轉(zhuǎn)移,這是一個比較重要的概念,特別在與文本有關(guān)的識別中起了很好的作用;另一個隨機過程則描述了狀態(tài)和觀察值之間的對應(yīng)關(guān)系。應(yīng)用 HMM 模型進行說話人識別時,也是先要對說話人的特征參數(shù)矢量進行訓(xùn)練,得到每個說話人的一組 HMM 模型參數(shù),記為 ? ?iiii BA,?? ? 。訓(xùn)練過程中用 BaumWelch 算法或者 Viterbi 算法來估 計 參 數(shù) 。 識 別 時 用 測 試 語 音 特 征 矢 量 求 解 的 最 大 后 驗 概 率? ?? ?NiP i ?2,1,|0m a x ?? 對應(yīng)的說話人就是識別的結(jié)果。 HMM 在與文本有關(guān)的說話人識別中取得了較好的商用化效果,像現(xiàn)在使用的 IBM 公司的 Via Voice 軟件等。對于文本無關(guān)的情況一般會采用各態(tài)歷經(jīng)型HMM,但還存在一些不足,特別是對噪聲的魯棒性較低和訓(xùn)練時計算量較大。 ( 4) 高斯混合模型( Gassian Mixture Model, GMM) GMM 是一個狀態(tài)數(shù)為 1 的連續(xù)隱馬爾可夫模型,它是用多個高斯分布的線性組合來近似表示多維矢量的概率分布。語音信號特征在空間的分布情況極其復(fù)雜,而不是嚴格的服從某一特定分布,然而任何分布都可用高斯分布的組和來近似,所以 GMM 能有效地刻畫說話人的特性。 GMM 不像 HMM 那樣需要利用狀態(tài)轉(zhuǎn)移概率信息來約束相鄰特征參數(shù)的變化,所 以計算量要小的多。在 VQ 方法中,碼書矢量只描述了語音特征在特征空間中的聚類中心信息,是對說話人特征的不完整描述; GMM 則是對特征參數(shù)矢量分布的完整描述,它對每一個說話人模型用一種概率密度函數(shù)表示,特別是在與文本無關(guān)的說話人識別中, GMM 已經(jīng)成為占統(tǒng)治性地位的識別方法。 基于聲紋的說話人特征識別 22 在實際應(yīng)用中,用于訓(xùn)練的語音往往比較短,因而訓(xùn)練出的模型參數(shù)就不能很好地表征說話人的個性特征,影響識別性能。所以,后來在 GMM 的基礎(chǔ)上引入了高斯混合 通用背景模型( GMMUBM),該模型通常由數(shù)百甚至上千的大量語音訓(xùn)練得到,在識別過程中 對于短的訓(xùn)練語音未覆蓋到的部分就可以用UBM 中的特征加以近視。目前,此方法也成為與文本無關(guān)說話人確認的主流方法。但是由于 GMMUBM 系統(tǒng)在為說話人建模時階數(shù)往往很高,如 25 511024 階等,訓(xùn)練識別時運算量都很大,很難達到實時效果,所以沒有很好地應(yīng)用到說話人辨認系統(tǒng)中。 ( 5)人工神經(jīng)網(wǎng)絡(luò)( Artificial Neural Network, ANN) ANN 是一種分布式并行處理結(jié)構(gòu)的網(wǎng)絡(luò)模型,可以在一定程度上模仿人腦的功能,多用在生物醫(yī)學(xué)方面的
點擊復(fù)制文檔內(nèi)容
研究報告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1