freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于聲紋的說話人特征識(shí)別畢業(yè)論文-wenkub

2023-07-07 15:07:23 本頁面
 

【正文】 識(shí)別模版或知識(shí)庫。因此,應(yīng)先對(duì)語音信號(hào)進(jìn)行特征分析,得到提高語音識(shí)別率的有用數(shù)據(jù),并據(jù)此來設(shè)計(jì)語音識(shí)別系統(tǒng)的硬件和軟件。時(shí)域分析具有簡(jiǎn)單直觀、清晰易懂、運(yùn)算量小、物理意義明確等優(yōu)點(diǎn);但更為有效的分析多是圍繞頻 域進(jìn)行的,因?yàn)檎Z音中最重要的感知特性反映在其功率譜中,而相位變化只起著很小的作用。如共振峰參數(shù)、基音周期等參數(shù)。本文要進(jìn)行的是語音信號(hào)處理在說話人識(shí)別中的應(yīng)用,以完成說話人識(shí)別系統(tǒng)的功能實(shí)現(xiàn)。盡管如此,由于每個(gè)人的發(fā)音器官都不盡相同,因此在一般情況下,說話人的鑒定仍能區(qū)別不同的人或識(shí)別是否是同一個(gè)人的聲音,從而進(jìn)行個(gè)人身份識(shí)別。 九江學(xué)院學(xué)士學(xué)位論文 3 第一章 說話人識(shí)別研究 說話人識(shí)別 (Speaker Recognition, SR)技術(shù),也常被人們稱為聲紋識(shí) 別(Voiceprint Recognition, VR)技術(shù),是生物認(rèn)證技術(shù)的一種。 生物識(shí)別技術(shù)是一種根據(jù)人體自身的生理特征(指紋、手形、臉部、 DNA、虹膜、視網(wǎng)膜、氣味等)和行為特征(聲音、簽名、擊鍵方式等)來識(shí)別身份的技術(shù)。說話人識(shí)別技術(shù)正式根據(jù)這一特性,利用語音信號(hào)中說話人特有的“語音個(gè)性”,而不考慮語音中的字詞意思,通過說話人識(shí)別系統(tǒng)對(duì)用戶進(jìn)行身份識(shí)別。 —— 在日益頻繁的電子商務(wù)、電子購(gòu)物、國(guó)際貿(mào)易領(lǐng)域中,越來越多的人們依賴于網(wǎng)上各種口令和密碼,隨著密碼在不同場(chǎng)合的頻繁使用,這種非特征性的依賴缺陷 —— 安全缺陷,也越發(fā)明顯。 —— 對(duì)于大量的錄音素材,將說話人識(shí)別技術(shù)與連續(xù)語音識(shí)別技術(shù)相結(jié)合,可以檢索出其中我們感興趣的特定人所說的內(nèi)容。 —— 說話人識(shí)別的主要依據(jù)是說話人聲道結(jié)構(gòu)的差異,從而可知說話人識(shí)別技術(shù)的研究和醫(yī)學(xué)中生理學(xué)的發(fā)展是相互促進(jìn)的,一方面生理學(xué)和解剖學(xué)的進(jìn)展可以促進(jìn)說話人識(shí)別問題的研究,另一方面也可借助說話人識(shí)別技術(shù)進(jìn)行聲道特性的研究。當(dāng)然,這也需要防止發(fā)音偽裝的問題。而如虹膜、視網(wǎng)膜等技術(shù),雖然識(shí)別精確度很高,但設(shè)備造價(jià)也很高,性價(jià)比不高。 ( 6) 隱私保護(hù)性強(qiáng) —— 說話人識(shí)別技術(shù)采用語音特征進(jìn)行身份確認(rèn),只需提供語音信號(hào),不 涉及隱私問題,用戶無任何心理障礙。目前還沒有很好的方法把說話人的個(gè)性特征從語音特征中分離出來,也沒找到簡(jiǎn)單的聲學(xué)特征參數(shù)能夠可靠的識(shí)別說話人。會(huì)隨時(shí)間、年齡和健康狀況的變化而變化;另外,傳輸語音的通信通道的時(shí)變效應(yīng)問題也是語音信號(hào)產(chǎn)生變異的重要方面。如何處理故意偽裝問題,在法庭的說話人識(shí)別應(yīng)用中,這個(gè)問題具有特殊的重要性 。 5. 噪聲問題。 1. 說話人識(shí)別系統(tǒng)設(shè)計(jì)的合理化及優(yōu)化問題。 3. 說話人識(shí)別系統(tǒng)的性能評(píng)價(jià)問題。同理,在經(jīng)濟(jì)性方面,每一個(gè)說話人的標(biāo)準(zhǔn)模型必須使用盡量少的信息,因此樣本和特征量的精選也是亟待解決的。上述提到的問題主要是這兩方面引起的,其系統(tǒng)的優(yōu)劣性也往往取決于這兩方面。在國(guó)際聲學(xué)、語音和信號(hào)處理會(huì)議( International Conferrence on Acoustic Speech and Signal Processing, ICASSP)論文集中,每年都有關(guān)于說話人識(shí)別的專題。尋找新的有效的語音特征參 數(shù)以及已有特征參數(shù)的有效組合是語音特征參數(shù)研究的兩個(gè)方向。 矢量量化方面:量化方法的魯棒性及改進(jìn)算法。 影響說話人識(shí)別性能的因素 說話人識(shí)別技術(shù)發(fā)展至今已經(jīng)變的相當(dāng)成熟,而且在國(guó)際上已經(jīng)有了一些成功的應(yīng)用。最關(guān)鍵的問基于聲紋的說話人特征識(shí)別 8 題是語音信號(hào)本身的多變性,而不是相似性。語音是人的固有生物特征,但同時(shí)也是人的一種行為,它同時(shí)具有行為和屬性兩種特點(diǎn),個(gè)人的屬性可以不變,而行為卻是每一次都不完全相同的。 除了說話人自身的因素以外,還有其他 方面也會(huì)造成說話人識(shí)別系統(tǒng)性能表現(xiàn)不穩(wěn)定。 DOBTOTH 等學(xué)者從電話交換機(jī)上獲取的語音信號(hào)表示, %的對(duì)話過程中都含有其他噪聲信號(hào)干擾。實(shí)際情況中像實(shí)驗(yàn)室那種相對(duì)安靜理想的環(huán)境并不是很多,由此帶來的問題就是容易造成訓(xùn)練環(huán)境和識(shí)別環(huán)境的不匹配。 提取對(duì)噪聲不敏感 的語音特征參數(shù)屬于特征級(jí)抗噪處理方法,如果所提取的特征對(duì)噪聲免疫,這種語音特征就有了抗噪聲的能力。不同的麥克風(fēng),不同的采用精度,不同的傳輸信道(如固定電話和無線移動(dòng) 通信)都會(huì)帶來信道匹配的問題。 —— 通常實(shí)驗(yàn)室中的說話人識(shí)別系統(tǒng)都要求使用者花費(fèi)大量的時(shí)間來訓(xùn)練和識(shí)別,以獲取高識(shí)別率,或者通過大容量的語音數(shù)據(jù)庫來做到這一點(diǎn)。識(shí)別精度也就更無從談起。 第三章 對(duì)本文所采用的特征參數(shù) 線性預(yù)測(cè)倒譜、 Mel 頻率倒譜和基音周期進(jìn)行介紹,以及給出在 MATLAB 中對(duì)這些參數(shù) 提取的方法。喉中有聲帶,決定基音的頻率。這些結(jié)構(gòu)對(duì)每個(gè)人來說都是有差異的,由此造成了每個(gè)人的生源普、基音頻率、共振峰頻率以及帶寬的不同。 聲帶的運(yùn)動(dòng)還只能控制進(jìn)入口腔的氣流,而音色是有口腔的形狀,如動(dòng)作快慢、開口大小、衰減時(shí)間等決定的。盡管世界上有著上千種不同的語音,構(gòu)成語音的音素卻是大同小異。 聲道是一個(gè)分布式參數(shù)系統(tǒng),它是一個(gè)諧振腔,因而具有許多諧振頻率。 語音產(chǎn)生模型 建立語音信號(hào)的數(shù)學(xué)模型對(duì)于語音處理具有重要意義。 基音周期 AV Au 圖 21 語音信號(hào)數(shù)學(xué)模型 下面對(duì)該模型做一些說明,首先它把激勵(lì)發(fā)生同聲道傳播分離開來,這給語音信號(hào)處理帶來了很大的簡(jiǎn)化,同時(shí)這樣的處理也很符合人體發(fā)聲的時(shí)間情況。當(dāng)然 P 值也不能取的太大,一般情況下, P 取 8~12。在這個(gè)模型周期脈沖發(fā)生器 隨機(jī)噪聲發(fā)生器 聲道模型 V(z) 輻射模型 R(z) 聲門脈沖模型 G( z) 聲道參數(shù) 基于聲紋的說話人特征識(shí)別 12 中, 除 G(z)和 R(z)保持不變外,基音頻率、 Av、 Au、濁音 /清音開關(guān)的位置以及聲道模型中的參數(shù) a1~ ap 都是隨時(shí)間而變化的,由于發(fā)聲器官的慣性使這些參數(shù)的變化速度受到限制,對(duì)于聲道參數(shù),在 10ms~30ms 的時(shí)間間隔內(nèi)可以認(rèn)為他們保持不變,因?yàn)檎Z音的短時(shí)分析幀長(zhǎng)一般取 20ms 左右。因此,在應(yīng)用這種模型時(shí),要注意其適用條件。 —— 由于語音信號(hào)的平均頻率受到聲門激勵(lì)和口鼻輻射影響, 高頻端大約在 800Hz 以上按 6dB/倍頻程跌落,所以在求語音信號(hào)頻譜時(shí),頻率越高相應(yīng)的成分越小。為了盡可能不丟失語音信號(hào)動(dòng)態(tài)變化的信息,需要使幀與幀之間平滑過渡,保持其連貫性,通常使相鄰的兩幀有一部分的重疊,交疊的部分稱為幀移??梢愿鶕?jù)不同 應(yīng)用,采用不同的窗函數(shù)來逼近理想的頻率響應(yīng)。 —— 端點(diǎn)檢測(cè)是根據(jù)語音的特點(diǎn)及其參數(shù)的統(tǒng)計(jì)規(guī)律,從一段語音中找出語音信號(hào)的開始位置點(diǎn)和終止位置點(diǎn)。 ( 1) 語音信號(hào)的短時(shí)能量 語音信號(hào)的短時(shí)能量定義為: ? ? ? ? ? ?? ? ? ? ? ?? ?? ???? ???? nn1Nnm22 mnwmxmnwmxnE (28) 其中 N 為窗長(zhǎng),可見短時(shí)能量為一幀樣點(diǎn)值的加權(quán)平方和。單純依賴短時(shí)平均過零率不可能準(zhǔn)確判斷清濁音,只能配合短時(shí)能量進(jìn)行判斷。說話人識(shí)別技術(shù)的分類如下: ( 1) 按其識(shí)別方式可以分為三類:說話人辨認(rèn)、說話人確認(rèn)、說話人切分和聚類。 ( 2) 按識(shí)別對(duì)象的不同可以分為三類: 文本相關(guān) 、 文本無關(guān) 、指定問文本待識(shí)別語音 判斷是誰說的 S1 . . . Si SN 待識(shí)別語音 判斷是否是 Si說的 S1 . . . Si SN 基于聲紋的說話人特征識(shí)別 16 的說話人識(shí)別。這種方法需要對(duì)每個(gè)用戶的聲音模型逐個(gè)進(jìn)行精確建立,過程較繁且限制較多,因此應(yīng)用面較窄。 指定問文本的說話人識(shí)別,是指在識(shí)別過程中,用戶的文本是由識(shí)別裝置向用戶指定的,只有在確認(rèn)用戶對(duì)指定的文本內(nèi)容正確發(fā)音時(shí),才可以接受該用戶。如北京得意音通技術(shù)有限公司的“得意”身份證就是采用文本無關(guān)的、開集方式的說話人辨認(rèn)和確認(rèn)技術(shù)。在訓(xùn)練階段,每個(gè)用戶分別說出若干訓(xùn)練語句,系統(tǒng)據(jù)此經(jīng)過相應(yīng)的預(yù)處理和特征提取后對(duì)其進(jìn)行分析 ,并為每個(gè)用戶建立一個(gè)能夠描述這一用戶說話個(gè)性特征的模版或模型庫,用來作為這一用戶個(gè)性特征的標(biāo)準(zhǔn)圖案。 輸入語音 識(shí)別結(jié)論 圖 25 說話人識(shí)別原理流程圖 由說話人原理流程 圖可知,識(shí)別過程主要有預(yù)處理、特征提取、模型訓(xùn)練、模式匹配、識(shí)別判斷和自適應(yīng)六部分組成。預(yù)處理主要進(jìn)行以下幾個(gè)方面的工作:濾波、模數(shù)轉(zhuǎn)換、自動(dòng)增益控制、去除噪聲、預(yù)加重、端點(diǎn)檢測(cè)和自動(dòng)分段。這一過程還有去除冗余信息、減小數(shù)據(jù)量的作用。 模式匹配 建立參考模版或模型 識(shí)別判斷 預(yù)處理 特征提取 識(shí)別 訓(xùn)練 自適應(yīng) 基于聲紋的說話人特征識(shí)別 18 計(jì)算測(cè)試音與說話人模型的匹配距離或者似然概率,來進(jìn)行匹配計(jì)算。 對(duì)于說話人識(shí)別,提取的特征需要滿足: 1. 具有高的區(qū)分能力,又對(duì)自身不同條件下的差異(如身體狀況等)體現(xiàn)的不明顯; 2. 魯棒性要好,受時(shí)間和空間的影響小。以全極點(diǎn)模型為基礎(chǔ)的 LPCC 可以很精確的反映語音信號(hào)的頻譜幅度,在應(yīng)用于說話人時(shí),一般 8~32 維的 LPCC 就能很好表征聲道特性。實(shí)驗(yàn)結(jié)果也表明在識(shí)別過程中雖然LPCC 的計(jì)算量占一定優(yōu)勢(shì),但識(shí)別率上明顯不如 MFCC,這也是文本系統(tǒng)選用MFCC 的原因之一。特征提取的任務(wù)是選取唯一表現(xiàn)說話人身份的有效且穩(wěn)定可靠的用戶語音特征;模式匹配的任務(wù)是對(duì)訓(xùn)練和識(shí)別時(shí)的特征模式進(jìn)行相似的匹配。 與計(jì)算機(jī)處理相對(duì)應(yīng),可以將人類的聲音劃分為以下三個(gè)層次 :聲道聲學(xué)層次,在分析短時(shí)信號(hào)的基礎(chǔ)上,抽取對(duì)通道、時(shí)間等因素不敏感的特征;韻律特征層次,抽取獨(dú)立于聲學(xué)、聲道等因素的超音段特征,如方言、韻律、語速等;語音結(jié)構(gòu)層次,通過對(duì)語音信號(hào)的識(shí)別,獲取更加全面和結(jié)構(gòu)化的語義信息。說話人確認(rèn)時(shí),只與所聲稱說話人的模型進(jìn)行匹配額匹配距離計(jì)算;說話人辨認(rèn)時(shí),與所有人的模型進(jìn)行匹配和匹配距離計(jì)算。這些參數(shù)可以用從訓(xùn)練語音基于聲紋的說話人特征識(shí)別 20 中提取的特征參量來估計(jì)。常用的模型大體上可以分為三類:模板匹配法 —— 動(dòng)態(tài)時(shí)間規(guī)整法和矢量量化法;概率模型法 —— 高斯混合模型和隱馬爾可夫模型;辨別分類器法 —— 人工神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)。它是通過對(duì)大量訓(xùn)練樣本集的語音特征參數(shù)進(jìn)行統(tǒng)計(jì)分布描述,建立相應(yīng)的數(shù)學(xué)模型,使其能夠較好的刻畫某一說話人特征參數(shù)中的分布規(guī)律。這里我們假設(shè):參考模板特征 矢量為 M21 aaa , ? ;輸入語音特征矢量為 Nbbb 21 , ? ,NM? 。 ( 2) 矢量量化( Vector Quantization, VQ) 矢量量化是二十世紀(jì)八十年代后發(fā)展起來的信源壓縮編碼技術(shù),在許多方面九江學(xué)院學(xué)士學(xué)位論文 21 有著成功和廣泛的應(yīng)用,像語音合成、數(shù)據(jù)壓縮、說話人識(shí)別等領(lǐng)域。矢量量化模型就是從這些矢量中尋找少數(shù)具有代表性的典型矢量進(jìn)而構(gòu)成的說話人模型。在識(shí)別過程中,將待識(shí)別語音的每一特征矢量到某一說話人的 M 個(gè)三本矢量的一個(gè)最小距離進(jìn)行累加,累加和最小的說話人作為識(shí)別結(jié)果。應(yīng)用 HMM 模型進(jìn)行說話人識(shí)別時(shí),也是先要對(duì)說話人的特征參數(shù)矢量進(jìn)行訓(xùn)練,得到每個(gè)說話人的一組 HMM 模型參數(shù),記為 ? ?iiii BA,?? ? 。對(duì)于文本無關(guān)的情況一般會(huì)采用各態(tài)歷經(jīng)型HMM,但還存在一些不足,特別是對(duì)噪聲的魯棒性較低和訓(xùn)練時(shí)計(jì)算量較大。在 VQ 方法中,碼書矢量只描述了語音特征在特征空間中的聚類中心信息,是對(duì)說話人特征的不完整描述; GMM 則是對(duì)特征參數(shù)矢量分布的完整描述,它對(duì)每一個(gè)說話人模型用一種概率密度函數(shù)表示,特別是在與文本無關(guān)的說話人識(shí)別中, GMM 已經(jīng)成為占統(tǒng)治性地位的識(shí)別方法。但是由于 GMMUBM 系統(tǒng)在為說話人建模時(shí)階數(shù)往往很高,如 25 511024 階等,訓(xùn)練識(shí)別時(shí)運(yùn)算量都很大,很難達(dá)到實(shí)時(shí)效果,所以沒有很好地應(yīng)用到說話人辨認(rèn)系統(tǒng)中。所以,后來在 GMM 的基礎(chǔ)上引入了高斯混合 通用背景模型( GMMUBM),該模型通常由數(shù)百甚至上千的大量語音訓(xùn)練得到,在識(shí)別過程中 對(duì)于短的訓(xùn)練語音未覆蓋到的部分就可以用UBM 中的特征加以近視。語音信號(hào)特征在空間的分布情況極其復(fù)雜,而不是嚴(yán)格的服從某一特定分布,然而任何分布都可用高斯分布的組和來近似,所以 GMM 能有效地刻畫說話人的特性。 識(shí) 別 時(shí) 用 測(cè) 試 語 音 特 征 矢 量 求 解 的 最 大 后 驗(yàn) 概 率? ?? ?NiP i ?2,1,|0m a x ?? 對(duì)應(yīng)的說話人就是識(shí)別的結(jié)果。 ( 3) 隱馬爾可夫模型( Hidde
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報(bào)告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1