freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于聲紋的說(shuō)話人特征識(shí)別畢業(yè)論文-文庫(kù)吧在線文庫(kù)

  

【正文】 說(shuō)話人識(shí)別研究中普遍采用的參數(shù)。因此特征提取是說(shuō)話人識(shí)別系統(tǒng)中的重要組成部分。 ② 參數(shù)模型是指采用某種概率密度函數(shù)來(lái)描述說(shuō)話人的語(yǔ)音特征空間的分布情況,并以該概率密度函數(shù)的一組參數(shù)來(lái)作為說(shuō)話人的模型。 統(tǒng)計(jì)概率模型法 是目前比較常用且有效的方法。 DTW 是在一種常用的補(bǔ)償說(shuō)話率偏差的方法,缺點(diǎn)是對(duì)說(shuō)話人模型參數(shù)的存儲(chǔ)需要比較大,在數(shù)據(jù)量比較大時(shí),識(shí)別性能不好。M 個(gè)碼本矢量構(gòu)成了該說(shuō)話人的矢量量化模型。 HMM 在與文本有關(guān)的說(shuō)話人識(shí)別中取得了較好的商用化效果,像現(xiàn)在使用的 IBM 公司的 Via Voice 軟件等。目前,此方法也成為與文本無(wú)關(guān)說(shuō)話人確認(rèn)的主流方法。 GMM 不像 HMM 那樣需要利用狀態(tài)轉(zhuǎn)移概率信息來(lái)約束相鄰特征參數(shù)的變化,所 以計(jì)算量要小的多。其中一個(gè)是馬爾可夫鏈,他描述了狀態(tài)之間的轉(zhuǎn)移,這是一個(gè)比較重要的概念,特別在與文本有關(guān)的識(shí)別中起了很好的作用;另一個(gè)隨機(jī)過(guò)程則描述了狀態(tài)和觀察值之間的對(duì)應(yīng)關(guān)系。從語(yǔ)音信號(hào)中提取的說(shuō)話人特征,常是一多維矢量的時(shí)間序列。 ( 1) 動(dòng)態(tài)時(shí)間規(guī)整法( Dynamic TimeWarping, DTW) DTW 是將距離測(cè)度與時(shí)間規(guī)整結(jié)合起來(lái)的一種非線性規(guī)整技術(shù)。 說(shuō)話人識(shí)別的主要模型 在 說(shuō)話人識(shí)別中,不同識(shí)別方法的區(qū)別在選用什么樣的模型以及測(cè)試語(yǔ)音信號(hào)與模型匹配的方法上。 測(cè)試音的特征與說(shuō)話人模型進(jìn)行匹配,計(jì)算匹配距離。說(shuō)話人識(shí)別系統(tǒng)結(jié)構(gòu)如圖 26 所示 九江學(xué)院學(xué)士學(xué)位論文 19 圖 26 說(shuō)話人識(shí)別系統(tǒng)結(jié)構(gòu) 從圖 26 中,我們可知說(shuō)話人識(shí)別系統(tǒng)主要包括兩個(gè)部分:特征提取和模式匹配。 不同的特征參數(shù)其物理意義不同。通常為每一個(gè)說(shuō)話人建議一個(gè)模型。預(yù)處理之后的工作都是基于平穩(wěn)這一假設(shè)。 說(shuō)話人識(shí)別原理主要包括兩個(gè)階段 —— 訓(xùn)練(注冊(cè))階段和識(shí)別(驗(yàn)證)階段。使用這種方法建立的模型相對(duì)麻煩,但用戶(hù)使用方便,應(yīng)用范圍較寬,不易被錄音模仿,是當(dāng)前的研究重點(diǎn)。 圖 24 說(shuō)話人確認(rèn) 說(shuō)話人切分和聚類(lèi) (Speaker Segmentation and Clustering),也稱(chēng)說(shuō)話人探測(cè)與跟蹤,是指在一長(zhǎng)段包含特定說(shuō)話人 Z 的多人語(yǔ)音中,使用某種 方法找出語(yǔ)音 Z的起止位置點(diǎn)并正確標(biāo)注出來(lái)。短時(shí)平均過(guò)零率可以粗略估計(jì)語(yǔ)音的頻譜特性,它與語(yǔ)音的清濁特性存在著一定 的對(duì)應(yīng)關(guān)系。在實(shí)際使用中通常選用其中的一種。 、加窗 —— 語(yǔ)音信號(hào)的準(zhǔn)平穩(wěn)特性,使得只在短時(shí)段上才可視為一個(gè)平穩(wěn)過(guò)程,可以用對(duì)平穩(wěn)過(guò)程的分析方法進(jìn)行分析,因此需將語(yǔ)音信號(hào)劃分為一個(gè)一個(gè)的短時(shí)段,每一短時(shí)段稱(chēng)為一幀。這里介紹的語(yǔ)音信號(hào)的數(shù)字模型雖然已經(jīng)在許多方面得到了成功的應(yīng)用,但它畢 竟也存在著某些局限性。 P 值越大,則模型的傳輸函數(shù)和實(shí)際聲道的傳輸函數(shù)的吻合程度越高。共振峰及其帶寬取決于聲道的形狀和尺寸,因而不同的語(yǔ)音對(duì)應(yīng)于一組不同的共振峰參數(shù)。而要發(fā)出構(gòu)成語(yǔ)音的音素,還需靠唇、齒、舌、腭。當(dāng)鼻道下垂時(shí),鼻道和聲道發(fā)生耦合而產(chǎn)生語(yǔ)音中的鼻音。 第二章 介紹了說(shuō)話人識(shí)別的基本原理和說(shuō)話人識(shí)別系統(tǒng)的結(jié)果、模型。目前補(bǔ)償技術(shù)主要從三個(gè)方面考慮,即分別從特征域、模型域和似然比得分進(jìn)行模型補(bǔ)償。在進(jìn)行語(yǔ)音信號(hào)提取之前,將語(yǔ)音中噪聲部分有效的去除,使去噪后的語(yǔ)音背景和信噪比與訓(xùn)練語(yǔ)音相似,特征提取的時(shí)候就能得到較為理想的語(yǔ)音特征。 等人證明,通常的說(shuō)話人識(shí)別系統(tǒng)在噪聲干擾情況下識(shí)別效果會(huì)嚴(yán)重下降。 人與人之間聲音存在差異使得自動(dòng)說(shuō)話人識(shí)別技術(shù)能夠成為可能,但同時(shí)也正是因?yàn)槿说恼Z(yǔ)音具有多變性使得這個(gè)問(wèn)題變得復(fù)雜起來(lái)。 4. 文本無(wú)關(guān)的說(shuō)話人識(shí)別技術(shù)是當(dāng)今說(shuō)話人識(shí)別研究的又一個(gè)熱點(diǎn)。語(yǔ)音特征參數(shù)對(duì)說(shuō)話人識(shí)別系統(tǒng)的性能至關(guān)重要,雖然倒譜參數(shù)得到廣泛應(yīng)用,但語(yǔ)音特征參數(shù)仍是一個(gè)研究熱點(diǎn)。其中語(yǔ)音特征提取和識(shí)別系統(tǒng)模型的建立是說(shuō)話人識(shí)別技術(shù)研究的重點(diǎn)。如何將語(yǔ)音識(shí)別和說(shuō)話人識(shí)別有機(jī)的結(jié)合起來(lái),對(duì)于這一點(diǎn),指定文本型的說(shuō)話人識(shí)別是一個(gè)有益的嘗試。在漢語(yǔ)語(yǔ)音識(shí)別中,全體音節(jié)的集合很小,其數(shù)目?jī)H幾百個(gè),而全體漢語(yǔ)說(shuō)話人卻有 14 億多,對(duì)于由同一語(yǔ)音信號(hào)組成的特征空間,語(yǔ)音識(shí)別要將其劃分為 M 個(gè)子空間, M 為音節(jié)個(gè)數(shù),而說(shuō)話人識(shí)別要將其劃分為 N 個(gè)子空間, N 為說(shuō)話人個(gè)數(shù),由于 N 遠(yuǎn)大于 M,使得識(shí)別說(shuō)話人要比識(shí)別所說(shuō)的內(nèi)容復(fù)雜,而且當(dāng) N 很大時(shí),說(shuō)話人識(shí)別還在理論上存在將有限特征空間進(jìn)行無(wú)限劃分的問(wèn)題,這是說(shuō)話人識(shí)別所面臨的新問(wèn)題。因?yàn)檎f(shuō)話人的發(fā)音常常與環(huán)境、說(shuō)話人的情緒、說(shuō)話人的健康狀況有密切關(guān)系,說(shuō)話人的語(yǔ)音特征不是靜態(tài)的、固定不變的,它具有時(shí)變特性。 ( 5)實(shí)現(xiàn)算法簡(jiǎn)單 —— 聲紋辨認(rèn)和確認(rèn)的算法復(fù)雜度低 , 配合一些其他措施,如通過(guò)語(yǔ)音識(shí)別進(jìn)行內(nèi)容鑒別等,可以提高準(zhǔn)確率 。另外,現(xiàn)在很多法庭已經(jīng)使用聲紋作為鑒別犯罪的依據(jù)。因此,在網(wǎng)上交易時(shí)采用說(shuō)話人識(shí)別技術(shù)要比其他生物識(shí)別技術(shù)更具有優(yōu)勢(shì),且操作方便、簡(jiǎn)潔,很容易為廣大計(jì)算機(jī)使用者接受。 由于每個(gè)人的聲音特征都是唯一的,而且?guī)缀鹾苌贂?huì)發(fā)生變化的。 作為 生物特征識(shí)別技術(shù)的一種 ,說(shuō)話人識(shí)別技術(shù)在 聲音撥號(hào)、電話銀行、電話購(gòu)物、數(shù)據(jù)庫(kù)訪問(wèn)、信息服務(wù)、語(yǔ)音電子郵箱、安全控制、計(jì)算機(jī)遠(yuǎn)程登陸等 互聯(lián)網(wǎng)及通信 領(lǐng)域 得到廣泛應(yīng)用; 在呼叫中心應(yīng)用上, 說(shuō)話人 識(shí)別技術(shù)同樣提供更加個(gè)性化的人機(jī)交互 ; 在軍事領(lǐng)域, 說(shuō)話人 識(shí)別技術(shù)用于戰(zhàn)場(chǎng)監(jiān)聽(tīng),以辨認(rèn)出敵方的指揮員 ; 在生物識(shí)別技術(shù)領(lǐng)域中, 說(shuō)話人 識(shí)別 技術(shù) 日益成為人們?nèi)粘I詈凸ぷ髦兄匾移占暗陌踩?yàn)證方式。近年來(lái),各個(gè)分支都取得了很大的進(jìn)步,已經(jīng)深入應(yīng)用到通信、辦公自動(dòng)化、遠(yuǎn)程控制、聲控電話撥號(hào)、計(jì)算機(jī)語(yǔ)音應(yīng)答、機(jī)器人聽(tīng)覺(jué)與口語(yǔ)系統(tǒng)等使用系統(tǒng)中。語(yǔ)音信號(hào)本身就是時(shí)域信號(hào),因而時(shí)域分析是最早使用的應(yīng)用范圍最廣的一種方法。 語(yǔ)音信號(hào)處理雖然包括了語(yǔ)音通信、語(yǔ)音合成和語(yǔ)音識(shí)別等方面的內(nèi)容,但其前提是對(duì)語(yǔ)音信號(hào)進(jìn)行分析。語(yǔ)音信號(hào)的數(shù)字表示基本上可以分為兩大類(lèi):波形表示和參數(shù)表示。 本文介紹了 說(shuō)話人識(shí)別的概念、原理及其識(shí)別實(shí)現(xiàn)的方法,指出了說(shuō)話人識(shí)別技術(shù)的應(yīng)用前景。通過(guò)在 、線性預(yù)測(cè)倒譜和Mel頻率倒譜等 特征參 數(shù)進(jìn)行提取、分析、對(duì)比、識(shí)別實(shí)現(xiàn)一個(gè)簡(jiǎn)單的說(shuō)話人識(shí)別系統(tǒng),實(shí)驗(yàn)結(jié)果表明實(shí)驗(yàn)正確、有效。波形表示僅僅是通過(guò)采樣和量化的過(guò)程保存模擬語(yǔ)音信號(hào)的“波形”,而參數(shù)表示則是把語(yǔ)音信號(hào)表示成某種語(yǔ)音產(chǎn)生模型輸出。只有將語(yǔ)音信號(hào)表示成其本質(zhì)特征的參數(shù),才有可能利用這些參數(shù)進(jìn)行高效的語(yǔ)音通信,才能建立用于語(yǔ)音合成的語(yǔ)音庫(kù),也才可能建立用于識(shí)別模版或知識(shí)庫(kù)。時(shí)域分析具有簡(jiǎn)單直觀、清晰易懂、運(yùn)算量小、物理意義明確等優(yōu)點(diǎn);但更為有效的分析多是圍繞頻 域進(jìn)行的,因?yàn)檎Z(yǔ)音中最重要的感知特性反映在其功率譜中,而相位變化只起著很小的作用。本文要進(jìn)行的是語(yǔ)音信號(hào)處理在說(shuō)話人識(shí)別中的應(yīng)用,以完成說(shuō)話人識(shí)別系統(tǒng)的功能實(shí)現(xiàn)。 九江學(xué)院學(xué)士學(xué)位論文 3 第一章 說(shuō)話人識(shí)別研究 說(shuō)話人識(shí)別 (Speaker Recognition, SR)技術(shù),也常被人們稱(chēng)為聲紋識(shí) 別(Voiceprint Recognition, VR)技術(shù),是生物認(rèn)證技術(shù)的一種。說(shuō)話人識(shí)別技術(shù)正式根據(jù)這一特性,利用語(yǔ)音信號(hào)中說(shuō)話人特有的“語(yǔ)音個(gè)性”,而不考慮語(yǔ)音中的字詞意思,通過(guò)說(shuō)話人識(shí)別系統(tǒng)對(duì)用戶(hù)進(jìn)行身份識(shí)別。 —— 對(duì)于大量的錄音素材,將說(shuō)話人識(shí)別技術(shù)與連續(xù)語(yǔ)音識(shí)別技術(shù)相結(jié)合,可以檢索出其中我們感興趣的特定人所說(shuō)的內(nèi)容。當(dāng)然,這也需要防止發(fā)音偽裝的問(wèn)題。 ( 6) 隱私保護(hù)性強(qiáng) —— 說(shuō)話人識(shí)別技術(shù)采用語(yǔ)音特征進(jìn)行身份確認(rèn),只需提供語(yǔ)音信號(hào),不 涉及隱私問(wèn)題,用戶(hù)無(wú)任何心理障礙。會(huì)隨時(shí)間、年齡和健康狀況的變化而變化;另外,傳輸語(yǔ)音的通信通道的時(shí)變效應(yīng)問(wèn)題也是語(yǔ)音信號(hào)產(chǎn)生變異的重要方面。 5. 噪聲問(wèn)題。 3. 說(shuō)話人識(shí)別系統(tǒng)的性能評(píng)價(jià)問(wèn)題。上述提到的問(wèn)題主要是這兩方面引起的,其系統(tǒng)的優(yōu)劣性也往往取決于這兩方面。尋找新的有效的語(yǔ)音特征參 數(shù)以及已有特征參數(shù)的有效組合是語(yǔ)音特征參數(shù)研究的兩個(gè)方向。 影響說(shuō)話人識(shí)別性能的因素 說(shuō)話人識(shí)別技術(shù)發(fā)展至今已經(jīng)變的相當(dāng)成熟,而且在國(guó)際上已經(jīng)有了一些成功的應(yīng)用。語(yǔ)音是人的固有生物特征,但同時(shí)也是人的一種行為,它同時(shí)具有行為和屬性?xún)煞N特點(diǎn),個(gè)人的屬性可以不變,而行為卻是每一次都不完全相同的。 DOBTOTH 等學(xué)者從電話交換機(jī)上獲取的語(yǔ)音信號(hào)表示, %的對(duì)話過(guò)程中都含有其他噪聲信號(hào)干擾。 提取對(duì)噪聲不敏感 的語(yǔ)音特征參數(shù)屬于特征級(jí)抗噪處理方法,如果所提取的特征對(duì)噪聲免疫,這種語(yǔ)音特征就有了抗噪聲的能力。 —— 通常實(shí)驗(yàn)室中的說(shuō)話人識(shí)別系統(tǒng)都要求使用者花費(fèi)大量的時(shí)間來(lái)訓(xùn)練和識(shí)別,以獲取高識(shí)別率,或者通過(guò)大容量的語(yǔ)音數(shù)據(jù)庫(kù)來(lái)做到這一點(diǎn)。 第三章 對(duì)本文所采用的特征參數(shù) 線性預(yù)測(cè)倒譜、 Mel 頻率倒譜和基音周期進(jìn)行介紹,以及給出在 MATLAB 中對(duì)這些參數(shù) 提取的方法。這些結(jié)構(gòu)對(duì)每個(gè)人來(lái)說(shuō)都是有差異的,由此造成了每個(gè)人的生源普、基音頻率、共振峰頻率以及帶寬的不同。盡管世界上有著上千種不同的語(yǔ)音,構(gòu)成語(yǔ)音的音素卻是大同小異。 語(yǔ)音產(chǎn)生模型 建立語(yǔ)音信號(hào)的數(shù)學(xué)模型對(duì)于語(yǔ)音處理具有重要意義。當(dāng)然 P 值也不能取的太大,一般情況下, P 取 8~12。因此,在應(yīng)用這種模型時(shí),要注意其適用條件。為了盡可能不丟失語(yǔ)音信號(hào)動(dòng)態(tài)變化的信息,需要使幀與幀之間平滑過(guò)渡,保持其連貫性,通常使相鄰的兩幀有一部分的重疊,交疊的部分稱(chēng)為幀移。 —— 端點(diǎn)檢測(cè)是根據(jù)語(yǔ)音的特點(diǎn)及其參數(shù)的統(tǒng)計(jì)規(guī)律,從一段語(yǔ)音中找出語(yǔ)音信號(hào)的開(kāi)始位置點(diǎn)和終止位置點(diǎn)。單純依賴(lài)短時(shí)平均過(guò)零率不可能準(zhǔn)確判斷清濁音,只能配合短時(shí)能量進(jìn)行判斷。 ( 2) 按識(shí)別對(duì)象的不同可以分為三類(lèi): 文本相關(guān) 、 文本無(wú)關(guān) 、指定問(wèn)文本待識(shí)別語(yǔ)音 判斷是誰(shuí)說(shuō)的 S1 . . . Si SN 待識(shí)別語(yǔ)音 判斷是否是 Si說(shuō)的 S1 . . . Si SN 基于聲紋的說(shuō)話人特征識(shí)別 16 的說(shuō)話人識(shí)別。 指定問(wèn)文本的說(shuō)話人識(shí)別,是指在識(shí)別過(guò)程中,用戶(hù)的文本是由識(shí)別裝置向用戶(hù)指定的,只有在確認(rèn)用戶(hù)對(duì)指定的文本內(nèi)容正確發(fā)音時(shí),才可以接受該用戶(hù)。在訓(xùn)練階段,每個(gè)用戶(hù)分別說(shuō)出若干訓(xùn)練語(yǔ)句,系統(tǒng)據(jù)此經(jīng)過(guò)相應(yīng)的預(yù)處理和特征提取后對(duì)其進(jìn)行分析 ,并為每個(gè)用戶(hù)建立一個(gè)能夠描述這一用戶(hù)說(shuō)話個(gè)性特征的模版或模型庫(kù),用來(lái)作為這一用戶(hù)個(gè)性特征的標(biāo)準(zhǔn)圖案。預(yù)處理主要進(jìn)行以下幾個(gè)方面的工作:濾波、模數(shù)轉(zhuǎn)換、自動(dòng)增益控制、去除噪聲、預(yù)加重、端點(diǎn)檢測(cè)和自動(dòng)分段。 模式匹配 建立參考模版或模型 識(shí)別判斷 預(yù)處理 特征提取 識(shí)別 訓(xùn)練 自適應(yīng) 基于聲紋的說(shuō)話人特征識(shí)別 18 計(jì)算測(cè)試音與說(shuō)話人模型的匹配距離或者似然概率,來(lái)進(jìn)行匹配計(jì)算。以全極點(diǎn)模型為基礎(chǔ)的 LPCC 可以很精確的反映語(yǔ)音信號(hào)的頻譜幅度,在應(yīng)用于說(shuō)話人時(shí),一般 8~32 維的 LPCC 就能很好表征聲道特性。特征提取的任務(wù)是選取唯一表現(xiàn)說(shuō)話人身份的有效且穩(wěn)定可靠的用戶(hù)語(yǔ)音特征;模式匹配的任務(wù)是對(duì)訓(xùn)練和識(shí)別時(shí)的特征模式進(jìn)行相似的匹配。說(shuō)話人確認(rèn)時(shí),只與所聲稱(chēng)說(shuō)話人的模型進(jìn)行匹配額匹配距離計(jì)算;說(shuō)話人辨認(rèn)時(shí),與所有人的模型進(jìn)行匹配和匹配距離計(jì)算。常用的模型大體上可以分為三類(lèi):模板匹配法 —— 動(dòng)態(tài)時(shí)間規(guī)整法和矢量量化法;概率模型法 —— 高斯混合模型和隱馬爾可夫模型;辨別分類(lèi)器法 —— 人工神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)。這里我們假設(shè):參考模板特征 矢量為 M21 aaa , ? ;輸入語(yǔ)音特征矢量為 Nbbb 21 , ? ,NM? 。矢量量化模型就是從這些矢量中尋找少數(shù)具有代表性的典型矢量進(jìn)而構(gòu)成的說(shuō)話人模型。應(yīng)用 HMM 模型進(jìn)行說(shuō)話人識(shí)別時(shí),也是先要對(duì)說(shuō)話人的特征參數(shù)矢量進(jìn)行訓(xùn)練,得到每個(gè)說(shuō)話人的一組 HMM 模型參數(shù),記為 ? ?iiii BA,?? ? 。在 VQ 方法中,碼書(shū)矢量只描述了語(yǔ)音特征在特征空間中的聚類(lèi)中心信息,是對(duì)說(shuō)話人特征的不完整描述; GMM 則是對(duì)特征參數(shù)矢量分布的完整描述,它對(duì)每一個(gè)說(shuō)話人模型用一種概率密度函數(shù)表示,特別是在與文本無(wú)關(guān)的說(shuō)話人識(shí)別中, GMM 已經(jīng)成為占統(tǒng)治性地位的識(shí)別方法。所以,后來(lái)在 GMM 的基礎(chǔ)上引入了高斯混合 通用背景模型( GMMUBM),該模型通常由數(shù)百甚至上千的大量語(yǔ)音訓(xùn)練得到,在識(shí)別過(guò)程中 對(duì)于短的訓(xùn)練語(yǔ)音未覆蓋到的部分就可以用UBM 中的特征加以近視。 識(shí) 別 時(shí) 用 測(cè) 試 語(yǔ) 音 特 征 矢 量 求 解 的 最 大 后 驗(yàn) 概 率? ?? ?NiP i ?2,1,|0m a x ?? 對(duì)應(yīng)的說(shuō)話人就是識(shí)別的結(jié)果。用矢量量化模型識(shí)別說(shuō)話人的過(guò)程如下: 對(duì)某一說(shuō)話人,其訓(xùn)練語(yǔ)音的特征矢量序列通過(guò)聚類(lèi)算法可聚為 M 類(lèi),求每類(lèi)中的所有矢量的均值(或選擇類(lèi)中的一個(gè)成員)就得到了每類(lèi)的碼本矢量。此方 法就是通過(guò)利用滿足上述條件的 ??nw 來(lái)描述輸入模板與參考模板的世間對(duì)應(yīng)關(guān)系,求解這兩個(gè)模板匹配時(shí)累積距離最小所對(duì)應(yīng)的規(guī)整函數(shù)。匹配方法中經(jīng)常使用歐
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報(bào)告相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1