freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于聲紋的說(shuō)話人特征識(shí)別畢業(yè)論文(文件)

 

【正文】 n Markov Mode, HMM) 在 HMM 模型中,觀察到的事件和狀態(tài)通過(guò)一組概率分布聯(lián)系起來(lái),是一個(gè)雙重隨機(jī)過(guò)程。用矢量量化模型識(shí)別說(shuō)話人的過(guò)程如下: 對(duì)某一說(shuō)話人,其訓(xùn)練語(yǔ)音的特征矢量序列通過(guò)聚類算法可聚為 M 類,求每類中的所有矢量的均值(或選擇類中的一個(gè)成員)就得到了每類的碼本矢量。 矢量量化模型作為一種非參數(shù)模型,是目前文本無(wú)關(guān)的說(shuō)話人識(shí)別方法的評(píng)估基準(zhǔn)。此方 法就是通過(guò)利用滿足上述條件的 ??nw 來(lái)描述輸入模板與參考模板的世間對(duì)應(yīng)關(guān)系,求解這兩個(gè)模板匹配時(shí)累積距離最小所對(duì)應(yīng)的規(guī)整函數(shù)。 辨別分類器法為說(shuō)話人識(shí)別研究提供了一條新的途徑,它在單純的數(shù)據(jù)分類方面占有很大的優(yōu)勢(shì),但很少考慮語(yǔ)義信息,在描述說(shuō)話人的個(gè)性特征方面不如前面的方法。匹配方法中經(jīng)常使用歐式距離和馬氏距離來(lái)計(jì)算,目前概率模型法已將此方法取代。 ③ 人工神經(jīng)網(wǎng)絡(luò)是一種分布式并進(jìn)行處理結(jié)構(gòu)的網(wǎng)絡(luò)模型,具有自組織和自學(xué)習(xí)能力、很強(qiáng)的復(fù)雜分類邊界區(qū)分能力以及對(duì)不完全信息的魯棒性,其性能近似理想的分類器。 ① 典型的 非參數(shù)模型有模板匹配、矢量量化模型等。 總之,較好的特征提取,應(yīng)該能夠有效地區(qū)分不同說(shuō)話人,但又能在同一說(shuō)話人語(yǔ)音發(fā)生變化時(shí)保持相對(duì)的穩(wěn)定;不易被他人 模仿或能夠較好地解決被他人模仿的問(wèn)題;具有較好的抗噪性能。測(cè)試音只有在經(jīng)過(guò)特征提取后才與說(shuō)話人的模型進(jìn)行比較和匹配,訓(xùn)練語(yǔ)音也只有進(jìn)行語(yǔ)音特征提取后才能得到其特征的模型。用于檢測(cè)算法提取的特征有效性和說(shuō)別技術(shù)的實(shí)現(xiàn)。也就是說(shuō),當(dāng)只假設(shè)用 AR 信號(hào)分析時(shí)結(jié)果偏差會(huì)很大。目前,比較主流的是美爾倒譜系數(shù)和線性預(yù)測(cè)系數(shù)以及它們的變體。 為了提高系統(tǒng)的識(shí)別性能,在做出識(shí)別后,用測(cè)試音對(duì)相應(yīng)的模型參數(shù)或者結(jié)構(gòu)作調(diào)整訓(xùn)練,以及修正判決策略等等。 在訓(xùn)練過(guò)程中,利用特征提取階段得到的特征串對(duì)選用的模型的結(jié)構(gòu)或參數(shù)進(jìn)行估計(jì)和修正。其中端點(diǎn)檢測(cè)、自動(dòng)分 段的準(zhǔn)確性與否直接影響系統(tǒng)性能的優(yōu)劣。即在極短的時(shí)間內(nèi)( 10~30ms),其頻譜特性和某些物理特征參數(shù)可近視看作是不變的。其中在說(shuō)話人辨認(rèn)中,取與測(cè)試音匹配距離最小的說(shuō)話人模型所對(duì)應(yīng)的說(shuō)話 人作為識(shí)別結(jié)九江學(xué)院學(xué)士學(xué)位論文 17 果;而在說(shuō)話人確認(rèn)中,則通過(guò)判斷測(cè)試音與所聲稱的說(shuō)話人模型之間匹配距離是否小于系統(tǒng)定義的閥值來(lái)做判斷。 說(shuō)話人識(shí)別的基本原理 說(shuō)話人識(shí)別是利用包含在說(shuō)話人的語(yǔ)音波形中特有 的個(gè)人信息,自動(dòng)識(shí)別說(shuō)話人身份的過(guò)程。 ( 3) 按照說(shuō)話人的語(yǔ)音來(lái)源可分為兩類:開(kāi)集、閉集的說(shuō)話人識(shí)別。一般采用基于統(tǒng)計(jì)的方法,如隱馬爾可夫模型 (HMM)。如果用戶的發(fā)音和規(guī)定的內(nèi)容不符合,則無(wú)法正確識(shí)別該用戶。 圖 23 說(shuō)話人辨認(rèn) 說(shuō)話人確認(rèn) (Speaker Verification),也稱說(shuō)話人檢測(cè),是指說(shuō)話人事先聲明身份,根據(jù)聲明判斷該說(shuō)話人是否是所聲稱的說(shuō)話人,這個(gè)過(guò)程只涉及一個(gè)特定的參考模型與待識(shí)別語(yǔ)音之間的比較,是“一對(duì)一”的判別問(wèn)題。 圖 22 語(yǔ)音信號(hào)處理分類 說(shuō)話人識(shí)別與語(yǔ)音識(shí)別的區(qū)別在于,說(shuō)話人識(shí)別不注重包含在語(yǔ)音信號(hào)中的文字符號(hào)信息及語(yǔ)義內(nèi)容,而是著眼于語(yǔ)音信號(hào)體現(xiàn)的個(gè)人特征。 ( 2) 語(yǔ)音信號(hào)的短時(shí)平均過(guò)零率 基于聲紋的說(shuō)話人特征識(shí)別 14 語(yǔ)音信號(hào)的短時(shí)平均過(guò)零率定義為: ? ? ? ?? ? ? ?? ? ? ?????? m mnw 1mxs g nmxs g nnZ (29) 其中 ??sgn 為符號(hào)函數(shù), ??nw 為窗函數(shù),計(jì)算時(shí)常采用矩形窗。這樣可以排除靜音或純?cè)肼暥蔚母蓴_,從而提高系統(tǒng)的識(shí)別性能。 在語(yǔ)音信號(hào)分析中用的最多的三種窗函數(shù)是矩形窗、漢明窗和漢寧窗,其定義分為: 矩形窗: ?????? 01nW elseNn??0 (25) 漢明窗: ? ? ? ????? 0 ]1/n2[c NW ? ? ?else Nn 10 ??? (26) 漢寧窗: ? ? ? ?? ?? ????? 0 1/n2c o NW ? ? ?else nn 10 ??? (27) 加矩形窗往往帶來(lái)窗邊處信號(hào)的變化,而漢明窗和漢寧窗能有效的減少時(shí)間窗兩端的坡度,使窗口邊緣兩端不引起急劇變化而能夠平滑過(guò)渡,這樣可以使截取出來(lái)的語(yǔ)音波形緩慢降為零,減小語(yǔ)音幀的截?cái)嘈?yīng)。分幀是用可移九江學(xué)院學(xué)士學(xué)位論文 13 動(dòng)的有限長(zhǎng)度窗口進(jìn)行加權(quán)的方法來(lái)實(shí)現(xiàn)的。預(yù)濾波一般是在語(yǔ)音信號(hào)數(shù)字化之后,在參數(shù)分析之前具有 6dB/倍頻程的提升高頻特性的預(yù)加重?cái)?shù)字濾波器來(lái)實(shí)現(xiàn),它一般是一階的數(shù)字濾波器: ?? 1az1z ?H (23) 或表示為: ? ? ? ? ? ?1naxnxny ? (24) 其中 ??nx 是輸入信號(hào), a 稱為預(yù)加重系數(shù),接近于 1,一般取值在 ~1 之間,本文系統(tǒng)中采用 的預(yù)加重系數(shù)值為 。進(jìn)行說(shuō)話人識(shí)別的語(yǔ)音采樣頻率一般為 8KHz、 、 16KHz、 等,量化精度一般采用 8bit、 16bit線性量化。這種思想是帶動(dòng)語(yǔ)音處理技術(shù)飛速發(fā)展的關(guān)鍵。 輻射模型 R(z)與嘴形有關(guān),研究表明,口唇輻射在高頻端較為顯著,在低頻端時(shí)影響較小,所以輻射模型 R(z)為一階高通濾波器的形式。對(duì)于該 線性識(shí)別系統(tǒng),由數(shù)字信號(hào)處理的知識(shí),可以得到其系統(tǒng)函數(shù): ? ?? ? ???? p1i1iza11z1zAH (21) 式中 P 為全極點(diǎn)濾波器的階數(shù), ? ? ? ?10 z1z ?? RR , ai( p21i , ?? )為濾波器的系數(shù)。 九江學(xué)院學(xué)士學(xué)位論文 11 說(shuō)話人發(fā)音信號(hào)的等效數(shù)字模型可由圖 21 所表示,它包括三個(gè)部分:激勵(lì)源、聲道模型和輻射模型。聲道的頻譜特性主要反映出這些共振峰的不同位置以及各個(gè)峰的頻 率寬帶。清音具有一定的隨機(jī)性。要使人發(fā) 出的聲音豐富多彩,還得借助口腔和鼻腔,把從聲門沖出的氣流形成聲音。說(shuō)話人聲門氣流沖擊聲帶振動(dòng),然后通過(guò)聲道相應(yīng)變化成語(yǔ)音。鼻道則從小舌開(kāi)始到鼻 道孔止。 基于聲紋的說(shuō)話人特征識(shí)別 10 第二章 說(shuō)話人識(shí)別的基本介紹 語(yǔ)音的基礎(chǔ)知識(shí) 在前面我們提到過(guò)一些語(yǔ)音的相關(guān)知識(shí),這里我們將繼續(xù)并更加詳細(xì)具體的談到語(yǔ)音方面的知識(shí)。 論文的內(nèi)容安排 全文分為四章,按以下順序組織: 第一章 概述了說(shuō)話人識(shí)別研究的意義、應(yīng)用領(lǐng)域、技術(shù)優(yōu)勢(shì)和研究的熱點(diǎn)、難點(diǎn)。在實(shí)際使用時(shí),在實(shí)際使用時(shí),這樣的說(shuō)話人識(shí)別系統(tǒng)據(jù)需要用戶花費(fèi)更多的時(shí)間和耐心來(lái)完成訓(xùn) 練和識(shí)別。解決這一問(wèn)題的方法通常是采用補(bǔ)償技術(shù)。隨著人們對(duì)人耳聽(tīng)覺(jué)系統(tǒng)生理特征的認(rèn)識(shí),這兩年語(yǔ)音識(shí)別領(lǐng)域提出了一些比較新的抗噪聲語(yǔ)音特征,比如基于聽(tīng)覺(jué)掩蔽特性的特征參數(shù)、基于人耳聽(tīng)覺(jué)響度特性的特征參數(shù)、基于人耳聽(tīng)覺(jué)子帶特征的提取。 語(yǔ)音增強(qiáng)技術(shù)屬于信號(hào)級(jí)抗噪處理方法,假設(shè)在加性噪聲環(huán)境下,可以根據(jù)噪聲的短時(shí)平穩(wěn)特征,通過(guò)譜減法來(lái)處理帶噪語(yǔ)音。通常研究者會(huì)從兩個(gè)方面來(lái)解決:一是如何在噪聲環(huán)境下提高識(shí)別率,另外就是訓(xùn)練時(shí)和識(shí)別時(shí)噪聲環(huán)境不同的情況下如何保證識(shí)別效果 。 —— 噪聲的影響是語(yǔ)音信號(hào)處理中最常見(jiàn)也是影響系統(tǒng)性能最關(guān)鍵的因素之一。僅僅依靠發(fā)音器官的特點(diǎn)而提取出來(lái)的特征不足以表示每個(gè)說(shuō)話人的特點(diǎn)。語(yǔ)音信號(hào)的變化是如此錯(cuò)綜復(fù)雜,其原 因之一就在于說(shuō)話人自身語(yǔ)音的變化。人們常認(rèn)為說(shuō)話人識(shí)別的難點(diǎn)在于有些人的聲音非常相似,以至于有時(shí)連我們自己都會(huì)弄錯(cuò)。 3. 帶噪音,特別是電話和移動(dòng)通信環(huán)境中的語(yǔ)音的說(shuō)話人識(shí)別是現(xiàn)今說(shuō)話人識(shí)別的一個(gè) 熱點(diǎn)。如 HMM 模型與神經(jīng)網(wǎng)絡(luò), HMM 模型與支持向量機(jī) SVM( Support Vector Machine)的結(jié)合都可以有效地改善系統(tǒng)的性能。目前,說(shuō)話人識(shí)別的研究主要集中在如下幾個(gè)方面: 1. 語(yǔ)音特征參數(shù)的提取和混合。此外,由于目前大多數(shù)研究的說(shuō)話人識(shí)別過(guò)程都認(rèn)為相鄰幀間的特征參數(shù)是相互獨(dú)立的,所以如何尋求新的更具個(gè)性和更強(qiáng)魯棒性的動(dòng)態(tài)語(yǔ)音特征,或者對(duì)現(xiàn)有的特征參數(shù)進(jìn)行優(yōu)化的選擇、補(bǔ)償?shù)龋匀皇钦f(shuō)話人識(shí)別技術(shù)領(lǐng)域中的研究熱點(diǎn)。想要提高說(shuō)話人識(shí)別的正確率,應(yīng)從以上幾個(gè)方面進(jìn)行研究。 4. 可靠性和經(jīng)濟(jì)性。 2. 如何處理長(zhǎng)時(shí)間 和短時(shí)說(shuō)話人的語(yǔ)音波動(dòng),如何區(qū)別有意模仿的聲音,這點(diǎn)對(duì)于說(shuō)話人識(shí)別在司法上應(yīng)用尤為重要。目前說(shuō)話人識(shí)別中存在的去噪、多通道等研究熱點(diǎn)都屬于這個(gè)方面的改善。 4. 特征空間有限。說(shuō)話人識(shí)別中存在的噪音、多通道、情感等熱點(diǎn)研究方向都屬于這方面。即對(duì)于同一說(shuō)話人和同一文本,語(yǔ)音信號(hào)也有很 大的變異性。但要使其普遍,并像指紋識(shí)別一樣成為十分可靠的生物特征識(shí)別技術(shù),得到廣泛應(yīng)用,還有許多尚需進(jìn)一步探索研究的難題,主要有以下幾個(gè)方面: 1 .尚未找到簡(jiǎn)單可靠的說(shuō)話人語(yǔ)音特征參數(shù)。 ( 4) 可實(shí)現(xiàn)遠(yuǎn)程操作 —— 適合遠(yuǎn)程身份確認(rèn),通過(guò)麥克風(fēng)或電話、手機(jī)就可以由網(wǎng)絡(luò)(通訊網(wǎng)絡(luò)或互聯(lián)網(wǎng)絡(luò))實(shí)現(xiàn)遠(yuǎn)程登陸 。此外,與其他生物認(rèn)證技術(shù)相比,說(shuō)話人識(shí)別技術(shù)還有以下幾個(gè)方面的優(yōu)勢(shì): ( 1) 用戶 接受程度高 —— 以說(shuō)話人的聲音作為特征進(jìn)行識(shí)別,用戶不需要記住復(fù)雜、繁多、易 忘的密碼,不需要隨時(shí)準(zhǔn)備著攜帶智能卡、鑰匙之類的東西,九江學(xué)院學(xué)士學(xué)位論文 5 更不需要像其他生物識(shí)別技術(shù)一樣,刻意的用手觸摸傳感器或把眼睛湊向攝像頭,是一種比較自然的識(shí)別技術(shù)。 取證、刑事案件偵破 —— 對(duì)于各種電話勒索、綁架、電話人身攻擊等案件,說(shuō)話人識(shí)別技術(shù)可以在一段錄音中查找出嫌疑人,幫助對(duì)嫌疑人的查證, 1971 年美國(guó)警方就利用此技術(shù)協(xié)助破案。如國(guó)內(nèi)的“得意身份證”、“昭德數(shù)字”聲紋門禁系統(tǒng)等。在說(shuō)話人識(shí)別過(guò)程中,每次發(fā)音都可由隨機(jī)產(chǎn)生的提示文本來(lái)控制,可有效的防止身份復(fù)制和賬號(hào)、密碼的盜竊,并且用戶不需要記憶和修改任何東西。 說(shuō)話人識(shí)別應(yīng)用領(lǐng)域 由于與其他生物識(shí)別技術(shù)相比,說(shuō)話人識(shí)別技術(shù)具有不可遺忘和忘記、不需記憶、使用方便等優(yōu)點(diǎn),同時(shí)說(shuō)話人識(shí)別還具有更為準(zhǔn)確、經(jīng)濟(jì)及可擴(kuò)展性良好等眾多優(yōu)勢(shì),因 此,說(shuō)話人識(shí)別技術(shù)在以下許多方面得到廣泛應(yīng)用。 說(shuō)話人識(shí)別作為生物識(shí)別的一種,是通過(guò)由計(jì)算機(jī)利用語(yǔ)音波形中所包含的反映特定說(shuō)話人生理、心理和行為特征的語(yǔ)音特征參數(shù) 來(lái)實(shí)現(xiàn)自動(dòng)識(shí)別說(shuō)話人身份的。 說(shuō)話人識(shí)別研究的意義 在生物學(xué)和信息學(xué)高度發(fā)展的今天,生物識(shí)別技術(shù)已經(jīng)越來(lái)越廣泛地應(yīng)用于人們的工作、學(xué)習(xí)和生活中,作為一種便捷和先進(jìn)的信息安全技術(shù),它能滿足現(xiàn)代社會(huì)對(duì)于身份鑒別的準(zhǔn)確性、安全性和實(shí)用性的更高要求。 這項(xiàng) 技術(shù) 自 研究發(fā)展至今,以其特有的方便性、經(jīng)濟(jì)性 、安全性 和準(zhǔn)確性等優(yōu)點(diǎn)受到特別關(guān)注, 其 研究和應(yīng)用系統(tǒng) 的 開(kāi)發(fā)具有重要 的現(xiàn)實(shí)意義 。這就使得每個(gè)人的語(yǔ) 音聲學(xué)特征既有相對(duì)穩(wěn)定性,又有變異性,不是絕對(duì)、一成不變的。 語(yǔ)音信號(hào)處理 的主要應(yīng)用包括:語(yǔ)音識(shí)別、語(yǔ)音合成、說(shuō)話人識(shí)別、語(yǔ)音編碼、語(yǔ)音增強(qiáng)等幾個(gè)分支。頻譜分析具有如下有點(diǎn):時(shí)域波形較容易隨外界環(huán)境變化,但語(yǔ)音信號(hào)的頻譜對(duì)外界環(huán)境變化具有一定的頑建性。進(jìn)行語(yǔ)音信號(hào)分析時(shí),最先接觸基于聲紋的說(shuō)話人特征識(shí)別 2 到的、最直觀的是它的時(shí)域波形。例如,利用線性預(yù)測(cè)分析來(lái)進(jìn)行語(yǔ)音合成,其先決條件是要先用線性預(yù)測(cè)方法分析語(yǔ)音庫(kù),如果線性預(yù)測(cè)分析獲得的語(yǔ)音參數(shù)較好,則用此參數(shù)合成的 語(yǔ)音音質(zhì)就好。到了八十年代,出現(xiàn)了分析合成法、碼激勵(lì)線性預(yù)測(cè)( CELP)、矢量量化( VQ)以及馬爾可夫模型( HMM)等一 系列算法和模型在很大程度上推動(dòng)了語(yǔ)音編碼和語(yǔ)音識(shí)別技術(shù)的研究。語(yǔ)音模型的參數(shù)一般可分為兩大類:一大類是激勵(lì)參數(shù);另一大類是聲道參數(shù)。 語(yǔ)音信號(hào)的研究一般都基于語(yǔ)音信號(hào)的數(shù)字表示,因此語(yǔ)音信號(hào)的數(shù)字表示是進(jìn)行語(yǔ)音信號(hào)數(shù)字處理的基礎(chǔ)。s physiological and behavioral characteristics, and automatic identification technology to speaker identity. It is also often referred to as the voiceprint recognition technology, a biometric authentication basic idea is to use a matching method for feature recognition, in order to determine the identity of the speaker. Currently known voice features include pitch, spectrogram, since
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報(bào)告相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1