freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于聲紋的說話人特征識別畢業(yè)論文(文件)

2025-07-30 15:07 上一頁面

下一頁面
 

【正文】 n Markov Mode, HMM) 在 HMM 模型中,觀察到的事件和狀態(tài)通過一組概率分布聯(lián)系起來,是一個雙重隨機(jī)過程。用矢量量化模型識別說話人的過程如下: 對某一說話人,其訓(xùn)練語音的特征矢量序列通過聚類算法可聚為 M 類,求每類中的所有矢量的均值(或選擇類中的一個成員)就得到了每類的碼本矢量。 矢量量化模型作為一種非參數(shù)模型,是目前文本無關(guān)的說話人識別方法的評估基準(zhǔn)。此方 法就是通過利用滿足上述條件的 ??nw 來描述輸入模板與參考模板的世間對應(yīng)關(guān)系,求解這兩個模板匹配時累積距離最小所對應(yīng)的規(guī)整函數(shù)。 辨別分類器法為說話人識別研究提供了一條新的途徑,它在單純的數(shù)據(jù)分類方面占有很大的優(yōu)勢,但很少考慮語義信息,在描述說話人的個性特征方面不如前面的方法。匹配方法中經(jīng)常使用歐式距離和馬氏距離來計算,目前概率模型法已將此方法取代。 ③ 人工神經(jīng)網(wǎng)絡(luò)是一種分布式并進(jìn)行處理結(jié)構(gòu)的網(wǎng)絡(luò)模型,具有自組織和自學(xué)習(xí)能力、很強(qiáng)的復(fù)雜分類邊界區(qū)分能力以及對不完全信息的魯棒性,其性能近似理想的分類器。 ① 典型的 非參數(shù)模型有模板匹配、矢量量化模型等。 總之,較好的特征提取,應(yīng)該能夠有效地區(qū)分不同說話人,但又能在同一說話人語音發(fā)生變化時保持相對的穩(wěn)定;不易被他人 模仿或能夠較好地解決被他人模仿的問題;具有較好的抗噪性能。測試音只有在經(jīng)過特征提取后才與說話人的模型進(jìn)行比較和匹配,訓(xùn)練語音也只有進(jìn)行語音特征提取后才能得到其特征的模型。用于檢測算法提取的特征有效性和說別技術(shù)的實現(xiàn)。也就是說,當(dāng)只假設(shè)用 AR 信號分析時結(jié)果偏差會很大。目前,比較主流的是美爾倒譜系數(shù)和線性預(yù)測系數(shù)以及它們的變體。 為了提高系統(tǒng)的識別性能,在做出識別后,用測試音對相應(yīng)的模型參數(shù)或者結(jié)構(gòu)作調(diào)整訓(xùn)練,以及修正判決策略等等。 在訓(xùn)練過程中,利用特征提取階段得到的特征串對選用的模型的結(jié)構(gòu)或參數(shù)進(jìn)行估計和修正。其中端點檢測、自動分 段的準(zhǔn)確性與否直接影響系統(tǒng)性能的優(yōu)劣。即在極短的時間內(nèi)( 10~30ms),其頻譜特性和某些物理特征參數(shù)可近視看作是不變的。其中在說話人辨認(rèn)中,取與測試音匹配距離最小的說話人模型所對應(yīng)的說話 人作為識別結(jié)九江學(xué)院學(xué)士學(xué)位論文 17 果;而在說話人確認(rèn)中,則通過判斷測試音與所聲稱的說話人模型之間匹配距離是否小于系統(tǒng)定義的閥值來做判斷。 說話人識別的基本原理 說話人識別是利用包含在說話人的語音波形中特有 的個人信息,自動識別說話人身份的過程。 ( 3) 按照說話人的語音來源可分為兩類:開集、閉集的說話人識別。一般采用基于統(tǒng)計的方法,如隱馬爾可夫模型 (HMM)。如果用戶的發(fā)音和規(guī)定的內(nèi)容不符合,則無法正確識別該用戶。 圖 23 說話人辨認(rèn) 說話人確認(rèn) (Speaker Verification),也稱說話人檢測,是指說話人事先聲明身份,根據(jù)聲明判斷該說話人是否是所聲稱的說話人,這個過程只涉及一個特定的參考模型與待識別語音之間的比較,是“一對一”的判別問題。 圖 22 語音信號處理分類 說話人識別與語音識別的區(qū)別在于,說話人識別不注重包含在語音信號中的文字符號信息及語義內(nèi)容,而是著眼于語音信號體現(xiàn)的個人特征。 ( 2) 語音信號的短時平均過零率 基于聲紋的說話人特征識別 14 語音信號的短時平均過零率定義為: ? ? ? ?? ? ? ?? ? ? ?????? m mnw 1mxs g nmxs g nnZ (29) 其中 ??sgn 為符號函數(shù), ??nw 為窗函數(shù),計算時常采用矩形窗。這樣可以排除靜音或純噪聲段的干擾,從而提高系統(tǒng)的識別性能。 在語音信號分析中用的最多的三種窗函數(shù)是矩形窗、漢明窗和漢寧窗,其定義分為: 矩形窗: ?????? 01nW elseNn??0 (25) 漢明窗: ? ? ? ????? 0 ]1/n2[c NW ? ? ?else Nn 10 ??? (26) 漢寧窗: ? ? ? ?? ?? ????? 0 1/n2c o NW ? ? ?else nn 10 ??? (27) 加矩形窗往往帶來窗邊處信號的變化,而漢明窗和漢寧窗能有效的減少時間窗兩端的坡度,使窗口邊緣兩端不引起急劇變化而能夠平滑過渡,這樣可以使截取出來的語音波形緩慢降為零,減小語音幀的截斷效應(yīng)。分幀是用可移九江學(xué)院學(xué)士學(xué)位論文 13 動的有限長度窗口進(jìn)行加權(quán)的方法來實現(xiàn)的。預(yù)濾波一般是在語音信號數(shù)字化之后,在參數(shù)分析之前具有 6dB/倍頻程的提升高頻特性的預(yù)加重數(shù)字濾波器來實現(xiàn),它一般是一階的數(shù)字濾波器: ?? 1az1z ?H (23) 或表示為: ? ? ? ? ? ?1naxnxny ? (24) 其中 ??nx 是輸入信號, a 稱為預(yù)加重系數(shù),接近于 1,一般取值在 ~1 之間,本文系統(tǒng)中采用 的預(yù)加重系數(shù)值為 。進(jìn)行說話人識別的語音采樣頻率一般為 8KHz、 、 16KHz、 等,量化精度一般采用 8bit、 16bit線性量化。這種思想是帶動語音處理技術(shù)飛速發(fā)展的關(guān)鍵。 輻射模型 R(z)與嘴形有關(guān),研究表明,口唇輻射在高頻端較為顯著,在低頻端時影響較小,所以輻射模型 R(z)為一階高通濾波器的形式。對于該 線性識別系統(tǒng),由數(shù)字信號處理的知識,可以得到其系統(tǒng)函數(shù): ? ?? ? ???? p1i1iza11z1zAH (21) 式中 P 為全極點濾波器的階數(shù), ? ? ? ?10 z1z ?? RR , ai( p21i , ?? )為濾波器的系數(shù)。 九江學(xué)院學(xué)士學(xué)位論文 11 說話人發(fā)音信號的等效數(shù)字模型可由圖 21 所表示,它包括三個部分:激勵源、聲道模型和輻射模型。聲道的頻譜特性主要反映出這些共振峰的不同位置以及各個峰的頻 率寬帶。清音具有一定的隨機(jī)性。要使人發(fā) 出的聲音豐富多彩,還得借助口腔和鼻腔,把從聲門沖出的氣流形成聲音。說話人聲門氣流沖擊聲帶振動,然后通過聲道相應(yīng)變化成語音。鼻道則從小舌開始到鼻 道孔止。 基于聲紋的說話人特征識別 10 第二章 說話人識別的基本介紹 語音的基礎(chǔ)知識 在前面我們提到過一些語音的相關(guān)知識,這里我們將繼續(xù)并更加詳細(xì)具體的談到語音方面的知識。 論文的內(nèi)容安排 全文分為四章,按以下順序組織: 第一章 概述了說話人識別研究的意義、應(yīng)用領(lǐng)域、技術(shù)優(yōu)勢和研究的熱點、難點。在實際使用時,在實際使用時,這樣的說話人識別系統(tǒng)據(jù)需要用戶花費(fèi)更多的時間和耐心來完成訓(xùn) 練和識別。解決這一問題的方法通常是采用補(bǔ)償技術(shù)。隨著人們對人耳聽覺系統(tǒng)生理特征的認(rèn)識,這兩年語音識別領(lǐng)域提出了一些比較新的抗噪聲語音特征,比如基于聽覺掩蔽特性的特征參數(shù)、基于人耳聽覺響度特性的特征參數(shù)、基于人耳聽覺子帶特征的提取。 語音增強(qiáng)技術(shù)屬于信號級抗噪處理方法,假設(shè)在加性噪聲環(huán)境下,可以根據(jù)噪聲的短時平穩(wěn)特征,通過譜減法來處理帶噪語音。通常研究者會從兩個方面來解決:一是如何在噪聲環(huán)境下提高識別率,另外就是訓(xùn)練時和識別時噪聲環(huán)境不同的情況下如何保證識別效果 。 —— 噪聲的影響是語音信號處理中最常見也是影響系統(tǒng)性能最關(guān)鍵的因素之一。僅僅依靠發(fā)音器官的特點而提取出來的特征不足以表示每個說話人的特點。語音信號的變化是如此錯綜復(fù)雜,其原 因之一就在于說話人自身語音的變化。人們常認(rèn)為說話人識別的難點在于有些人的聲音非常相似,以至于有時連我們自己都會弄錯。 3. 帶噪音,特別是電話和移動通信環(huán)境中的語音的說話人識別是現(xiàn)今說話人識別的一個 熱點。如 HMM 模型與神經(jīng)網(wǎng)絡(luò), HMM 模型與支持向量機(jī) SVM( Support Vector Machine)的結(jié)合都可以有效地改善系統(tǒng)的性能。目前,說話人識別的研究主要集中在如下幾個方面: 1. 語音特征參數(shù)的提取和混合。此外,由于目前大多數(shù)研究的說話人識別過程都認(rèn)為相鄰幀間的特征參數(shù)是相互獨(dú)立的,所以如何尋求新的更具個性和更強(qiáng)魯棒性的動態(tài)語音特征,或者對現(xiàn)有的特征參數(shù)進(jìn)行優(yōu)化的選擇、補(bǔ)償?shù)?,仍然是說話人識別技術(shù)領(lǐng)域中的研究熱點。想要提高說話人識別的正確率,應(yīng)從以上幾個方面進(jìn)行研究。 4. 可靠性和經(jīng)濟(jì)性。 2. 如何處理長時間 和短時說話人的語音波動,如何區(qū)別有意模仿的聲音,這點對于說話人識別在司法上應(yīng)用尤為重要。目前說話人識別中存在的去噪、多通道等研究熱點都屬于這個方面的改善。 4. 特征空間有限。說話人識別中存在的噪音、多通道、情感等熱點研究方向都屬于這方面。即對于同一說話人和同一文本,語音信號也有很 大的變異性。但要使其普遍,并像指紋識別一樣成為十分可靠的生物特征識別技術(shù),得到廣泛應(yīng)用,還有許多尚需進(jìn)一步探索研究的難題,主要有以下幾個方面: 1 .尚未找到簡單可靠的說話人語音特征參數(shù)。 ( 4) 可實現(xiàn)遠(yuǎn)程操作 —— 適合遠(yuǎn)程身份確認(rèn),通過麥克風(fēng)或電話、手機(jī)就可以由網(wǎng)絡(luò)(通訊網(wǎng)絡(luò)或互聯(lián)網(wǎng)絡(luò))實現(xiàn)遠(yuǎn)程登陸 。此外,與其他生物認(rèn)證技術(shù)相比,說話人識別技術(shù)還有以下幾個方面的優(yōu)勢: ( 1) 用戶 接受程度高 —— 以說話人的聲音作為特征進(jìn)行識別,用戶不需要記住復(fù)雜、繁多、易 忘的密碼,不需要隨時準(zhǔn)備著攜帶智能卡、鑰匙之類的東西,九江學(xué)院學(xué)士學(xué)位論文 5 更不需要像其他生物識別技術(shù)一樣,刻意的用手觸摸傳感器或把眼睛湊向攝像頭,是一種比較自然的識別技術(shù)。 取證、刑事案件偵破 —— 對于各種電話勒索、綁架、電話人身攻擊等案件,說話人識別技術(shù)可以在一段錄音中查找出嫌疑人,幫助對嫌疑人的查證, 1971 年美國警方就利用此技術(shù)協(xié)助破案。如國內(nèi)的“得意身份證”、“昭德數(shù)字”聲紋門禁系統(tǒng)等。在說話人識別過程中,每次發(fā)音都可由隨機(jī)產(chǎn)生的提示文本來控制,可有效的防止身份復(fù)制和賬號、密碼的盜竊,并且用戶不需要記憶和修改任何東西。 說話人識別應(yīng)用領(lǐng)域 由于與其他生物識別技術(shù)相比,說話人識別技術(shù)具有不可遺忘和忘記、不需記憶、使用方便等優(yōu)點,同時說話人識別還具有更為準(zhǔn)確、經(jīng)濟(jì)及可擴(kuò)展性良好等眾多優(yōu)勢,因 此,說話人識別技術(shù)在以下許多方面得到廣泛應(yīng)用。 說話人識別作為生物識別的一種,是通過由計算機(jī)利用語音波形中所包含的反映特定說話人生理、心理和行為特征的語音特征參數(shù) 來實現(xiàn)自動識別說話人身份的。 說話人識別研究的意義 在生物學(xué)和信息學(xué)高度發(fā)展的今天,生物識別技術(shù)已經(jīng)越來越廣泛地應(yīng)用于人們的工作、學(xué)習(xí)和生活中,作為一種便捷和先進(jìn)的信息安全技術(shù),它能滿足現(xiàn)代社會對于身份鑒別的準(zhǔn)確性、安全性和實用性的更高要求。 這項 技術(shù) 自 研究發(fā)展至今,以其特有的方便性、經(jīng)濟(jì)性 、安全性 和準(zhǔn)確性等優(yōu)點受到特別關(guān)注, 其 研究和應(yīng)用系統(tǒng) 的 開發(fā)具有重要 的現(xiàn)實意義 。這就使得每個人的語 音聲學(xué)特征既有相對穩(wěn)定性,又有變異性,不是絕對、一成不變的。 語音信號處理 的主要應(yīng)用包括:語音識別、語音合成、說話人識別、語音編碼、語音增強(qiáng)等幾個分支。頻譜分析具有如下有點:時域波形較容易隨外界環(huán)境變化,但語音信號的頻譜對外界環(huán)境變化具有一定的頑建性。進(jìn)行語音信號分析時,最先接觸基于聲紋的說話人特征識別 2 到的、最直觀的是它的時域波形。例如,利用線性預(yù)測分析來進(jìn)行語音合成,其先決條件是要先用線性預(yù)測方法分析語音庫,如果線性預(yù)測分析獲得的語音參數(shù)較好,則用此參數(shù)合成的 語音音質(zhì)就好。到了八十年代,出現(xiàn)了分析合成法、碼激勵線性預(yù)測( CELP)、矢量量化( VQ)以及馬爾可夫模型( HMM)等一 系列算法和模型在很大程度上推動了語音編碼和語音識別技術(shù)的研究。語音模型的參數(shù)一般可分為兩大類:一大類是激勵參數(shù);另一大類是聲道參數(shù)。 語音信號的研究一般都基于語音信號的數(shù)字表示,因此語音信號的數(shù)字表示是進(jìn)行語音信號數(shù)字處理的基礎(chǔ)。s physiological and behavioral characteristics, and automatic identification technology to speaker identity. It is also often referred to as the voiceprint recognition technology, a biometric authentication basic idea is to use a matching method for feature recognition, in order to determine the identity of the speaker. Currently known voice features include pitch, spectrogram, since
點擊復(fù)制文檔內(nèi)容
研究報告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1