【正文】
式距離和馬氏距離來計算,目前概率模型法已將此方法取代。 ① 典型的 非參數(shù)模型有模板匹配、矢量量化模型等。測試音只有在經(jīng)過特征提取后才與說話人的模型進(jìn)行比較和匹配,訓(xùn)練語音也只有進(jìn)行語音特征提取后才能得到其特征的模型。也就是說,當(dāng)只假設(shè)用 AR 信號分析時結(jié)果偏差會很大。 為了提高系統(tǒng)的識別性能,在做出識別后,用測試音對相應(yīng)的模型參數(shù)或者結(jié)構(gòu)作調(diào)整訓(xùn)練,以及修正判決策略等等。其中端點檢測、自動分 段的準(zhǔn)確性與否直接影響系統(tǒng)性能的優(yōu)劣。其中在說話人辨認(rèn)中,取與測試音匹配距離最小的說話人模型所對應(yīng)的說話 人作為識別結(jié)九江學(xué)院學(xué)士學(xué)位論文 17 果;而在說話人確認(rèn)中,則通過判斷測試音與所聲稱的說話人模型之間匹配距離是否小于系統(tǒng)定義的閥值來做判斷。 ( 3) 按照說話人的語音來源可分為兩類:開集、閉集的說話人識別。如果用戶的發(fā)音和規(guī)定的內(nèi)容不符合,則無法正確識別該用戶。 圖 22 語音信號處理分類 說話人識別與語音識別的區(qū)別在于,說話人識別不注重包含在語音信號中的文字符號信息及語義內(nèi)容,而是著眼于語音信號體現(xiàn)的個人特征。這樣可以排除靜音或純噪聲段的干擾,從而提高系統(tǒng)的識別性能。分幀是用可移九江學(xué)院學(xué)士學(xué)位論文 13 動的有限長度窗口進(jìn)行加權(quán)的方法來實現(xiàn)的。進(jìn)行說話人識別的語音采樣頻率一般為 8KHz、 、 16KHz、 等,量化精度一般采用 8bit、 16bit線性量化。 輻射模型 R(z)與嘴形有關(guān),研究表明,口唇輻射在高頻端較為顯著,在低頻端時影響較小,所以輻射模型 R(z)為一階高通濾波器的形式。 九江學(xué)院學(xué)士學(xué)位論文 11 說話人發(fā)音信號的等效數(shù)字模型可由圖 21 所表示,它包括三個部分:激勵源、聲道模型和輻射模型。清音具有一定的隨機(jī)性。說話人聲門氣流沖擊聲帶振動,然后通過聲道相應(yīng)變化成語音。 基于聲紋的說話人特征識別 10 第二章 說話人識別的基本介紹 語音的基礎(chǔ)知識 在前面我們提到過一些語音的相關(guān)知識,這里我們將繼續(xù)并更加詳細(xì)具體的談到語音方面的知識。在實際使用時,在實際使用時,這樣的說話人識別系統(tǒng)據(jù)需要用戶花費更多的時間和耐心來完成訓(xùn) 練和識別。隨著人們對人耳聽覺系統(tǒng)生理特征的認(rèn)識,這兩年語音識別領(lǐng)域提出了一些比較新的抗噪聲語音特征,比如基于聽覺掩蔽特性的特征參數(shù)、基于人耳聽覺響度特性的特征參數(shù)、基于人耳聽覺子帶特征的提取。通常研究者會從兩個方面來解決:一是如何在噪聲環(huán)境下提高識別率,另外就是訓(xùn)練時和識別時噪聲環(huán)境不同的情況下如何保證識別效果 。僅僅依靠發(fā)音器官的特點而提取出來的特征不足以表示每個說話人的特點。人們常認(rèn)為說話人識別的難點在于有些人的聲音非常相似,以至于有時連我們自己都會弄錯。如 HMM 模型與神經(jīng)網(wǎng)絡(luò), HMM 模型與支持向量機(jī) SVM( Support Vector Machine)的結(jié)合都可以有效地改善系統(tǒng)的性能。此外,由于目前大多數(shù)研究的說話人識別過程都認(rèn)為相鄰幀間的特征參數(shù)是相互獨立的,所以如何尋求新的更具個性和更強(qiáng)魯棒性的動態(tài)語音特征,或者對現(xiàn)有的特征參數(shù)進(jìn)行優(yōu)化的選擇、補(bǔ)償?shù)?,仍然是說話人識別技術(shù)領(lǐng)域中的研究熱點。 4. 可靠性和經(jīng)濟(jì)性。目前說話人識別中存在的去噪、多通道等研究熱點都屬于這個方面的改善。說話人識別中存在的噪音、多通道、情感等熱點研究方向都屬于這方面。但要使其普遍,并像指紋識別一樣成為十分可靠的生物特征識別技術(shù),得到廣泛應(yīng)用,還有許多尚需進(jìn)一步探索研究的難題,主要有以下幾個方面: 1 .尚未找到簡單可靠的說話人語音特征參數(shù)。此外,與其他生物認(rèn)證技術(shù)相比,說話人識別技術(shù)還有以下幾個方面的優(yōu)勢: ( 1) 用戶 接受程度高 —— 以說話人的聲音作為特征進(jìn)行識別,用戶不需要記住復(fù)雜、繁多、易 忘的密碼,不需要隨時準(zhǔn)備著攜帶智能卡、鑰匙之類的東西,九江學(xué)院學(xué)士學(xué)位論文 5 更不需要像其他生物識別技術(shù)一樣,刻意的用手觸摸傳感器或把眼睛湊向攝像頭,是一種比較自然的識別技術(shù)。如國內(nèi)的“得意身份證”、“昭德數(shù)字”聲紋門禁系統(tǒng)等。 說話人識別應(yīng)用領(lǐng)域 由于與其他生物識別技術(shù)相比,說話人識別技術(shù)具有不可遺忘和忘記、不需記憶、使用方便等優(yōu)點,同時說話人識別還具有更為準(zhǔn)確、經(jīng)濟(jì)及可擴(kuò)展性良好等眾多優(yōu)勢,因 此,說話人識別技術(shù)在以下許多方面得到廣泛應(yīng)用。 說話人識別研究的意義 在生物學(xué)和信息學(xué)高度發(fā)展的今天,生物識別技術(shù)已經(jīng)越來越廣泛地應(yīng)用于人們的工作、學(xué)習(xí)和生活中,作為一種便捷和先進(jìn)的信息安全技術(shù),它能滿足現(xiàn)代社會對于身份鑒別的準(zhǔn)確性、安全性和實用性的更高要求。這就使得每個人的語 音聲學(xué)特征既有相對穩(wěn)定性,又有變異性,不是絕對、一成不變的。頻譜分析具有如下有點:時域波形較容易隨外界環(huán)境變化,但語音信號的頻譜對外界環(huán)境變化具有一定的頑建性。例如,利用線性預(yù)測分析來進(jìn)行語音合成,其先決條件是要先用線性預(yù)測方法分析語音庫,如果線性預(yù)測分析獲得的語音參數(shù)較好,則用此參數(shù)合成的 語音音質(zhì)就好。語音模型的參數(shù)一般可分為兩大類:一大類是激勵參數(shù);另一大類是聲道參數(shù)。s physiological and behavioral characteristics, and automatic identification technology to speaker identity. It is also often referred to as the voiceprint recognition technology, a biometric authentication basic idea is to use a matching method for feature recognition, in order to determine the identity of the speaker. Currently known voice features include pitch, spectrogram, since the correlation coefficient, energy, average magnitude, the zero crossing rate, formant, the line spectrum of the Linear Prediction Coefficient (LPC), Linear Prediction Cepstrum (LPCC) , Mel Frequency Cepstral (MFCC). This article describes the speaker identification concepts, principles and implementation methods of identification, and pointed out the prospect of speaker recognition technology. By the platform, voice pitch, linear prediction cepstrum and Mel Frequency inverted spectra characteristic parameter extraction, analysis, contrast, identify a simple speaker recognition system, experimental results show that the experiment is correct, effective . Key Words: Speaker Recognition; Feature Parameter; Pitch; Linear Prediction Cepstral Coefficient; Mel Frequency Cepstral Coefficient 九江學(xué)院學(xué)士學(xué)位論文 III 目 錄 摘 要 ........................................................................................................................... I Abstract........................................................................................................................II 目 錄 ........................................................................................................................ III 引 言 .......................................................................................................................... 1 第一章 說話人識別研究 .............................................................................................. 3 說話人識別研究的意義 .................................................................................. 3 說話人識別應(yīng)用領(lǐng)域 ...................................................................................... 3 說話人識別的技術(shù)優(yōu)勢 .................................................................................. 4 說話人識別研究的難點和熱點 ...................................................................... 5 說話人識別技術(shù)研究的難點 ............................................................... 5 說話人識別研究的熱點 ....................................................................... 7 影響說話人識別性能的因素 .......................................................................... 7 論文的內(nèi)容安排 .............................................................................................. 9 第二章 說話人識別的基本介紹 .............................................................................. 10 語音的基礎(chǔ)知識 ............................................................................................ 10 語音的產(chǎn)生原理 ................................................................................. 10 語音產(chǎn)生模型 ..................................................................................... 10 語音信號的預(yù)處理技術(shù) ..................................................................... 12 說話人識別的分類 ........................................................................................ 14 說話人識別的基本原理 ................................................................................ 16 說話人識別的常用特征 ................................................................................ 18 說話人識別系統(tǒng)的結(jié)構(gòu)框架 ........................................................................ 18 說話人識別的主要模型 ........................................................