freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于聲紋的說話人特征識別畢業(yè)論文(存儲版)

2025-08-19 15:07上一頁面

下一頁面
  

【正文】 應(yīng)用到說話人辨認(rèn)系統(tǒng)中。對于文本無關(guān)的情況一般會采用各態(tài)歷經(jīng)型HMM,但還存在一些不足,特別是對噪聲的魯棒性較低和訓(xùn)練時計(jì)算量較大。在識別過程中,將待識別語音的每一特征矢量到某一說話人的 M 個三本矢量的一個最小距離進(jìn)行累加,累加和最小的說話人作為識別結(jié)果。 ( 2) 矢量量化( Vector Quantization, VQ) 矢量量化是二十世紀(jì)八十年代后發(fā)展起來的信源壓縮編碼技術(shù),在許多方面九江學(xué)院學(xué)士學(xué)位論文 21 有著成功和廣泛的應(yīng)用,像語音合成、數(shù)據(jù)壓縮、說話人識別等領(lǐng)域。它是通過對大量訓(xùn)練樣本集的語音特征參數(shù)進(jìn)行統(tǒng)計(jì)分布描述,建立相應(yīng)的數(shù)學(xué)模型,使其能夠較好的刻畫某一說話人特征參數(shù)中的分布規(guī)律。這些參數(shù)可以用從訓(xùn)練語音基于聲紋的說話人特征識別 20 中提取的特征參量來估計(jì)。 與計(jì)算機(jī)處理相對應(yīng),可以將人類的聲音劃分為以下三個層次 :聲道聲學(xué)層次,在分析短時信號的基礎(chǔ)上,抽取對通道、時間等因素不敏感的特征;韻律特征層次,抽取獨(dú)立于聲學(xué)、聲道等因素的超音段特征,如方言、韻律、語速等;語音結(jié)構(gòu)層次,通過對語音信號的識別,獲取更加全面和結(jié)構(gòu)化的語義信息。實(shí)驗(yàn)結(jié)果也表明在識別過程中雖然LPCC 的計(jì)算量占一定優(yōu)勢,但識別率上明顯不如 MFCC,這也是文本系統(tǒng)選用MFCC 的原因之一。 對于說話人識別,提取的特征需要滿足: 1. 具有高的區(qū)分能力,又對自身不同條件下的差異(如身體狀況等)體現(xiàn)的不明顯; 2. 魯棒性要好,受時間和空間的影響小。這一過程還有去除冗余信息、減小數(shù)據(jù)量的作用。 輸入語音 識別結(jié)論 圖 25 說話人識別原理流程圖 由說話人原理流程 圖可知,識別過程主要有預(yù)處理、特征提取、模型訓(xùn)練、模式匹配、識別判斷和自適應(yīng)六部分組成。如北京得意音通技術(shù)有限公司的“得意”身份證就是采用文本無關(guān)的、開集方式的說話人辨認(rèn)和確認(rèn)技術(shù)。這種方法需要對每個用戶的聲音模型逐個進(jìn)行精確建立,過程較繁且限制較多,因此應(yīng)用面較窄。說話人識別技術(shù)的分類如下: ( 1) 按其識別方式可以分為三類:說話人辨認(rèn)、說話人確認(rèn)、說話人切分和聚類。 ( 1) 語音信號的短時能量 語音信號的短時能量定義為: ? ? ? ? ? ?? ? ? ? ? ?? ?? ???? ???? nn1Nnm22 mnwmxmnwmxnE (28) 其中 N 為窗長,可見短時能量為一幀樣點(diǎn)值的加權(quán)平方和??梢愿鶕?jù)不同 應(yīng)用,采用不同的窗函數(shù)來逼近理想的頻率響應(yīng)。 —— 由于語音信號的平均頻率受到聲門激勵和口鼻輻射影響, 高頻端大約在 800Hz 以上按 6dB/倍頻程跌落,所以在求語音信號頻譜時,頻率越高相應(yīng)的成分越小。在這個模型周期脈沖發(fā)生器 隨機(jī)噪聲發(fā)生器 聲道模型 V(z) 輻射模型 R(z) 聲門脈沖模型 G( z) 聲道參數(shù) 基于聲紋的說話人特征識別 12 中, 除 G(z)和 R(z)保持不變外,基音頻率、 Av、 Au、濁音 /清音開關(guān)的位置以及聲道模型中的參數(shù) a1~ ap 都是隨時間而變化的,由于發(fā)聲器官的慣性使這些參數(shù)的變化速度受到限制,對于聲道參數(shù),在 10ms~30ms 的時間間隔內(nèi)可以認(rèn)為他們保持不變,因?yàn)檎Z音的短時分析幀長一般取 20ms 左右。 基音周期 AV Au 圖 21 語音信號數(shù)學(xué)模型 下面對該模型做一些說明,首先它把激勵發(fā)生同聲道傳播分離開來,這給語音信號處理帶來了很大的簡化,同時這樣的處理也很符合人體發(fā)聲的時間情況。 聲道是一個分布式參數(shù)系統(tǒng),它是一個諧振腔,因而具有許多諧振頻率。 聲帶的運(yùn)動還只能控制進(jìn)入口腔的氣流,而音色是有口腔的形狀,如動作快慢、開口大小、衰減時間等決定的。喉中有聲帶,決定基音的頻率。識別精度也就更無從談起。不同的麥克風(fēng),不同的采用精度,不同的傳輸信道(如固定電話和無線移動 通信)都會帶來信道匹配的問題。實(shí)際情況中像實(shí)驗(yàn)室那種相對安靜理想的環(huán)境并不是很多,由此帶來的問題就是容易造成訓(xùn)練環(huán)境和識別環(huán)境的不匹配。 除了說話人自身的因素以外,還有其他 方面也會造成說話人識別系統(tǒng)性能表現(xiàn)不穩(wěn)定。最關(guān)鍵的問基于聲紋的說話人特征識別 8 題是語音信號本身的多變性,而不是相似性。 矢量量化方面:量化方法的魯棒性及改進(jìn)算法。在國際聲學(xué)、語音和信號處理會議( International Conferrence on Acoustic Speech and Signal Processing, ICASSP)論文集中,每年都有關(guān)于說話人識別的專題。同理,在經(jīng)濟(jì)性方面,每一個說話人的標(biāo)準(zhǔn)模型必須使用盡量少的信息,因此樣本和特征量的精選也是亟待解決的。 1. 說話人識別系統(tǒng)設(shè)計(jì)的合理化及優(yōu)化問題。如何處理故意偽裝問題,在法庭的說話人識別應(yīng)用中,這個問題具有特殊的重要性 。目前還沒有很好的方法把說話人的個性特征從語音特征中分離出來,也沒找到簡單的聲學(xué)特征參數(shù)能夠可靠的識別說話人。而如虹膜、視網(wǎng)膜等技術(shù),雖然識別精確度很高,但設(shè)備造價也很高,性價比不高。 —— 說話人識別的主要依據(jù)是說話人聲道結(jié)構(gòu)的差異,從而可知說話人識別技術(shù)的研究和醫(yī)學(xué)中生理學(xué)的發(fā)展是相互促進(jìn)的,一方面生理學(xué)和解剖學(xué)的進(jìn)展可以促進(jìn)說話人識別問題的研究,另一方面也可借助說話人識別技術(shù)進(jìn)行聲道特性的研究。 —— 在日益頻繁的電子商務(wù)、電子購物、國際貿(mào)易領(lǐng)域中,越來越多的人們依賴于網(wǎng)上各種口令和密碼,隨著密碼在不同場合的頻繁使用,這種非特征性的依賴缺陷 —— 安全缺陷,也越發(fā)明顯。 生物識別技術(shù)是一種根據(jù)人體自身的生理特征(指紋、手形、臉部、 DNA、虹膜、視網(wǎng)膜、氣味等)和行為特征(聲音、簽名、擊鍵方式等)來識別身份的技術(shù)。盡管如此,由于每個人的發(fā)音器官都不盡相同,因此在一般情況下,說話人的鑒定仍能區(qū)別不同的人或識別是否是同一個人的聲音,從而進(jìn)行個人身份識別。如共振峰參數(shù)、基音周期等參數(shù)。因此,應(yīng)先對語音信號進(jìn)行特征分析,得到提高語音識別率的有用數(shù)據(jù),并據(jù)此來設(shè)計(jì)語音識別系統(tǒng)的硬件和軟件。聽覺感知的研究涉及人耳對聲波的收集波并經(jīng)過初步處理后轉(zhuǎn)換成神經(jīng)元的活動,然后逐級傳遞到大腦皮層的語音中樞。語音信號處理技術(shù)的發(fā)展依賴這些學(xué)科發(fā)展,而語音信號處理技術(shù)的進(jìn)步也會促進(jìn)這些學(xué)科的進(jìn)步。 JIU JIANG UNIVERSITY 畢 業(yè) 論 文(設(shè) 計(jì)) 題 目 基于聲紋的說話人特征識別 英文題目 Speaker feature recognition based on the voiceprint 院 系 專 業(yè) 姓 名 年 級 指導(dǎo)教師 20xx 年 6 月 九江學(xué)院學(xué)士學(xué)位論文 I 摘 要 說話人識別 是一項(xiàng)根據(jù)語音波形中反映說話人生理和行為特征的語音參數(shù),而 自動識別說話人身份的技術(shù) 。隨著信息科學(xué)飛速發(fā)展,如今語音信號處理技術(shù)已經(jīng)拓展為語音學(xué)與數(shù)字信號處理技術(shù)相結(jié)合的交叉學(xué)科,它和認(rèn)知科學(xué)、心理學(xué)、生理學(xué)、語言學(xué)、計(jì)算機(jī)科學(xué)和模式識別與人工智能等學(xué)科聯(lián)系緊密。 對語音處理的基礎(chǔ)理論及各種處理算法的研究主要包括 以下兩個方面: 1.從語言中產(chǎn)生和聽覺感知來研究 —— 語音產(chǎn)生的研究涉及大腦中樞的言語活動如何轉(zhuǎn)換成人發(fā)聲器官的運(yùn)動,從而形成聲波的傳播。有如,利用帶通濾波器組法來進(jìn)行語音識別,其先決條件是要弄清楚語音共振峰的幅值、個數(shù)、頻率變化范圍及其分布情況。另外,語音信號的頻譜具有非常明顯的聲學(xué)特征,利用頻域分析獲得的語音特征具有實(shí)際的物理意義。這種差異可能來自生理、病理、心理、模擬、偽裝,也可能與環(huán)境干擾有關(guān)。生物識別技術(shù)的崛起得益于信號檢測與處理、模式識別、人工智能、機(jī)器學(xué)習(xí)等理論與技術(shù)的發(fā)展,由于它為身份識別提供了一個可 靠的解決方案,其應(yīng)用前景廣闊,并能為構(gòu)筑21 世紀(jì)基于自主研究開發(fā)的國家信息安全體系提供強(qiáng)有力的技術(shù)支持。 、證劵系統(tǒng) —— 目前電話銀行,炒股等業(yè)務(wù)不斷增加,為了進(jìn)一基于聲紋的說話人特征識別 4 步提高這些實(shí)時性高、風(fēng)險性高的業(yè)務(wù)操作的安全性,可采用說話人識別技術(shù)并結(jié)合設(shè)定的密碼及其他安全措施進(jìn)行真實(shí)、安全、有效地用戶身份辨認(rèn),從而實(shí)現(xiàn)方便、快捷、安全有效地操作。 —— 隨著現(xiàn)代信息技術(shù)的發(fā)展,現(xiàn)在各國的國防部門也已經(jīng)逐步采用聲紋信息管理系統(tǒng),并將其應(yīng)用到軍事命令、機(jī)密情報(bào)等重要信息的獲取和鑒別中。 ( 2) 設(shè)備成本低 —— 說話人識別是一種比較經(jīng)濟(jì)的識別方式,一方面它所用的設(shè)備(如 PC 機(jī)、麥克風(fēng)等)成本要求較低;另一方面聲音的采樣、量化芯片的要求也不高。說話人語音信號中既包含了說話人語音內(nèi)容的信息,也包含了說話人的個人信息,是語義特征和說話人特征的混合體。 基于聲紋的說話人特征識別 6 3. 聲音容易被錄音模仿。 另外,說話人識別還存在以下一些實(shí)用性的問題需要在將來的研究中加以考慮和解決。和語音識別系統(tǒng)相比,說話人識別的使用者要多幾個數(shù)量級,例如有信用卡的人可以是幾百萬或上千萬,當(dāng)然不一定所有的都用同一個系統(tǒng)來處理,但是在把說話人識別系統(tǒng)用于社會 以前,必須現(xiàn)設(shè)想萬位以上的說話人進(jìn)行可靠的實(shí)驗(yàn)。 說話人識別研究的熱點(diǎn) 由于應(yīng)用的需求和數(shù)字信號處理技術(shù)的飛 速發(fā)展,說話人識別的研究越來越受到人們的重視。 高斯混合模型方面:模型參數(shù)估計(jì)方法的改進(jìn),減少模型運(yùn)算量及算法復(fù)雜度的研究。不過這只是原因之一,說話人識別技術(shù)中的難點(diǎn)并不局限于此。由于健康狀況、緊張程度、不愿意合作等生理和心理因素會大大降低說話人識別系統(tǒng)的辨識率。 目前多數(shù)說話人識別系統(tǒng)都是在實(shí)驗(yàn)室里完成的,其訓(xùn)練和識別的數(shù)據(jù)結(jié)果在實(shí)驗(yàn)環(huán)境中得到。 —— 在遠(yuǎn)距離通信系統(tǒng)中通常會遇到此類問題。實(shí)際使用證明,用戶通常會對超過30 秒的訓(xùn)練過程感到厭煩,在這種情況下,很難保證獲得足夠的、高質(zhì)量的訓(xùn)練數(shù)據(jù)。 語音的產(chǎn)生原理 語音是由發(fā)聲器官的運(yùn)動產(chǎn)生的,發(fā)聲器官主要有三個子系統(tǒng)構(gòu)成:肺、氣管、支氣管構(gòu)成的次生門系統(tǒng),聲帶以及位于聲帶以上的由咽喉、口咽、口腔組成的聲道,鼻咽和鼻腔組成的鼻道。發(fā)不同的聲音時,聲道的形狀不同,因此聽到不同的聲音。研究表明,發(fā)清音時聲道被阻形成湍流,所以可被模擬成隨機(jī)白噪聲。激勵源、聲道模型和輻射模型構(gòu)成了一個完整的語音數(shù)字模型。其表示式為: ? ? ? ?10 z1z RR ? (22) 激勵源、聲道模型和輻射模型構(gòu)成了一個完整的語音數(shù)字模型。在語音信號特征提取之前,首先要對輸入語音信號進(jìn)行預(yù)處理,預(yù)處理包括預(yù)加重、分幀、加窗以及語音端點(diǎn)檢測等過程。理想窗函數(shù)的頻率響應(yīng)要求主瓣無限狹窄且沒有旁瓣,這種窗函數(shù)在實(shí)際中是無法實(shí)現(xiàn)的。 選取何種參數(shù)進(jìn)行語音端點(diǎn)檢測,取決于各音段特征參數(shù)的聚集性,簡單而有效的是時域參數(shù),諸 如短時能量、短時平均幅度和短時過零率等。其目的就是提識別 編碼 文本有關(guān)合作說話人高質(zhì)量語音 文本無關(guān)合作說話人高質(zhì)量語音 文本無關(guān)合作說話人高質(zhì)量語音 是否文本無關(guān)不知情說話人不同語音質(zhì)量 說話人檢測 說話人辨認(rèn) 說話人確認(rèn) 分析 /合成 語音識別 語音鑒別 說話人識別 語音處理 九江學(xué)院學(xué)士學(xué)位論文 15 取說話 人的這些特征信息用來識別是哪一個說話人。一般采用基于模板的方法,如動態(tài)時間規(guī)整 (DTW)。 假設(shè)訓(xùn)練庫 中有 SN 個說話人 開集 (Openset),是指待測試的說話人的可能不在訓(xùn)練庫中,在識別時還要對 SN 個說話人以外的語音做出拒絕的判別,這就需要設(shè)定一個合適的判決門限值。說話人識別的原理框圖如圖 25 所示。 特征提取是從預(yù)處理處得到的語音中獲得反映說話人個性特質(zhì)的特征參數(shù)。 說話人識別的常用特征 說話人語音特征,是指說話人的語音信號中能唯一表征個人特征的向量序列。 MFCC 則完全不同于 LPCC,它是對人的聽 覺特性研究得到的特征參數(shù),無任何前提假設(shè),魯棒性也比較好,是目前與文本無關(guān)的
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報(bào)告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1