freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于聲紋的說話人特征識(shí)別畢業(yè)論文(更新版)

2025-09-03 15:07上一頁面

下一頁面
  

【正文】 ........................ 20 說話人識(shí)別系統(tǒng)評(píng)價(jià)標(biāo)準(zhǔn) ............................................................................ 22 第三章 特征參數(shù)的提取 ............................................................................................ 24 倒譜 ............................................................................................................... 24 同態(tài)處理基本原理 ............................................................................ 24 復(fù)倒譜和倒譜 .................................................................................... 25 線性預(yù)測(cè)倒譜 (LPCC)的提取 ....................................................................... 25 LPCC 的介紹 ................................................................................... 26 LPCC 的提取過程 ........................................................................... 27 Matlab 中實(shí)現(xiàn) LPCC 的提取 ......................................................... 27 Mel頻率倒譜 (MFCC)的提取 ...................................................................... 28 基于聲紋的說話人特征識(shí)別 IV Mel 頻率介紹 .................................................................................. 28 MFCC 提取過程 ............................................................................. 29 Matlab 中實(shí)現(xiàn) MFCC 的提取 ........................................................ 31 基音周期的提取 ........................................................................................... 33 基音周期的介紹 ................................................................................. 33 短時(shí)自相關(guān)函數(shù) ................................................................................. 34 MATLAB 中實(shí)現(xiàn)基音周期的提取 ................................................ 35 第四章 說話人識(shí)別系統(tǒng)的實(shí)現(xiàn) ................................................................................ 36 實(shí)驗(yàn)實(shí)現(xiàn)的環(huán)境 ........................................................................................... 36 WAV 聲音文件格式分析 ........................................................................... 36 實(shí)驗(yàn)平臺(tái)的選擇 ............................................................................................ 37 錄音 ................................................................................................................ 37 預(yù)處理和端點(diǎn)檢測(cè) ....................................................................................... 37 實(shí)驗(yàn)所用語音庫的建立 ................................................................................ 38 系統(tǒng)實(shí)驗(yàn)框圖和步驟 ................................................................................... 39 實(shí)驗(yàn)結(jié)果和分析 ............................................................................................ 41 實(shí)驗(yàn)結(jié)果 ............................................................................................. 41 結(jié)果分析 ............................................................................................ 46 小結(jié) ............................................................................................................... 46 參考文獻(xiàn) ...................................................................................................................... 47 附 錄 .......................................................................................................................... 48 致 謝 .......................................................................................................................... 62 九江學(xué)院學(xué)士學(xué)位論文 1 引 言 語音是人類交流信息的基本手段。它也常被人們稱為聲紋識(shí)別技術(shù),是生物認(rèn)證技術(shù)的一種,其基本思想就是運(yùn)用某種匹配方法進(jìn)行特征識(shí)別,從而確定說話人的身份。因此,語音信號(hào)處理成為目前發(fā)展最為迅速的信 息科學(xué)研究領(lǐng)域中的一個(gè)重要分支。 —— 早期形成的數(shù)字濾波器、 FFT等數(shù)字信號(hào)處理方法廣泛應(yīng)用在語音信號(hào)處理領(lǐng)域,后期出現(xiàn)的線性預(yù)測(cè)編碼技術(shù)成為語音信號(hào)處理最有效的辦法之一。根據(jù)所分析的參數(shù)不同,語音信號(hào)分析可分為時(shí)域、頻域、倒譜域等方法。倒譜域是將對(duì)數(shù)功率譜進(jìn)行反傅里葉變換后得到,它可以進(jìn)一步將聲道特征和激勵(lì)特征有效的分開,因此可以更好地揭示語音信號(hào)的本質(zhì)特征。 說話人識(shí)別 是一項(xiàng)根據(jù)語音波形中反映說話人生理和行為特征的語音參數(shù),而 自動(dòng)識(shí)別說話人身份的技術(shù) ,主要包括特征提取和模式匹配兩個(gè)部分。它是集光學(xué)、傳感技術(shù)、紅外掃描和計(jì)算機(jī)技術(shù)于一身的第三代身份驗(yàn)證技術(shù),作為一種更加便捷、先進(jìn)的信息安全技術(shù),生物識(shí)別技術(shù)將全球帶進(jìn)了電子商務(wù)時(shí)代。同時(shí),記憶并定期修改眾多的密碼是非常讓人頭疼的 事情。例如為響應(yīng)病人請(qǐng)求的命令,設(shè)計(jì)一個(gè)針對(duì)患者的說話人識(shí)別系統(tǒng),可方便地實(shí)現(xiàn)患者需求的控制等。 ( 3) 可用于移動(dòng)傳輸中 —— 隨著信息智能化發(fā)展,語音特征將成為嵌入式系統(tǒng)和手持移動(dòng)設(shè)備最好的交互手段的可能性越來越明顯,因此,以聲音作為身份識(shí)別 特征的技術(shù)也越來越受到重視,說話人識(shí)別技術(shù)也越來越重要。 2. 語音信號(hào)的變異。比如在法庭查證的識(shí)別應(yīng)用中,罪犯可能會(huì)偽裝他們的聲音或模仿另一個(gè)人的聲音來逃避罪名。即在一定的應(yīng)用場(chǎng)合下對(duì)系統(tǒng)的功能和指標(biāo)合理定義、對(duì)使用者實(shí)行明智的控制以及選擇有效而可靠的識(shí)別方法等問題,使得既能正確識(shí)別說話人,又能拒絕模仿者。 說話人識(shí)別的關(guān)鍵步驟可分為:語音的預(yù)處理、語音特征提取、識(shí)別系統(tǒng)模型的建立、根據(jù)相似性準(zhǔn)則進(jìn)行判定等。說話人識(shí)別的研究已經(jīng)逐漸從實(shí)驗(yàn)室走向?qū)嶋H應(yīng)用。 神經(jīng)網(wǎng)絡(luò)方面:大人群識(shí)別,級(jí)聯(lián)神經(jīng)網(wǎng)絡(luò)。也就是說,難度在于要從多變的語音信號(hào)中找出每個(gè)說話人的特有特征。如噪聲、傳輸信道匹配、系統(tǒng)使用時(shí)間長短的?,F(xiàn)有的識(shí)別系統(tǒng)在噪聲環(huán)境中其實(shí)別效果下降的很嚴(yán)重??梢哉f,只要系統(tǒng)存在失真,那么信道不匹配問題就會(huì)一九江學(xué)院學(xué)士學(xué)位論文 9 直存在。因此更短的系統(tǒng)使用時(shí)間也應(yīng)該是研究者追求的目標(biāo)之一。聲道始于聲門止于嘴唇,是氣流傳輸?shù)耐ǖ?。短促的氣流使聲音短脆而明快,長的氣流使聲音柔和而渾厚。稱為共振峰頻率或簡稱共振峰。另外,聲門脈沖模型、聲道模型、輻射模型都是線性時(shí)變系統(tǒng),這是在一定的假設(shè)條件下提出的模型,但這樣的假設(shè)不會(huì)嚴(yán)重限制模型的應(yīng)用。 上述語音產(chǎn)生模型的基本思想是將激勵(lì)與系統(tǒng)相分離,使語音信號(hào)解體來分別進(jìn)行描述,而不是直接研究信號(hào)波形本身的特性。為此要求在預(yù)處理中進(jìn)行預(yù)濾波,預(yù)濾波的目的是提升高頻部分,使信號(hào)的頻譜變的平坦,保持在低頻到高頻的整個(gè)頻帶中,能使用相同的信噪比求頻譜,以便于頻譜分析以及聲道參數(shù)分析,并減少尖銳噪聲影響。加窗過程首先是確定選用的窗函數(shù)并確定窗的長度,然后將每一幀語音序列 S(n)與時(shí)間窗函數(shù) W(n)相乘,從而形成加窗語音 ? ? ? ? ? ?nnn WSSW ?? 。短時(shí)能量的主要用途是:一是可以區(qū)分濁音段和清音段,因?yàn)闈嵋舳螘r(shí)的短時(shí)能量 ??nE 值比清音時(shí)大很多;二是在信噪比較高的情況下,短時(shí)能量還可以作為區(qū)分有聲和無聲的依據(jù);三是可以作 為輔助的特征參數(shù)用于說話人識(shí)別中。 說話人辨認(rèn) (Speaker Identification) ,也稱說話人鑒別,是指說話人事先不聲明身份,辨認(rèn)出待識(shí)別說話人的語音到底屬于 N 個(gè)參考說話人之中的哪一個(gè),有時(shí)還要對(duì)這個(gè) N 個(gè)說話人以外的語音做出拒絕的判決, 是“多選一”的判別問題。 文本無關(guān) (TextIndependent)的說話 人識(shí)別,用戶模型訓(xùn)練的文本不要求特定的語種和內(nèi)容,而且訓(xùn)練文本與測(cè)試文本之間也不要求一致,說話人的內(nèi)容是未知的。 閉集 (Closedset),是指待測(cè)試的說話人肯定在訓(xùn)練庫中 ,在識(shí)別時(shí)需要與訓(xùn)練庫中的每個(gè)說話人的訓(xùn)練模型都進(jìn)行一次匹配計(jì)算,總共進(jìn)行 SN 次比較判決。 語音信號(hào)是一種典型的非平穩(wěn)信號(hào),但是由于發(fā)音時(shí)聲道的物理運(yùn)動(dòng)比起聲音振動(dòng)的速度來講要緩慢的多,因此語音信號(hào)可假設(shè)為短時(shí)平穩(wěn)的。特征提取是說話人識(shí)別技術(shù)中的關(guān)鍵步驟,其好壞直接影響到最后的識(shí)別性能。 說話人識(shí)別技術(shù)的研究過程中使用個(gè)特征參數(shù)主要有:基音頻率、 語譜圖 、共振峰系數(shù)、聲道沖擊響應(yīng)、自相關(guān)系數(shù)、聲道面積函數(shù)、線 性預(yù)測(cè)系數(shù)、線譜對(duì)系數(shù)( LSP)、美爾倒譜系數(shù)、感知線性預(yù)測(cè)系數(shù)( PLP)以及差值倒譜等等。 說話人識(shí)別系統(tǒng)的結(jié)構(gòu)框架 針對(duì)本文研究的用于說話人識(shí)別的語音特征提取算法和為了實(shí)現(xiàn)說話人識(shí)別,我們建立了所需的說話人識(shí)別系統(tǒng)。說話人識(shí)別系統(tǒng)主要針對(duì)較低層次的聲道學(xué)特征進(jìn)行建模,主要有基音周期、共振峰、基于線性預(yù)測(cè)的倒譜、基于付氏變換的 FFT 倒譜、基于語音信號(hào)的濾波器組分析的美爾倒譜和語音譜的過渡信息等。說話人識(shí)別系統(tǒng)中經(jīng)常采用的概率模型有:高斯模型、高斯混合模型、隱馬爾可夫模型等。與模板匹配法相比,統(tǒng)計(jì)概率模型法更準(zhǔn)確也更具有魯棒性。 用這種方法建立的識(shí)別模型,所需要的數(shù)據(jù)量少,訓(xùn)練時(shí)間短,識(shí)別響應(yīng)快。這種方法的識(shí)別精度較高,且判斷速度快。 ( 4) 高斯混合模型( Gassian Mixture Model, GMM) GMM 是一個(gè)狀態(tài)數(shù)為 1 的連續(xù)隱馬爾可夫模型,它是用多個(gè)高斯分布的線性組合來近似表示多維矢量的概率分布。 ( 5)人工神經(jīng)網(wǎng)絡(luò)( Artificial Neural Network, ANN) ANN 是一種分布式并行處理結(jié)構(gòu)的網(wǎng)絡(luò)模型,可以在一定程度上模仿人腦的功能,多用在生物醫(yī)學(xué)方面的研
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報(bào)告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1