freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

說話人識別的系統(tǒng)設(shè)計大學(xué)畢業(yè)論文-資料下載頁

2025-06-28 17:16本頁面
  

【正文】 成員private double[] s原序列public double[] fullr自相關(guān)函數(shù)全部的非零值序列public double[] zeror由R(0)開始的自相關(guān)序列類方法AutocorrelationFunction(double[] ss)本類的構(gòu)造方法private void getACF()自相關(guān)序列求解方法FeatureExtractor類的輸入為預(yù)處理模塊的輸出,輸出為所有語音幀的組合特征矢量集。ACFToLPCCoef類的輸入是自相關(guān)序列,輸出是該自相關(guān)序列對應(yīng)原序列的線性預(yù)測系數(shù)。AutocorrelationFunction類則對輸入其中的序列求自相關(guān)。調(diào)用特征提取模塊時。 特征提取模塊工作流程圖 語音信號分類決策的設(shè)計語音信號分類決策模塊對特征提取模塊輸出的30維組合特征矢量集作進一步的處理。對于訓(xùn)練語音的特征矢量集,本模塊使用LBG算法,為當(dāng)前說話人生成包含16個碼字的碼書,并將其存入數(shù)據(jù)庫中。對于測試語音的特征矢量集,本模塊依次為該矢量集求取相對于數(shù)據(jù)庫中每個注冊用戶碼本的平均量化失真,取其中失真最小的用戶作為識別結(jié)果。分類決策模塊由DistanceMeasure類(失真測度類)、CodeBookMaker類(碼本生成類)和JudgeIdentity類(身份判決類)實現(xiàn)。~。 DistanceMeasure類的具體設(shè)計類成員private double[] vector1參與比較的第一個矢量private double[] vector2參與比較的第二個矢量類方法DistanceMeasure(double[] x, double[] y)本類的構(gòu)造方法public double getEuclideanDistance()歐氏失真測度方法 CodeBookMaker類的具體設(shè)計類成員private double[][] codeBook說話人碼本private int featureDimension特征維數(shù)類方法CodeBookMaker(double[][] feature)本類的構(gòu)造方法private double[] getFirstCodeWord(double[][] feature)初始碼本生成方法private double[][] doLBG(double[][] feature)LBG算法private void saveCodeBook(double[][] cb)碼本保存方法 JudgeIdentity類的具體設(shè)計類成員private int userNum數(shù)據(jù)庫中注冊用戶的數(shù)量private int codeWordNum每個碼本的碼字?jǐn)?shù)private int codeWordDimension每個碼本的維數(shù)private String userName[]數(shù)據(jù)庫中所有注冊用戶的姓名private double codeBook[][][]數(shù)據(jù)庫中所有注冊用戶的碼本集類方法JudgeIdentity(double[][] feature)本類的構(gòu)造方法private void getCodeBook()注冊用戶碼本集讀取方法private void doJudgement(double[][] feature)判別實現(xiàn)方法DistanceMeasure類為輸入其中的兩個同維矢量求取歐氏失真。CodeBookMaker類為輸入其中的訓(xùn)練語音特征矢量集求取最佳碼本,并將其保存在數(shù)據(jù)庫相應(yīng)用戶的表中。JudgeIdentity類的輸入為測試語音特征矢量集和數(shù)據(jù)庫中所有注冊用戶的碼本集,輸出為最終識別結(jié)果。調(diào)用分類決策模塊時。 分類決策模塊工作流程圖 本章小結(jié)本文使用Java語音編寫代碼,使用面向?qū)ο蟮姆椒ㄍ瓿上到y(tǒng)的設(shè)計。整個系統(tǒng)共包含11個類,4大核心模塊。系統(tǒng)根據(jù)用戶的不同事件消息調(diào)用不同的模塊,從而最終實現(xiàn)說話人識別的功能。 6 本文設(shè)計系統(tǒng)的總結(jié)與分析本文設(shè)計的系統(tǒng)實現(xiàn)了與文本無關(guān)說話人辨認的功能。 系統(tǒng)界面及使用效果本系統(tǒng)的界面由Java Swing組件設(shè)計完成。 系統(tǒng)界面“預(yù)處理按鈕”執(zhí)行語音信號的預(yù)處理操作。、“說話人”語句在預(yù)處理前后的波形圖。 “說話人”語句預(yù)處理前波形圖 “說話人”語句預(yù)處理后波形圖“訓(xùn)練”按鈕執(zhí)行用戶注冊功能,即為當(dāng)前用戶生成最佳碼本,并存入數(shù)據(jù)庫中。、“說話人”語句進行注冊時的效果圖。 用戶使用“說話人”語句的注冊時的用戶姓名輸入 用戶使用“說話人”語句的注冊時的注冊成功效果圖重復(fù)以上步驟,完成多個用戶注冊之后,其中用戶類型的表即為用戶碼本表,表名為用戶名。 用戶碼本庫得到碼本庫,再次執(zhí)行“錄音”,“預(yù)處理”后,即可執(zhí)行“識別”操作來判別身份。、“模式識別”語句進行識別時的效果圖。 第一個用戶使用“模式識別”語句的識別效果圖 第二個用戶使用“模式識別”語句的識別效果圖 兩個關(guān)鍵問題的論述本文系統(tǒng)實現(xiàn)的過程中,遇到過許多問題。其中,最關(guān)鍵的有兩個。一個是語音信號的預(yù)加重問題,另一個是線性預(yù)測分析的適用性問題。 預(yù)加重問題由于語音信號受聲門激勵和口鼻輻射的影響,高頻端大約在800Hz以上按6dB/倍頻程跌落,即6dB/oct(2倍頻)或20dB/dec(10倍頻)。因此,通常在語音信號的預(yù)處理過程中有一個預(yù)加重過程。預(yù)加重就是在參數(shù)分析之前讓信號通過一個具有6dB/倍頻程的提升高頻特性的預(yù)加重數(shù)字濾波器,它一般是一階數(shù)字濾波器[1]: (61)對于具體的輸入即為: (62)其中是輸入信號,稱為預(yù)加重系數(shù),接近于1。若單從頻域考慮,由式61的波特圖可知,該濾波器的確按照20dB/ 10倍頻的速率提升了信號的高頻部分。但是仔細考慮式62會發(fā)現(xiàn),經(jīng)過預(yù)加重的信號已經(jīng)不能再準(zhǔn)確反映出信號的能量特性,此時的信號已變成對時域信號變化快慢的一種度量。因此,預(yù)加重后的信號不能直接用于與能量相關(guān)的數(shù)字處理操作。預(yù)加重后的信號使用前可以進行去加重處理[16]。然而,在本文設(shè)計系統(tǒng)后續(xù)的處理過程中,多次運用到信號的能量特征,如端點檢測,基音檢測等過程。由于開始設(shè)計系統(tǒng)時沒有注意到這個問題,從而導(dǎo)致系統(tǒng)的識別率相當(dāng)?shù)?,只?0%左右。去掉預(yù)加重處理后,識別率大幅上升,達到90%左右。 線性預(yù)測適用性問題本文涉及到的各種算法之中,最復(fù)雜的有兩大塊:一個是矢量量化部分的算法,另一個就是線性預(yù)測算法。本文實現(xiàn)線性預(yù)測算法后,為了確保算法的正確性,對程序進行了模塊測試。具體的做法是同時輸出線性預(yù)測算法得到的預(yù)測值和相應(yīng)的序列原值,對它們進行比較,檢驗前后兩個值是否有很大的差距。起初,為了方便,測試時輸入的僅是對話筒吹氣所產(chǎn)生的類噪音信號,這時無論如何修改算法都無法得到理想的效果。后再次仔細考慮線性預(yù)測的基本原理,發(fā)現(xiàn)線性預(yù)測本質(zhì)上利用的是連續(xù)信號值與值之間的相關(guān)性。也即是說,線性預(yù)測不是對于任何系統(tǒng)都適用的。只有前后值之間足夠相關(guān)的序列才能進行線性預(yù)測分析。氣流產(chǎn)生的類噪音信號相關(guān)性很弱,因此無法得到正確的預(yù)測值。發(fā)現(xiàn)這一點后,給線性預(yù)測算法輸入真實的語音信號重新進行測試,算法獲得通過。 系統(tǒng)性能的分析一個說話人識別系統(tǒng)的好壞由許多因素決定,其中正確識別率是最基礎(chǔ)、最重要的指標(biāo)。對于說話人辨認來說,識別的結(jié)果只可能是正確或錯誤兩種,并且正確識別的概率與錯誤識別的概率之和為 1,因此,可以用正確識別的概率(常稱為識別率)或者錯誤識別的概率(常稱為錯誤率)作為評價識別系統(tǒng)性能的指標(biāo)。此外,說話人辨認系統(tǒng)的誤識率隨著用戶數(shù)的增加而增加,這相當(dāng)于在有限的概率空間中區(qū)分多個點,顯然點數(shù)越多越難分離。因此,在評價說話人辨認系統(tǒng)時,必須充分考慮說話人數(shù)目對錯誤率的影響。為了提高系統(tǒng)識別率,本文對特征參數(shù)的識別貢獻大小做出分析,分析方法是在同一版本的碼本庫(10名男性語音)中,每次屏蔽掉一種特征分量,然后測試系統(tǒng)的識別率。根據(jù)實際識別率的大小,來確定每個特征參數(shù)對識別的貢獻大小。,本文所選的四種特征參數(shù)中,對識別貢獻最大的是線性預(yù)測倒譜,其次是差分線性預(yù)測倒譜,然后是基音特征,貢獻最小的是差分基音特征。按照該結(jié)論,本文重新調(diào)整各特征參數(shù)的組合加權(quán)系數(shù)。對于10名男性語音的碼本庫,%,調(diào)整后識別率達到87%。 不同參數(shù)組合下的系統(tǒng)識別率所用的特征參數(shù)識別率差分基音,LPCC,差分LPCC%基音,LPCC,差分LPCC%基音,差分基音,差分LPCC%基音,差分基音,LPCC%調(diào)整好加權(quán)系數(shù)后,本文分別在5名、10名和15名男性語音構(gòu)成的注冊用戶碼本庫基礎(chǔ)上,分析系統(tǒng)最終的識別率。分析識別率的方法是,連續(xù)進行多次識別,計算其中正確識別的比率。 不同碼本庫下的系統(tǒng)識別率注冊的用戶碼本數(shù)識別率5%10%15% 本章小結(jié)本章對系統(tǒng)做出了總結(jié)和分析??傮w上介紹了系統(tǒng)的界面和使用情況。論述了系統(tǒng)設(shè)計的過程中,遇到的兩個關(guān)鍵問題及其解決思路。本章的最后,對設(shè)計的系統(tǒng)做出了性能分析,并且依據(jù)該系統(tǒng),分析了說話人識別過程中用到的各個特征參數(shù)對最終識別效果的貢獻大小。 結(jié)  論語音信號只具有短時穩(wěn)定性,所以要對語音信號進行分析,首先需要將該語音信號分成一幀一幀具有穩(wěn)定性質(zhì)的短時信號。為了保證前后幀性質(zhì)的連續(xù)性,分幀時,本文采用交疊分幀的方法。幀移等于幀長的一半,即前一幀和后一幀之間有一半的點是重疊的。分幀后的信號仍包含大量的噪聲段(無聲段)信號。要提高系統(tǒng)的精度,這些噪聲段必須被去除掉,因此,要進行語音端點檢測的工作??紤]到語音中濁音段具有較高的能量,清音段具有較高的過零率,可以采用二者的乘積作為區(qū)分噪音段和語音段的標(biāo)準(zhǔn)。經(jīng)過以上分幀和端點檢測的預(yù)處理后,語音信號可以被用于下一步特征提取的過程了。特征提取時,本文選用線性預(yù)測倒譜系數(shù)(LPCC)、差分線性預(yù)測倒譜系數(shù)、基音頻率以及差分基音頻率四種特征的特征組合來表征說話人的特征。其中,線性預(yù)測倒譜系數(shù)和基音頻率反映的是生成語音的發(fā)音器官的差異,差分線性預(yù)測倒譜系數(shù)和差分基音頻率反映的則是發(fā)音器官發(fā)音時動作的差異。求解出四個特征矢量后,對它們進行加權(quán)擴維即可得到用于說話人分類決策的組合特征矢量,其中加權(quán)系數(shù)是根據(jù)最終系統(tǒng)的輸出結(jié)果反饋選取的。本文的分類決策使用的是矢量量化的方法。在訓(xùn)練過程中,使用LBG算法將特征矢量集聚類成最優(yōu)碼本,并存入數(shù)據(jù)庫。識別時,從數(shù)據(jù)庫中提取所有注冊用戶的碼本集,按照平均量化失真最小的原則判決說話人身份。本文最終實現(xiàn)的系統(tǒng)由面向?qū)ο蟮姆椒ㄔO(shè)計,Java語言編寫完成。整個系統(tǒng)共包含11個類,4大核心模塊。對于10名男性語音的碼本庫,該系統(tǒng)的識別率達到87%。利用這個系統(tǒng),本文對LPCC、差分LPCC、基音頻率、差分基音頻率四個特征參數(shù)也做出了相應(yīng)的性能評價,得到的結(jié)論是:用于說話人識別的參數(shù)中,LPCC效果最好,差分LPCC次之,基音頻率再次之,差分基音頻率效果最差。由于時間和水平的限制,本文實現(xiàn)的系統(tǒng)還有許多不足之處。其中最重要的有兩點:一是系統(tǒng)的識別率可以進一步得到改善,二是系統(tǒng)僅完成了閉集說話人辨認的功能,為了兼顧識別率,還未能實現(xiàn)新用戶的自動識別。識別率的進一步提高方面,本文提出一下三點設(shè)想:(1) 增加反饋算法本文許多重要參數(shù)(如端點檢測時的相對閾值、特征組合時的加權(quán)系數(shù)、最佳碼本生成時的相對畸變閾值等)的設(shè)置都是通過系統(tǒng)反饋的方法手動選取。手動選取的閾值不僅很難取到最優(yōu),而且不能適應(yīng)環(huán)境的變化。增加反饋算法自動尋找到當(dāng)前環(huán)境下的最優(yōu)閾值,從而提高系統(tǒng)識別率。(2) 增加去加重算法本文發(fā)現(xiàn)預(yù)加重處理會影響以后信號能量特征的運用時,由于時間關(guān)系未能增加合適的去加重算法以改進系統(tǒng),而只是去掉了預(yù)加重模塊。增加去加重算法后,可以對信號預(yù)加重以提高高頻部分,從而提高系統(tǒng)識別率。(3) 改進基音檢測算法通過對數(shù)據(jù)庫中碼本數(shù)據(jù)的分析,本文發(fā)現(xiàn)基音頻率相對于倒譜特征出現(xiàn)的誤差較大。多方改進算法后,仍未能取得理想的效果。這可能是基音的準(zhǔn)周期特性造成的,也可能是算法本身的問題。若能實現(xiàn)更加精確的基音檢測,系統(tǒng)的識別率將會得到提高。新用戶的自動識別方面,可以對平均量化失真設(shè)置合適的閾值,當(dāng)失真大于該閾值時,則識別為新用戶并要求其注冊。然而,對平均量化失真的數(shù)據(jù)分析后,本文發(fā)現(xiàn)新用戶的失真未必比注冊用戶正確識別時的失真小。因此,設(shè)置閾值會導(dǎo)致系統(tǒng)的識別率降低。這種現(xiàn)象有三個可能的原因:一是系統(tǒng)的開發(fā)、調(diào)試的高噪音環(huán)境造成失真過大;二是碼本的代表性不足;三是直接對平均量化失真設(shè)置閾值的方法不可行。若能找到合適的閾值設(shè)定方法,并確定恰當(dāng)?shù)拈撝?,系統(tǒng)便可實現(xiàn)新用戶自動識別的功能。 參 考 文 獻[1] 趙力.語音信號處理[M].北京:機械工業(yè)出版社,2003[2] 韓焱,王召巴,楊風(fēng)暴.電子信息工程專業(yè)學(xué)生的專業(yè)知識結(jié)構(gòu)與課程設(shè)置[C].全國光學(xué)光電和電子類專業(yè)教學(xué)經(jīng)驗交流研討會專集,中國光學(xué)學(xué)會光電技術(shù)專業(yè)委員會,教育部高等學(xué)校電子信息科學(xué)與工程類專業(yè)教學(xué)指導(dǎo)分委員會,全國高等學(xué)校光學(xué)教育研究會,2002.北京:華北工學(xué)院,2002[3] ,.A Discriminative Training Approach for Textindependent Speaker Recognition[J].Signal Processing,2005,85(7):1449-1463[4] 邊肇祺,張學(xué)工.模式識別[M].第二版.北京:清華大學(xué)出版社,2000[5] 張雄偉,陳亮,楊吉斌.現(xiàn)代語音處理技術(shù)及應(yīng)用[M].北京:機械工業(yè)出版社,2003[6] 胡航.語音信號處理[M].第
點擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1