freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

說(shuō)話人識(shí)別的系統(tǒng)設(shè)計(jì)大學(xué)畢業(yè)論文(文件)

 

【正文】 謂訓(xùn)練矢量集,就是從給定信源產(chǎn)生的矢量中事先選出的一些典型的矢量。全部X的集合用S表示;(2)先給定一個(gè)初始碼書(shū),即N個(gè)碼字矢量的初始值;(3)設(shè)置迭代算法的最大迭代次數(shù)L;(4)設(shè)置畸變改進(jìn)閥值d;(5)設(shè)置M個(gè)碼書(shū)的初值,;(6)設(shè)置畸變初值,系統(tǒng)實(shí)現(xiàn)時(shí),取為一個(gè)較大的數(shù)10000;(7)設(shè)置迭代初始值m=1;(8)根據(jù)最近鄰近準(zhǔn)則將S分成M個(gè)子集。L值是限制最大迭代次數(shù)的參數(shù),以防止設(shè)置得較低時(shí)迭代次數(shù)過(guò)多。由此形成的劃分一般稱(chēng)為Voronoi劃分,對(duì)于而言,它所給出的總畸變是最小的。下一輪迭代計(jì)算中,以為基準(zhǔn)形成新的Voronoi劃分。這對(duì)于最佳碼書(shū)的設(shè)計(jì)有很大影響。本系統(tǒng)選用分裂法[1]來(lái)生成初始碼書(shū),具體步驟如下:(1)取提取出來(lái)的所有幀的特征矢量的形心(均值)作為第一個(gè)碼字矢量。若相對(duì)畸變小于某一數(shù)值(ε),則停止計(jì)算,當(dāng)前的碼書(shū)就是設(shè)計(jì)好的碼書(shū),否則,轉(zhuǎn)下一步。系統(tǒng)實(shí)現(xiàn)時(shí)根據(jù)算法具體的收斂速度。表中存有16個(gè)30維的碼字,故每個(gè)用戶表設(shè)計(jì)為30列,表中有16個(gè)元素。 and name39。最終,碼本集被存入一個(gè)三維數(shù)組中。(2)按照平均量化失真 (410)計(jì)算X到第i個(gè)碼書(shū)的平均失真距離。在訓(xùn)練過(guò)程中,使用LBG算法將特征矢量集聚類(lèi)成最優(yōu)碼本,并存入數(shù)據(jù)庫(kù)。其中,SpeakerRecognition類(lèi)為主類(lèi),Interface類(lèi)為界面類(lèi)。首先,利用AudioFormat類(lèi)為音頻流中的數(shù)據(jù)指定相應(yīng)的音頻格式。“說(shuō)話人識(shí)別”語(yǔ)句采樣后循環(huán)隊(duì)列中有符號(hào)PCM值的輸出結(jié)果。經(jīng)過(guò)本模塊處理后,語(yǔ)音信號(hào)提高了信噪比,且連續(xù)的信號(hào)被分割成一幀一幀具有穩(wěn)定性的短時(shí)信號(hào)。該類(lèi)最終的輸出為有效語(yǔ)音幀數(shù)據(jù)。三個(gè)類(lèi)中FeatureExtractor類(lèi)是主要流程類(lèi),另兩個(gè)類(lèi)則是在FeatureExtractor. getFrameLPC()方法和FeatureExtractor. pitchDetection()方法中被實(shí)例化。AutocorrelationFunction類(lèi)則對(duì)輸入其中的序列求自相關(guān)。對(duì)于測(cè)試語(yǔ)音的特征矢量集,本模塊依次為該矢量集求取相對(duì)于數(shù)據(jù)庫(kù)中每個(gè)注冊(cè)用戶碼本的平均量化失真,取其中失真最小的用戶作為識(shí)別結(jié)果。CodeBookMaker類(lèi)為輸入其中的訓(xùn)練語(yǔ)音特征矢量集求取最佳碼本,并將其保存在數(shù)據(jù)庫(kù)相應(yīng)用戶的表中。整個(gè)系統(tǒng)共包含11個(gè)類(lèi),4大核心模塊。 系統(tǒng)界面“預(yù)處理按鈕”執(zhí)行語(yǔ)音信號(hào)的預(yù)處理操作。 用戶使用“說(shuō)話人”語(yǔ)句的注冊(cè)時(shí)的用戶姓名輸入 用戶使用“說(shuō)話人”語(yǔ)句的注冊(cè)時(shí)的注冊(cè)成功效果圖重復(fù)以上步驟,完成多個(gè)用戶注冊(cè)之后,其中用戶類(lèi)型的表即為用戶碼本表,表名為用戶名。其中,最關(guān)鍵的有兩個(gè)。預(yù)加重就是在參數(shù)分析之前讓信號(hào)通過(guò)一個(gè)具有6dB/倍頻程的提升高頻特性的預(yù)加重?cái)?shù)字濾波器,它一般是一階數(shù)字濾波器[1]: (61)對(duì)于具體的輸入即為: (62)其中是輸入信號(hào),稱(chēng)為預(yù)加重系數(shù),接近于1。預(yù)加重后的信號(hào)使用前可以進(jìn)行去加重處理[16]。 線性預(yù)測(cè)適用性問(wèn)題本文涉及到的各種算法之中,最復(fù)雜的有兩大塊:一個(gè)是矢量量化部分的算法,另一個(gè)就是線性預(yù)測(cè)算法。后再次仔細(xì)考慮線性預(yù)測(cè)的基本原理,發(fā)現(xiàn)線性預(yù)測(cè)本質(zhì)上利用的是連續(xù)信號(hào)值與值之間的相關(guān)性。發(fā)現(xiàn)這一點(diǎn)后,給線性預(yù)測(cè)算法輸入真實(shí)的語(yǔ)音信號(hào)重新進(jìn)行測(cè)試,算法獲得通過(guò)。因此,在評(píng)價(jià)說(shuō)話人辨認(rèn)系統(tǒng)時(shí),必須充分考慮說(shuō)話人數(shù)目對(duì)錯(cuò)誤率的影響。按照該結(jié)論,本文重新調(diào)整各特征參數(shù)的組合加權(quán)系數(shù)。 不同碼本庫(kù)下的系統(tǒng)識(shí)別率注冊(cè)的用戶碼本數(shù)識(shí)別率5%10%15% 本章小結(jié)本章對(duì)系統(tǒng)做出了總結(jié)和分析。 結(jié)  論語(yǔ)音信號(hào)只具有短時(shí)穩(wěn)定性,所以要對(duì)語(yǔ)音信號(hào)進(jìn)行分析,首先需要將該語(yǔ)音信號(hào)分成一幀一幀具有穩(wěn)定性質(zhì)的短時(shí)信號(hào)。要提高系統(tǒng)的精度,這些噪聲段必須被去除掉,因此,要進(jìn)行語(yǔ)音端點(diǎn)檢測(cè)的工作。其中,線性預(yù)測(cè)倒譜系數(shù)和基音頻率反映的是生成語(yǔ)音的發(fā)音器官的差異,差分線性預(yù)測(cè)倒譜系數(shù)和差分基音頻率反映的則是發(fā)音器官發(fā)音時(shí)動(dòng)作的差異。識(shí)別時(shí),從數(shù)據(jù)庫(kù)中提取所有注冊(cè)用戶的碼本集,按照平均量化失真最小的原則判決說(shuō)話人身份。利用這個(gè)系統(tǒng),本文對(duì)LPCC、差分LPCC、基音頻率、差分基音頻率四個(gè)特征參數(shù)也做出了相應(yīng)的性能評(píng)價(jià),得到的結(jié)論是:用于說(shuō)話人識(shí)別的參數(shù)中,LPCC效果最好,差分LPCC次之,基音頻率再次之,差分基音頻率效果最差。手動(dòng)選取的閾值不僅很難取到最優(yōu),而且不能適應(yīng)環(huán)境的變化。(3) 改進(jìn)基音檢測(cè)算法通過(guò)對(duì)數(shù)據(jù)庫(kù)中碼本數(shù)據(jù)的分析,本文發(fā)現(xiàn)基音頻率相對(duì)于倒譜特征出現(xiàn)的誤差較大。新用戶的自動(dòng)識(shí)別方面,可以對(duì)平均量化失真設(shè)置合適的閾值,當(dāng)失真大于該閾值時(shí),則識(shí)別為新用戶并要求其注冊(cè)。若能找到合適的閾值設(shè)定方法,并確定恰當(dāng)?shù)拈撝?,系統(tǒng)便可實(shí)現(xiàn)新用戶自動(dòng)識(shí)別的功能。因此,設(shè)置閾值會(huì)導(dǎo)致系統(tǒng)的識(shí)別率降低。這可能是基音的準(zhǔn)周期特性造成的,也可能是算法本身的問(wèn)題。(2) 增加去加重算法本文發(fā)現(xiàn)預(yù)加重處理會(huì)影響以后信號(hào)能量特征的運(yùn)用時(shí),由于時(shí)間關(guān)系未能增加合適的去加重算法以改進(jìn)系統(tǒng),而只是去掉了預(yù)加重模塊。其中最重要的有兩點(diǎn):一是系統(tǒng)的識(shí)別率可以進(jìn)一步得到改善,二是系統(tǒng)僅完成了閉集說(shuō)話人辨認(rèn)的功能,為了兼顧識(shí)別率,還未能實(shí)現(xiàn)新用戶的自動(dòng)識(shí)別。整個(gè)系統(tǒng)共包含11個(gè)類(lèi),4大核心模塊。本文的分類(lèi)決策使用的是矢量量化的方法。經(jīng)過(guò)以上分幀和端點(diǎn)檢測(cè)的預(yù)處理后,語(yǔ)音信號(hào)可以被用于下一步特征提取的過(guò)程了。幀移等于幀長(zhǎng)的一半,即前一幀和后一幀之間有一半的點(diǎn)是重疊的。論述了系統(tǒng)設(shè)計(jì)的過(guò)程中,遇到的兩個(gè)關(guān)鍵問(wèn)題及其解決思路。 不同參數(shù)組合下的系統(tǒng)識(shí)別率所用的特征參數(shù)識(shí)別率差分基音,LPCC,差分LPCC%基音,LPCC,差分LPCC%基音,差分基音,差分LPCC%基音,差分基音,LPCC%調(diào)整好加權(quán)系數(shù)后,本文分別在5名、10名和15名男性語(yǔ)音構(gòu)成的注冊(cè)用戶碼本庫(kù)基礎(chǔ)上,分析系統(tǒng)最終的識(shí)別率。根據(jù)實(shí)際識(shí)別率的大小,來(lái)確定每個(gè)特征參數(shù)對(duì)識(shí)別的貢獻(xiàn)大小。對(duì)于說(shuō)話人辨認(rèn)來(lái)說(shuō),識(shí)別的結(jié)果只可能是正確或錯(cuò)誤兩種,并且正確識(shí)別的概率與錯(cuò)誤識(shí)別的概率之和為 1,因此,可以用正確識(shí)別的概率(常稱(chēng)為識(shí)別率)或者錯(cuò)誤識(shí)別的概率(常稱(chēng)為錯(cuò)誤率)作為評(píng)價(jià)識(shí)別系統(tǒng)性能的指標(biāo)。只有前后值之間足夠相關(guān)的序列才能進(jìn)行線性預(yù)測(cè)分析。具體的做法是同時(shí)輸出線性預(yù)測(cè)算法得到的預(yù)測(cè)值和相應(yīng)的序列原值,對(duì)它們進(jìn)行比較,檢驗(yàn)前后兩個(gè)值是否有很大的差距。由于開(kāi)始設(shè)計(jì)系統(tǒng)時(shí)沒(méi)有注意到這個(gè)問(wèn)題,從而導(dǎo)致系統(tǒng)的識(shí)別率相當(dāng)?shù)?,只?0%左右。但是仔細(xì)考慮式62會(huì)發(fā)現(xiàn),經(jīng)過(guò)預(yù)加重的信號(hào)已經(jīng)不能再準(zhǔn)確反映出信號(hào)的能量特性,此時(shí)的信號(hào)已變成對(duì)時(shí)域信號(hào)變化快慢的一種度量。 預(yù)加重問(wèn)題由于語(yǔ)音信號(hào)受聲門(mén)激勵(lì)和口鼻輻射的影響,高頻端大約在800Hz以上按6dB/倍頻程跌落,即6dB/oct(2倍頻)或20dB/dec(10倍頻)。、“模式識(shí)別”語(yǔ)句進(jìn)行識(shí)別時(shí)的效果圖。 “說(shuō)話人”語(yǔ)句預(yù)處理前波形圖 “說(shuō)話人”語(yǔ)句預(yù)處理后波形圖“訓(xùn)練”按鈕執(zhí)行用戶注冊(cè)功能,即為當(dāng)前用戶生成最佳碼本,并存入數(shù)據(jù)庫(kù)中。 6 本文設(shè)計(jì)系統(tǒng)的總結(jié)與分析本文設(shè)計(jì)的系統(tǒng)實(shí)現(xiàn)了與文本無(wú)關(guān)說(shuō)話人辨認(rèn)的功能。調(diào)用分類(lèi)決策模塊時(shí)。~。 特征提取模塊工作流程圖 語(yǔ)音信號(hào)分類(lèi)決策的設(shè)計(jì)語(yǔ)音信號(hào)分類(lèi)決策模塊對(duì)特征提取模塊輸出的30維組合特征矢量集作進(jìn)一步的處理。 FeatureExtractor類(lèi)的具體設(shè)計(jì)類(lèi)成員private int frameNum幀數(shù)目private double[][] frameLPC每幀的線性預(yù)測(cè)系數(shù)private double[][] frameLPCC每幀的線性預(yù)測(cè)倒譜private double[] framePitch每幀的基音頻率private double[][] frameMarginLPCC每幀的差值線性預(yù)測(cè)倒譜private double[] frameMarginPitch每幀的差值基音頻率public double[][] frameFeature每幀的特征矢量類(lèi)方法FeatureExtractor(double[][] frame)本類(lèi)的構(gòu)造方法private double[][] getFrameLPC(double frame[][])線性預(yù)測(cè)系數(shù)的求解方法private double[][] getFrameLPCC(double frameLPC[][])線性預(yù)測(cè)倒譜的求解方法private double[] pitchDetection(double[][] frame)基音檢測(cè)方法private double[] getMarginData(double[] data)差值分析方法private void getFrameFeature()特征組合方法 ACFToLPCCoef類(lèi)的具體設(shè)計(jì)類(lèi)成員private double[] acf自相關(guān)函數(shù)public double[] lpccoef線性預(yù)測(cè)系數(shù)private final int LPC_ORD=12線性預(yù)測(cè)階數(shù)類(lèi)方法ACFToLPCCoef(double[] r)本類(lèi)的構(gòu)造方法private void lpcDurbin()Durbin遞推算法 AutocorrelationFunction類(lèi)的具體設(shè)計(jì)類(lèi)成員private double[] s原序列public double[] fullr自相關(guān)函數(shù)全部的非零值序列public double[] zeror由R(0)開(kāi)始的自相關(guān)序列類(lèi)方法AutocorrelationFunction(double[] ss)本類(lèi)的構(gòu)造方法private void getACF()自相關(guān)序列求解方法FeatureExtractor類(lèi)的輸入為預(yù)處理模塊的輸出,輸出為所有語(yǔ)音幀的組合特征矢量集。然后,將以上四種特征參數(shù)按照一定的系數(shù)進(jìn)行加權(quán)擴(kuò)維,為每幀語(yǔ)音信號(hào)生成一個(gè)30維(線性預(yù)測(cè)倒譜系數(shù)16維,差分線性預(yù)測(cè)倒譜系數(shù)12維,基音頻率和差分基音頻率各1維)。 Pretreatment類(lèi)的具體設(shè)計(jì)類(lèi)成員private byte dataBytes[]原始語(yǔ)音數(shù)據(jù)private double dataDouble[]預(yù)加重后的數(shù)據(jù)private int dataFrameNum幀數(shù)目private double dataFrameDouble[][]分幀后的數(shù)據(jù)public double effectiveFrameDouble[][]端點(diǎn)檢測(cè)后,有效幀數(shù)據(jù)private int effectiveFrameNum端點(diǎn)檢測(cè)后,有效幀數(shù)目public double effectiveDouble[]端點(diǎn)檢測(cè)后,有效的語(yǔ)音數(shù)據(jù),無(wú)幀的重疊類(lèi)方法Pretreatment(byte ab[])本類(lèi)構(gòu)造方法private void preTreat()預(yù)處理方法private double[] littleEnergy()短時(shí)能量計(jì)算方法public double signum(double x)符號(hào)函數(shù)private double[] littleZero()短時(shí)過(guò)零率計(jì)算方法private int findBeginning(double[] efv)語(yǔ)音起始點(diǎn)檢測(cè)方法private int findEnd(double[] efv)語(yǔ)音終點(diǎn)檢測(cè)方法private double[] frameToData(double[][] frame)由幀數(shù)據(jù)還原語(yǔ)音數(shù)據(jù)方法Pretreatment類(lèi)對(duì)象初始化時(shí),輸入為字節(jié)數(shù)組存儲(chǔ)的原始語(yǔ)音數(shù)據(jù)。本系統(tǒng)中,為了方便繪制波形和錄音回放,使用一個(gè)字節(jié)數(shù)組輸出流將循環(huán)隊(duì)列中的數(shù)據(jù)保存到字節(jié)數(shù)組中,以得到完整的輸入數(shù)據(jù)。然后,(聲卡)中得到指定格式的音頻供給(TargetDataLine接口)。 語(yǔ)音信號(hào)采集的設(shè)計(jì)Record類(lèi)完成語(yǔ)音信號(hào)采集的任務(wù)。 5 說(shuō)話人識(shí)別的系統(tǒng)設(shè)計(jì)本說(shuō)話人識(shí)別系統(tǒng)的具體代碼由Java語(yǔ)言實(shí)現(xiàn)。(4)求出中最小者所對(duì)應(yīng)的那個(gè)i,即是所求的那個(gè)人。在訓(xùn)練階段所形成的碼書(shū)為:(N表示說(shuō)話人個(gè)數(shù))。得到用戶表的表名。提取時(shí),首先使用select name from sysobjects where xtype=39。即首先根據(jù)輸入的用戶名創(chuàng)建相應(yīng)的空用戶表,該表只包含第一列C0。數(shù)據(jù)庫(kù)的訪問(wèn)通過(guò)JDBCODBC橋?qū)崿F(xiàn),使用的ODBC數(shù)據(jù)源名稱(chēng)為SpeakerRecognition。(5)重復(fù)(3)和(4),直到形成一個(gè)2m 個(gè)碼字的最佳的碼書(shū)。 (48) (49)其中m從1變化到當(dāng)前的碼書(shū)的碼字?jǐn)?shù),是分裂時(shí)的參數(shù),本文=。達(dá)到這一要求的方法之一是直接取輸入信號(hào)矢量作為碼字。因此這個(gè)算法是一種使總畸變單調(diào)下降的算法。當(dāng)采用歐氏距離來(lái)計(jì)算畸變時(shí),應(yīng)該是中所有矢量的質(zhì)心(式36)。第(8)項(xiàng)完成的工作是以第(m1)步形成的M個(gè)碼字為基準(zhǔn),將全部X的集合按照最鄰近準(zhǔn)則劃分為M個(gè)子集。對(duì)于此算法,第一,為了使迭代計(jì)算不至于無(wú)限循環(huán)下去,設(shè)置了和L兩個(gè)閥值參數(shù)。為得到這樣的碼書(shū),從一個(gè)初始碼書(shū)出發(fā),交替使用定理中兩個(gè)條件,反復(fù)迭代,逐步優(yōu)化即可實(shí)現(xiàn)。 LBG算法在進(jìn)行量化時(shí),希望在信號(hào)值出現(xiàn)概率較高的值域范圍,量化區(qū)間分得細(xì)密一些,而在信號(hào)值出現(xiàn)較少的地方劃分得稀疏一些,以減少平均量化
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1