freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

語音端點檢測算法的研究及matla程序仿真與實現(xiàn)畢業(yè)設(shè)計-預(yù)覽頁

2025-07-16 08:21 上一頁面

下一頁面
 

【正文】 基于譜熵的端點檢測流程 27 基于譜熵特征的語音端點檢測試驗分析 28 算法比較 30 本章小結(jié) 33結(jié) 論 35參考文獻 36致 謝 37附錄1 39附錄2 45附錄3 53附錄4 61附錄5 69V第1章 緒論 第1章 緒論 課題背景語音端點檢測在語音識別中占有十分重要的地位。實際運用中,通常要求首先對系統(tǒng)的輸入信號進行判斷,準(zhǔn)確地找出語音信號的起始點和終止點。隨著聲控電子產(chǎn)品的不斷研發(fā),語音識別技術(shù)在開發(fā)和研究上還有大量的工作需要做。語音識別都是基于不同算法而進行的,所以每一種識別都要與不同算法相匹配。然而,在一些比較嘈雜的環(huán)境下,或者專業(yè)一點的技術(shù)上的識別,隨著信噪比的降低,噪聲污染的多樣性,噪聲環(huán)境下的語音識別會大大的降低[4]。語音端點檢測是語音識別、語音增強以及語音編碼等中的一個非常重要的環(huán)節(jié)而且必不可少的。信息愈來愈趨近多樣化?;谡Z音端點檢測的識別系統(tǒng)則有不可替代的作用,在不同的聲控產(chǎn)品語音識別系統(tǒng)中,有效準(zhǔn)確地確定語音段端點不僅能使處理時間減到最小,而且能排除無聲段的噪聲干擾,從而使識別系統(tǒng)具有良好的性能。對于現(xiàn)在噪聲污染的環(huán)境的加重,還有信噪比的一直變化,語音端點檢測還有待更深一步的研究。一個是努力尋求新型的特征參數(shù),再一個就是利用現(xiàn)有的特征參數(shù)采用多特征融合。第三章,從每一種算法的方程式入手,以原理簡便、運算量小等方面為標(biāo)準(zhǔn),通過大量的文獻調(diào)研與實際研究,本課主題要研究語音起點和終點的檢測,以短時能量和短時過零率相結(jié)合的雙門限語音端點檢測算法以及倒譜分析和譜熵技術(shù)等進行語音端點檢測,并分析各算法在低信噪比和高信噪比條件下的檢測效果進行對比。 語音信號簡述 通過對人們所說的語音進行研究和對語音頻譜的分析,發(fā)現(xiàn)人們包括男女老少的語音頻譜很集中,大部分都集中在300~3400Hz范圍內(nèi)。語音信號有另一個非常重要的特性,就是要保持它的短時特點,所有的關(guān)于信號處理都是基于它的短時特性而研發(fā)的。常常分的幀為幾十毫秒,在這幾十毫秒內(nèi),我們認為語音信號是保持平穩(wěn)的。如果從短時性上來分析,就會很直觀的發(fā)現(xiàn)清音和濁音的不同,一般來說,濁音在短時能量上擁有較高的波峰,而清音則一般就低一點。語音信號的處理歸根還是對語音短時內(nèi)的分析,語音端點檢測的好壞、語音識別的精準(zhǔn)度,這都根據(jù)語音信號分析的準(zhǔn)確度。時域分析常用于基本的參數(shù)分析,語音信號的分割、預(yù)處理與檢測。 傅立葉變換法 傅里葉變換是語音信號頻域分析中最廣泛使用的方法,并且是分析線性系統(tǒng)和平穩(wěn)信號穩(wěn)態(tài)特性最有力的手段。同態(tài)信號處理也稱為同態(tài)濾波,是將非線性問題轉(zhuǎn)為線性問題進行處理的方法。熵代表的信息量,當(dāng)?shù)姆植几怕氏嗟葧r,熵取最大值,也就是說,的概率分布越隨機,越難判斷,值也就越大。將線性預(yù)測應(yīng)用與語音信號分析,不僅僅是因為它的預(yù)測功能,而且更為重要的是由于它可以提供一個非常好的聲道模型和模型參數(shù)估計方法。 預(yù)加重在進行語音信號數(shù)字處理時,它們的功率譜隨頻率的增加而減小,其大部分能量集中在低頻范圍內(nèi)。為此在預(yù)處理中先進行預(yù)加重處理。而在語音端點檢測時如果采用大的窗長,則幀長長,幀數(shù)少,這樣計算量會小些,而且進行語音端點檢測時速度會快些,但是這樣語音端點檢測的誤差會增加。在進行了預(yù)加重后,要對語音信號進行加窗分幀處理。為了能夠符合實際而且能精準(zhǔn)的描述語音信號能量的實際中的變化規(guī)律,通常將窗寬選為幾十毫秒左右。用得最多的三種窗函數(shù)是矩形窗、漢明窗(Hamming)和漢寧窗(Hanning)。有時要恢復(fù)原信號,則需要從做過預(yù)加重的信號頻譜來求實際的頻譜時,并且要對測量值去加重處理,即加上6dB/倍頻程的下降的頻率特性來還原成原來的頻譜特性。理想的端點檢測算法應(yīng)當(dāng)具有以下幾個特征:可靠性、自適應(yīng)性、實時性、魯棒性和精確性。 語音端點檢測原理語音端點檢測的原理就是基于語音段和噪聲段對于一些語音信號的參數(shù)會表現(xiàn)出不同的特征,通過對特征參數(shù)的區(qū)別就能對語音信號進行端點檢測。再后面就是對特征參數(shù)的提取,不同信噪比會有不同的易于區(qū)別噪聲和語音的特征參數(shù)。本文所進行的語音端點檢測,其就是檢測出噪聲與語音信號的差別,并標(biāo)記出來。如本文采用的短時能量和短時過零率相結(jié)合的算法是基于能量差別,而倒譜和譜熵則是基于其他的特征參數(shù)。端點檢測時通過估計后噪聲比基于不同的噪聲而設(shè)定的不同門限。一種較好的語音端點檢測算法通常應(yīng)具備如下四個特征:(1)語音端點檢測的準(zhǔn)確率高,尤其對于清音段端點能夠正確判決;(2)端點檢測算法須具有對絕大多數(shù)噪聲魯棒性、抗干擾能力;(2)端點判決準(zhǔn)應(yīng)具有自適應(yīng)性,而不是僅僅簡單的門限判決;(4)檢測算法應(yīng)較簡單,而且運算量較小,便于實現(xiàn)硬件仿真。按照所采用的特征參數(shù)或分析方法的不同,本論文將語音端點檢測的算法或方法分為:(1)時域參數(shù)方法 主要是指基于短時能量、過零率和短時自相關(guān)及一些其他時域參數(shù)(如最小均方參數(shù)、對數(shù)能量、絕對值能量等)的方法。此外,還會有一些基于其他如多統(tǒng)計模型、似然檢驗、模式識別、模糊邏輯等方法;短時能量和過零率相結(jié)合的方法常用于高信噪比下,而現(xiàn)實生活中的語音信號常為低信噪比。本文擬用短時能量和過零率相結(jié)合的方法檢測高信噪比,熵譜和倒譜系數(shù)來檢測低信噪比。跟據(jù)語音信號的特性及各語言的發(fā)音特性,把語音可以分為清音、濁音和無聲三種特性,在短時能量和過零率相結(jié)合的算法過程中,短時能量檢測可以能夠分辨出濁音和清音。 短時平均能量從能量譜的實驗結(jié)果可以看出,語音和噪聲的能量值有很大的差別,根據(jù)這實驗結(jié)果就可以由能量值來區(qū)分噪聲和語音或者進行語音端點檢測。n時刻某語音信號{x(n)}的短時平均能量定義為: (31)式中,為漢明窗。因為實際的語音信號是很長的,我們不能也不必對非常長的數(shù)據(jù)進行一次性處理。語音信號的短時平均幅度定義為: (33)一般比較清晰的語音根據(jù)短時能量就能夠檢測出語音端點,但是有的時候,一個字的后面為清音,而其的短時能量又很小,很難跟隨后的無聲片段分開,有人提出了基于短時過零率的算法來區(qū)分清音和濁音,語音和噪聲在其幅度穿越橫軸的次數(shù)上有很大的區(qū)別,根據(jù)這點,提出短時能量和短時過零率相結(jié)合的方法在高信噪比環(huán)境下的檢測。如圖33所示:圖33 語音信號的短時能量從圖33中可以看出語音“12345”語音信號中語音部分的能量是最高的,由于語音部分又分成靜音段、清音段、濁音段。 短時過零率短時過零率表示一幀語音信號波形穿過橫軸的次數(shù)。再個就是區(qū)分清音和靜音。下面是語音信號通過matlab 仿真顯示過零率,如圖34所示:圖34 語音信號的過零率 從圖34中可以看出語音信號的過零率,在語音信號中清音段的過零率情況,圖中幅度變化反映了過零率次數(shù)的高低。 基于短時能量和短時過零率的雙門限端點檢測這種方法是基于短時能量和短時過零率相結(jié)合的方法,既能分辨出清音和濁音,也能分辨出清音和靜音。由上述描述,可得其簡單步驟如下:(1)首先要計算每一幀的短時能量和短時過零率,然后又由每一幀的這兩個參數(shù)值得出特征參數(shù),即能零比。先是比較高一點的門限判決。檢測過程中也要設(shè)置最低語音段和對短靜音段,這更有效的提高了語音端點檢測的準(zhǔn)確度。整個過程都是以門限值為基礎(chǔ),最短語音和最短靜音為輔來進行和提高語音端點檢測。當(dāng)超過較高門限后,信號進入語音階段,但如果語音階段持續(xù)時間小于設(shè)定的時間長度,則被認為是突發(fā)性噪聲,所有值歸零,并重新開始進行語音檢測。在語音端點檢測之前首先要對被測的語音信號進行預(yù)處理等,包括分幀加窗等。隨后根據(jù)語音的長度,加一序列與語音長度相等的隨機幅度序列,以提高噪聲信號的短時能量和過零率,比較逼真的仿真噪聲環(huán)境下的基于短時能量和過零率的語音端點檢測。如果降低語音信號的信噪比,再通過短時能量和過零率的方法檢測,不能夠檢測語音端點。本文這節(jié)也將倒譜特征參數(shù)用于在噪聲環(huán)境下的語音端點檢測。倒譜距離的測量法步驟類似于基于能量的端點檢測,但將倒譜距離代替短時能量來作為門限。我們處理信號是用的倒譜特征是復(fù)倒譜特征,其是由語音信號先經(jīng)過傅里葉變化,然后求其復(fù)對數(shù)進行逆傅立葉變換便就可以得到信號復(fù)倒譜,我們稱之為FFT復(fù)倒譜。 線性預(yù)測系數(shù)LPC LPC為用線性預(yù)測法分析語音時得到的有關(guān)語音相鄰樣值間某些相關(guān)特性的參數(shù)組。計算時可以選用Durbin算法、格型算法、協(xié)方差等算法進行求解。其中p為LPC階數(shù)。 LPC美爾倒譜系數(shù) 所謂的LPC美爾倒譜系數(shù)就是對原來的LPC倒譜系數(shù)按照美爾尺度進行非線性變換而得出的倒譜系數(shù),進一步提高了低信噪比環(huán)境中的語音端點檢測。 倒譜距離的檢測算法流程在倒譜距離檢測的算法中,首先需計算出的每一幀的LPC系數(shù)、噪聲倒譜系數(shù)估計值等,然后由每幀信號的倒譜系數(shù)和噪聲倒譜系數(shù)估計值通過公式(314)計算出倒譜值,然后才能對語音信號進行端點檢測,其檢測算法思路如下:(1) 預(yù)處理:本文采用的是8kHz的語音信號,先兌取進行預(yù)處理,是高頻和低頻的信噪比保持平滑。這10幀的前五幀作為估計當(dāng)前噪聲的倒譜系數(shù)的參考,而后幾幀則作為估計當(dāng)前噪聲的倒譜距離的參考。(5)根據(jù)各幀的值進行端點檢測。然后計算出背景噪聲倒譜系數(shù)的估計值、LPC系數(shù)、逐幀計算倒譜系數(shù),最后根據(jù)倒譜距離計算出倒譜值dst(i),然后設(shè)置兩個門限T1和T2,再根據(jù)個幀的倒譜值進行端點檢測。高門限被超過則可以基本確信是由于語音信號引起的。整個過程都是以門限值為基礎(chǔ),最短語音和最短靜音為輔來進行和提高語音端點檢測。首先是對安靜環(huán)境下的語音進行端點檢測。在信息論中,熵描述了隨機概率,也就是信息的不確定性,當(dāng)某一事件發(fā)生的概率越大,則其包含的信息量就越小。譜熵語音端點檢測方法是通過檢測譜的平坦程度,從而達到語音端點檢測的目的,經(jīng)實驗研究可知譜熵具有如下特征:(1)語音信號的譜熵不同于噪聲信號的譜熵。(4)語音譜熵只與語音信號的隨機性有關(guān),而與語音信號的幅度無關(guān),理論上認為只要語音信號的分布不發(fā)生變化,那么語音譜熵不會受到語音幅度的影響。由于語音信號的絕大部分能量集中在200Hz~3500HZ之間,所以為了集中計算譜熵以增加語音和非語音在概率密度函數(shù)中的區(qū)分性,我們把200Hz~3500Hz之外的頻率分量置為0,即: , 或 (326)經(jīng)過標(biāo)準(zhǔn)化和語音增強處理后,相應(yīng)的每一幀的譜熵定義如下: (327) 基于譜熵的端點檢測流程由于譜熵語音端點檢測方法是通過檢測譜的平坦程度,來進行語音端點檢測的,為了更好的進行語音端點檢測,本文采用語音信號的短時功率譜構(gòu)造語音信息譜熵,從而更好的對語音段和噪聲段進行區(qū)分。(4)計算出每一幀的譜熵值。 基于譜熵特征的語音端點檢測試驗分析對于一段頻帶很寬的語音信號來說,由于語音段相對于背景噪聲而言,它的能量主要集中在某幾個頻段,起伏突變比較大,所以熵值小,而噪聲信號在整個頻帶內(nèi)分布相對比較平坦(尤其是白噪聲信號),所以其熵值比較大,因此可以利用這種差異來區(qū)分語音段與噪聲段。結(jié)果如圖310所示:圖310 高信噪比對語音信號加隨機噪聲,降低信噪比,如圖311所示:圖311低信噪比從圖38中看出,在高信噪比下,譜熵不能準(zhǔn)確地對語音信號進行端點檢測,而如果對信號加一些噪聲,則發(fā)現(xiàn)能夠非常準(zhǔn)確的檢測出語音信號的每一字符的兩個端點,這說明,基于譜熵特征的語音端點檢測算法能夠在低信噪比的環(huán)境下很好的進行端點檢測。下面是通過windows系統(tǒng)的錄音系統(tǒng)錄制的語音“5”,通過matlab進行的基于三種算法的語音端點檢測,如圖312所示:a)b)c)d)從圖中看出,在高信噪比下,基于倒譜特征的方法雖不能清晰的檢測出來,但能夠很好的反映出語音信號與噪聲信號倒譜區(qū)別,已經(jīng)能模糊的找到語音的端點,如果對原始信號加一些隨機噪聲,模擬現(xiàn)實生活中的噪聲,則能非常清晰的顯示出信號與噪聲信號的倒譜特征的區(qū)別,然后對門限設(shè)置,則能夠很好的進行低信噪比的語音端點檢測。從以上仿真圖的比較中可以看出雙門限語音端點檢測算法、倒譜語音端點檢測算法和譜熵語音端點檢測算法,在高信噪比條件下對語音端點檢測效果依次降低,而在低信噪比的情況下檢測效果依次增加。其后采用了基于倒譜特征的語音端點檢測。熵描述了隨機事件結(jié)局的不確定性,即一個信息源發(fā)出的信號以信息熵來作為信息選擇和不確定性的度量,Shne JL提出基于熵的語音端點檢測方法,在某種程度上講,譜熵對噪聲具有一定的穩(wěn)健性。本文對于語音端點檢測算法進行了進一步的研究,選擇了三種不同特征參數(shù)的算法并且在不同的環(huán)境下進行了仿真,最后進行了比較,分析了不同算法優(yōu)缺點,其主要成果如下:(1)闡述了語音信號端點檢測前期的處理過程,例如短時分析技術(shù)、預(yù)加重、加窗和分幀等。選出了在噪聲環(huán)境下,基于譜熵能量的算法是最優(yōu)的。經(jīng)過幾個月的努力,畢業(yè)設(shè)計基本完成了。同時感謝身邊的同學(xué),他們?yōu)槲姨峁┝撕芏鄬氋F的資料。39。 %x=x+nois。%指定幀長FrameInc = 80。zcr2 = 5。count = 0。signs = (tmp1.*tmp2)0。%調(diào)整能量門限amp1 = min(amp1, max(amp)/4)。for n=1:length(zcr) goto = 0。 count = count + 1。 count = 0。 if silence maxsilence % 靜音還不夠長,尚未結(jié)束 count = count + 1。 else % 語音結(jié)束 status = 3。
點擊復(fù)制文檔內(nèi)容
研究報告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1