【正文】
號(hào)所包含的信息量,放到端點(diǎn)檢測(cè)算法中去,本文所選取的譜熵也屬于這類。通過分幀后,形成短時(shí)語音信號(hào),在短時(shí)內(nèi)語音信號(hào)是保持平穩(wěn)的,對(duì)每一幀的能量幅度進(jìn)行積和,得出每一幀的短時(shí)能量,根據(jù)每一幀的短時(shí)能量,設(shè)定一定的門限。“23”的值比較大所以其對(duì)應(yīng)于濁音段,而“145”值相對(duì)較小所以其對(duì)應(yīng)于清音段。首先設(shè)一個(gè)比較低的門限,當(dāng)所測(cè)得的參數(shù)值大于這個(gè)門限,說明信號(hào)可能進(jìn)入語音階段,再設(shè)一個(gè)稍微高一點(diǎn)的門限,當(dāng)超過這個(gè)參數(shù)值的時(shí)候,說明信號(hào)進(jìn)入語音段。我們說的話語有一定的幅度,短時(shí)能量就是根據(jù)語音信號(hào)的幅度檢測(cè)出語音端點(diǎn)的,而一些比較大的噪聲或者碰撞聲音也好導(dǎo)致短時(shí)能量或過零率的數(shù)值接近語音信號(hào)的數(shù)值,但是這種信號(hào)持續(xù)的時(shí)間比較短,在時(shí)域上表示出很短的又很高的一段語音。實(shí)驗(yàn)證明,倒譜特征能更好的表現(xiàn)語音信號(hào)的特征。這樣通過抽樣和線性組合得到的采樣值只有唯一的組合系數(shù)。(2) 估計(jì)噪聲倒譜系數(shù)和倒譜距離:在進(jìn)行語音端點(diǎn)檢測(cè)之前,需對(duì)當(dāng)前環(huán)境下的噪聲比進(jìn)行估計(jì),以便設(shè)置門限。在程序編寫過程中,常設(shè)置一個(gè)量來辨別當(dāng)前的狀態(tài),以決定下一個(gè)是什么階段。但實(shí)際上,語音譜熵隨語音隨機(jī)性而變化,與能量特征相比,譜熵的變化是很小的。本文中所有的仿真結(jié)果都是在頻率受限(限制在300Hz~3400Hz的范圍內(nèi))的情況下經(jīng)過實(shí)驗(yàn)所獲得。經(jīng)過matlab仿真,發(fā)現(xiàn)基于倒譜特征在低信噪比環(huán)境和在高一點(diǎn)的信噪比環(huán)境下都能夠進(jìn)行語音端點(diǎn)檢測(cè)。在完成設(shè)計(jì)的過程中導(dǎo)師耐心的指導(dǎo)和嚴(yán)謹(jǐn)?shù)闹螌W(xué)態(tài)度,精湛的學(xué)術(shù)造詣和誨人不倦的精神給我留下了非常深刻的印象,使我受益匪淺,為我今后的學(xué)習(xí)和工作樹立了楷模。amp2 = 2。%開始端點(diǎn)檢測(cè)x1 = []。 silence = 0。 end end case 2, % 2 = 語音段 if amp(n) amp2 | ... % 保持在語音段 zcr(n) zcr2 count = count + 1。zcr = sum(signs.*diffs, 2)。x = x / max(abs(x))。隨著聲控電子產(chǎn)品的不斷研發(fā),語音識(shí)別技術(shù)在開發(fā)和研究上還有大量的工作需要做。方法失效(2)對(duì)于清音的檢測(cè)效果較差較好 本章小結(jié)本章是本文的重點(diǎn)章節(jié),首先講述了語音端點(diǎn)檢測(cè)的基本原理及作用,列舉了一些基本的語音端點(diǎn)檢測(cè)算法,如時(shí)域參數(shù)法、頻域參數(shù)、信息論、人工神經(jīng)網(wǎng)絡(luò)方法等算法。(6)根據(jù)各幀的譜熵值進(jìn)行端點(diǎn)檢測(cè)。經(jīng)過實(shí)驗(yàn)論證,噪聲和語音信號(hào)所含的熵有很大的區(qū)別。T1是比較高的門限,數(shù)值比較大,信號(hào)必須達(dá)到一定的強(qiáng)度,該門限才可能被超過。迭代時(shí)n從大到0取值,最后求得的美爾倒譜系數(shù)放在,里。LPC倒譜特征與FFT復(fù)倒譜特征相比,前者求出的頻譜包絡(luò)能更好地重現(xiàn)譜的峰值,而且運(yùn)算量僅是后者的一半,在實(shí)時(shí)語音識(shí)別中采用LPC倒譜作為特征向量較好。從 圖35中可以看出,在高信噪比的情況下,采用短時(shí)能量和過零率相結(jié)合的語音端點(diǎn)算法能夠清晰的檢測(cè)出語音字的端點(diǎn)。在程序編寫過程中,常設(shè)置一個(gè)量來辨別當(dāng)前的狀態(tài),以決定下一個(gè)是什么階段。在區(qū)分濁音和清音時(shí),由于兩者在短時(shí)能量的區(qū)別,所以根據(jù)短時(shí)能量分辨出清音和濁音,而在區(qū)分清音和無聲片段時(shí),則由短時(shí)過零率來區(qū)分。雙門限則是先設(shè)置低一點(diǎn)的幅度進(jìn)行先判決,在選高一點(diǎn)的值進(jìn)行判決。但由過零率檢測(cè)能夠清晰的分辨出清音和無聲。 語音端點(diǎn)檢測(cè)算法及實(shí)施方案語音端點(diǎn)檢測(cè)算法是各種語音信號(hào)分析的綜合處理,到目前為止還沒有很正規(guī)的分類方法。在檢測(cè)過程中,參數(shù)提取和端點(diǎn)的判決尤為顯得重要。 本章小結(jié)本章分析了語音信號(hào)的時(shí)域和頻域的一些特征,并列舉了語音的幾個(gè)特征參數(shù),如熵、短時(shí)能量、倒譜特征等。有時(shí)需要恢復(fù)原信號(hào),需要從做過預(yù)加重的信號(hào)來求實(shí)際的頻譜,需要對(duì)測(cè)量值進(jìn)行去加重處理,即加上6dB/倍頻程的下降的頻率特性來恢復(fù)原來的特性。倒譜能很好表示語音的特征,在噪聲環(huán)境下,可通過倒譜系數(shù)而求得倒譜距離,使用倒譜距離來作為語音端點(diǎn)檢測(cè)的特征。 語音信號(hào)分析平常的語音信號(hào)處理包括一些語音識(shí)別、語音檢測(cè)、語音編碼、說話人識(shí)別等方面,這所有的檢測(cè)都是基于對(duì)語音信號(hào)的識(shí)別,所以必須先對(duì)人們所說語音信號(hào)進(jìn)行分析,則需要對(duì)語音信號(hào)短時(shí)性的特征參數(shù)進(jìn)行提取分析。9第2章 語音信號(hào)時(shí)頻域分析及預(yù)處理 第2章 語音信號(hào)時(shí)頻域分析及預(yù)處理語音信號(hào)處理包括語音識(shí)別、語音合成、語音編碼、說話人識(shí)別等方面,但是其前提和基礎(chǔ)是對(duì)語音信號(hào)進(jìn)行分析。盡管算法和方法多種多樣,都是為了更簡便、更易于實(shí)現(xiàn)、運(yùn)算量小、魯棒性好等特點(diǎn),并且對(duì)于不同的信噪比具有較好的效果。大多數(shù)的語音識(shí)別都是對(duì)整個(gè)系統(tǒng)影響是非常大的,不僅僅是語音識(shí)別,也包括語音端點(diǎn)檢測(cè)。除了文中特別加以標(biāo)注引用的內(nèi)容外,本論文不包含任何其他個(gè)人或集體已經(jīng)發(fā)表或撰寫的成果作品。 目前端點(diǎn)檢測(cè)方法大體上可以分成兩類,一類是基于閾值的方法,該方法根據(jù)語音信號(hào)和噪聲信號(hào)的不同特征,提取每一段語音信號(hào)的特征,然后把這些特征值與設(shè)定的閾值進(jìn)行比較,從而達(dá)到語音端點(diǎn)檢測(cè)的目的,該方法原理簡單,運(yùn)算方便,所以被人們廣泛使用,本文主要對(duì)基于閥值的方法進(jìn)行研究。對(duì)本研究提供過幫助和做出過貢獻(xiàn)的個(gè)人或集體,均已在文中作了明確的說明并表示了謝意。而且語音產(chǎn)業(yè)需要更加開放的環(huán)境,使有興趣和實(shí)力的企業(yè)都能加入到這方面的研究和開發(fā)中,逐步改變。例如對(duì)于熵值參數(shù)特征的檢測(cè)算法,有基于信息熵[7],[8]、基于自適應(yīng)子帶譜熵[9]、子帶二次譜熵[10]、基于小波能量熵[11]、基于樣本熵等的方法[12]。分析了語音信號(hào)的時(shí)域和頻域,介紹了幾種語音端點(diǎn)檢測(cè)算法,簡述了我的實(shí)施方案。雖然中國與外國人的發(fā)音有所不同,但從音素上來說都是一樣的。(1)短時(shí)頻譜和短時(shí)功率譜 設(shè)信號(hào)經(jīng)過傅里葉變換后在頻域記為,則與關(guān)系如公式(21): (21)語音的頻譜為的幅度,則有: (22)語音的短時(shí)功率譜的是幅度的平方,其公式為: (23)(2)倒譜距離 語音信號(hào)的倒譜分析是通過同態(tài)處理來實(shí)現(xiàn)的。平均來說,幅度較小的高頻分量產(chǎn)生的頻偏小得多。分幀用可移動(dòng)的窗口長度進(jìn)行加權(quán)實(shí)現(xiàn),即用窗函數(shù)乘以語音信號(hào)s(n),從而形成加窗的語音信號(hào): (29)由于窗函數(shù)一般取為S(n)中間大兩頭小的光滑函數(shù),這樣的沖激響應(yīng)所對(duì)應(yīng)的濾波器具有低通特性,其帶寬和頻率取決于窗函數(shù)的選取。通常分幀時(shí)會(huì)有幀與幀之間的幀移,以防止信號(hào)的突變,影響端點(diǎn)檢測(cè)。最初為單門限,后逐漸改為雙門限,隨著科技的發(fā)展,又轉(zhuǎn)變?yōu)槟:碚摶蛘叨嗵卣鲄?shù)相結(jié)合的方式。算法以短時(shí)能量檢測(cè)為主,短時(shí)過零率檢測(cè)為輔。濁音比起清音來,有較高的短時(shí)能量。當(dāng)然,這種高低僅是相對(duì)而言的,并沒有精確的數(shù)值關(guān)系。語音的開始和結(jié)束由于時(shí)間上的差異,信噪比也會(huì)有差異,這樣決定著門限選擇的復(fù)雜性。首先先在比較安靜的環(huán)境下進(jìn)行錄音,以模擬高信噪比的環(huán)境。類似于基于能量的端點(diǎn)檢測(cè)過程,利用倒譜距離軌跡可檢測(cè)語音的端點(diǎn)?,F(xiàn)在也有人提出了加權(quán)譜熵計(jì)算,并進(jìn)行端點(diǎn)檢測(cè),但都是以線性預(yù)測(cè)為基礎(chǔ)的。在進(jìn)行端點(diǎn)檢測(cè)之前,先對(duì)語音信號(hào)進(jìn)行預(yù)處理即對(duì)其分幀加窗,在本文中幀長為240,幀移為80,漢明窗。 基于譜熵的語音端點(diǎn)檢測(cè) 譜熵特征所謂熵就是表示信息的有序程度。(3)計(jì)算出每一幀中每個(gè)樣本點(diǎn)的概率密度函數(shù)。而基于譜熵的端點(diǎn)檢測(cè)則能夠非常清晰的檢測(cè)出語音端點(diǎn)。(4)根據(jù)同一語音信號(hào)分別在不同的噪聲比環(huán)境下進(jìn)行了仿真實(shí)驗(yàn)比較,評(píng)述了每一種端點(diǎn)檢測(cè)算法的優(yōu)點(diǎn)和缺點(diǎn)。 %nois=*rand(len,1)。%分幀處理,tmp1和tmp2為分幀后形成的二維數(shù)組tmp2 = enframe(x(2:end) , FrameLen, FrameInc)。 else % 靜音狀態(tài) status = 0。 end end case 3, status=0。 switch status case {0,1} % 0 = 靜音, 1 = 可能開始 if amp(n) amp1 % 確信進(jìn)入語音段 x1(end+1) = max(ncount1,1)。maxsilence = 8。本次畢業(yè)設(shè)計(jì)自始至終是在他們的指導(dǎo)和幫助下完成的,在此,再一次向他們致以深深的敬意和感謝!再次衷心感謝所有關(guān)心和幫助我的老師和同學(xué)和朋友們致以最誠摯的謝意!附錄程序%過零率和短時(shí)能量clear all。隨后的仿真實(shí)驗(yàn)驗(yàn)證了在嘈雜的環(huán)境下,基于熵譜的算法能夠很好的進(jìn)行端點(diǎn)檢測(cè)。 算法比較在語音識(shí)別系統(tǒng)中產(chǎn)生錯(cuò)誤識(shí)別的原因之一是端點(diǎn)檢測(cè)有誤差,在高信噪比情況下,正確地確定語音的端點(diǎn)并不困難。另外,由于每個(gè)頻率分量在求其概率密度函數(shù)的時(shí)侯都經(jīng)過了歸一化處理,所以從這一方面也證明了語音信號(hào)的譜熵只會(huì)與語音分布有關(guān),而不會(huì)與幅度大小有關(guān)。如果在進(jìn)入語音段后,持續(xù)的時(shí)間小于最短語音,則被認(rèn)為是噪聲,當(dāng)結(jié)束后,持續(xù)的時(shí)間小于最短靜音,則被認(rèn)為是語音還沒結(jié)束,則繼續(xù)語音信號(hào)的檢測(cè) 基于倒譜特征的語音端點(diǎn)檢測(cè)試驗(yàn)分析倒譜能很好表示語音的特征,因此在大多數(shù)語音識(shí)別系統(tǒng)中選擇倒譜系數(shù)作為輸入特征矢量,在噪聲環(huán)境下短時(shí)能量與其它特征參數(shù)都不能很好地區(qū)分語音段與非語音段,因此采用倒譜系數(shù)來作為端點(diǎn)檢測(cè)的參數(shù)。(3)逐幀計(jì)算值:對(duì)每一幀先計(jì)算出它的倒譜系數(shù),由它的倒譜系數(shù)和估計(jì)的噪聲倒譜系數(shù)計(jì)算當(dāng)前幀的倒譜距離。 LPC倒譜 LPC系數(shù)推測(cè)和估計(jì)語音信號(hào)的倒譜,這也是語音信號(hào)短時(shí)倒譜分析中一種比較特殊的處理方法。 倒譜距離設(shè)信號(hào)s(n) ,其倒譜變換為c(n)。兩個(gè)語音字之間發(fā)音是有一定的時(shí)間間隔,因此也需設(shè)定最短靜音,如果處于靜音段,而其長度小于最短靜音,則認(rèn)為語音還沒結(jié)束,繼續(xù)語音段的檢測(cè)。(2)由特征參數(shù)值,先選一個(gè)比較低一點(diǎn)的門限,進(jìn)行最先的預(yù)判,如果低于這個(gè)門限肯定不是語音信號(hào)。由語音信號(hào)的波峰波谷之間的變化,然后對(duì)其進(jìn)行歸一化處理,波峰波谷之間的變化轉(zhuǎn)為穿過橫軸的次數(shù),也是穿過零軸的次數(shù),稱為短時(shí)過零率。令,則有: (32)式中,h(n)為窗函數(shù),其有一定的長度。譜熵的大小取決的是功率譜的方差不是其大小,如果譜的分布保持不變,信號(hào)幅值的大小不會(huì)影響歸一化譜概率密度函數(shù),因而譜熵對(duì)于噪聲有一定的魯棒性。人的語音又可以分為清音和濁音兩類,其在能量上就可以分出來,而清音和濁音在短時(shí)過零率上可以分別出來。在語音識(shí)別系統(tǒng)中,正確的檢測(cè)出語音端點(diǎn),不僅能夠快速且準(zhǔn)確的進(jìn)行語音識(shí)別,而且能夠減小計(jì)算量,排除無聲段干擾,實(shí)驗(yàn)發(fā)現(xiàn),不管在什么環(huán)境或者什么樣信噪比的環(huán)境下,語音端點(diǎn)檢測(cè)的錯(cuò)誤將導(dǎo)致語音識(shí)別的錯(cuò)誤。通常將語音信號(hào)劃分為許多短時(shí)的語音時(shí)段,每個(gè)短時(shí)的語音段稱為一個(gè)幀。線性預(yù)測(cè)的原理與語音信號(hào)數(shù)字模型相關(guān)。這種分析方法的特點(diǎn)有:(1)表示語音信號(hào)比較直觀、物理意義明確;(2)實(shí)現(xiàn)起來比較簡單、運(yùn)算量少;(3)可得到語音的一些重要參數(shù);(4)采用示波器通用設(shè)備進(jìn)行觀測(cè)等。因?yàn)檎Z音信號(hào)只有在短時(shí)內(nèi)才能保持它的穩(wěn)定和平滑。我們常常尋求新的方法,新的算法,或者在新算法上研究新的方法,更容易對(duì)人類聲音的識(shí)別,或者更適于人耳聽覺系統(tǒng)的算法。如,在我們身處的環(huán)境下,開門聲、風(fēng)扇、水聲等等,都算背景噪聲。語音信號(hào)處理中的端點(diǎn)檢測(cè)技術(shù),是指從一句簡單的話語中檢測(cè)出每一個(gè)字體或字節(jié)的兩個(gè)端點(diǎn)。關(guān)鍵詞 語音端點(diǎn)檢測(cè);語音信號(hào)處理;短時(shí)能量和過零率;倒譜;譜熵I燕山大學(xué)本科生畢業(yè)設(shè)計(jì)(論文)AbstractEndpoint detection is a voice signal from the accurate speech signal to the identify start and the end points, the purpose is to enable to separated the effective voice signals and unuseful noise. So, in the speech recognition system, speech enhancement, speech coding, echo cancellation and other systems are widely used.In Current the endpoint detection can be roughly divided into two categories, one is based on the threshold method based on the different characteristics of speech signal and the noise signals, a voice signal for each extracted feature, and then set the values ??of these thresholds pare with the values ??to achieve the endpoint detection purposes, This method is simple, it convenient operation, it is widely used, the main in this paper is bas