【正文】
處理之前,必須對(duì)其進(jìn)行預(yù)處理。但是,從另一方面來看,由于語音的形成過程與發(fā)音器官的運(yùn)動(dòng)密切相關(guān),這種物理運(yùn)動(dòng)比起聲音振動(dòng)速度來講要緩慢得多,因此,語音信號(hào)常??杉俣槎虝r(shí)平穩(wěn)的。 2 語音信號(hào)處理 語音信號(hào)特點(diǎn) 語音信號(hào)是隨時(shí)間變化的一維信號(hào),由一連串的音組成,各個(gè)音的排列有一定的規(guī)則。而音節(jié)的起點(diǎn) — 聲母大多都是清聲母,還有送氣與不送氣的塞音和塞差音,當(dāng)背景噪聲較大時(shí),清音電平與噪聲電平相差無幾,將它們與環(huán)境噪聲分辨是比較困難的 ,這也是雙門限法的不足之處 。在所有這些特征中,魯棒性是最難達(dá)到的。 ( 3) 對(duì)于爆破音的寂靜段,應(yīng)將其納入語音的范圍而不是無聲段。各有不同的延時(shí)、敏感度和運(yùn)算量,這在實(shí)驗(yàn)室環(huán)境下己經(jīng)得到了很好的效果。當(dāng)時(shí)是在一個(gè)實(shí)時(shí)語音翻譯系統(tǒng)中,為了解決語音段和無語音段的檢測(cè)問題而提出來的。如果在發(fā)送端設(shè)立一個(gè)語音端點(diǎn)檢測(cè)器來區(qū)分語音和靜默以及背景噪聲,在接收端用舒適噪聲發(fā)生器來重構(gòu)背景噪聲,這樣就可以極大的提高信道的利用率,而且也能保證重構(gòu)語音的可懂度和自然度,因此準(zhǔn)確的語音端點(diǎn)檢測(cè)是非常重要的。因此,從混有不同噪聲的信號(hào)中準(zhǔn)確提取純凈的語音信號(hào)就成了語音識(shí)別系統(tǒng)中的一個(gè)重要的環(huán)節(jié)。然后逐幀 (幀長為 15ms)加大端點(diǎn)檢測(cè)的誤差,在每次加大誤差的同時(shí)得到它們的識(shí)別率。 有效的端點(diǎn)檢測(cè)技術(shù)不僅能減少系統(tǒng)的處理時(shí)間、提高系統(tǒng)的處理實(shí)時(shí)性,而且能排除無聲段的噪聲干擾,從而使后續(xù)工作的性能得以較大提高。 經(jīng)過幾十年的努力,語音信號(hào)處理在語音識(shí)別、語音增強(qiáng)、語音編碼、說話人識(shí)別、說話人情感識(shí)別、語音合成等方面取得了巨大的進(jìn)步,然而,一旦這些技術(shù)應(yīng)用在實(shí)際環(huán)境中,由于環(huán)境噪聲、信道、說話人自身因素等方面的影響,性能急劇下降,因?yàn)樵趯?shí)際環(huán)境中沒有完全純凈的語音信號(hào),一般都會(huì)伴有噪聲或其它干擾。多媒體技術(shù)的發(fā)展,使語音技術(shù)逐漸在越來越多的場(chǎng)合中推廣使用,語音信號(hào)處理技術(shù)發(fā)展迅速,其研究成果具有重要的學(xué)術(shù)及應(yīng)用價(jià)值,涉及一系列前沿課題。在電子計(jì)算機(jī)和人工智能機(jī)器的廣泛應(yīng)用中,人們發(fā)現(xiàn),人和機(jī)器之間最好的通訊方式是直接進(jìn)行語言通訊,實(shí)現(xiàn)人機(jī)自由對(duì)話,賦予機(jī) 器以聽覺,辨別話音的內(nèi)容或者辨別說話人的身份,使機(jī)器能夠按照人的意志進(jìn)行各種操作,把人類從繁重或危險(xiǎn)的勞動(dòng)中解脫出來。 研究背景及意義 3 語音 [4]是語言的聲學(xué)表現(xiàn)形式 , 語言是人類特有的功能,聲音是人類常用的 信息交 語言學(xué)、聲學(xué)、生理學(xué)、心 理學(xué)和數(shù)學(xué)等諸多領(lǐng)域的內(nèi)容。本文借助 MATLAB[3]采用短時(shí)能量和短時(shí)過零率結(jié)合的雙門限法 語來進(jìn)行語音端點(diǎn)檢測(cè), 此 算法在純語音和高信噪比的情況下都檢測(cè)得比較好,但在低信噪比下檢測(cè)結(jié)果就不盡人意。因此,端點(diǎn)檢測(cè)的效率、質(zhì)量在語音處理系統(tǒng)中顯得至關(guān)重要,廣泛開展端點(diǎn)檢測(cè)實(shí)現(xiàn)手段方面的研究,有一定的現(xiàn)實(shí)意義 [2]。 所謂語音端點(diǎn)檢測(cè),就是從一段給定的語音信號(hào)中找出語音的起始點(diǎn)和結(jié)束點(diǎn)。語音信號(hào)處理包括語音通信、語 音增強(qiáng)、語音合成、語音識(shí)別和說話人識(shí)別等方面。 Shorttime energy 。本文首先對(duì)語音信號(hào)進(jìn)行簡單的時(shí)域和頻域 分析 及預(yù)處理 ,其次利用 基于短時(shí)能量和短時(shí)過零率的 雙門限算法進(jìn)行語音端點(diǎn)檢測(cè),并對(duì)這幾種用這種算法進(jìn)行端點(diǎn)檢測(cè),進(jìn)行實(shí)驗(yàn)分析,分析此方法的優(yōu)缺點(diǎn)。 1 基于 MATLAB 的語音信號(hào)的端點(diǎn)檢測(cè) 摘要: 語音端點(diǎn)檢測(cè)是指從一段語音信號(hào)中準(zhǔn)確的找出語音信號(hào)的起始點(diǎn)和結(jié)束點(diǎn),它的目的是為了使有效的語音信號(hào)和無用的噪聲信號(hào)得以分離,因此在語音識(shí)別、語音增強(qiáng)、語音編碼、回聲抵消等系統(tǒng)中得到廣泛應(yīng)用。 關(guān)鍵詞: 語音信號(hào)處理;語音端點(diǎn)檢測(cè);雙門限;短時(shí)能量;短時(shí)過零率 Voice signal endpoint detection based on MATLAB Abstract: Endpoint detection is a voice signal from the accurate speech signal to the identify start and the end points, the purpose is to enable to separated the effective voice signals and unuseful noise. So, in the speech recognition system, speech enhancement, speech coding, echo cancellation and other systems are widely used. In Current the endpoint detection can be roughly divided into two categories, one is based on the threshold method, another method is based on the method of pattern recognition , the main in this paper is based on the method of threshold method. The Endpoint detection is take a very important position in the speech recognition, it directly affects the performance of the system. In this article first domain analysis in simple speech signal time, than dual threshold algorithm, cepstrum algorithm, spectral entropy algorithm for endpoint detection, and these types of endpoint detection algorithms, and experimental analysis points and analysis the advantages and disadvantages of this method. Key word: Signal processing。The rate of shorttime zeropassing 語音,即語言的聲音,是語言符號(hào)系統(tǒng)的載體。語音信號(hào)的好壞、語音識(shí)別率的高低,都取決于語音信號(hào)處理的好壞。在語音識(shí)別系統(tǒng)中,正確、有效的進(jìn)行端點(diǎn)檢測(cè)不僅可以減少計(jì)算量和縮短處理時(shí)間,而且能排除無聲段的噪聲干 擾、提高語音識(shí)別的正確率。 有效的端點(diǎn)檢測(cè)不僅可以減少數(shù)據(jù)的存和處理時(shí)間,而且能排除無聲段的噪聲干擾。 盡管語音端點(diǎn)檢測(cè)技術(shù)在安靜的環(huán)境中已經(jīng)達(dá)到了令人鼓舞的準(zhǔn)確率 , 但是在實(shí)際應(yīng)用 時(shí)由于聲的引入和環(huán)境的改變通常會(huì)使系統(tǒng)性能顯著下降。 隨著現(xiàn)代科學(xué)的蓬勃發(fā)展,人類社會(huì)越來越顯示出信息社會(huì)的特點(diǎn),猶如衣、食、住、行對(duì)于人類是必要的一樣,通信和信息交換也成為了人類社會(huì)存在的必要條件,不但在人與人之間,而且在人與機(jī)器之間每時(shí)每刻都需要進(jìn)行大量的信息交換。用現(xiàn)代手段研究語音處理技術(shù),使人們能更加有效地產(chǎn)生、傳輸、存儲(chǔ)、獲取和應(yīng)用語音信息,這對(duì)于促進(jìn)社會(huì)的發(fā)展十分重要。語音信號(hào)處理與信息科學(xué)中最活躍的前沿科學(xué)密切聯(lián)系,并且共同發(fā)展。例如,辦公室環(huán)境下,電腦風(fēng)扇轉(zhuǎn)動(dòng)的聲音,鍵盤敲打的聲音等都是 噪聲,而語音信號(hào)處理 4 系統(tǒng)的處理對(duì)象是有效語音信號(hào),即排除了純?cè)肼暥蔚恼Z音信號(hào)段。 語音端點(diǎn)檢測(cè)的準(zhǔn)確性對(duì)于語音識(shí)別系統(tǒng)的性能有著較大的影響。結(jié)果表明在端點(diǎn)檢測(cè)準(zhǔn)確時(shí)識(shí)別率為 93%的系統(tǒng),當(dāng)端點(diǎn)檢測(cè)的誤差在士 60ms(4 幀 )時(shí),識(shí)別率降低了 3%; 在士 90ms(6 幀 )時(shí),降低了 10%; 而當(dāng)誤差在進(jìn)一步加大時(shí),識(shí)別率急劇下降。 另外在通信系統(tǒng)中,典型的會(huì)話信道大約有 40%的時(shí)間真正用于傳輸語音,其余60%的時(shí)間傳輸?shù)亩际庆o默和背景噪聲。 語音端點(diǎn)檢測(cè)研究現(xiàn)狀及存在的問題 語音端點(diǎn)檢測(cè)和語音增強(qiáng)不同,它的任務(wù)是判斷待處理信號(hào)是語音還是非語音。那時(shí)的算法名稱叫VAD(Voice Aotivity Detection),指的是將語音段和無語音段分開的處理過程。但是當(dāng)環(huán)境背景噪聲存在的情況下,傳統(tǒng)的檢測(cè)算法都會(huì)因?yàn)槭艿轿廴径斐蓢?yán)重的誤判和漏判。 ( 4) 應(yīng)該盡可能避免在檢測(cè)中丟失鼻韻和弱摩擦音等與噪聲特性相似、短時(shí)參數(shù)較少的語音。因此,如何在噪聲環(huán)境下設(shè)計(jì)一種魯棒的端點(diǎn)檢測(cè)算法是一個(gè)非常棘手的問題。 現(xiàn)有的算法存在的主要問題有兩點(diǎn) : 6 一、在具有較強(qiáng)噪聲的環(huán)境下,語音端點(diǎn)檢測(cè)往往存在著大量的誤判,不利于后續(xù)的處理過程 ; 二、在高噪聲的環(huán)境下不能有效的檢測(cè)出語音信號(hào)段,造成了有效信息的丟失。語音具有聲學(xué)特征的物理性質(zhì),聲音質(zhì)量與它的頻率范圍有關(guān),語音信號(hào)的頻率一般是在 200Hz~3500Hz 范圍內(nèi),隨著帶寬的增加,信號(hào)的自然度將逐步得到改善。研究表明,在5ms40ms 的范圍內(nèi),語音信號(hào)的頻譜特性和一些物理特征參數(shù)基本保持不變。語音信號(hào)的預(yù)處理應(yīng)盡可能地保證處理后得到的信號(hào)更均勻、平滑,且能提高語音的質(zhì)量。目的是提升高頻部分,使信號(hào)變得平坦,保持在低頻到高頻的整個(gè)頻帶中,能用同樣的信噪比求頻譜,而且預(yù)加重零點(diǎn)與輻射零點(diǎn)將抵消聲門波的影響,使語音信號(hào)中只包含聲道部分,以便于頻譜分析或聲道參數(shù)分析。在端點(diǎn)檢測(cè)時(shí)如果采用較大的窗長 , 則幀長長,幀數(shù)少 , 這樣計(jì)算量會(huì)小些 , 而且進(jìn)行端點(diǎn)檢測(cè)時(shí)速度也會(huì)快些,但是這樣端點(diǎn)檢測(cè) 的誤差容易增加。將語音信號(hào)劃分為許多短時(shí)的語音段,每個(gè)短時(shí)的語音段稱為一個(gè)分析幀。前一幀和后一幀的交疊部分稱為幀移,幀移與幀長的比值一般取 為0~ 之間。 表 21 1s長的各種窗的主瓣寬度和旁瓣高度 矩形 漢明 漢寧 主瓣寬度 旁瓣寬度 13dB 43dB 32dB 從表中可知:矩形窗的主瓣寬度最小,但其旁瓣高度最高;漢明窗的主瓣最寬,而旁瓣高度最低。只有將語音信號(hào)分析成表示其本質(zhì)特性的參數(shù),才有可能利用這些參數(shù)進(jìn)行高效的語音通信,以及建立用于識(shí)別的模板或知識(shí)庫。語音信 號(hào)的時(shí)域參數(shù)有短時(shí)能量、短時(shí)平均幅度、短時(shí)過零率、短時(shí)自相關(guān)函數(shù)等,這些是語音信號(hào)中一組最基本的短時(shí)參數(shù),在各種語音信號(hào)數(shù)字處理技術(shù)中都有重要應(yīng)用。取樣之后要對(duì)信號(hào)進(jìn)行量化,而量化過程不可避免地會(huì)產(chǎn)生量化誤差,即量化后的信號(hào) 值與原信號(hào)之間的差值。 ( 1) 短時(shí)頻譜和短時(shí)功率譜 設(shè)信號(hào) )(mxn 經(jīng)過傅里葉變換后在頻域記為 )( jwn eX ,則 )( jwn eX 與 )(mxn 的關(guān)系見公式 26。 將線性預(yù)測(cè)應(yīng)用與語音信號(hào)處理,不僅是因?yàn)樗念A(yù)測(cè)功能,而且更重要的是因?yàn)樗芴峁┮粋€(gè)非常好的聲道模型及模型參數(shù)估計(jì)方法。通常不同的系統(tǒng)需要不同的算法以滿足在精度、復(fù)雜度、魯棒性、敏感性和響應(yīng)時(shí)間等方面的需求。 ( 2)特征提?。涸跁r(shí)域或者頻域提取能反映語音本質(zhì)特征的聲學(xué)參數(shù),如短時(shí)能量,短時(shí)過零率等。 ( 4)端點(diǎn)檢測(cè):確定門限后就可以進(jìn)行端點(diǎn)檢測(cè),根據(jù)門限值來區(qū)分有語音段和噪聲段,得出檢測(cè)結(jié)果。 如圖 就是在比較純凈的內(nèi)容為“端點(diǎn)檢測(cè)” 的原始語音信號(hào)用傳統(tǒng)的短時(shí)能量和過零率的語音端點(diǎn)檢測(cè),圖中可以很直觀的觀察到語音的短時(shí)能量的大小和其過零率的高低,如圖 所示: 圖 語音信號(hào)原始波形圖和其短時(shí)能量和過零率波形圖 短時(shí)能量函數(shù)可用來區(qū)分清音段和濁音段, nE 值大的對(duì)應(yīng)于濁音段,而 nE 值小的對(duì)應(yīng)于清音段。 短時(shí)平均能量 語音和噪聲的主要區(qū)別在它們的能量上,所以能量是經(jīng)常使用的音頻特征參數(shù),是對(duì)語音信號(hào)最直觀的表示。短時(shí)能量是隨機(jī)參數(shù),在無聲段,清音段和濁音段,它們分別具有不同的概率密度函數(shù),圖 給出了短時(shí)能量在清音、無聲和濁音三種情況下的條件概率密度函數(shù)。上式表明,經(jīng)過窗口加權(quán)的短時(shí)能量相當(dāng)于將“語音平方”信號(hào)通過一個(gè)線性濾波器的輸出,這個(gè)濾波器的取樣響應(yīng)為 )(nh 。 語音信號(hào)的短時(shí)平均幅度 [11]定義為 : ????? ??? mn mnmxM )()( ? ( 33) nE 和 nM 都反映語音信號(hào)的強(qiáng)度,但是其特性有所不同。 語音信號(hào)的短時(shí)能量可用以下幾種算法得到: 1 ()NnniE x i??? ( 34) 21 ()NniiE x i??? ( 35) 21 log ( )NniiE x i??? ( 36) 它們分別為絕對(duì)值的累加、平方累加和平方的對(duì)數(shù)的累加 [12] [13],本文采用的是絕對(duì)值的累加進(jìn)行計(jì)算的, 本文在 MATLAB 軟件 中實(shí)現(xiàn)求語音短時(shí) 能量 的關(guān)鍵代碼為 %計(jì)算短時(shí)能量 amp = sum(abs(enframe(filter([1 ], 1, x), FrameLen, FrameInc)), 2)。 對(duì)于高信噪比的語音信號(hào),無語音信號(hào)的噪聲能量很小,而有語音信號(hào)的能量 nE 顯著增大到某一數(shù)值,由此可以區(qū)分語音信號(hào)的起始點(diǎn)和結(jié)束點(diǎn)。而對(duì)于離散信號(hào),如果相鄰的取樣值改變符號(hào)則稱為過零。 第三,區(qū)分清音和濁音,對(duì)語音信號(hào)進(jìn)行分析,發(fā)現(xiàn)發(fā)濁音時(shí),盡管聲道有若干個(gè)共振峰,但由于聲門波引起譜的高頻跌落,所以其語音能量約集中在 3kHz 以下。 本文在 MATLAB 軟件 中實(shí)現(xiàn)求語音短時(shí)過零率的