【正文】
1 基于 MATLAB 的語音信號的端點(diǎn)檢測 摘要: 語音端點(diǎn)檢測是指從一段語音信號中準(zhǔn)確的找出語音信號的起始點(diǎn)和結(jié)束點(diǎn),它的目的是為了使有效的語音信號和無用的噪聲信號得以分離,因此在語音識別、語音增強(qiáng)、語音編碼、回聲抵消等系統(tǒng)中得到廣泛應(yīng)用。 目前端點(diǎn)檢測方法大體上可以分成兩類,一類是基于閾值的方法, 另一類方法是基于模式識別的方法, 本文主要對基于閥值的方法進(jìn)行研究。端點(diǎn)檢測在語音識別中占有十分重要的地位 ,直接影響著系統(tǒng)的性能。本文首先對語音信號進(jìn)行簡單的時(shí)域和頻域 分析 及預(yù)處理 ,其次利用 基于短時(shí)能量和短時(shí)過零率的 雙門限算法進(jìn)行語音端點(diǎn)檢測,并對這幾種用這種算法進(jìn)行端點(diǎn)檢測,進(jìn)行實(shí)驗(yàn)分析,分析此方法的優(yōu)缺點(diǎn)。 關(guān)鍵詞: 語音信號處理;語音端點(diǎn)檢測;雙門限;短時(shí)能量;短時(shí)過零率 Voice signal endpoint detection based on MATLAB Abstract: Endpoint detection is a voice signal from the accurate speech signal to the identify start and the end points, the purpose is to enable to separated the effective voice signals and unuseful noise. So, in the speech recognition system, speech enhancement, speech coding, echo cancellation and other systems are widely used. In Current the endpoint detection can be roughly divided into two categories, one is based on the threshold method, another method is based on the method of pattern recognition , the main in this paper is based on the method of threshold method. The Endpoint detection is take a very important position in the speech recognition, it directly affects the performance of the system. In this article first domain analysis in simple speech signal time, than dual threshold algorithm, cepstrum algorithm, spectral entropy algorithm for endpoint detection, and these types of endpoint detection algorithms, and experimental analysis points and analysis the advantages and disadvantages of this method. Key word: Signal processing。 voice activity detection。 double threshold。 Shorttime energy 。The rate of shorttime zeropassing 語音,即語言的聲音,是語言符號系統(tǒng)的載體。它由人的發(fā)音器官發(fā)出,負(fù)載著一定的語言意義,語言依靠語音實(shí)現(xiàn)它的社會功能。語音是人們交流思想和進(jìn)行社會 2 活動的最基本手段 ,因此我們要對語音信號進(jìn)行處理分析,優(yōu)化人類通信交流。語音信號處理包括語音通信、語 音增強(qiáng)、語音合成、語音識別和說話人識別等方面。語音信號的好壞、語音識別率的高低,都取決于語音信號處理的好壞。因此,語音信號處理是一項(xiàng)非常有意義的研究課程,而語音端點(diǎn)檢測是語音語音信號處理中非常重要的一步。 語音端點(diǎn)檢測是語音分析、合成和識別中的一個(gè)重要環(huán)節(jié),目的是從包含語音的一段信號中找出語音的起始點(diǎn)及結(jié)束點(diǎn),從而只存儲和處理有效語音信號。 所謂語音端點(diǎn)檢測,就是從一段給定的語音信號中找出語音的起始點(diǎn)和結(jié)束點(diǎn)。在語音識別系統(tǒng)中,正確、有效的進(jìn)行端點(diǎn)檢測不僅可以減少計(jì)算量和縮短處理時(shí)間,而且能排除無聲段的噪聲干 擾、提高語音識別的正確率。研究表明 [1],即使是在安靜的環(huán)境下,語音識別系統(tǒng)一半以上的錯(cuò)誤可能主要來源于端點(diǎn)檢測。除此之外,在語音合成、編碼等系統(tǒng)中,高效的端點(diǎn)檢測也直接影響甚至決定著系統(tǒng)的主要性能。因此,端點(diǎn)檢測的效率、質(zhì)量在語音處理系統(tǒng)中顯得至關(guān)重要,廣泛開展端點(diǎn)檢測實(shí)現(xiàn)手段方面的研究,有一定的現(xiàn)實(shí)意義 [2]。 有效的端點(diǎn)檢測不僅可以減少數(shù)據(jù)的存和處理時(shí)間,而且能排除無聲段的噪聲干擾。端點(diǎn)檢測的困難在于無聲段或者語音段前后人為呼吸等產(chǎn)生的雜音、語音開始處的弱摩 擦音或弱爆破音以及終點(diǎn)處的鼻音,這些使得語音的端點(diǎn)比較模糊,需要綜合利用語音的各種信號特征,從而確保定位的精確性,避免包含噪音信號和丟失語音信號。近年來出現(xiàn)了很多種端點(diǎn)檢測的方法 如短時(shí)能量、短時(shí)過零率、傳統(tǒng)的雙 門限法、倒譜特征的檢測方法、譜熵的檢測方法法、分形法等。本文借助 MATLAB[3]采用短時(shí)能量和短時(shí)過零率結(jié)合的雙門限法 語來進(jìn)行語音端點(diǎn)檢測, 此 算法在純語音和高信噪比的情況下都檢測得比較好,但在低信噪比下檢測結(jié)果就不盡人意。 盡管語音端點(diǎn)檢測技術(shù)在安靜的環(huán)境中已經(jīng)達(dá)到了令人鼓舞的準(zhǔn)確率 , 但是在實(shí)際應(yīng)用 時(shí)由于聲的引入和環(huán)境的改變通常會使系統(tǒng)性能顯著下降。研究表明,即使在安靜的環(huán)境中,語音識別系統(tǒng)一半以上的識別錯(cuò)誤來自端點(diǎn)檢測器。因此,作為語音識別系統(tǒng)的第一步,端點(diǎn)檢測的關(guān)鍵性不容忽視,尤其是噪聲環(huán)境下語音的端點(diǎn)檢測,實(shí)驗(yàn)室的研究結(jié)果與復(fù)雜的實(shí)用環(huán)境下的語音端點(diǎn)檢測仍存在一定的差距, 它的準(zhǔn)確性很大程度上直接影響著后續(xù)的工作能否有效進(jìn)行 ,如何準(zhǔn)確地檢測出帶噪語音的端點(diǎn)至今仍是一個(gè)難題。 研究背景及意義 3 語音 [4]是語言的聲學(xué)表現(xiàn)形式 , 語言是人類特有的功能,聲音是人類常用的 信息交 語言學(xué)、聲學(xué)、生理學(xué)、心 理學(xué)和數(shù)學(xué)等諸多領(lǐng)域的內(nèi)容。 隨著現(xiàn)代科學(xué)的蓬勃發(fā)展,人類社會越來越顯示出信息社會的特點(diǎn),猶如衣、食、住、行對于人類是必要的一樣,通信和信息交換也成為了人類社會存在的必要條件,不但在人與人之間,而且在人與機(jī)器之間每時(shí)每刻都需要進(jìn)行大量的信息交換。讓計(jì)算機(jī)聽懂人類的語言,是人類自計(jì)算機(jī)誕生以來夢寐以求的想法。計(jì)算機(jī)越來越向便攜化方向發(fā)展,計(jì)算環(huán)境的日趨復(fù)雜化,人們越來越迫切要求擺脫鍵盤的束縛。在電子計(jì)算機(jī)和人工智能機(jī)器的廣泛應(yīng)用中,人們發(fā)現(xiàn),人和機(jī)器之間最好的通訊方式是直接進(jìn)行語言通訊,實(shí)現(xiàn)人機(jī)自由對話,賦予機(jī) 器以聽覺,辨別話音的內(nèi)容或者辨別說話人的身份,使機(jī)器能夠按照人的意志進(jìn)行各種操作,把人類從繁重或危險(xiǎn)的勞動中解脫出來。用現(xiàn)代手段研究語音處理技術(shù),使人們能更加有效地產(chǎn)生、傳輸、存儲、獲取和應(yīng)用語音信息,這對于促進(jìn)社會的發(fā)展十分重要。 語音技術(shù)的應(yīng)用己經(jīng)成為一個(gè)具有競爭性的高新技術(shù)產(chǎn)業(yè),它正在直接與辦公、交通、金融、公安、商業(yè)、旅游等行業(yè)的語音咨詢與管理,工業(yè)生產(chǎn)部門的語聲控制,電話、電信系統(tǒng)的自動撥號、輔助控制與查詢以及醫(yī)療衛(wèi)生和福利事業(yè)的生活支援系統(tǒng)等各種實(shí)際應(yīng)用領(lǐng)域相接軌,并且有望成為下一代操作系統(tǒng)和應(yīng) 用程序的用戶界面。語音處理內(nèi)容涉及到計(jì)算機(jī)科學(xué)、模式識別、信號處理、生理學(xué)、語音學(xué)、心理學(xué)等學(xué)科,還涉及到信號和信息處理系統(tǒng)、通信和電子系統(tǒng)等具體應(yīng)用領(lǐng)域。多媒體技術(shù)的發(fā)展,使語音技術(shù)逐漸在越來越多的場合中推廣使用,語音信號處理技術(shù)發(fā)展迅速,其研究成果具有重要的學(xué)術(shù)及應(yīng)用價(jià)值,涉及一系列前沿課題。語音信號處理與信息科學(xué)中最活躍的前沿科學(xué)密切聯(lián)系,并且共同發(fā)展。例如,神經(jīng)網(wǎng)絡(luò)理論、模糊集理論、小波理論是當(dāng)前熱門的研究領(lǐng)域,這些領(lǐng)域的研究常常把語音處理任務(wù)作為一個(gè)應(yīng)用實(shí)例,而語音處理研究者也從這些領(lǐng)域的研究進(jìn)展 中找到突破口,使語音處理技術(shù)研究取得進(jìn)展 [5]。從技術(shù)角度講,語音信號處理是信息高速公路、多媒體技術(shù)、辦公自動化、現(xiàn)代通信及智能系統(tǒng)等新興領(lǐng)域應(yīng)用的核心技術(shù)之一。 經(jīng)過幾十年的努力,語音信號處理在語音識別、語音增強(qiáng)、語音編碼、說話人識別、說話人情感識別、語音合成等方面取得了巨大的進(jìn)步,然而,一旦這些技術(shù)應(yīng)用在實(shí)際環(huán)境中,由于環(huán)境噪聲、信道、說話人自身因素等方面的影響,性能急劇下降,因?yàn)樵趯?shí)際環(huán)境中沒有完全純凈的語音信號,一般都會伴有噪聲或其它干擾。例如,辦公室環(huán)境下,電腦風(fēng)扇轉(zhuǎn)動的聲音,鍵盤敲打的聲音等都是 噪聲,而語音信號處理 4 系統(tǒng)的處理對象是有效語音信號,即排除了純噪聲段的語音信號段。語音端點(diǎn)檢測 [6]的任務(wù)就是判斷待處理信號是語音還是非語音,從輸入信號中找到語音部分的起止點(diǎn)。端點(diǎn)檢測是語