【正文】
只包含聲道部分,以便于頻譜分析或聲道參數(shù)分析。己經(jīng)數(shù)字化的語音信號將依次進入一個數(shù)據(jù)區(qū)。語音信號的預(yù)處理應(yīng)盡可能地保證處理后得到的信號更均勻、平滑,且能提高語音的質(zhì)量。因此,“短時分析技術(shù)”貫穿于語音分析的全過程。研究表明,在5ms40ms 的范圍內(nèi),語音信號的頻譜特性和一些物理特征參數(shù)基本保持不變。 語音信號的特性是隨時間變化的,所以 是一種典型的非穩(wěn)態(tài)信號。語音具有聲學(xué)特征的物理性質(zhì),聲音質(zhì)量與它的頻率范圍有關(guān),語音信號的頻率一般是在 200Hz~3500Hz 范圍內(nèi),隨著帶寬的增加,信號的自然度將逐步得到改善。 本文主要研究內(nèi)容 由于語音端點檢測是語音識別和語音增強等語音處理重要的一步,語音端點檢測的好壞直接影響到下一步工作的進行,所以本課主題要研究語音起點 和終點的檢測,以短時能量和短時過零率相結(jié)合的雙門限語音端點檢測算法進行語音端點檢測 。 現(xiàn)有的算法存在的主要問題有兩點 : 6 一、在具有較強噪聲的環(huán)境下,語音端點檢測往往存在著大量的誤判,不利于后續(xù)的處理過程 ; 二、在高噪聲的環(huán)境下不能有效的檢測出語音信號段,造成了有效信息的丟失。另外由于漢語詞語的特殊性,音節(jié)的末尾大都是濁音,只用短時能量就能較好地判斷一個詞語的末點。因此,如何在噪聲環(huán)境下設(shè)計一種魯棒的端點檢測算法是一個非常棘手的問題。 這幾點可以總結(jié)為 :可靠性,魯棒性,精確性,自適應(yīng)性,實時性和對噪聲特征無需先驗知識。 ( 4) 應(yīng)該盡可能避免在檢測中丟失鼻韻和弱摩擦音等與噪聲特性相似、短時參數(shù)較少的語音。 ( 2) 將短時沖擊噪聲和人 的順嘴等瞬間超過門限的信號納入無聲段而不是有聲段。但是當(dāng)環(huán)境背景噪聲存在的情況下,傳統(tǒng)的檢測算法都會因為受到污染而造成嚴(yán)重的誤判和漏判。開發(fā)出了許多不同的算法,有 基 LPC 倒譜距離的算法 ,自相關(guān)系數(shù),基于能量、基音檢測、過零率和頻能比等各種語音特征的算法,基于自適應(yīng)模型的算法, 基于倒譜分析 的算法等。那時的算法名稱叫VAD(Voice Aotivity Detection),指的是將語音段和無語音段分開的處理過程。而 語音增強的目的是在語音和干擾中增強語音部分,同時抑制干擾,對語音檢測的研究最早可以追溯到上個世紀(jì)的 50 年代。 語音端點檢測研究現(xiàn)狀及存在的問題 語音端點檢測和語音增強不同,它的任務(wù)是判斷待處理信號是語音還是非語音。如何開發(fā)其余 60%被浪費的信道資源就成為了提高系統(tǒng)容量的有效手段之一。 另外在通信系統(tǒng)中,典型的會話信道大約有 40%的時間真正用于傳輸語音,其余60%的時間傳輸?shù)亩际庆o默和背景噪聲。所以,對于語音識基于強背景噪聲下的語音端點檢測算法及實現(xiàn)別系統(tǒng)來說,有效的端點識別不僅能夠減輕系統(tǒng)的運算負(fù)載,使得處理時間減少,提高了系統(tǒng)的實時性,而且能夠去除靜音時背景噪聲的干擾,從而大大提高系統(tǒng)的識別性能。結(jié)果表明在端點檢測準(zhǔn)確時識別率為 93%的系統(tǒng),當(dāng)端點檢測的誤差在士 60ms(4 幀 )時,識別率降低了 3%; 在士 90ms(6 幀 )時,降低了 10%; 而當(dāng)誤差在進一步加大時,識別率急劇下降。首先對所有記錄的語音用手工找出準(zhǔn)確的端點, 得到它們的識別率 。 語音端點檢測的準(zhǔn)確性對于語音識別系統(tǒng)的性能有著較大的影響。端點檢測是語音識別、語音增強以及語音編碼等中的一個重要環(huán)節(jié)。例如,辦公室環(huán)境下,電腦風(fēng)扇轉(zhuǎn)動的聲音,鍵盤敲打的聲音等都是 噪聲,而語音信號處理 4 系統(tǒng)的處理對象是有效語音信號,即排除了純噪聲段的語音信號段。從技術(shù)角度講,語音信號處理是信息高速公路、多媒體技術(shù)、辦公自動化、現(xiàn)代通信及智能系統(tǒng)等新興領(lǐng)域應(yīng)用的核心技術(shù)之一。語音信號處理與信息科學(xué)中最活躍的前沿科學(xué)密切聯(lián)系,并且共同發(fā)展。語音處理內(nèi)容涉及到計算機科學(xué)、模式識別、信號處理、生理學(xué)、語音學(xué)、心理學(xué)等學(xué)科,還涉及到信號和信息處理系統(tǒng)、通信和電子系統(tǒng)等具體應(yīng)用領(lǐng)域。用現(xiàn)代手段研究語音處理技術(shù),使人們能更加有效地產(chǎn)生、傳輸、存儲、獲取和應(yīng)用語音信息,這對于促進社會的發(fā)展十分重要。計算機越來越向便攜化方向發(fā)展,計算環(huán)境的日趨復(fù)雜化,人們越來越迫切要求擺脫鍵盤的束縛。 隨著現(xiàn)代科學(xué)的蓬勃發(fā)展,人類社會越來越顯示出信息社會的特點,猶如衣、食、住、行對于人類是必要的一樣,通信和信息交換也成為了人類社會存在的必要條件,不但在人與人之間,而且在人與機器之間每時每刻都需要進行大量的信息交換。因此,作為語音識別系統(tǒng)的第一步,端點檢測的關(guān)鍵性不容忽視,尤其是噪聲環(huán)境下語音的端點檢測,實驗室的研究結(jié)果與復(fù)雜的實用環(huán)境下的語音端點檢測仍存在一定的差距, 它的準(zhǔn)確性很大程度上直接影響著后續(xù)的工作能否有效進行 ,如何準(zhǔn)確地檢測出帶噪語音的端點至今仍是一個難題。 盡管語音端點檢測技術(shù)在安靜的環(huán)境中已經(jīng)達到了令人鼓舞的準(zhǔn)確率 , 但是在實際應(yīng)用 時由于聲的引入和環(huán)境的改變通常會使系統(tǒng)性能顯著下降。近年來出現(xiàn)了很多種端點檢測的方法 如短時能量、短時過零率、傳統(tǒng)的雙 門限法、倒譜特征的檢測方法、譜熵的檢測方法法、分形法等。 有效的端點檢測不僅可以減少數(shù)據(jù)的存和處理時間,而且能排除無聲段的噪聲干擾。除此之外,在語音合成、編碼等系統(tǒng)中,高效的端點檢測也直接影響甚至決定著系統(tǒng)的主要性能。在語音識別系統(tǒng)中,正確、有效的進行端點檢測不僅可以減少計算量和縮短處理時間,而且能排除無聲段的噪聲干 擾、提高語音識別的正確率。 語音端點檢測是語音分析、合成和識別中的一個重要環(huán)節(jié),目的是從包含語音的一段信號中找出語音的起始點及結(jié)束點,從而只存儲和處理有效語音信號。語音信號的好壞、語音識別率的高低,都取決于語音信號處理的好壞。語音是人們交流思想和進行社會 2 活動的最基本手段 ,因此我們要對語音信號進行處理分析,優(yōu)化人類通信交流。The rate of shorttime zeropassing 語音,即語言的聲音,是語言符號系統(tǒng)的載體。 double threshold。 關(guān)鍵詞: 語音信號處理;語音端點檢測;雙門限;短時能量;短時過零率 Voice signal endpoint detection based on MATLAB Abstract: Endpoint detection is a voice signal from the accurate speech signal to the identify start and the end points, the purpose is to enable to separated the effective voice signals and unuseful noise. So, in the speech recognition system, speech enhancement, speech coding, echo cancellation and other systems are widely used. In Current the endpoint detection can be roughly divided into two categories, one is based on the threshold method, another method is based on the method of pattern recognition , the main in this paper is based on the method of threshold method. The Endpoint detection is take a very important position in the speech recognition, it directly affects the performance of the system. In this article first domain analysis in simple speech signal time, than dual threshold algorithm, cepstrum algorithm, spectral entropy algorithm for endpoint detection, and these types of endpoint detection algorithms, and experimental analysis points and analysis the advantages and disadvantages of this method. Key word: Signal processing。端點檢測在語音識別中占有十分重要的地位 ,直接影響著系統(tǒng)的性能。 1 基于 MATLAB 的語音信號的端點檢測 摘要: 語音端點檢測是指從一段語音信號中準(zhǔn)確的找出語音信號的起始點和結(jié)束點,它的目的是為了使有效的語音信號和無用的噪聲信號得以分離,因此在語音識別、語音增強、語音編碼、回聲抵消等系統(tǒng)中得到廣泛應(yīng)用。 目前端點檢測方法大體上可以分成兩類,一類是基于閾值的方法, 另一類方法是基于模式識別的方法, 本文主要對基于閥值的方法進行研究。本文首先對語音信號進行簡單的時域和頻域 分析 及預(yù)處理 ,其次利用 基于短時能量和短時過零率的 雙門限算法進行語音端點檢測,并對這幾種用這種算法進行端點檢測,進行實驗分析,分析此方法的優(yōu)缺點。 voice activity detection。 Shorttime energy 。它由人的發(fā)音器官發(fā)出,負(fù)載著一定的語言意義,語言依靠語音實現(xiàn)它的社會功能。語音信號處理包括語音通信、語 音增強、語音合成、語音識別和說話人識別等方面。因此,語音信號處理是一項非常有意義的研究課程,而語音端點檢測是語音語音信號處理中非常重要的一步。 所謂語音端點檢測,就是從一段給定的語音信號中找出語音的起始點和結(jié)束點。研究表明 [1],即使是在安靜的環(huán)境下,語音識別系統(tǒng)一半以上的錯誤可能主要來源于端點檢測。因此,端點檢測的效率、質(zhì)量在語音處理系統(tǒng)中顯得至關(guān)重要,廣泛開展端點檢測實現(xiàn)手段方面的研究,有一定的現(xiàn)實意義 [2]。端點檢測的困難在于無聲段或者語音段前后人為呼吸等產(chǎn)生的雜音、語音開始處的弱摩 擦音或弱爆破音以及終點處的鼻音,這些使得語音的端點比較模糊,需要綜合利用語音的各種信號特征,從而確保定位的精確性,避免包含噪音信號和丟失語音信號。本文借助 MATLAB[3]采用短時能量和短時過零率結(jié)合的雙門限法 語來進行語音端點檢測, 此 算法在純語音和高信噪比的情況下都檢測得比較好,但在低信噪比下檢測結(jié)果就不盡人意。研究表明,即使在安靜的環(huán)境中,語音識別系統(tǒng)一半以上的識別錯誤來自端點檢測器。 研究背景及意義 3 語音 [4]是語言的聲學(xué)表現(xiàn)形式 , 語言是人類特有的功能,聲音是人類常用的 信息交 語言學(xué)、聲學(xué)、生理學(xué)、心 理學(xué)和數(shù)學(xué)等諸多領(lǐng)域的內(nèi)容。讓計算機聽懂人類的語言,是人類自計算機誕生以來夢寐以求的想法。在電子計算機和人工智能機器的廣泛應(yīng)用中,人們發(fā)現(xiàn),人和機器之間最好的通訊方式是直接進行語言通訊,實現(xiàn)人機自由對話,賦予機 器以聽覺,辨別話音的內(nèi)容或者辨別說話人的身份,使機器能夠按照人的意志進行各種操作,把人類從繁重或危險的勞動中解脫出來。 語音技術(shù)的應(yīng)用己經(jīng)成為一個具有競爭性的高新技術(shù)產(chǎn)業(yè),它正在直接與辦公、交通、金融、公安、商業(yè)、旅游等行業(yè)的語音咨詢與管理,工業(yè)生產(chǎn)部門的語聲控制,電話、電信系統(tǒng)的自動撥號、輔助控制與查詢以及醫(yī)療衛(wèi)生和福利事業(yè)的生活支援系統(tǒng)等各種實際應(yīng)用領(lǐng)域相接軌,并且有望成為下一代操作系統(tǒng)和應(yīng) 用程序的用戶界面。多媒體技術(shù)的發(fā)展,使語音技術(shù)逐漸在越來越多的場合中推廣使用,語音信號處理技術(shù)發(fā)展迅速,其研究成果具有重要的學(xué)術(shù)及應(yīng)用價值,涉及一系列前沿課題。例如,神經(jīng)網(wǎng)絡(luò)理論、模糊集理論、小波理論是當(dāng)前熱門的研究領(lǐng)域,這些領(lǐng)域的研究常常把語音處理任務(wù)作為一個應(yīng)用實例,而語音處理研究者也從這些領(lǐng)域的研究進展 中找到突破口,使語音處理技術(shù)研究取得進展 [5]。 經(jīng)過幾十年的努力,語音信號處理在語音識別、語音增強、語音編碼、說話人識別、說話人情感識別、語音合成等方面取得了巨大的進步,然而,一旦這些技術(shù)應(yīng)用在實際環(huán)境中,由于環(huán)境噪聲、信道、說話人自身因素等方面的影響,性能急劇下降,因為在實際環(huán)境中沒有完全純凈的語音信號,一般都會伴有噪聲或其它干擾。語音端點檢測 [6]的任務(wù)就是判斷待處理信號是語音還是非語音,從輸入信號中找到語音部分的起止點。 有效的端點檢測技術(shù)不僅能減少系統(tǒng)的處理時間、提高系統(tǒng)的處理實時性,而且能排除無聲段的噪聲干擾,從而使后續(xù)工作的性能得以較大提高。在一個完整的語音識別系統(tǒng)中,許多相關(guān)因素影響著整個系統(tǒng)的識別精度和效率,由于在自然環(huán)境中, 純凈的語音信號總伴隨著各種不同類型的噪聲,而語音識別系統(tǒng)處理的對象是有效的語音信號,因此,由于噪聲的干擾,往往使得整個系統(tǒng)的識別率下降,有學(xué)者用一個多話者的數(shù)字識別系統(tǒng)做了如下一個實驗。然后逐幀 (幀長為 15ms)加大端點檢測的誤差,在每次加大誤差的同時得到它們的識別率。 研究表明,即使在安靜環(huán)境下語音識別系統(tǒng)中一半以上的識別錯誤都是因為語音端點檢測的不準(zhǔn)確所造成的。因此,從混有不同噪聲的信號中準(zhǔn)確提取純凈的語音信號就成了語音識別系統(tǒng)中的一個重要的環(huán)節(jié)。由于可 利用的頻譜資源隨著移動用戶的飛速發(fā)展而急劇下降。如果在發(fā)送端設(shè)立一個語音端點檢測器來區(qū)分語音和靜默以及背景噪聲,在接收端用舒適噪聲發(fā)生器來重構(gòu)背景噪聲,這樣就可以極大的提高信道的利用率,而且也能保證重構(gòu)語音的可懂度和自然度,因此準(zhǔn)確的語音端點檢測是非常重要的。語音端點檢測作為一種語音信號預(yù)處理技術(shù),在實際應(yīng)用中起著非常重要的作 用, 有效地進行端點檢測不僅可以減少