【正文】
將線性預(yù)測應(yīng)用與語音信號處理,不僅是因?yàn)樗念A(yù)測功能,而且更重要的是因?yàn)樗芴峁┮粋€(gè)非常好的聲道模型及模型參數(shù)估計(jì)方法。 ( 1) 短時(shí)頻譜和短時(shí)功率譜 設(shè)信號 )(mxn 經(jīng)過傅里葉變換后在頻域記為 )( jwn eX ,則 )( jwn eX 與 )(mxn 的關(guān)系見公式 26。取樣之后要對信號進(jìn)行量化,而量化過程不可避免地會(huì)產(chǎn)生量化誤差,即量化后的信號 值與原信號之間的差值。語音信 號的時(shí)域參數(shù)有短時(shí)能量、短時(shí)平均幅度、短時(shí)過零率、短時(shí)自相關(guān)函數(shù)等,這些是語音信號中一組最基本的短時(shí)參數(shù),在各種語音信號數(shù)字處理技術(shù)中都有重要應(yīng)用。只有將語音信號分析成表示其本質(zhì)特性的參數(shù),才有可能利用這些參數(shù)進(jìn)行高效的語音通信,以及建立用于識別的模板或知識庫。 表 21 1s長的各種窗的主瓣寬度和旁瓣高度 矩形 漢明 漢寧 主瓣寬度 旁瓣寬度 13dB 43dB 32dB 從表中可知:矩形窗的主瓣寬度最小,但其旁瓣高度最高;漢明窗的主瓣最寬,而旁瓣高度最低。前一幀和后一幀的交疊部分稱為幀移,幀移與幀長的比值一般取 為0~ 之間。將語音信號劃分為許多短時(shí)的語音段,每個(gè)短時(shí)的語音段稱為一個(gè)分析幀。在端點(diǎn)檢測時(shí)如果采用較大的窗長 , 則幀長長,幀數(shù)少 , 這樣計(jì)算量會(huì)小些 , 而且進(jìn)行端點(diǎn)檢測時(shí)速度也會(huì)快些,但是這樣端點(diǎn)檢測 的誤差容易增加。目的是提升高頻部分,使信號變得平坦,保持在低頻到高頻的整個(gè)頻帶中,能用同樣的信噪比求頻譜,而且預(yù)加重零點(diǎn)與輻射零點(diǎn)將抵消聲門波的影響,使語音信號中只包含聲道部分,以便于頻譜分析或聲道參數(shù)分析。語音信號的預(yù)處理應(yīng)盡可能地保證處理后得到的信號更均勻、平滑,且能提高語音的質(zhì)量。研究表明,在5ms40ms 的范圍內(nèi),語音信號的頻譜特性和一些物理特征參數(shù)基本保持不變。語音具有聲學(xué)特征的物理性質(zhì),聲音質(zhì)量與它的頻率范圍有關(guān),語音信號的頻率一般是在 200Hz~3500Hz 范圍內(nèi),隨著帶寬的增加,信號的自然度將逐步得到改善。 現(xiàn)有的算法存在的主要問題有兩點(diǎn) : 6 一、在具有較強(qiáng)噪聲的環(huán)境下,語音端點(diǎn)檢測往往存在著大量的誤判,不利于后續(xù)的處理過程 ; 二、在高噪聲的環(huán)境下不能有效的檢測出語音信號段,造成了有效信息的丟失。因此,如何在噪聲環(huán)境下設(shè)計(jì)一種魯棒的端點(diǎn)檢測算法是一個(gè)非常棘手的問題。 ( 4) 應(yīng)該盡可能避免在檢測中丟失鼻韻和弱摩擦音等與噪聲特性相似、短時(shí)參數(shù)較少的語音。但是當(dāng)環(huán)境背景噪聲存在的情況下,傳統(tǒng)的檢測算法都會(huì)因?yàn)槭艿轿廴径斐蓢?yán)重的誤判和漏判。那時(shí)的算法名稱叫VAD(Voice Aotivity Detection),指的是將語音段和無語音段分開的處理過程。 語音端點(diǎn)檢測研究現(xiàn)狀及存在的問題 語音端點(diǎn)檢測和語音增強(qiáng)不同,它的任務(wù)是判斷待處理信號是語音還是非語音。 另外在通信系統(tǒng)中,典型的會(huì)話信道大約有 40%的時(shí)間真正用于傳輸語音,其余60%的時(shí)間傳輸?shù)亩际庆o默和背景噪聲。結(jié)果表明在端點(diǎn)檢測準(zhǔn)確時(shí)識別率為 93%的系統(tǒng),當(dāng)端點(diǎn)檢測的誤差在士 60ms(4 幀 )時(shí),識別率降低了 3%; 在士 90ms(6 幀 )時(shí),降低了 10%; 而當(dāng)誤差在進(jìn)一步加大時(shí),識別率急劇下降。 語音端點(diǎn)檢測的準(zhǔn)確性對于語音識別系統(tǒng)的性能有著較大的影響。例如,辦公室環(huán)境下,電腦風(fēng)扇轉(zhuǎn)動(dòng)的聲音,鍵盤敲打的聲音等都是 噪聲,而語音信號處理 4 系統(tǒng)的處理對象是有效語音信號,即排除了純噪聲段的語音信號段。語音信號處理與信息科學(xué)中最活躍的前沿科學(xué)密切聯(lián)系,并且共同發(fā)展。用現(xiàn)代手段研究語音處理技術(shù),使人們能更加有效地產(chǎn)生、傳輸、存儲(chǔ)、獲取和應(yīng)用語音信息,這對于促進(jìn)社會(huì)的發(fā)展十分重要。 隨著現(xiàn)代科學(xué)的蓬勃發(fā)展,人類社會(huì)越來越顯示出信息社會(huì)的特點(diǎn),猶如衣、食、住、行對于人類是必要的一樣,通信和信息交換也成為了人類社會(huì)存在的必要條件,不但在人與人之間,而且在人與機(jī)器之間每時(shí)每刻都需要進(jìn)行大量的信息交換。 盡管語音端點(diǎn)檢測技術(shù)在安靜的環(huán)境中已經(jīng)達(dá)到了令人鼓舞的準(zhǔn)確率 , 但是在實(shí)際應(yīng)用 時(shí)由于聲的引入和環(huán)境的改變通常會(huì)使系統(tǒng)性能顯著下降。 有效的端點(diǎn)檢測不僅可以減少數(shù)據(jù)的存和處理時(shí)間,而且能排除無聲段的噪聲干擾。在語音識別系統(tǒng)中,正確、有效的進(jìn)行端點(diǎn)檢測不僅可以減少計(jì)算量和縮短處理時(shí)間,而且能排除無聲段的噪聲干 擾、提高語音識別的正確率。語音信號的好壞、語音識別率的高低,都取決于語音信號處理的好壞。The rate of shorttime zeropassing 語音,即語言的聲音,是語言符號系統(tǒng)的載體。 關(guān)鍵詞: 語音信號處理;語音端點(diǎn)檢測;雙門限;短時(shí)能量;短時(shí)過零率 Voice signal endpoint detection based on MATLAB Abstract: Endpoint detection is a voice signal from the accurate speech signal to the identify start and the end points, the purpose is to enable to separated the effective voice signals and unuseful noise. So, in the speech recognition system, speech enhancement, speech coding, echo cancellation and other systems are widely used. In Current the endpoint detection can be roughly divided into two categories, one is based on the threshold method, another method is based on the method of pattern recognition , the main in this paper is based on the method of threshold method. The Endpoint detection is take a very important position in the speech recognition, it directly affects the performance of the system. In this article first domain analysis in simple speech signal time, than dual threshold algorithm, cepstrum algorithm, spectral entropy algorithm for endpoint detection, and these types of endpoint detection algorithms, and experimental analysis points and analysis the advantages and disadvantages of this method. Key word: Signal processing。 1 基于 MATLAB 的語音信號的端點(diǎn)檢測 摘要: 語音端點(diǎn)檢測是指從一段語音信號中準(zhǔn)確的找出語音信號的起始點(diǎn)和結(jié)束點(diǎn),它的目的是為了使有效的語音信號和無用的噪聲信號得以分離,因此在語音識別、語音增強(qiáng)、語音編碼、回聲抵消等系統(tǒng)中得到廣泛應(yīng)用。本文首先對語音信號進(jìn)行簡單的時(shí)域和頻域 分析 及預(yù)處理 ,其次利用 基于短時(shí)能量和短時(shí)過零率的 雙門限算法進(jìn)行語音端點(diǎn)檢測,并對這幾種用這種算法進(jìn)行端點(diǎn)檢測,進(jìn)行實(shí)驗(yàn)分析,分析此方法的優(yōu)缺點(diǎn)。 Shorttime energy 。語音信號處理包括語音通信、語 音增強(qiáng)、語音合成、語音識別和說話人識別等方面。 所謂語音端點(diǎn)檢測,就是從一段給定的語音信號中找出語音的起始點(diǎn)和結(jié)束點(diǎn)。因此,端點(diǎn)檢測的效率、質(zhì)量在語音處理系統(tǒng)中顯得至關(guān)重要,廣泛開展端點(diǎn)檢測實(shí)現(xiàn)手段方面的研究,有一定的現(xiàn)實(shí)意義 [2]。本文借助 MATLAB[3]采用短時(shí)能量和短時(shí)過零率結(jié)合的雙門限法 語來進(jìn)行語音端點(diǎn)檢測, 此 算法在純語音和高信噪比的情況下都檢測得比較好,但在低信噪比下檢測結(jié)果就不盡人意。 研究背景及意義 3 語音 [4]是語言的聲學(xué)表現(xiàn)形式 , 語言是人類特有的功能,聲音是人類常用的 信息交 語言學(xué)、聲學(xué)、生理學(xué)、心 理學(xué)和數(shù)學(xué)等諸多領(lǐng)域的內(nèi)容。在電子計(jì)算機(jī)和人工智能機(jī)器的廣泛應(yīng)用中,人們發(fā)現(xiàn),人和機(jī)器之間最好的通訊方式是直接進(jìn)行語言通訊,實(shí)現(xiàn)人機(jī)自由對話,賦予機(jī) 器以聽覺,辨別話音的內(nèi)容或者辨別說話人的身份,使機(jī)器能夠按照人的意志進(jìn)行各種操作,把人類從繁重或危險(xiǎn)的勞動(dòng)中解脫出來。多媒體技術(shù)的發(fā)展,使語音技術(shù)逐漸在越來越多的場合中推廣使用,語音信號處理技術(shù)發(fā)展迅速,其研究成果具有重要的學(xué)術(shù)及應(yīng)用價(jià)值,涉及一系列前沿課題。 經(jīng)過幾十年的努力,語音信號處理在語音識別、語音增強(qiáng)、語音編碼、說話人識