【正文】
a bias in the noise estimate and the possible overestimate of the noise level because of inappropriate choice of the smoothing constant. More accurate noise estimation algorithm can be developed by deriving a bias factor to pensate for the lower noise values and by incorporating a smoothing constant that is not fixed but varies with time and frequency. The noise estimation algorithm using MS is summarized as below [12]. For each frame λ do following steps1. Compute the shortterm periodogram |Y(λ, k)|178。 is the periodogram of Noise signal. Because of this assumption, we can estimate the noise power spectrum by tracking the minimum of the periodogram |Y(λ, k) |178。 + |D(λ, k) |178。 cockpit munication184。 speech coding184。從開始對論文課題的茫然到論文的完成,賈老師都給予了無私的指導(dǎo)最終完成整個論文。(3)噪聲估計算法的研究是為了應(yīng)用于語音增強,因此,對語音增強的研究也需要進一步關(guān)注,同時,幾乎所有的語音增強技術(shù)都是采用的帶噪語音的相位信息,而低信噪比情況下,相位信息對語音感知有重要作用,因此有必要在以后的工作中研究噪聲中估計相位的算法。通過實驗仿真,結(jié)果表明此方法能夠獲得更加準(zhǔn)確的噪聲估計,在噪聲突變時,與其他方法相比大大縮短了時間延遲。本文從語音活動檢測和不需要進行語音檢測的連續(xù)自適應(yīng)噪聲估計算法入手,VAD方法雖然有易于實現(xiàn),但是對非平穩(wěn)噪聲的跟蹤力度不夠而直接導(dǎo)致增強算法無法及時更新噪聲特性,同時在經(jīng)典算法的基礎(chǔ)上,研究了一種快速有效的噪聲估計方法。5 總結(jié)與展望 論文的主要工作語音增強是語音信號處理領(lǐng)域中一個重要的基本問題。(圖中橫坐標(biāo)表示時間,縱坐標(biāo)表示功率譜,實線表示真實的噪聲譜,虛線表示估計的噪聲譜)其仿真結(jié)果如下圖所示:圖45 真實噪聲譜和IMCRA算法估計的噪聲譜(5dB高斯白噪聲)圖46 真實噪聲譜和IMCRA算法估計的噪聲譜 (信噪比從10dB突變?yōu)?dB)從圖中可以看出本文研究的噪聲估計算法具有較好的噪聲跟蹤能力,在語音存在的條件下能保持對噪聲的更新。設(shè)和為固定的平滑參數(shù),最小值跟蹤過程為:if else (441)定義和為: (442)其中 1.66為噪聲補償因子。通過對帶噪語音信號功率譜進行一階遞歸平滑得到噪聲功譜[8]: (436)其中,既(七,f)為受語音存在概率p(k,z)控制的自適應(yīng)平滑因子。 更新噪聲譜的估計獲得語音存在的概率后,就可以更新噪聲譜了。 估計語音存在的概率用帶噪語音功率譜和其局部最小值的比率來計算語音存在概率,如下式表示: (432)計算出的概率和經(jīng)驗頻率值δ 比較,如果大于δ 判斷為語音存在頻帶,否則判斷為語音盲點。那么就可以在這兩種假設(shè)模型下更新噪聲譜,更新的方法是:如果該子帶中存在語音,噪聲譜保持不變;反之則根據(jù)帶噪語音的功率譜進行更新,如下式: (426)其中,(1)式代表語音存在,(2)式代表語音缺失, 為平滑參數(shù)。在一給定幀的某個子帶中語音是否存在的概率可以由帶噪語音的局部能量值與其待定時間窗內(nèi)的最小值的比值決定,把該比值與某一門限做比較,小的比值意味著該子帶中不存在語音,反之,意味著該子帶內(nèi)存在語音。 圖44 真實的噪聲譜和估計的噪聲譜圖44中,虛線表示真實噪聲功率,實線表示估計噪聲功率,頻率分量k=8。然后根據(jù)式(422)來更新語音存在概率。語音是否存在用下式判斷: if then 語音存在 (420) else 語音間隙 end其中,用下式來確定: (421)其中,LF和MF分別對應(yīng)于1k和3k的頻率點,Fs是采樣頻率。圖(43)是帶噪語音的功率譜和其局部最小值。先用一個遞歸的平滑過程來計算帶噪語音的語音的功率譜: (418)其中,是平滑功率譜,是幀的標(biāo)號,k是頻點的標(biāo)號,是帶噪語音的功率譜, 。在本文中,我們介紹一種改進的算法:基于統(tǒng)計信息的非平穩(wěn)噪聲自適應(yīng)算法 (1)不需要明確的語音活性檢測(VAD)來更新噪聲參數(shù)的估計。同樣,如果噪聲功率譜估計太高,那么語音信號質(zhì)量將會在很大程度上受到損害。而且該算法可能會偶爾削弱低能量音素,時間太長,但如果減小窗口的長度,跟蹤到的頻譜最小值不夠準(zhǔn)確,這樣會導(dǎo)致語音信號的失真,特別是語音的持續(xù)時間超過窗口長度時。 實驗仿真實驗中采用了兩種帶噪語音文件,一種是信噪比為5dB的平穩(wěn)帶噪語音,噪聲為高斯白噪聲;,且實驗中采用漢明窗,幀長20ms,幀間重疊50%,同時取頻率分量取5。所以只要計算在=1時的均值和方差就足夠了。式子(314)可重新寫成: (46) 最小功率譜統(tǒng)計跟蹤最小功率譜統(tǒng)計跟蹤的方法將跟蹤短時譜的最小功率譜密度,這個最小功率譜是由一個連續(xù)時間段內(nèi)的最小功率譜密度求出。因此,對原有的噪聲估計還需要一個隨時間變化的平滑系數(shù)α 、一個偏差補償系數(shù)與加速跟蹤方法。對幀信號進行FFT 計算,得到了頻域的信號: (43) 其中為幀號即時間的標(biāo)號,k為頻率點的標(biāo)號, Z, k﹛0,1,…L1﹜,h(u)是一個窗序列,并假設(shè)先用一個平滑過程來粗估計噪聲功率譜密度P(λ, k): (44)其中α 是平滑參數(shù),噪聲功率的進一步估計 通過取P(λ, k)在一個滑動窗內(nèi)的最小值來決定。仿真結(jié)果表明:最小值跟蹤法對平穩(wěn)噪聲的估計是比較準(zhǔn)確的,但是非平穩(wěn)噪聲就表現(xiàn)的不好了,而基于統(tǒng)計信息的非平穩(wěn)噪聲自適應(yīng)算法在非平穩(wěn)噪聲環(huán)境中也表現(xiàn)的很好,能夠比較準(zhǔn)確的跟蹤上噪聲的突變。圖31 語音的原始波形圖圖32 語音的能量曲線圖圖33 語音的短時過零率曲線圖由上圖可以看出基于能量和短時過零率的端點檢測算法在無噪聲的環(huán)境下比較準(zhǔn)確的檢測到了語音的開始和結(jié)束點。語音結(jié)束點S2 的檢測方法與檢測起點相同,從后向前搜索,找出第一個平均能量幅度高于EL、且其前向幀的平均能量或幅度在超出EU 前沒有下降到EL 以下的幀號,記為N2,隨后根據(jù)過零率向N2+25 幀搜索,若有3 幀以上的ZZT,則將結(jié)束點N2 定為滿足ZZT的最后的幀號即Ne,否則即以N2 作為結(jié)束點。但是,S1 只是根據(jù)能量信息找到的起點,還未必是語音的精確起點。然后令: (36) (37)在本次設(shè)計中用前10 幀的平均值來代替最小值EMIN 最后按下式計算出EL 和EU: (38) (39)接下來就可以用過零率閾值Z 及能量閾值EL 和EU 來進行起止點的判別。該方法的基本原理[25]如下所述:由于采集聲音信號的最初的短時段為無語音段,僅有均勻分布的背景噪聲信號。所以,有了經(jīng)典的端點檢測方法——Lawrennce Rabiner[24]提出的以過零率Z 和能量E 為特征進行端點檢測。如下式:Z= + (34)這樣過零率就有一定的抗干擾能力了。對于采樣率為s F 、頻率為的正弦波數(shù)字信號,平均每個樣本的過零率為s 2F / F 0 。信號x(t)短時能量定義為:E= (31) 語音信號的短時平均幅度定義為:M= (32)短時能量有兩種定義:短時時域能量和短時譜幅能量,一般用的是短時頻域能量表示,因此,短時能量用傅立葉變換后的平方表示,平均幅度為傅立葉變換后譜絕對值的和。 基于語音活動性檢測的噪聲估計算法 短時能量語音信號和噪聲信號的區(qū)別可以體現(xiàn)在他們的能量上,對于一列疊加有噪聲干擾的語音信號而言,其語音段的能量是噪聲段能量疊加語音聲波能量之和。因此,為了實現(xiàn)精確的噪聲估計,就要對噪聲譜進行實時的估計。盡管該方法在噪聲為平穩(wěn)的情況下是可行的,但是在實際的噪聲環(huán)境中噪聲譜的特性變化很大,就很難達(dá)到好的降噪效果。該算法采用遞歸平均進行噪聲估計,其遞歸平均的平滑因子受語音存在概率控制,而語音存在概率的計算采用了兩次平滑和最小統(tǒng)計量跟蹤。在一給定幀的某個子帶中語音是否存在的概率可以由帶噪語音的局部能量值與其待定時間窗內(nèi)的最小值的比值決定,把該比值與某一門限做比較,小的比值意味著該子帶中不存在語音,反之,意味著該子帶內(nèi)存在語音。這些問題可以通過優(yōu)化的平滑參數(shù)和偏差補償?shù)靡愿倪M,雖然提高了精確度,但這大大地提高了算法的復(fù)雜度。自適應(yīng)連續(xù)的噪聲估計算法,省去了對語音端點的檢測,對非平穩(wěn)噪聲也有較好的適應(yīng)性,即使在有語音存在的情況下,也能夠?qū)崿F(xiàn)噪聲的連續(xù)估計和不斷更新。(2) Cohen和Berdugo提出的基于最小統(tǒng)計量控制遞歸平均算法, 該方法用一個與時頻相關(guān)的平滑因子對帶噪語音的過去值進行平均,以得到噪聲的估計值,然后在每一幀內(nèi)連續(xù)的更新噪聲。在以后的噪聲估計算法的研究中要進一步完善噪聲功率譜的估計算法,進一步將噪聲估計方法和其他方法相結(jié)合,爭取得到更加精確的噪聲估計。第四章 最小統(tǒng)計遞歸平均的噪聲估計算法及MATLAB仿真。第二章 幾種經(jīng)典的噪聲估計的算法。其他類似的方法還有低能量包絡(luò)跟蹤和基于分位數(shù)的估計方法,后者噪聲的估計是基于帶噪語音未平滑功率譜的分位數(shù),而不是提取平滑功率譜的最小值,但是此方法計算復(fù)雜度很高,且需要很大的內(nèi)存來存儲過去的功率譜值。通過對基于最小統(tǒng)計量的噪聲估計方法和改進的最小統(tǒng)計量控制遞歸平均噪聲估計算法研究發(fā)現(xiàn)這些噪聲估計方法可以在語音存在段進行噪聲估計,能夠有效地跟蹤非平穩(wěn)噪聲。因此,噪聲估計算法有待更進一步的改進。Cohen提出的噪聲估計算法不直接依賴于最小統(tǒng)計量,而依賴于最小值的跟蹤算法,具有較好的魯棒性。與此類似的算法還有基于分位數(shù)統(tǒng)計量的噪聲估計算法,先對噪聲估計窗內(nèi)的信號進行排序,然后按一定的分?jǐn)?shù)比例取信號作為噪聲估計,算法復(fù)雜度比較高。此算法的基本思路是先用一個最優(yōu)平滑濾波對帶噪語音的功率譜濾波,得到一個噪聲的粗略估計。1994年Martin提出了一種基于最小值統(tǒng)計的方法來估計噪聲,它是基于帶噪語音信號的功率水平滯后于噪聲的功率水平,因此可以通過跟蹤帶噪語音信號功率譜的最小值來獲得噪聲功率譜的估計值。而噪聲估計是語音增強中非常重要的一個部分,在這方面的研究,國外比較多一些,以下介紹幾種經(jīng)典的噪聲估計算法。因此,對噪聲估計方法的研究是非常必要的,在語音算法的前期必需要對噪聲進行估計。單通道語音系統(tǒng)在實際應(yīng)用中較為常見,如電話,手機等。語音增強的主要目標(biāo)是從帶噪語音信號中提取盡可能純凈的原始語音,通過語音增強,抑制背景噪聲,提高語音通信質(zhì)量,而噪聲估計又是語音增強的一個非常重要的部分,噪聲估計的準(zhǔn)確性直接影響到語音增強的效果,因此研究噪聲估計算法有很好的實用價值。由于環(huán)境噪聲的污染會使許多語音處理系統(tǒng)的性能急劇惡化,嚴(yán)重時使語音處理系統(tǒng)不能正常工作,因此在上述情況下,背景噪聲的存在不僅嚴(yán)重破壞了語音信號原有的模型參數(shù)和聲學(xué)特性,導(dǎo)致許多語音處理系統(tǒng)服務(wù)質(zhì)量的降低,而且會影響系統(tǒng)輸出語音的可懂程度,使聽眾產(chǎn)生聽覺疲勞。而人們在通信過程中,語音常常受到環(huán)境噪聲的干擾而使通話質(zhì)量下降,在實際應(yīng)用中噪聲的存在也會產(chǎn)生很多問題,語音處理設(shè)備對人類語音進行獲取或處理的過程不可避免地要受到來自周圍環(huán)境的各種噪聲或其它講話者的干擾,這些干擾噪聲最終將使語音處理設(shè)備的接收到的語音不再是純凈的原始語音,而是被噪聲污染過的帶噪語音。然而,語音增強技術(shù)作為一種預(yù)處理技術(shù),是消除這些噪聲干擾的一個最重要的手段,它通過對帶噪語音進行處理來改善語音質(zhì)量,使人們易于接受或提高語音處理系統(tǒng)的性能。語音增強算法可從信號輸入的通道數(shù)上分為單通道的語音增強算法和多通道的語音增強算法。因此,噪聲估計的準(zhǔn)確性會直接影響最終效果:噪聲估計過高,則微弱的語音將被去掉,增強語音會產(chǎn)生的失真;而估計過低,則會有較多的背景殘留噪聲。 國內(nèi)外研究的現(xiàn)狀有關(guān)抗噪聲技術(shù)的研究,在國內(nèi)外作為非常重要的研究課題,已經(jīng)作了大量的研究工作,取得了豐富的研究成果。因此,為了實現(xiàn)精確的噪聲估計,就要對噪聲譜進行實時的估計。同時,為了能更快的跟蹤并更新局部最小值和頻譜最小值,把滑動窗口分為子窗口,在每個子窗口內(nèi)更新噪聲的估計譜,提高了精確度[4]