【正文】
。但這種算法容易將語音電平的增長當作噪聲電平的增長。具有能夠快速跟蹤噪聲譜的突變的能力。2004年Rangachari 和Loizou提出了一種快速估計方法,不僅使得帶噪語音子帶中語音出現(xiàn)概率計算更準確,而且噪聲譜的更新在連續(xù)時間內(nèi)不依賴固定時間的窗長,但是在語音或噪聲能量過高時噪聲的估計就會慢下來, 時,就會削弱一些語音能量。此外,還能適應不同質(zhì)量的圖像。而且,在巴克域進行噪聲估計更符合人耳聽覺特性,增強語音具有更好的質(zhì)量。噪聲估計算法研究的目的和意義及國內(nèi)外研究的現(xiàn)狀。通過基于語音活動性檢測的噪聲估計算法,對能量和最小過零率的語音端點進行檢測,仿真結果得出,我們需要魯棒性更強的算法,即使在有語音存在的情況下,也能夠?qū)崿F(xiàn)噪聲的連續(xù)估計和不斷更新。 第五章 總結全文,并分析論文存在的不足及今后的的發(fā)展方向。而且,為了能更快的跟蹤并更新局部最小值和頻譜最小值,把滑動窗口分為子窗口,在每個子窗口內(nèi)更新噪聲的估計譜,提高了精確度。它不需要語音的有聲/無聲檢測,噪聲譜在所有的幀中連續(xù)的更新,并不關心本幀是語音幀還是噪聲幀,對每一幀都重新計算其噪聲功率譜。這種方法是在噪聲估計窗內(nèi)搜索最小值作為噪聲估計量,而且此算法對窗長的選擇比較敏感,當窗長比較長時,對非平穩(wěn)噪聲的跟蹤速度慢,而且容易出現(xiàn)噪聲低估;當窗長比較短時,比較容易出現(xiàn)將語音的低能量成分當作噪聲。這種算法不直接依賴于最小統(tǒng)計量,具有較好的魯棒性,它是使用一個平滑參數(shù)對功率譜的過去值進行平均,該平滑參數(shù)是根據(jù)每個子帶中語音存在的概率進行調(diào)整的。為了進一步提高算法性能,本文研究了一種改進的最小統(tǒng)計量控制遞歸平均算法。3 基于語音活動性檢測的噪聲估計算法及MATLAB實現(xiàn)傳統(tǒng)的噪聲估計方法使用語音活動監(jiān)測(VAD)技術分離出無聲段,這時無聲段主要表現(xiàn)為噪聲特性,然后再通過某種統(tǒng)計方法,即可獲得背景噪聲特性的近似估計。而且在低信噪比下,VAD 的誤檢率會增大,在不能正確判斷出有聲/無聲段的情況下,估計出來的噪聲很難保證準確性。本章從語音活動檢測和連續(xù)更新噪聲兩方面入手,將幾種算法的基本原理及過程進行了詳細的描述,并分析了實驗結果。這就是僅僅基于短時能量的端點檢測方法。其中,當信號為單一正弦波時,過零率為信號頻率的兩倍。由上面定義出發(fā),計算過零率容易受低頻干擾,所以需要對上述定義做一點修改,設置一個門限T,將過零率的含義修改為跨過正負門限。而且在一些特殊情況下,在以某些音為開始或結尾時,如當弱摩擦音(如[f],[h]等音素)、弱爆破音(如[p],[t],[k]等音素)為開始或結尾;以鼻音(如[ng],[n],[m]等音素)為語音的結尾時,只用其中一個參數(shù)量來判別語音的起點和終點是有困難的,往往會漏掉某些音素,必須同時使用這兩個參數(shù)。通常是利用過零率來檢測清音,用短時能量來檢測濁音,兩者配合實現(xiàn)可靠的語音端點檢測。計算EL 和EU 時,先算出最初10 幀信號每幀的短時平均能量或平均幅度E,最大值記為EMAX,最小值記為EMIN。但若后續(xù)n幀的平均能量或幅度尚未超過EU 而能量又降到EL 之下,則該幀不能作為初始起點S1,然后繼續(xù)尋找下一個平均能量或幅度超過EU 的幀,若后續(xù)n 幀的平均能量或幅度超過EU,則將此幀計為S1,該幀就可以作為根據(jù)能量信號找到的語音的起點。當S1 確定后,從S1 幀之前的30 幀搜索,依次比較各幀的過零率,若有3 幀以上的過零率超過ZT,則將起始點S1 定為滿足ZZT 的最前幀的幀號,如果這些幀的過零率都小于門限ZT 則將S1 作為起點。語音和噪聲都是以8KHz 采樣,16bit 量化,wav 格式存儲,并通過Matlab 按一定線形比例混合成不同信噪比的帶噪語音。4 最小統(tǒng)計遞歸平均的噪聲估計算法及MATLAB仿真本章先研究了經(jīng)典的噪聲估計算法即最小值跟蹤法,然后研究了基于統(tǒng)計信息的非平穩(wěn)噪聲自適應算法,最后對這兩種噪聲估計算法做了實驗仿真。為了將信號轉(zhuǎn)化到頻域,將信號分成長度為L 個采樣點的幀信號,幀間重疊為R 點。第三,最小值的跟蹤過程比真實的噪聲要滯后。為了提高在非穩(wěn)定的噪聲環(huán)境中的平滑效果。設在D個連續(xù)的短時功率譜密度估計P(λ, k)中的最小值為,那么: (47)假設獨立同分布,所以P(λ, k)的概率密度函數(shù)為: (48)由于與\成正比,并且的方差正比于。另外,噪聲估計是通過最小值來搜索,然后再對其進行修正,所以算法比較簡單。圖41 真實噪聲譜和MS算法估計的噪聲譜 (5dB高斯白噪聲)圖42 真實噪聲譜和MS算法估計的噪聲譜 (信噪比從10dB突變?yōu)?dB)由上圖可知,當噪聲和信噪比同時突變的情況下,此算法仍然不能快速跟蹤真實噪聲的變化。如果噪聲功率譜估計太低,那么所殘留的噪聲干擾將會被聽得到。在帶噪語音的每一幀處,基于帶噪語音的功率譜和其局部最小值的比率來判斷純凈語音是否存在,結果表明在噪聲水平突然增加的情況下,。 非平穩(wěn)噪聲自適應算法設觀察到的帶噪語音為: (417)其中,s(t)是純凈語音,n(t)是加性噪聲。下面用遞歸法則去跟蹤最小值:if thenelse end其中,是帶噪語音的局部最小功率譜, 。原因是:在語音盲點時刻,帶噪語音功率譜接近于其局部最小值,因此,在(312)式中比率越小,處于語音間隙的可能性就越大。)(2) 計算時頻平滑參數(shù)利用上面的語音存在概率估計,用下式計算時頻平滑參數(shù): (423),的取值范圍是:(3) 更新噪聲功率譜最后,在計算了時頻平滑參數(shù)后,利用下式來更新噪聲功率譜: (424)其中,是噪聲功率譜的估計值,整個算法的描述過程:根據(jù)式(421)判斷何時是語音存在頻點,何時是語音間隙頻點。圖44描繪了真實的噪聲功率譜和用我們的算法所估計出來的噪聲功率譜,噪聲是由白噪聲和F16戰(zhàn)斗機噪聲組合而成,Fs=8k,信噪比SNR=5dB。該方法使用一個平滑參數(shù)對功率譜的過去值進行平均,該平滑參數(shù)是根據(jù)每個子帶中語音存在的概率進行調(diào)整的。Mcaulay提出語音存在和語音缺失的兩態(tài)假設模型[28] (425)其中,(1)式代表語音缺失,(2)式代表語音存在,Y(λ, k),S(λ, k)和N(λ, k)分別代表帶噪語音、純凈語音和噪聲的短時傅立葉變換后的幅度, 和分別代表語音缺失和語音存在概率假設。 計算局部能量最小值局部能量最小值等于前一幀局部能量最小值與當前幀帶噪信號功率譜中較小的一個,即:9 (429)同時定義一個臨時變量,表示如下: (430)每當處理第nL幀時,更新局部能量最小值和臨時變量,分別為: (431)其中,L為一個包含多幀的窗口大小,決定了局部最小值搜索的范圍,考慮到語音的連續(xù)性和噪聲的改變。δ 取值5,I (λ , k)是上式中的指標函數(shù)。對帶噪語音信號分幀并變換到頻域可以得到Y(k,1)=x(k,Z)+D(k,Z),k為頻帶序號,l為幀序號。設為時域平滑參數(shù),6(f)為長度為2w+1的歸一化窗,取為W=1的漢寧窗,則平滑過程為: (439) (440)對平滑輸出信號s(k,l)進行最小值搜索。定義和: (446)設,則先驗語音不存在概率為: (447) 實驗仿真本實驗的兩種帶噪語音文件,一種是信噪比為5dB的平穩(wěn)帶噪語音,噪聲為高斯白噪聲。該算法可以廣泛地應用于語音增強系統(tǒng),能夠有效地提高信噪比,抑制音樂噪聲。因此,噪聲估計是語音增強系統(tǒng)中非常重要的一個部分,估計的好壞會直接影響最終的增強效果。該算法可以廣泛地應用于語音增強系統(tǒng),能夠有效地提高信噪比,并且能夠有效地抑制音樂噪聲。(2)進一步完善噪聲功率譜的估計算法,對于許多新型的算法加以研究,進一步將噪聲估計方法和其他方法相結合,爭取得到更加精確的噪聲估計。從畢業(yè)論文的選題、研究到撰寫、修改,再到最終的完成,整個過程賈老師都耐心指導,使我能夠從中不斷的學習和提高。附錄:外文文獻Noise estimation Algorithms for Speech Enhancement in highly nonstationary EnvironmentsAnuradha R. Fukane1, Shashikant L. Sahare21,2 Electronics and Telemunication departmentCummins college of Engineering For Women, Pune 411052, Maharashtra, IndiaAbstractA noise estimation algorithm plays an important role in speech enhancement. Speech enhancement for automatic speaker recognition system, Man–Machine munication, Voice recognition systems, speech coders, Hearing aids, Video conferencing and many applications are related to speech processing. All these systems are real world systems and input available for these systems is only the noisy speech signal, before applying to these systems we have to remove the noise ponent from noisy speech signal means enhanced speech signal can be applied to these systems. In most speech enhancement algorithms, it is assumed that an estimate of noise spectrum is available. Noise estimate is critical part and it is important for speech enhancement algorithms. If the noise estimate is too low then annoying residual noise will be available and if the noise estimate is too high then speech will get distorted and loss intelligibility. This paper focus on the different approaches of noise estimation. Section I introduction, Section II explains simple approach of Voice activity detector (VAD) for noise estimation, Section III explains different classes of noise estimation algorithms, Section IV explains performance evaluation of noise estimation algorithms, Section V conclusion.Keywords: speech enhancement, Noise, VAD, FFT, Histogram.1. IntroductionSpeech enhancement plays an important role in numerous applications such as hearing aids184。 reverberation and speech from other speakers. Therefore the degraded speech ponents need to be processed for the enhancement. Speech enhancement algorithms improve the quality and intelligibility of speech by reducing or eliminating the noise ponent from the speech signals. Improving quality and intelligibility of speech signals reduce listener’s fatigue, improve the performance of hearing aids184。 ≈ | X (λ, k)|178。 is the periodogram of clean speed signal and |D(λ, k) |178。 (3)Where α is the smoothing constant. The above recursive equation in recognized as an IIR Low pass filter, provides a smoothed version of periodogram |Y(λ, k)|17