【正文】
密級(jí):內(nèi)部★ 2 年強(qiáng)背景噪聲環(huán)境下語(yǔ)音增強(qiáng)算法的研究及應(yīng)用Research and Application of Speech Enhancement in Strong Noise Environment(申請(qǐng)清華大學(xué)工學(xué)碩士學(xué)位論文)培 養(yǎng) 單 位:學(xué) 科:研 究 生:指 導(dǎo) 教 師:關(guān)于學(xué)位論文使用授權(quán)的說(shuō)明本人完全了解清華大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定,即:清華大學(xué)擁有在著作權(quán)法規(guī)定范圍內(nèi)學(xué)位論文的使用權(quán),其中包括:(1)已獲學(xué)位的研究生必須按學(xué)校規(guī)定提交學(xué)位論文,學(xué)校可以采用影印、縮印或其他復(fù)制手段保存研究生上交的學(xué)位論文;(2)為教學(xué)和科研目的,學(xué)校可以將公開(kāi)的學(xué)位論文作為資料在圖書(shū)館、資料室等場(chǎng)所供校內(nèi)師生閱讀,或在校園網(wǎng)上供校內(nèi)師生瀏覽部分內(nèi)容;(3)根據(jù)《中華人民共和國(guó)學(xué)位條例暫行實(shí)施辦法》,向國(guó)家圖書(shū)館報(bào)送可以公開(kāi)的學(xué)位論文。本人保證遵守上述規(guī)定。(保密的論文在解密后遵守此規(guī)定)作者簽名: 導(dǎo)師簽名: 日 期: 日 期: 摘要 摘 要人們?cè)谡Z(yǔ)音通信過(guò)程中不可避免地會(huì)受到各種噪聲的干擾,影響了通信質(zhì)量。同時(shí),噪聲的存在也使低速率語(yǔ)音編碼以及語(yǔ)音識(shí)別等語(yǔ)音處理系統(tǒng)的性能下降。語(yǔ)音增強(qiáng)作為一種預(yù)處理手段,不失為解決噪聲污染的一種有效途徑。在各類語(yǔ)音增強(qiáng)技術(shù)中,基于短時(shí)譜幅度估計(jì)的語(yǔ)音增強(qiáng)算法處于主流位置,得到廣泛應(yīng)用。本文針對(duì)短時(shí)譜幅度估計(jì)在低輸入信噪比以及非平穩(wěn)噪聲環(huán)境下,性能不夠理想這一不足加以研究改進(jìn),完成穩(wěn)健的語(yǔ)音增強(qiáng)算法設(shè)計(jì)和實(shí)時(shí)實(shí)現(xiàn)。根據(jù)對(duì)短時(shí)譜幅度估計(jì)算法進(jìn)行分析,指出了影響其性能的關(guān)鍵技術(shù):噪聲統(tǒng)計(jì)特性的估計(jì)、語(yǔ)音激活檢測(cè)算法、先驗(yàn)信噪比估計(jì)、增益函數(shù)的修正等,為算法改進(jìn)指明了研究方向。首先, 提出了一種快速估計(jì)噪聲統(tǒng)計(jì)特性的算法,減小了噪聲估計(jì)的跟蹤延時(shí),在一定程度上改善了噪聲過(guò)估計(jì)的現(xiàn)象,因而能夠在低輸入信噪比以及非平穩(wěn)噪聲干擾環(huán)境下快速準(zhǔn)確地跟蹤噪聲特性。其次,研究了一種基于高斯模型和一致最大勢(shì)檢驗(yàn)的語(yǔ)音激活檢測(cè)算法,由于檢測(cè)門限與噪聲估計(jì)相適應(yīng),因而提高了檢測(cè)性能,尤其在非平穩(wěn)噪聲干擾環(huán)境下得到了良好的檢測(cè)效果。同時(shí),利用語(yǔ)音激活檢測(cè)算法中傅里葉變換得到的頻譜信息,方便地實(shí)現(xiàn)了雙音多頻信號(hào)的檢測(cè)和生成。再次,對(duì)先驗(yàn)信噪比估計(jì)的反饋因子進(jìn)行最優(yōu)化調(diào)整,引入與長(zhǎng)時(shí)統(tǒng)計(jì)信息相關(guān)的自適應(yīng)下限,有效地協(xié)調(diào)了先驗(yàn)信噪比估計(jì)的穩(wěn)定性和快速跟蹤能力。同時(shí),利用軟判決信息,即有關(guān)語(yǔ)音存在的概率信息,修正增益函數(shù)表達(dá)式中的先驗(yàn)/后驗(yàn)信噪比,有效地消除了“音樂(lè)”噪聲,使去噪后的語(yǔ)音更加平滑、自然、易于接受。最后,相關(guān)算法已用C語(yǔ)言和TMS320C55x DSP匯編語(yǔ)言在PC機(jī)和DSP硬件平臺(tái)上實(shí)現(xiàn)。仿真實(shí)驗(yàn)和實(shí)時(shí)測(cè)試均表明改進(jìn)的語(yǔ)音增強(qiáng)算法在不明顯損傷語(yǔ)音可懂度的同時(shí),可以有效地抑制背景噪聲、提高信噪比,在低輸入信噪比和非平穩(wěn)噪聲環(huán)境下性能提高尤為顯著。關(guān)鍵詞:語(yǔ)音增強(qiáng) 非平穩(wěn)噪聲 短時(shí)譜幅度估計(jì) 噪聲估計(jì) 語(yǔ)音激活檢測(cè) 先驗(yàn)信噪比II Abstract AbstractIn voice munications, speech signals can be contaminated by various noises inevitably, which affects the munication quality. Furthermore, noise interference degrades the performance of speech processing systems, such as low bitrate vocoder and speech recognition. Speech enhancement is an effective preprocessing method to reduce the disturbance of noise.Among the speech enhancement techniques, the methods based on ShortTime Spectral Amplitude(STSA) estimation have been well investigated and brought into wide use. In this dissertation, a lot of research work has been done to improve the performance of STSA estimation against the environments of low SignaltoNoise Ratio(SNR) input and nonstationary noise. The proposed robust approach of speech enhancement has been implemented on the TMS320C55x DSP platform. According to the analysis of the STSAbased speech enhancement algorithm, the key techniques are summarized, including the estimation of noise statistic characteristics, voice activity detection(VAD) algorithm, the estimation of a priori SNR, and the modification of gain function,etc.Firstly, a fast estimation method of noise statistic characteristics is proposed. The method decreases the adaptation time of tracking noise, avoids the overestimation phenomenon to some extent, thus can track the noise characteristics with higher accuracy and less time in low SNR input and nonstationary noise environments.Secondly, a voice activity detector based on Gaussian model and Uniformly Most Powerful(UMP) test is designed. Because of detection threshold related to the noise estimation, the algorithm provides higher detection perfomance, especially in nonstationary noise environments. Furthermore, utilizing the spectral information of DFT in the VAD algorithm, the dual tone multiple frequency(DTMF) signal detector and generator are realized conveniently.Thirdly,to balance the stability and the tracking ability in the estimation of a priori SNR, the feedback factor of a priori SNR estimation is optimally adjusted and the estimation result is limited above an adaptive threshold related to long time statistic information. Moreover, the softdecision modified gain function is obtained by introducing speech presence probability to a priori SNR and a priori SNR. These methods effectively eliminate the“musical” noise and make the enhanced speech smooth, natural and acceptable.Finally, The algorithm mentioned above has been implemented in both C language and assembler language on the PC and TMS320C55 DSP hardware platform. Both simulation experiments and realtime tests show that the improved speech enhancement algorithm is effective in suppressing background noise and increasing the SNR without apparently impairing the intelligibility of speech .The perfomance is significantly enhanced in low SNR input and nonstationary noise environments. Keywords: speech enhancement nonstationary noise STSA noise estimation voice activity detection a priori SNR VI目錄目 錄第1章 引言 1 語(yǔ)音增強(qiáng)課題背景 1 帶噪語(yǔ)音模型 2 語(yǔ)音的主要特性 2 噪聲的主要特性 3 人耳的感知特性 4 背景噪聲對(duì)于語(yǔ)音的影響 4 語(yǔ)音增強(qiáng)的發(fā)展歷史 5 語(yǔ)音增強(qiáng)算法分類 5 論文研究工作 7 論文內(nèi)容組織 7 本章小結(jié) 7第2章 基于短時(shí)譜幅度估計(jì)的語(yǔ)音增強(qiáng)算法概述 8 本章引論 8 語(yǔ)音增強(qiáng)算法概述 8 自適應(yīng)噪聲對(duì)消法 8 諧波增強(qiáng)法 9 基于語(yǔ)音生成模型的語(yǔ)音增強(qiáng)算法 10 基于短時(shí)譜幅度估計(jì)的語(yǔ)音增強(qiáng)算法 10 其他幾種形式的語(yǔ)音增強(qiáng)算法 11 基于短時(shí)譜幅度估計(jì)的語(yǔ)音增強(qiáng)算法 11 譜減法的一般形式 12 譜減法的改進(jìn)形式 14 維納濾波法 15 MMSE估計(jì)法 16 基于短時(shí)譜幅度估計(jì)的語(yǔ)音增強(qiáng)算法的關(guān)鍵技術(shù) 17 本章小結(jié) 19第3章 噪聲統(tǒng)計(jì)特性估計(jì)的研究 20 本章引論 20 基于語(yǔ)音激活檢測(cè)的噪聲統(tǒng)計(jì)特性估計(jì) 20 直接形式的噪聲統(tǒng)計(jì)特性估計(jì) 21 簡(jiǎn)單的直接噪聲統(tǒng)計(jì)特性估計(jì) 21 基于最小統(tǒng)計(jì)的噪聲統(tǒng)計(jì)特性估計(jì) 22 噪聲功率譜的快速估計(jì) 25 自適應(yīng)最優(yōu)短時(shí)譜平滑 26 不依賴窗長(zhǎng)的最小值搜索 28 引入語(yǔ)音存在概率 28 噪聲功率譜更新 29 語(yǔ)音存在概率的準(zhǔn)確估計(jì)以及噪聲功率譜的迭代更新 29 測(cè)試結(jié)果及結(jié)論 30 本章小結(jié) 34第4章 語(yǔ)音激活檢測(cè)算法研究 35 本章引論 35 傳統(tǒng)語(yǔ)音激活檢測(cè)算法 35 Annex B標(biāo)準(zhǔn)的語(yǔ)音激活檢測(cè)算法 35 Annex A標(biāo)準(zhǔn)的語(yǔ)音激活檢測(cè)算法 37 GSM標(biāo)準(zhǔn)的語(yǔ)音激活檢測(cè)算法 39 基于高斯模型和一致最大勢(shì)檢驗(yàn)的語(yǔ)音激活檢測(cè)算法 40 基于高斯模型的似然比檢測(cè) 41 一致最大勢(shì)檢驗(yàn)準(zhǔn)則 41 短時(shí)譜最優(yōu)化平滑以及自適應(yīng)門限平滑 43 拖尾延遲保護(hù) 44 基于高斯模型和UMP檢驗(yàn)的VAD算法流程 45 測(cè)試結(jié)果以及結(jié)論 46 雙音多頻信號(hào)的生成與檢測(cè) 48 雙音多頻信號(hào)的生成 49 雙音多頻信號(hào)的檢測(cè) 50 測(cè)試結(jié)果 53 本章小結(jié) 55第5章 語(yǔ)音增強(qiáng)算法的研究與實(shí)現(xiàn) 56 本章引論 56 本文語(yǔ)音增強(qiáng)算法流程 56 分幀和加窗 57 先驗(yàn)/后驗(yàn)信噪比估計(jì) 59 長(zhǎng)時(shí)信噪比估計(jì) 61 增益函數(shù)的計(jì)算 61 語(yǔ)音增強(qiáng)算法評(píng)測(cè)標(biāo)準(zhǔn) 64 增強(qiáng)語(yǔ)音的主觀評(píng)測(cè) 64 增強(qiáng)語(yǔ)音的客觀評(píng)測(cè) 65 語(yǔ)音增強(qiáng)算法測(cè)試 67 測(cè)試環(huán)境 67 測(cè)試結(jié)果 67 本章小結(jié) 73第6章 基于TMS320C55x DSP硬件平臺(tái)的實(shí)時(shí)實(shí)現(xiàn) 74 本章引論 74 TMS320C55x DSP的體系結(jié)構(gòu) 74 TMS320C55x內(nèi)部結(jié)構(gòu) 75 TMS320C55x總線結(jié)構(gòu) 76 TMS320C55x流水線操作 77 語(yǔ)音增強(qiáng)算法的DSP實(shí)現(xiàn)和優(yōu)化 78 C代碼定點(diǎn)化 78 TMS320C55x匯編程序編程 79 算法在TMS320C55x DSP上的資源消耗 82 本章小結(jié) 83第7章 結(jié)論與展望 84 結(jié)論 84 展望 85參考文獻(xiàn)