freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

畢業(yè)設計-語音增強的應用--基于小波變換的噪聲抑制(編輯修改稿)

2026-01-12 10:26 本頁面
 

【文章內容簡介】 化是必要的。 在實際應用中,由于噪聲的存在會產(chǎn)生很多問題,背景噪聲的存在使語音質量降低的現(xiàn)象非常普遍,環(huán)境噪聲的污染使許多語音處理系統(tǒng)的性能急劇惡化。語音增強是解決噪聲污染的一種有效方法,它的一個主要目標是從帶噪語音中提取出盡可能純凈的原始語音,盡可能多的去掉語音信號中的噪聲和干擾,以改善它的質量,語音增強也就成為當前語音信號處理中的一個重要方向。語音增強技術在許多領域有著廣泛的應用,比如 : 移動通信系統(tǒng)、語音識別系統(tǒng)、低質量 的錄音裝置以及助聽裝置等。將語音增強處理應用于數(shù)字頻譜編碼傳輸?shù)慕邮斩?,可有效地提高接收信號的信噪比,降低誤碼率;這種技術對語音識別和說話人識別是十分重要的,可使識別裝置能在有較多干擾的環(huán)境中進行工作。 由于干擾通常都是隨機的,因而從帶噪語音中提取完全純凈的語音幾乎不可能。前面已經(jīng)提到,語音增強的目的主要有兩個 :一是改進語音質量,消除背景噪聲,使聽者樂于接受,不感覺疲勞,這是主觀度量;二是提高語音可懂度,這是客觀度量。但這兩個目的往往不能兼得,我們經(jīng)常是尋找特定的算法,使得最終的結果在二者之間取得一個較好的 折 中 。 語音增強的理論依據(jù) 語音增強是一門涉及面很廣的交叉學科,它不但與語音信號數(shù)字處理理論有關,而且涉及到模式識別、數(shù)理統(tǒng)計、神經(jīng)生理學和語音學 等學科。此外,語音增強所面臨的噪聲形式也有很多,常見的如街道、工廠車間、人聲鼎沸的公共場所等地方的噪聲。因此,人們在研究 語音增強的方法時一般是從語音特點、人耳的感知特性以及噪聲特點等內蒙古科技大學畢業(yè)設計說明書(畢業(yè)論文) 8 幾個方面入手。 語音信號的特點 語音信號是一種非平穩(wěn)的隨機信號,同時也可以看作是一種短時平穩(wěn)的隨機信號。這是因為人類發(fā)音過程的變化速度有一定的限度,一般在短時 (10~ 30ms)內的聲帶與聲道的形狀具有相對的穩(wěn)定性,在這段時間內我們可以認為語音的物理特性與頻譜特性近似不變。語音的短時特性是語音信號分析和處理的基礎,利用這一特性就可以應用平穩(wěn)隨機過程來分析與處理語音信號。 任何語音都包含元音與輔音兩種音素,輔音根據(jù)聲帶是否振動又可分為清輔音與濁輔音兩種。濁輔音在時域上呈現(xiàn)出明顯的周期性和較強的振幅,在頻域上有共振峰結構,而且能量大部分集中在較低頻段內。清輔音則完全不同,它沒有明顯的時域和頻域特征,類似于白噪聲,且振幅較弱。語音增強中可以利用濁音具有明顯的周期性來區(qū)別與抑制噪聲 ,而清輔音則難以與寬帶噪聲區(qū)分。 根據(jù)中心極限定理,傅里葉展開系數(shù)被認為是獨立的高斯隨機變量,均值為零,而方差是時變的。這種高斯模型應用于有限幀長時只是一種近似的描述,在寬帶噪聲污染的帶噪語音的語音增強中,這種假設可作為分析的前提。 人耳的感知特性 人耳的感知特性對語音增強有著重要的作用,這是因為語音增強的最終度量是人的主觀感受,同時也可以利用人耳的感知特性在語音增強中減少運算代價。人的聽覺系統(tǒng)所具有的功能是復雜的。實踐證明,語音雖然客觀存在,但是人的主觀感受 (聽覺 )和客觀實際 (語音波形 )并不完全 一致。任何復雜的聲音對于人耳的感覺都可以用響度、音調和音色三個特征量來描述。其中響度是人耳對聲音輕或重的主觀反應,它取決于聲音的幅度,主要是聲壓的函數(shù),但與頻率和波形也有關。音調是人耳對聲音頻率的感受。音調與聲音的頻率的關系是 :頻率高的聲音聽起來感覺它的音調“高”,而頻率低的聲音聽起來感覺它的音調“低”。但音調與聲音的頻率并不成正比,它還與聲音的強度及波形有關。音色是由于波形和泛音不同而造成的聲音屬性,人據(jù)此在主觀感受上區(qū)別具有相同響度和音調的兩個聲音。音色是由混入基音的泛音所決定的,每個基音有其固有的頻率和不同音強的泛音,因而每個聲音具有各自不同的音色。 內蒙古科技大學畢業(yè)設計說明書(畢業(yè)論文) 9 語音感知問題涉及到生理學、心理學、聲學和語音學等諸多領域,這是一個復雜的問題,有待進一步研究。但目前已有一些結論可以利用 : (1)人耳對于聲波頻率高低的感覺與實際頻率的高低不呈線性關系,而近似為對數(shù)關系;人耳對聲強的感覺很靈敏且有很大的動態(tài)范圍,人耳對頻率的分辨能力受聲強的影響,過強或過弱的聲音都會導致對頻率的分辨力降低;人耳對語音信號的幅度譜較為敏感,對相位不敏感。這一點對語音信號的恢復很有幫助。共振峰對語音感知很重要,特別是前三個共振峰更為重要,因此對 語音信號進行一定程度的高通濾波不會對可懂度造成影響。 (2)人耳具有聽覺掩蔽效應,即會產(chǎn)生一個聲音由于另外一個聲音的出現(xiàn)而導致該聲音能被感知的閾值提高的現(xiàn)象,也就是說強聲音信號對弱聲音信號有抑制作用。掩蔽的程度是聲音強度與頻率的二元函數(shù)。對頻率鄰近分量的掩蔽要比頻差大的分量有效得多。 (3)人耳除了可以感受聲音的強度、音調、音色和空間方位外,還可以在兩人以上的講話環(huán)境中分辨出所需的聲音,這種分辨能力是人體內部語音理解機制具有的一種感知能力。人類的這種分離語音的能力與人耳的雙耳輸入效應有關,稱為“雞尾酒會效應 ”。 噪聲特性 噪聲可以是加性的,也可以是非加性的。加性噪聲通常分為沖激噪聲、周期噪聲、寬帶噪聲、語音干擾噪聲等。非加性噪聲主要是殘響及傳送網(wǎng)絡的電路噪聲等。 (1)沖激噪聲 :例如放電、打火、爆炸等都會引起沖激噪聲,它的時域波形是類似于沖激函數(shù)的窄脈沖。消除沖激噪聲影響通常有兩種方法 :對帶噪語音信號的幅度求均值,將該均值作為判斷閾,凡是超過該閾值的均判為沖激噪聲,在時域中將其濾除;當沖激脈沖不太密集時,也可以通過某些點內插的方法避開或者平滑掉沖激點,從而能在重建語音信號中去掉沖激噪聲。 (2)周期 噪聲 :最常見的有電動機、風扇等周期運轉的機械所發(fā)出的噪聲, 50Hz 交流電源哼哼聲也是周期噪聲。在頻譜圖上它們表現(xiàn)為離散的窄譜,通常可以用陷波器方法予以濾除。 (3)寬帶噪聲 :說話時伴隨著的呼吸引起的噪聲、隨機噪聲源產(chǎn)生的噪聲、量化噪聲等均可視為寬帶噪聲,應用中常近似為高斯噪聲或白噪聲。其顯著特點是噪聲頻譜遍布于語音信號頻譜中,導致消除噪聲較為困難。一般需要采用非線性處理方法。 內蒙古科技大學畢業(yè)設計說明書(畢業(yè)論文) 10 (4)傳輸噪聲 :這是傳輸系統(tǒng)的電路噪聲。與背景噪聲不同,它在時間域里是語音和噪聲的卷積。處理這種噪聲可以采用同態(tài)處理的方法,把非加性 噪聲變?yōu)榧有栽肼晛硖幚怼? 除了上述噪聲會對語音產(chǎn)生干擾外,還有一種語音干擾 :干擾語音信號和待傳語音信號同時在一個信道中傳輸所造成的干擾稱為語音干擾。區(qū)別有用語音和干擾語音的基本方法是利用它們的基音差別。考慮到一般情況下兩種語音的基音不同,也不成整數(shù)倍,這樣可以用梳狀濾波器提取基音和各次諧波,再恢復出有用語音信號。 通過語音增強技術來改善語音質量的過程如圖 所示。 圖 語音增強系統(tǒng) 語音增強的發(fā)展歷程 語音增強算法的研究起源比較早。 許多學者在 20 世紀 60 年代就開始在這一領域進行了大量的工作,隨著數(shù)字信號處理理論的成熟, 20世紀 70 年代研究取得了一些基礎性成果,并使語音增強發(fā)展成為語音信號數(shù)字處理的一個重要分支 。 1974 年, Weiss, Aschkenasy 和 Parsons 最早提出了用譜相減法來抑制噪聲,利用噪聲的平均譜來估計含噪語音段的噪聲,就可利用譜相減法抑制加性噪聲。 1979 年, Lin 和 Oppeheim提出了維納濾波語音增強方法,估計帶噪語音的 AR 模型參數(shù),就能夠以迭代的方式進行維納濾波。 進入 80 年代后, VLSI 技術的發(fā)展為語 音增強的實時實現(xiàn)提供了可能。使用統(tǒng)計方法的語音增強方法成為研究的中心。 1980 年, Maulay 和 Malpass 提出了軟判決噪聲抑制方法。 1984 年, Ephrain 和 Malah 提出了基于 MMSE 短時譜估計的語音增強方法。在 40 多年的研究中,許多語音增強方法不斷被提出,奠定了語音增強的基礎并使之逐漸走向成熟。 90年代后,移動通信的飛速發(fā)展為語音增強的研究提供了十分現(xiàn)實的動力,同時 DSP原理和技術的進步以及其它相關理論在語音增強領域的應用,都促使了新的語音增強方背景語音 信道 純凈語音 語 音 增 強 處 理 干擾語音 傳輸噪聲 增強語音 內蒙古科技大學畢業(yè)設計說明書(畢業(yè)論文) 11 法的相繼出現(xiàn)。例如對帶噪語音信號進行小波變換,或者 進行卡 胡 南 列夫 變換(KLT—— KarhunenLoeve Transform),或者進行離散余弦變換( Discrete Cosine Transform)來進行語音增強,以及基于人耳聽覺掩蔽效應的語音增強方法,同時,這些方法也不斷的被繼承、發(fā)展。 在硬件實現(xiàn)方面,新的快速 DSP 芯片的不斷出現(xiàn)以及 DSP 與 FPGA 的結合都促進了系統(tǒng)性能的改善。 語音增強算法簡介 現(xiàn)實環(huán)境中的噪聲多種多樣,它們的特性各異,也就不可能找到一種通用的語音增強算法來適用各種噪聲。同時語音增強算法不但與語音信號數(shù)字處理理論相聯(lián) 系,而且與人的聽覺系統(tǒng)和語音學緊密相關,這也促使必須根據(jù)不同的噪聲源來選擇不同的對策。幾十年來,許許多多的學者在這方面進行了不懈的努力,總結出了非常多的有效的方法。 語音增強算法的分類 這些方法從信號輸入的通道數(shù)可分為單通道的語音增強算法與多通道的語音增強算法。單通道的語音系統(tǒng)在現(xiàn)實生活中較為常見,如手機、耳麥等。這種情況下,語音與噪聲同時存在于一個通道中,語音信號與噪聲信號必須從同一個帶噪語音中獲得。一般情況下,這種系統(tǒng)要求信號中的噪聲比較平穩(wěn),以便在無聲段對噪聲進行估計,再依據(jù)估計得到的噪聲參數(shù)對 有聲段進行處理,得到增強語音。如果語音系統(tǒng)是一個多通道的語音系統(tǒng),各個通道的語音信號之間存在著某些相關性,可以利用這些相關特性對帶噪語音信號進行處理,得到增強的語音。比如在自適應噪聲對消語音增強算法中采用了兩個話筒作為輸入,其中一個采集帶噪的語音信號,另外一個采集噪聲,從噪聲通道所采集的噪聲直接當作帶噪語音中的噪聲,并將它從帶噪語音中減去即可。另一種多通道的語音增強算法是采用陣列信號,這種方法采用多個以一定方式排列的采集設備接收信號。由于不同的獨立信號源與各個采集設備之間的距離不同,最后在各個接收設備中的合 成信號也不同,再根據(jù)這些信號將各個獨立信號分離出來。 按照所依據(jù)原理的不同,我們可以將語音增強分為以下幾類 : ⑴ 參數(shù)方法 :此類方法主要依賴于使用的語音生成模型 (例如 AR 模型 ),需要提取模型參數(shù) (如基音周期、 LPC系數(shù)等 ),經(jīng)常使用迭代方法。這種方法的最大缺點就是如果實內蒙古科技大學畢業(yè)設計說明書(畢業(yè)論文) 12 際噪聲或語音與模型有較大的差別,或者由于某些原因使得提取語音參數(shù)較困難,則這種 方法較容易失敗。這類方法常用到的一些濾波器,如梳狀濾波器、維納濾波器、卡爾曼濾波器等。 ⑵ 非參數(shù)方法 :非參數(shù)方法不需要從帶噪語音信號中估計語音模型參數(shù),這就使得此 類方法相對于參數(shù)方法而言應用較廣。但由于沒有利用可能的語言統(tǒng)計信息,故結果一般不是最優(yōu)的。同時,我們知道,語音信號是非平穩(wěn)的隨機過程,但語音信號特性的緩慢變化使得在較短的時間 (比如 10~ 30ms)內,可以視其為平穩(wěn)的,如果能從帶噪語音的短時譜中估計出“純凈”語音的短時譜,即可達到語音增強的目的。由于人耳對語音的感知主要是通過語音信號中各頻譜分量的幅度來獲得的,而對各分量的相位并不敏感,因此,這類方法的重點是將估計的對象放在語音信號的短時譜幅度上。非參數(shù)方法主要包括譜減法、自適應濾波法等。 ⑶ 統(tǒng)計方法 :統(tǒng)計 方法比較充分的利用了語音和噪聲的統(tǒng)計特性,如語音信號可視不同情況和需要采用高斯模型、拉普拉斯模型以及伽瑪模型等。此類方法一般是在建立了模型庫后,經(jīng)歷一個訓練過程來獲得初始統(tǒng)計參數(shù),并且在后續(xù)的工作過程中要根據(jù)實際的數(shù)據(jù)實時的更新這些統(tǒng)計參數(shù),以使模型能更好的符合實際情況,它與語音系統(tǒng)的聯(lián)系非常密切。這類方法里面主要包括最小均方誤差估計 (MMSE, Minimun Mean Square Error )、對數(shù)譜估計的最小均方誤差 (MMSELSA, Minimum MeanSquare Error LogSpectral Amplitude)、聽覺掩蔽效應 (Masking Properties)等。 ⑷ 其它方法 :這類方法與前述方法相比,不夠成熟,使用沒有前述方法廣泛,我們可以概括的稱之為非主流方法。這類方法主要有 :基于小波 (Wavelet)變換、卡 胡 南 列夫變換 (KLT—— KarhunenLoeve Transform)、離散余弦變換 (DCT, Discrete Cosine Transform)等的語音增強算法。此類中的幾種方法不需像前述方法那樣去對語音進行建模,也不需要依據(jù)各種準則對噪聲的參數(shù) 進行估計。 除此以外,還可以將語音增強算法按時域與頻域分為兩類 :時域方法主要有基于子空間的語音增強算法;頻域方法主要有譜減法、基于 MMSE 的語音增強算法等。相對來說,時域方法計算量較大而頻域
點擊復制文檔內容
公司管理相關推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1