freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

噪聲估計(jì)的算法及matlab實(shí)現(xiàn)畢業(yè)設(shè)計(jì)-文庫吧

2025-06-14 04:57 本頁面


【正文】 的噪聲估計(jì)方法使用語音活動(dòng)監(jiān)測(VAD)技術(shù)分離出無聲段,這時(shí)無聲段主要表現(xiàn)為噪聲特性,然后再通過某種統(tǒng)計(jì)方法,即可獲得背景噪聲特性的近似估計(jì)。盡管該方法在噪聲為平穩(wěn)的情況下是可行的,但是在實(shí)際的噪聲環(huán)境中噪聲譜的特性變化很大,就很難達(dá)到好的降噪效果。從實(shí)用性、易實(shí)現(xiàn)性等方面考慮,很多算法都是建立在相對理想的實(shí)驗(yàn)室條件下的,要求背景噪聲保持平穩(wěn),信噪比較高,而且需要一定的訓(xùn)練算法以預(yù)先得到背景噪聲及語音的統(tǒng)計(jì)信息。在實(shí)際工作中,這些條件很難得到滿足,而且經(jīng)常會遇到信噪比較低,背景噪聲緩慢變化的情況,也不可能預(yù)先得到背景噪聲或語音的統(tǒng)計(jì)信息。而且在低信噪比下,VAD 的誤檢率會增大,在不能正確判斷出有聲/無聲段的情況下,估計(jì)出來的噪聲很難保證準(zhǔn)確性。因此,為了實(shí)現(xiàn)精確的噪聲估計(jì),就要對噪聲譜進(jìn)行實(shí)時(shí)的估計(jì)。近年來,人們提出了一種自適應(yīng)連續(xù)噪聲譜估計(jì)方法,它是一種專門用語單聲道語音增強(qiáng)系統(tǒng)的噪聲估計(jì)。噪聲譜在所有的幀中連續(xù)的更新,并不關(guān)心本幀是語音幀還是噪聲幀,對每一幀都重新計(jì)算其噪聲功率譜,它不需要語音的有聲/無聲檢測,對非平穩(wěn)噪聲也有較好的適應(yīng)性,即使在有語音存在的情況下,也能夠?qū)崿F(xiàn)噪聲的連續(xù)估計(jì)和不斷更新。本章從語音活動(dòng)檢測和連續(xù)更新噪聲兩方面入手,將幾種算法的基本原理及過程進(jìn)行了詳細(xì)的描述,并分析了實(shí)驗(yàn)結(jié)果。 基于語音活動(dòng)性檢測的噪聲估計(jì)算法 短時(shí)能量語音信號和噪聲信號的區(qū)別可以體現(xiàn)在他們的能量上,對于一列疊加有噪聲干擾的語音信號而言,其語音段的能量是噪聲段能量疊加語音聲波能量之和。因此,語音段的能量一般要大于噪聲段的能量。如果環(huán)境噪聲和系統(tǒng)輸入噪聲比較小,以至于能夠保證系統(tǒng)的信噪比相當(dāng)高,那么只要計(jì)算輸入信號的短時(shí)能量或短時(shí)平均幅度就能夠把語音段和噪聲背景分開。這就是僅僅基于短時(shí)能量的端點(diǎn)檢測方法。信號x(t)短時(shí)能量定義為:E= (31) 語音信號的短時(shí)平均幅度定義為:M= (32)短時(shí)能量有兩種定義:短時(shí)時(shí)域能量和短時(shí)譜幅能量,一般用的是短時(shí)頻域能量表示,因此,短時(shí)能量用傅立葉變換后的平方表示,平均幅度為傅立葉變換后譜絕對值的和。短時(shí)能量主要有下面幾個(gè)應(yīng)用:首先利用短時(shí)能量可以區(qū)分清音和濁音,因?yàn)闈嵋舻哪芰恳惹逡舻哪芰看蟮枚啵黄浯慰梢杂枚虝r(shí)能量對有聲和無聲段進(jìn)行判斷。 短時(shí)平均過零率信號x(t)的短時(shí)平均過零率定義為: Z= (33)一般?。?h(t)= 其中N為窗長信號的過零率是其頻率量的一種簡單度量,窄帶信號尤其如此。其中,當(dāng)信號為單一正弦波時(shí),過零率為信號頻率的兩倍。對于采樣率為s F 、頻率為的正弦波數(shù)字信號,平均每個(gè)樣本的過零率為s 2F / F 0 。過零率有兩個(gè)重要應(yīng)用:第一,用于粗略地描述信號的頻譜特性。第二,用于判別清音和濁音、有聲和無聲。由上面定義出發(fā),計(jì)算過零率容易受低頻干擾,所以需要對上述定義做一點(diǎn)修改,設(shè)置一個(gè)門限T,將過零率的含義修改為跨過正負(fù)門限。如下式:Z= + (34)這樣過零率就有一定的抗干擾能力了。即使存在較小的隨機(jī)噪聲,只要它不使信號越過正負(fù)門限所構(gòu)成的帶,就不會產(chǎn)生虛假的過零率。 基于短時(shí)能量和短時(shí)平均過零率的語音活動(dòng)性檢測 雖然短時(shí)能量有時(shí)能將噪聲和語音分開,但是在實(shí)際應(yīng)用中,往往很難保證有這么高的信噪比,因而僅依靠短時(shí)能量或短時(shí)平均幅度來檢測語音段的起止點(diǎn)常會遇到問題。而且在一些特殊情況下,在以某些音為開始或結(jié)尾時(shí),如當(dāng)弱摩擦音(如[f],[h]等音素)、弱爆破音(如[p],[t],[k]等音素)為開始或結(jié)尾;以鼻音(如[ng],[n],[m]等音素)為語音的結(jié)尾時(shí),只用其中一個(gè)參數(shù)量來判別語音的起點(diǎn)和終點(diǎn)是有困難的,往往會漏掉某些音素,必須同時(shí)使用這兩個(gè)參數(shù)。所以,有了經(jīng)典的端點(diǎn)檢測方法——Lawrennce Rabiner[24]提出的以過零率Z 和能量E 為特征進(jìn)行端點(diǎn)檢測。這種方法也常稱為雙門限比較法。此方法是在短時(shí)能量檢測方法的基礎(chǔ)上加上短時(shí)平均過零率,利用能量和過零率作為特征來進(jìn)行檢測。通常是利用過零率來檢測清音,用短時(shí)能量來檢測濁音,兩者配合實(shí)現(xiàn)可靠的語音端點(diǎn)檢測。該方法的基本原理[25]如下所述:由于采集聲音信號的最初的短時(shí)段為無語音段,僅有均勻分布的背景噪聲信號。這樣就可以用該語音信號的最初幾幀(一般取10 幀)信號作為背景噪聲的統(tǒng)計(jì)樣本來計(jì)算其過零率閾值ZT 及能量閾值EL(低能量閾)和EU(高能量閾)。ZT 的定義為: (35)其中IF 為經(jīng)驗(yàn)值,一般取25;zc、fzc 分別為根據(jù)所取最初10 幀樣值算得的過零率的“均值”和“標(biāo)準(zhǔn)差”。計(jì)算EL 和EU 時(shí),先算出最初10 幀信號每幀的短時(shí)平均能量或平均幅度E,最大值記為EMAX,最小值記為EMIN。然后令: (36) (37)在本次設(shè)計(jì)中用前10 幀的平均值來代替最小值EMIN 最后按下式計(jì)算出EL 和EU: (38) (39)接下來就可以用過零率閾值Z 及能量閾值EL 和EU 來進(jìn)行起止點(diǎn)的判別。先根據(jù)EL,EU 計(jì)算出初始起點(diǎn)S1。方法如下所述:從第11 幀開始,將每一幀的能量E 值與門限EL 相比較,如果能量E 超過門限EL,則將該幀計(jì)為S1。但若后續(xù)n幀的平均能量或幅度尚未超過EU 而能量又降到EL 之下,則該幀不能作為初始起點(diǎn)S1,然后繼續(xù)尋找下一個(gè)平均能量或幅度超過EU 的幀,若后續(xù)n 幀的平均能量或幅度超過EU,則將此幀計(jì)為S1,該幀就可以作為根據(jù)能量信號找到的語音的起點(diǎn)。但是,S1 只是根據(jù)能量信息找到的起點(diǎn),還未必是語音的精確起點(diǎn)。這是由于語音的起始段往往存在著能量很弱的清輔音(如[f],[s]等),僅依靠能量很難把它們和無聲區(qū)分開。但人們發(fā)現(xiàn)這些清輔音的過零率明顯高于無聲段,因此可以利用過零率這個(gè)參數(shù)來精確判斷清輔音與無聲區(qū)二者的分界點(diǎn)。當(dāng)S1 確定后,從S1 幀之前的30 幀搜索,依次比較各幀的過零率,若有3 幀以上的過零率超過ZT,則將起始點(diǎn)S1 定為滿足ZZT 的最前幀的幀號,如果這些幀的過零率都小于門限ZT 則將S1 作為起點(diǎn)。語音結(jié)束點(diǎn)S2 的檢測方法與檢測起點(diǎn)相同,從后向前搜索,找出第一個(gè)平均能量幅度高于EL、且其前向幀的平均能量或幅度在超出EU 前沒有下降到EL 以下的幀號,記為N2,隨后根據(jù)過零率向N2+25 幀搜索,若有3 幀以上的ZZT,則將結(jié)束點(diǎn)N2 定為滿足ZZT的最后的幀號即Ne,否則即以N2 作為結(jié)束點(diǎn)。 實(shí)驗(yàn)仿真下面是以一段語音為例,進(jìn)行語音端點(diǎn)檢測的Matlab 仿真。實(shí)驗(yàn)采用的純凈語音材料是HINT 數(shù)據(jù)庫中的一條語音(語音內(nèi)容:Read verse out loud for pleasure), 左右;噪聲材料取自NOISEX92 的高斯白噪聲和f16 戰(zhàn)斗機(jī)噪聲。語音和噪聲都是以8KHz 采樣,16bit 量化,wav 格式存儲,并通過Matlab 按一定線形比例混合成不同信噪比的帶噪語音。圖31 語音的原始波形圖圖32 語音的能量曲線圖圖33 語音的短時(shí)過零率曲線圖由上圖可以看出基于能量和短時(shí)過零率的端點(diǎn)檢測算法在無噪聲的環(huán)境下比較準(zhǔn)確的檢測到了語音的開始和結(jié)束點(diǎn)。為了驗(yàn)證其魯棒性,利用了Matlab 給以上信號添加信噪比5db 的高斯白噪聲,采用同樣的算法,其仿真結(jié)果如下圖所示:圖34 加入高斯白噪聲的語音波形圖圖35 加入高斯白噪聲的能量曲線圖圖36 加入高斯白噪聲的短時(shí)過零率曲線圖由以上圖中可看出,在較強(qiáng)背景噪聲的環(huán)境下,上述算法的準(zhǔn)確性急劇下降,已經(jīng)不能準(zhǔn)確的檢測出信號的端點(diǎn)了。因此,我們需要魯棒性更強(qiáng)的算法,即使在有語音存在的情況下,也能夠?qū)崿F(xiàn)噪聲的連續(xù)估計(jì)和不斷更新。4 最小統(tǒng)計(jì)遞歸平均的噪聲估計(jì)算法及MATLAB仿真本章先研究了經(jīng)典的噪聲估計(jì)算法即最小值跟蹤法,然后研究了基于統(tǒng)計(jì)信息的非平穩(wěn)噪聲自適應(yīng)算法,最后對這兩種噪聲估計(jì)算法做了實(shí)驗(yàn)仿真。仿真結(jié)果表明:最小值跟蹤法對平穩(wěn)噪聲的估計(jì)是比較準(zhǔn)確的,但是非平穩(wěn)噪聲就表現(xiàn)的不好了,而基于統(tǒng)計(jì)信息的非平穩(wěn)噪聲自適應(yīng)算法在非平穩(wěn)噪聲環(huán)境中也表現(xiàn)的很好,能夠比較準(zhǔn)確的跟蹤上噪聲的突變。 最小值統(tǒng)計(jì)法 最優(yōu)平滑設(shè)帶噪語音信號為y(t),它由純凈語音和噪聲組成,即y(t) = s(t) + n(t),這里t代表采樣的時(shí)間標(biāo)號。進(jìn)一步假設(shè)s(t)和n(t)是統(tǒng)計(jì)獨(dú)立的,并各自都是零均值的。為了將信號轉(zhuǎn)化到頻域,將信號分成長度為L 個(gè)采樣點(diǎn)的幀信號,幀間重疊為R 點(diǎn)。對幀信號進(jìn)行FFT 計(jì)算,得到了頻域的信號: (43) 其中為幀號即時(shí)間的標(biāo)號,k為頻率點(diǎn)的標(biāo)號, Z, k﹛0,1,…L1﹜,h(u)是一個(gè)窗序列,并假設(shè)先用一個(gè)平滑過程來粗估計(jì)噪聲功率譜密度P(λ, k): (44)其中α 是平滑參數(shù),噪聲功率的進(jìn)一步估計(jì) 通過取P(λ, k)在一個(gè)滑動(dòng)窗內(nèi)的最小值來決定。上述估計(jì)還很粗糙,為了進(jìn)一步提高估計(jì)的準(zhǔn)確性還要考慮以下問題:第一,固定的α 值將不適應(yīng)有聲/無聲的變化與噪聲的變化。第二,這樣的噪聲估計(jì)將比真正的噪聲要滯后。第三,最小值的跟蹤過程比真實(shí)的噪聲要滯后。因此,對原有的噪聲估計(jì)還需要一個(gè)隨時(shí)間變化的平滑系數(shù)α 、一個(gè)偏差補(bǔ)償系數(shù)與加速跟蹤方法。為了簡化計(jì)算,假設(shè)信號處于無聲狀態(tài)。將平滑過程寫成由時(shí)變平滑系數(shù)作用的過程: (43) 為了使P(λ, k)盡可能的接近真正的噪聲功率譜密度,以下式的期望值為零作為目標(biāo): (44) 由上式得: (45)在實(shí)際運(yùn)用中,最優(yōu)估計(jì)式中的 用上次的估計(jì)值代替,并且最優(yōu)系數(shù)將被限制在一個(gè)最大值max α 之間來避免γ (λ, k) = 1的死鎖情況發(fā)生。為了提高在非穩(wěn)定的噪聲環(huán)境中的平滑效果。式子(314)可重新寫成: (46) 最小功率譜統(tǒng)計(jì)跟蹤最小功率譜統(tǒng)計(jì)跟蹤的方法將跟蹤短時(shí)譜的最小功率譜密度,這個(gè)最小功率譜是由一個(gè)連續(xù)時(shí)間段內(nèi)的最小功率譜密度求出。因?yàn)殡S機(jī)變量的最小值總會小于平均值,所以用最小功率譜密度值的估計(jì)存在著偏差,要得到平均值就要對最小功率譜密度進(jìn)行偏差修正。在推導(dǎo)最小功率譜統(tǒng)計(jì)跟蹤方法時(shí),為了簡化計(jì)算,假設(shè)信號處于無語音狀態(tài),在有語音狀態(tài)時(shí)只要將噪聲的方差用帶噪語音信號的方差代替即可。設(shè)在D個(gè)連續(xù)的短時(shí)功率譜密度估計(jì)P(λ, k)中的最小值為,那么: (47)假設(shè)獨(dú)立同分布,所以P(λ, k)的概率密度函數(shù)為: (48)由于與\成正比,并且的方差正比于。所以只要計(jì)算在=1時(shí)的均值和方差就足夠了。我們定義符號: (49) (410)M(D)和H(D)都是關(guān)于D的系數(shù)函數(shù),其中D取96,M(96)=,D(96)=。由于在非語音狀態(tài)時(shí)取值比較大,所以可簡寫為:于是,噪聲方差可以估計(jì)為: (411) 其中,估計(jì)為: (412)而是P(λ, k)方差的估計(jì),其估計(jì)式為:= (413)和分別是E{P(λ, k)}和E{P2 (λ, k)}的一階平滑估計(jì) (414) (415)β (λ, k)為平滑系數(shù),且 為了在非平穩(wěn)噪聲環(huán)境中得到更好的估計(jì),將乘以系數(shù),而 (416)其中 由于該算法在對有聲/無聲時(shí)使用同一標(biāo)準(zhǔn)來估計(jì)噪聲,所以不需要有聲/無聲檢測。另外,噪聲估計(jì)是通過最小值來搜索,然后再對其進(jìn)行修正,所以算法比較簡單。 實(shí)驗(yàn)仿真實(shí)驗(yàn)中采用了兩種帶噪語音文件,一種是信噪比為5dB的平穩(wěn)帶噪語音,噪聲為高斯白噪聲;,且實(shí)驗(yàn)中采用漢明窗,幀長20ms,幀間重疊50%,同時(shí)取頻率分量取5。圖中橫坐標(biāo)是時(shí)間,縱坐標(biāo)表示功率譜,實(shí)線表示真實(shí)的噪聲譜,虛線表示估計(jì)的噪聲譜。其仿真結(jié)果分別如圖37,圖38所示。圖41 真實(shí)噪聲譜和MS算法估計(jì)的噪聲譜 (5dB高斯白噪聲)圖42 真實(shí)噪聲譜和MS算法估計(jì)的噪聲譜 (信噪比從10dB突變?yōu)?dB)由上圖可知,當(dāng)噪聲和信噪比同時(shí)突變的情況下,此算法仍然不能快速跟蹤真實(shí)噪聲的變化。而且該算法可能會偶爾削弱低能量音素,時(shí)間太長,但如果減小窗口的長度,跟蹤到的頻譜最小值不夠準(zhǔn)確,這樣會導(dǎo)致語音信號的失真,特別是語音的持續(xù)時(shí)間超過窗口長度時(shí)。雖然此局限能夠得以克服,但是代價(jià)卻是很高的計(jì)算復(fù)雜度。 基于統(tǒng)計(jì)信息的非平穩(wěn)噪聲自適應(yīng)算法 概述在大多數(shù)語音增強(qiáng)算法中,都假定噪聲功率譜的估計(jì)是已知的,這些噪聲功率譜的估計(jì)或者噪聲參數(shù)的估計(jì)對所增強(qiáng)的語音信號有著極其重要的影響。如果噪聲功率譜估計(jì)太低,那么所殘留的噪聲干擾將會被聽得到。同樣,如果噪聲功率譜估計(jì)太高,那么語音信號質(zhì)量將會在很大程度上受到損害。最簡單的方法就是在純凈語音的間隙去估計(jì)和更新噪聲功率譜,例如,語音活性(VAD)算法,盡管這種方法在平穩(wěn)噪聲中(如白噪聲),可能
點(diǎn)擊復(fù)制文檔內(nèi)容
范文總結(jié)相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1