freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

語音信號端點檢測算法的研究畢業(yè)論文(編輯修改稿)

2025-07-21 18:14 本頁面
 

【文章內(nèi)容簡介】 信號的幅度超過該門限的時候,就認為語音開始,當(dāng)幅度降低到該門限以下就認為語音結(jié)束。基于短時能量的語音端點檢測方法只適用于非常純凈的語音信號,在信噪比很高時,噪聲很小,背景噪聲對應(yīng)的短時能量較小,接近于零,語音的能量比背景噪聲的能量大。只要根據(jù)短時能量,就可以很好的區(qū)分語音段和噪聲段[24],但在低信噪比的情況下,這種算法的效果就會顯著失效。比如背景噪聲比較嘈雜時或者有突發(fā)的噪聲時,或者有開關(guān)門聲、咳嗽聲以及機器轟鳴聲時,即使沒有語音,背景噪聲的短時能量仍然比較大。因為很難保證有足夠高的信噪比,僅憑短時能量特征無法有效的區(qū)分語音和背景噪聲?;诙虝r能量的端點檢測在不同分貝噪聲下的仿真圖如圖圖31 純凈語音仿真圖圖32 15分貝火車噪聲仿真圖圖33 10分貝火車噪聲仿真圖圖34 5分貝火車噪聲仿真圖圖35 0分貝火車噪聲仿真圖基于時頻方差和的端點檢測方法[25],其本質(zhì)就是分別計算某一幀信號時域和頻域能量的方差,然后對時域和頻域能量方差進行求和,將時頻方差和作為特征參數(shù)檢測語音起點和終點。由于系統(tǒng)是時變的,所以實際計算的同樣是短時時頻方差和。1. 時域方差由于語音信號是不穩(wěn)定的,首先對語音信號進行預(yù)加重、分幀、加窗等一些預(yù)處理。對于某幀語音信號,定義一個矢量,的表達式見式(34)。 (34)N為幀長,為消除突發(fā)脈沖噪聲的影響,對N為幀長,為消除突發(fā)脈沖噪聲的影響,對Xt(m)進行平滑,得到,平滑方法見式(35)。 (35)則平滑后的表示為 (36)則時域的均值為 (37)時域的方差為 (38)對方差進行取對數(shù)運算,得到。 (39)使用公式(310)進一步對進行平滑。 (310)2. 頻域方差語音和噪聲的頻譜特性差異是很大的在噪聲的頻譜中,各頻帶之間變化很平緩,這與“白噪聲”的稱謂相符,而語音則是“有色”的,各頻帶之間變化較激烈。根據(jù)這一特征,可以很明顯地區(qū)分語音和噪聲。對時域中的語音信號進行FFT變換,則得到頻域信號,頻域方差的計算方法與時域方差的計算方法一樣,先定義一個矢量 (311)對平滑后得到 (312)頻域的均值為 (313)頻域的方差為 (314)對取對數(shù)后得到 (315)進一步平滑得到 (316)通過分別對時域和頻域求得方差后,再把時域方差和頻域方差進行相加,則可求得時頻方差和特征。時頻方差和特征相當(dāng)于交流能量,它包含了兩個信息,各頻帶間的起伏程度和這一幀信號的短時能量。能量越大起伏越激烈,值就越大,反之,對于噪聲,能量越小,起伏越平緩,值越小。因此,可以利用短時頻帶方差來判斷語音的起止點。基于短時能量的端點檢測在不同分貝噪聲下的仿真圖如圖。圖36 純凈語音仿真圖圖37 15分貝火車噪聲仿真圖圖38 10分貝火車噪聲仿真圖圖39 5分貝火車噪聲仿真圖圖310 0分貝火車噪聲仿真圖有些端點檢測算法在安靜環(huán)境下,可以達到較好的檢測效果,但是,一旦處于強噪聲環(huán)境下,性能下降速度很快,特別是處于多種噪聲的情況下。產(chǎn)生這種現(xiàn)像的原因之一是這些算法只利用了語音的某一個特征,并沒有充分利用它的相關(guān)信息,有些語音特征只能在個別噪聲環(huán)境下具有較好的魯棒性。解決這一問題有兩種方法,一種是尋找更具普遍性的可以區(qū)分語音和噪聲的特征,另一種是把多個特征結(jié)合起來,利用多個特征參量共同檢測出語音的起止點[26]。使用多種特征進行端點檢測,能在不同信噪比下檢測效果更好[27]。在信噪比較低或者在一些特殊情況下,例如當(dāng)語音段的開始和結(jié)束都是弱摩擦音時,例如“四”字的開始段的能量就比較小,以鼻音結(jié)尾的語音,其末端的短時能量也比較小,它們都容易與噪聲混淆。研究表時,在以某些音為開始或結(jié)尾時,如當(dāng)弱摩擦音(如[f][h]等音素),弱爆破音(如[p]、[t]、[k]等音素)為語音的開頭,以鼻音(如[ng]、[n]、[m]為語音的結(jié)尾時,在這些情況下,僅靠短時能量來檢測語音段的起止點往往會漏掉某些音素。短時能量特征需要和其它特征相結(jié)合使用。比較常見的,短時能量與短時過零率結(jié)合起來一起進行端點檢測[28]。短時過零率是語音信號時域分析中較簡單的一種特征,它指每幀信號內(nèi)通過零值的次數(shù)。對于連續(xù)語音信號,過零意味著時域波形通過時間軸,而對于離散信號,如果相鄰兩點符號改變一次則為過零[29]。圖311 短時過零示意圖和短時能量一樣,短時過零率也是隨機參數(shù),對應(yīng)于無聲段!清音段以及濁音段,它們分別具有的短時過零率概率函數(shù)如圖312。圖312 短時過零在清音無聲和濁音三種情況下條件概率密度函數(shù)示意圖對于短時過零率,由于清音的多數(shù)能量出現(xiàn)在較高的頻率上,因此清音的過零率較高,而濁音語音具有高頻跌落的頻譜,所以濁音的過零率低,噪聲的過零率大小處于清音和濁音之間。短時過零率可以區(qū)別語音是清音還是濁音[30。31],它還可以從背景噪聲中找出語音信號?;诙虝r能量和短時過零率的端點檢測方法充分利用過零率和能量特點,使用過零率檢測清音,用短時能量檢測濁音,兩者配合,而且采用雙門限判定法來檢測語音端點。這種方法在高信噪比時,能十分有效的檢測出語音信號的端點,但是隨著信噪比的下降,檢測的準(zhǔn)確率下降,特別是在噪聲很大時,完全不能檢測出語音端點。基于短時過零率和短時能量的端點檢測在不同分貝噪聲下的仿真圖如圖。圖313 “長度”語音的仿真圖圖314 “圖像”語音的仿真圖在高噪聲環(huán)境下由于噪聲太大,語音檢測的準(zhǔn)確率往往很低,為了改善檢測結(jié)果的準(zhǔn)確率,在進行端點檢測之前先進行一定的去噪處理文獻[32]提出了一種降噪和端點檢測同步的方法,先利用譜減法進行降噪。譜減法是語音增強中最常用的一種方法,由于該算法的計算復(fù)雜度低,實時性強,一直受到了語音增強研究者的廣泛重視。譜減法假定加性噪聲和短時平穩(wěn)的語音信號相互獨立的條件下,從帶噪語音的功率譜中減去噪聲功率譜,從而得到較為純凈的語音頻譜。語音信號雖然是非平穩(wěn)隨機過程,但在10~30ms的分析幀內(nèi)可以近似看成是平穩(wěn)的如果能從帶噪語音的短時譜中估計出“純凈”語音的短時譜,則可達到增強的目的。由于人耳對語音信號相位的感受不敏感,所以只需估計出干凈語音的幅度,然后借用帶噪語音的相位近似代替干凈語音的相位,再進行傅里葉反變換就可得到增強的語音[33]。圖315語音短時譜估計原理圖圖315中是的傅里葉系數(shù),是傅里葉系數(shù)的估計值。一般情況下前十幀信號為無語音段,用最開始的十幀信號的噪聲來估計整個語音段的噪聲。以加性噪聲為代表進行分析,則干凈語音、噪聲、帶噪語音三者之間的加性模型滿足。 (317)其中帶噪語音信號, 為純凈語音,()進行傅立葉變換則相應(yīng)的得到則有: (318) (319)、表示對應(yīng)的帶噪語音、干靜語音和噪聲的功率譜,表示和的復(fù)共扼。按照開始的假設(shè),干靜語音和噪聲是不相關(guān)的,所以,和兩者的乘積為零,則式(319)可以簡化為 (320)由于平穩(wěn)噪聲的功率譜在發(fā)聲前和發(fā)聲期基本沒有變化,可以通過發(fā)音前的語音幀來估計噪聲的功率譜,于是,可以從帶噪語音的功率譜中估計出干凈語音的功率譜。 (321)為避免出現(xiàn)負功率,減譜時,如果小于,則令為零,即 (322)通常用最開始十幀信號的平均功率譜來近似代替,通過開方,則可以得到。 (323)對進行反傅里葉變換,就可以得到降噪后的語音信號。經(jīng)去噪處理后的語音再結(jié)合其它特征進行端點檢測。譜減法進行語音增強是較為傳統(tǒng)的方法,它對于整個語音段采用減去相同噪聲功率譜,.這樣處理的增強效果不是很理想,因為語音的能量一般集中在某些頻段,在這些頻段內(nèi)語音幅度較高,所以,使用譜減法進行增強后可能仍然會有較大的殘余噪聲,如果這些噪聲沒有消除掉的話就會產(chǎn)生純音噪聲。對于多特征端點檢測還有使用短時能頻積檢測的方法,短時能頻積是短時能量與相應(yīng)的短時過零率的乘積,利用短時能頻積進行檢測結(jié)果比單獨用短時能量或過零率的檢測效果更好。使用多種特征進行語音端點檢測成為這方面研究的一種趨勢,文獻[34]提出一種方法,綜合采用了語音信號中的4個相互之間獨立性強的特征:短時能量、倒譜距離、能量譜方差和能量熵特征,有效地改進傳統(tǒng)的基于單一語音特征方法的缺陷。文獻[35]提出了使用六種能量特征:全能量、聽覺頻率范圍的能量、高頻噪聲、峰值、LPC誤差能量和噪聲濾波后的能量。文獻[36]采用另一種應(yīng)用語音的多個特征參量的語音端點檢測算法,采用的語音特征參數(shù)是:短時能量、短時自相關(guān)和短時過零率,它針對漢語語音、非特定人、基于對噪聲的學(xué)習(xí),對白噪聲、脈沖噪聲、一般環(huán)境噪聲都有很好的魯棒性。基于譜減法端點檢測在不同分貝噪聲下的仿真圖如圖。圖316 “長度”語音的仿真圖圖317 “圖像”語音的仿真圖 本章小結(jié)本章詳細介紹了幾種語音端點檢測算法,包括基于短時能量的端點檢測算法、基于時頻方差和的端點檢測算法、基于多特征相結(jié)合的檢測算法。短時能量的檢測方法操作簡單,運算量小,但抗噪性弱,在信噪比稍低的環(huán)境時基本失去區(qū)分能力,適合于實時性要求高信噪比較高的情況?;跁r頻方差和的檢測算法結(jié)合時域和頻域的方差兩個特征,在頻譜分布比較均勻的噪聲環(huán)境下,如白噪聲,性能較好,但在非平穩(wěn)噪聲環(huán)境下性能下降?;诙嗵卣鞯臋z測方法結(jié)合多種特征,有效的增強了算法的魯棒性,但同時也增強了算法的復(fù)雜度。 第4 章 基于距離熵的語音端點檢測算 法 第4章 基于距離熵的語音端點檢測算法熵的概念,是由德國物理學(xué)家魯?shù)婪蚩藙谛匏乖?850年首次提出的,熵的英語名字為entropy,希臘語源意為“內(nèi)向”,表示一個系統(tǒng)不受外部干擾時往內(nèi)部最穩(wěn)定狀態(tài)發(fā)展的特性。先來看一個例子。設(shè)想有一組硬幣共10個,每一個硬幣有兩個面,擲出10個硬幣,每個硬幣可能正面向上或者是反面向上,兩個面是等價的,正面和反面朝上的概率都為1/2,擲硬幣時得到最有規(guī)律的狀態(tài)是10個都是正面或10個都是反面,這兩種狀態(tài)都只有一種構(gòu)型排列。反之,如果是最混亂的情況,有5個正面5個反面,排列構(gòu)型可以有252種。事件發(fā)生的不確定性與它發(fā)生的概率存在著密切的關(guān)系。對于小概率事件,它的不確定性大,而對于大概率事件,它的不確定性小。對于不確定性比較大的事件,其發(fā)生后提供的信息量也比較大,相反的,對于不確定性比較小的事件包含的信息量也就比較小。一個體系完全均勻分布時,這個系統(tǒng)的不確定性就達到最大值。熵用來表示任何一種能量在空間中分布的均勻程度,是一個系統(tǒng)混亂程度的度量。熵是一個重要的物理概念,隨著科學(xué)交叉與綜合化的發(fā)展,它又遠遠超出了物理學(xué)范圍,在自然科學(xué)和社會科學(xué)眾多領(lǐng)域里得到了廣泛應(yīng)用,并成為一些新學(xué)科的理論基礎(chǔ)。熵在控制論、概率論、數(shù)論、天體物理、生命科學(xué)等領(lǐng)域都有重要應(yīng)用,是十分重要的參量[37],在不同的學(xué)科中也引申出的更為具體的定義。1948年,香農(nóng)()把關(guān)于熵的概念引入信息論中,把熵作為一個隨機事件的不確定性的量度。香農(nóng)指出,一個隨機事件準(zhǔn)確信息量應(yīng)該等于,其中為隨機變量發(fā)生的概率。熵是信息論中用于度量信息量的一個概念,一個系統(tǒng)越是有序,熵就越低,反之,一個系統(tǒng)越是混亂,熵就越高[38]。對帶噪語音信號,經(jīng)過分幀,加窗,傅里葉變換等操作后,便可得到其頻率分量氣的能量譜,每個頻率分量的頻譜概率密度函數(shù)表示。 (41)式中N為FFT變換的長度,因為語音的能量主要集中在250Hz到6000Hz之間,為了增強概率密度函數(shù)區(qū)分語音和非語音的能力,對上式加入一些約束條件。 (42)則第m幀的熵H計算方法為 (43)使用譜熵進行語音端點檢測實質(zhì)是通過檢測譜的平坦程度來區(qū)分有用語音和噪聲譜熵具有如下特征,語音信號的譜熵不同于噪聲信號的譜熵,理論上,如果譜的分布保持不變,語音信號幅值的大小不會影響歸一化概率密度函數(shù)。但實際上,語音譜熵隨語音隨機性而變化,與能量特征相比,譜熵的變化是很小的。在某種程度上講,譜熵對噪聲具有一定的抗噪性。熵是一種具有魯棒性的特征,具有一定的抗噪能力,因此很多研究者對熵進行研究,例如:一種叫做近似熵的端點檢測方法。由熵的計算公式可以看出要得到熵特征,關(guān)鍵要獲得適當(dāng)?shù)母怕拭芏群瘮?shù)。本文對經(jīng)典的基于譜熵的檢測算法進行改進,提出一種基于距離熵特征的端點檢測算法。該算法通過一系列的變換得到每一點的倒譜系數(shù),再利用倒譜系數(shù)求得每一點的歐式距離,根據(jù)歐式距離計算概率密度函數(shù),最后將概率密度函數(shù)代入熵的計算公式求得距離熵,根據(jù)開始的和最后的無聲段的距離熵值的大小確定門限值,采用雙門限檢測出語音起止點。對帶噪語音進行幀長為L幀移為INC的分幀操作,得到其幀數(shù)為N,分幀后得到的結(jié)果是一個大小為(幀數(shù)*幀長)的二維矩陣。 (44)(例如第一行的數(shù)據(jù)是第一幀的所有點,每一幀有L個點,表示第一幀的第一點)。對分幀后的每一幀語音加漢明窗。圖41為幾種基于短時傅里葉變換譜之間的關(guān)系。從圖中可以看出,通過對預(yù)處理后的帶噪語音的時域信號進行傅里葉變換,可以得到其頻域譜,對)進行自乘操作,則可得到頻域功率譜,對功率譜取對數(shù),然后進行逆傅里葉變換,則可得到帶噪語音每一點的倒譜系數(shù)。圖41幾種基于短時傅里葉變換譜之間的關(guān)系c(n)也是一個N*L的二維矩陣,見式(45)。和y(n)類似,是第一幀所有點的倒譜系數(shù)。 (45)經(jīng)過觀察語音圖形可知帶噪語音的最前面一小
點擊復(fù)制文檔內(nèi)容
醫(yī)療健康相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1