freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

語音信號端點檢測算法的研究畢業(yè)論文-在線瀏覽

2025-08-11 18:14本頁面
  

【正文】 增強中,語音端點檢測主要應用于基于單聲道的語音增強技術中,此時,噪聲源是不可接近的,背景噪聲的特性只能從帶噪語音中獲得,使用有音無音檢測技術分離出無音段,這時無音段主要的表現(xiàn)為噪聲特性,然后再通過某種統(tǒng)計方法,即可獲得對背景噪聲特性的近似估計[6]。在人們通常的對話過程中,聽起來連續(xù)的語音信號其實是由一系列的無音片斷和有音片斷組合起來的。在現(xiàn)代通信技術中,凡是涉及到語音通信的,都需要應用到語音端點檢測這一技術,并且這一技術的重要性不僅體現(xiàn)在日常語音通信中,更體現(xiàn)在科研和國防建設上。另外,有關國家安全保密工作,常需對某些通信線路進行監(jiān)控,在對眾多的線路進行監(jiān)控時,為了節(jié)約人力物力并且不遺漏可疑信息,語音端點檢測起到了至關重要的作用。由上面的分析可知,在有噪聲的背景下,語音端點的檢測非常重要,準確的端點檢測可以提高識別的準確率,并且提高系統(tǒng)的處理速度,用于語音增強中,可以進行準確的噪聲模型估計,在語音編碼中,可以降低編碼的平均比特率并降低功耗。對語音端點檢測的研究最早可以追溯到上個世紀的50年代。最近幾年,無線電話!免提式電話、IP電話越來越流行,這些通信設備大多工作于信噪比較低的環(huán)境中。語音端點的檢測方法主要分為基于模型和基于特征兩大類。例如,假設待檢測的語音幀為有用語音或者為噪聲的概率均為50%,如果在噪聲模型下計算出的概率為80%,而在語音模型下計算出的概率為20%,由于噪聲模型下計算出的概率大于語音模型下計算得出的概率,則可得出,所檢測的語音幀為噪聲,反之,如果在噪聲模型下計算出的概率為20%,而在語音模型下計算出的概率為80%,則可得出該幀為有用語音幀?;谀P偷恼Z音端點檢測方法過程比較復雜,而且實際環(huán)境多變,噪聲多種多樣,建立的語音和噪聲模型可能跟實際環(huán)境不匹配,對環(huán)境的適應能力較差,檢測準確率低。例如,Rabiner等人在1977年提出了一種基于LPC歐氏距離測度的端點檢測方法。LuLie等人[11]提出一種基于時域特征參數(shù)端點檢測方法一一用短時能量變化率來進行端點檢測。此方法的優(yōu)點是具有一定的魯棒性,但仍然存在信噪比低時的失效問題。為了提高實時通信中語音端點檢測系統(tǒng)的性能,文獻[12]提出了子帶統(tǒng)計濾波器的方法,通過子帶統(tǒng)計濾波器在頻域分別對噪聲和語音進行估計,再利用信噪比特征,根據(jù)設定的門限值進行語音和非語音的區(qū)分。文獻[14]中使用UMP(uniformly most powerful)根據(jù)LRT(likelihood ratio test)得出新的決策規(guī)則,再利用高斯分布和UMP對帶噪語音檢測語音段和非語音段[15]。語音信號處理是發(fā)展最為迅速的信息科學技術之一,人機通過語音交互越來越重要,而端點檢測作為語音處理的前端操作起著無可替代的作用。目前的端點檢測算法大多只針對語音的某一個特征進行檢測[17],大量的文獻調(diào)研與實際研究發(fā)現(xiàn),現(xiàn)有的各種語音信號端點檢測技術都存在各自的不足,在低信噪比下檢測結(jié)果不是很令人滿意,有待進一步深入研究。本文分別對基于熵的檢測方法和基于灰色模型的檢測方法進行改進,通過研究和實驗提出了基于距離熵的端點檢測方法和基于支持向量機的多特征端點檢測方法。第1章為緒論,主要介紹了語音端點檢測的研究背景、研究意義和研究動態(tài)。第3章介紹了已有的幾種語音端點檢測算法。第4章介紹基于距離熵的語音端點檢測方法,此方法對帶噪語音信號進行一系列變換,得到倒譜系數(shù),再根據(jù)倒譜系數(shù)計算歐式距離,最后利用歐式距離建立熵。 47第2章 語音信號處理基礎第2章 語音信號處理基礎 語音信號的數(shù)學模型與發(fā)出聲音有關的各個器官叫做發(fā)音器官,人的發(fā)音器官包括:肺、氣管、喉、咽、鼻和口,這些器官共同形成一條形狀復雜的管道。作用的方式有三種,第一種把從肺部呼出的直氣流變成音源,即變成交流的斷續(xù)流或者亂流;第二種是對音源起共振和反共振的作用,使它帶有音色;第三種是從嘴唇或鼻孔向空間輻射的作用。從聲門到嘴唇的呼氣通道是聲道,是聲道系統(tǒng),聲道的形狀主要由嘴唇!穎和舌頭的位置來決定,在說話的時候,聲門處氣流沖擊聲帶產(chǎn)生振動,然后通過聲道響應變成聲音,由于發(fā)不同音時,聲道的形狀不同,所以能夠聽到不同的語音語音從嘴唇輻射出去,所以嘴唇以外是輻射系統(tǒng)。激勵的情況不同發(fā)不同性質(zhì)的音,激勵大致分為兩大類:濁音激勵和清音激勵。第二,預濾波可抑制50Hz電源工頻的干擾預濾波器是一個帶通濾波器,有上下截止頻率FH和FL,F(xiàn)L為60~100Hz,采樣率為FS為8KHz。預加重的中心思想是利用信號特性和噪聲特性的差別來有效地對信號進行處理,目的是提升高頻部分,使信號的頻譜變得平坦,保持在低頻到高頻的整個頻帶中,能用同樣的信噪比求頻譜,以便于頻譜分析或聲道參數(shù)分析。 (22)值接近1,如果要恢復原信號,只要對預加重處理過的信號做去重處理便可以還原。目前絕大多數(shù)的語音信號處理技術均是在短時的基礎上對語音信號進行分幀處理,然后分別對每一幀提取特征參數(shù)段。如果采用較小的幀長,則幀數(shù)較多,計算量增加,系統(tǒng)處理的速度慢。圖22 幀長和幀移示意圖對語音信號進行分幀后要進行加窗操作,這是為了避免截斷效應。要克服這個問題,則要在分幀后對語音信號進行加窗。在語音信號處理中最常用的兩種窗函數(shù)是矩形窗和漢明窗,它們的表達式分別為:(l)矩形窗 (23)(2)漢明窗 (24)N表示窗長,窗函數(shù)的選擇對于短時分析參數(shù)的特性影響很大。一般來說選取窗函數(shù)的標準是:在時域因為是語音波形乘以窗函數(shù),所以要減小時域窗兩端的坡度,使窗口邊緣兩端不引起急劇變化而平滑過渡到零,這樣可以使截取的語音波形緩慢降為零,減小語音幀的截斷效應。漢明窗的主瓣寬度比矩形窗大一倍,帶外衰減也比矩形窗大一倍多,矩形窗的譜平滑性能較好,但損失了高頻成分,使波形細節(jié)丟失。對于時域來說,如果N很大,則相當于很窄的低通濾波器,語音通過時,反應波形細節(jié)的高頻部分被阻礙,短時能量隨時間變化很小,不能真實反應語音幅度變化;如果N很小,濾波器的通帶變寬,短時能量隨時間急劇變化,不能得到平滑的能量函數(shù),因此要合理的選擇窗口長度,N一般選擇為100~300。時域分析是最早使用,也是應用最廣泛的一種分析方法,因為,進行語音分析時,時域波形最先接觸而且也最直觀,表示語音信號物理意義明確,運算量少,容易實現(xiàn), 語音信號的時域參數(shù)有短時能量,短時幅度,短時過零率,短時自相關函數(shù),短時平均幅度差函數(shù)等,下面分別對這些時域參數(shù)進行簡單介紹。(2)可以區(qū)分聲母和韻母的分界,有聲和無聲的分界,連字的分界。短時過零率是指一幀語音中語音信號波形穿過零電平的次數(shù)。語音信號第n幀的短時過零率的計算公式為: (27)Sgn[]是符號函數(shù),計算方法見式(28)。濾波器分析語音信號的頻譜具有一些優(yōu)點,使用簡單,實時性好,受外界環(huán)境的影響小。圖23為帶通濾波器組法頻譜分析原理圖,語音信號輸入帶通濾波器,濾波器輸出為具有一定頻帶的中心頻率為的信號。由于語音信號的特性是隨著時間緩慢變化,所以采用短時傅里葉變換,相應的求得特征為短時頻域特征,這里的窗函數(shù)都使用漢明窗。 (29)語音的頻譜為的幅度,則有 (210)語音的短時功率譜的是幅度的平方,所以短時功率譜的計算方法為 (211)語音信號的倒譜分析是通過同態(tài)處理來實現(xiàn)的。由于語音信號可視為聲門激勵信號和聲道沖擊響應的卷積,可以對語音信號進行解卷。信號的倒譜也可以定義為信號的能量譜密度函數(shù)的對數(shù)的傅里葉級數(shù)展開式的系數(shù),見式(212)。熵H代表x的信息量,當x的分布概率相等時,熵取最大值,也就是說,的概率分布越模糊,越難判斷,H值也越大。(l)預處理:包括濾波,預加重,分幀,加窗等,這里要考慮濾波器參數(shù)的選擇,分幀時幀長長度的選擇,加窗窗函數(shù)的選擇。特征提取目的是將輸入信號轉(zhuǎn)化為特征參數(shù),然后利特征參數(shù)進行語音段與無聲段的區(qū)分。(3)確定門限:語音段最開始的幾幀一般為無聲段,根據(jù)無聲段的特征值大小確定門限值,一般選擇較大和較小兩個門限值Tmin和Tmax,且TminTmax,Tmin很容易被超過,數(shù)值較小,對信號變化很敏感,Tmax數(shù)值較大,語音信號要一定的強度才能超過。 影響語音端點檢測的原因及噪聲分類 影響語音端點檢測的原因?qū)嶋H環(huán)境中,影響語音端點檢測性能的因素主要有:(1)噪聲的影響實際環(huán)境中噪聲無處不在,甚至在安靜的實驗室中,敲打鍵盤聲!咳嗽都是噪聲,環(huán)境中的噪聲是復雜多變的,噪聲是非平穩(wěn)的隨機過程,其能量無法精確估計。信號取樣時,由于電平的變化,難于設置對各次實驗都適用的門限值。(3)人的動作的影響發(fā)音時,人的順嘴聲或其他某些雜音會使語音波形產(chǎn)生一個很小的尖鋒,并可能超過所設計的門限值,此時人呼吸的氣流也會產(chǎn)生較高電平。任何語言都有元音和輔音兩種音素,元音是當聲帶振動時發(fā)出的聲音,而后者是呼出的聲流,由于通路的某一部分封閉起來,氣流被阻,不能暢通。起點處是弱摩擦音時或終點處是鼻音時,語音的特性與噪聲極其相似,其中鼻韻還拖得很長。噪聲有加性噪聲和乘性噪聲[19]加性噪聲一般指熱噪聲、散彈噪聲等,它們與信號的關系是相加,不管有沒有信號,噪聲都存在,而乘性噪聲一般由信道不理想引起,它與信號的關系是相乘,信號在它在,信號不在它也就不在。乘性噪聲可以通過解卷積處理轉(zhuǎn)化為加性噪聲,所以一般只對加性噪聲加以討論。這些噪聲可能源于背景,例如汽車噪聲房間反射、街道講話、背景談話等,也可能由通信系統(tǒng)產(chǎn)生,如編碼、傳輸?shù)萚20]目前自動語音識別技術在車載電話通信、免提式語音識別等方面的應用逐漸廣泛,研究背景噪聲下的魯棒性語音端點檢測算法尤為重要。(1)穩(wěn)定噪聲:能量分布基本不隨時間改變的噪聲,例如,熱噪聲,機器穩(wěn)定轟鳴等,穩(wěn)定噪聲的能量序列是各態(tài)歷經(jīng)的平穩(wěn)高斯隨機序列。(3)脈沖噪聲:能量迅速升高并降低的噪聲,例如敲擊,撞擊,開門等,脈沖噪聲的能量只在短時間內(nèi)非零。(5)階躍噪聲:能量分布呈臺階式陡變的噪聲,例如電信信道的突變,機器的開啟或關閉等,在階躍點后可歸類為穩(wěn)定、緩變或波動噪聲。所有頻率具有相同能量的隨機噪聲稱為白噪聲,即功率譜密度在整個頻域內(nèi)均勻分布的噪聲,是一種功率頻譜密度為常數(shù)的隨機信號或隨機過程從耳朵的頻率響應聽起來它是非常明亮的“絲”聲(每高一個八度,頻率就升高一倍,因此高頻率區(qū)的能量也顯著增強)。相對的,其他不具有這一性質(zhì)的噪聲信號被稱為有色噪聲。實際上,常常將有限帶寬的平整訊號視為白噪音,這樣在數(shù)學分析上更加方便。例如,熱噪聲和散彈噪聲在很寬的頻率范圍內(nèi)具有均勻的功率譜密度,通??梢哉J為它們是白噪聲。高斯分布,也稱正態(tài)分布,記為,其中和為分布的參數(shù),分別為高斯分布的期望和方差。如果一個噪聲,它的幅度分布服從高斯分布,而它的功率譜密度又是均勻分布的,則稱它為高斯白噪聲。本章首先介紹了語音信號產(chǎn)生的數(shù)學模型,并簡單介紹了語音激勵產(chǎn)生的過程,接下來詳細的介紹了語音端點檢測加窗分幀等一些預處理,以及時域和頻域的一些基本特征,最后介紹了端點檢測的主要步驟和影響檢測效果的主要因素,為后面部分的研究提供了便利。由于語音是不穩(wěn)定的,所以,我們采用“短時能量”所謂短時能量,就是先對語音信號進行分幀處理,然后對每一幀分別求其能量。圖31 短時能量在清音無聲和濁音三種情況下條件概率密度函數(shù)示意圖從圖31中可以看出,在三種情況中,濁音的短時能量最大,清音的短時能量次之,無聲的短時能量最小。語音信號第i幀的短時能量可以用下面三種方法得到。短時能量的計算相對于提取語音信號其它特征而言,要簡單快捷得多?;诙虝r能量的語音端點檢測方法只適用于非常純凈的語音信號,在信噪比很高時,噪聲很小,背景噪聲對應的短時能量較小,接近于零,語音的能量比背景噪聲的能量大。比如背景噪聲比較嘈雜時或者有突發(fā)的噪聲時,或者有開關門聲、咳嗽聲以及機器轟鳴聲時,即使沒有語音,背景噪聲的短時能量仍然比較大。基于短時能量的端點檢測在不同分貝噪聲下的仿真圖如圖圖31 純凈語音仿真圖圖32 15分貝火車噪聲仿真圖圖33 10分貝火車噪聲仿真圖圖34 5分貝火車噪聲仿真圖圖35 0分貝火車噪聲仿真圖基于時頻方差和的端點檢測方法[25],其本質(zhì)就是分別計算某一幀信號時域和頻域能量的方差,然后對時域和頻域能量方差進行求和,將時頻方差和作為特征參數(shù)檢測語音起點和終點。1. 時域方差由于語音信號是不穩(wěn)定的,首先對語音信號進行預加重、分幀、加窗等一些預處理。 (34)N為幀長,為消除突發(fā)脈沖噪聲的影響,對N為幀長,為消除突發(fā)脈沖噪聲的影響,對Xt(m)進行平滑,得到,平滑方法見式(35)。 (39)使用公式(310)進一步對進行平滑。根據(jù)這一特征,可以很明顯地區(qū)分語音和噪聲。時頻方差和特征相當于交流能量,它包含了兩個信息,各頻帶間的起伏程度和這一幀信號的短時能量。因此,可以利用短時頻帶方差來判斷語音的起止點。圖36 純凈語音仿真圖圖37 15分貝火車噪聲仿真圖圖38 10分貝火車噪聲仿真圖圖39 5分貝火車噪聲仿真圖圖310 0分貝火車噪聲仿真圖有些端點檢測算法在安靜環(huán)境下,可以達到較好的檢測效果,但是,一旦處于強噪聲環(huán)境下,性能下降速度很快,特別是處于多種噪聲的情況下。解決這一問題有兩種方法,一種是尋找更具普遍性的可以區(qū)分語音和噪聲的特征,另一種是把多個特征結(jié)合起來,利用多個特征參量共同檢測出語音的起止點[26]。在信噪比較低或者在一些特殊情況下,例如當語音段的開始和結(jié)束都是弱摩擦音時,例如“四”字的開始段的能量就比較小,以鼻音結(jié)尾的語音,其末端的短時能量也比較小,它們都容易與噪聲混淆。短時能量特征需要和其它特征相結(jié)合使用。短時過零率是語音信號時域分析中較簡單的一種特征,它指每幀信號內(nèi)
點擊復制文檔內(nèi)容
醫(yī)療健康相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1