freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

語音端點檢測算法的研究及matla程序仿真與實現(xiàn)畢業(yè)設(shè)計-文庫吧資料

2025-06-28 08:21本頁面
  

【正文】 量,利用前幾幀倒譜矢量的平均值可估計背景噪聲的倒譜矢量,噪聲倒譜矢量的近似值可按規(guī)則311進行更新,即當前幀被認為是非語音幀: (311),ct為當前測試幀的倒譜矢量, p為調(diào)節(jié)參數(shù)。實際上,由于c0包含信號能量信息,基于能量的端點檢測可以看作倒譜距離的一個特例。 倒譜距離設(shè)信號s(n) ,其倒譜變換為c(n)。噪聲環(huán)境下,短時能量和短時過零率顯得無能為力,而倒譜則能夠忽略噪聲大小的影響而直接從本質(zhì)上把語音信號和噪聲信號給區(qū)分開來。 基于倒譜特征的語音端點檢測 倒譜特征在語音識別系統(tǒng)中,不管是語音識別還是語音檢測,倒譜這個特征參數(shù)要比短時能量和過零率含有更高的信息量,也更容易與噪聲信號區(qū)分開來,因此有許多端點檢測的方法都是基于倒譜特征來進行的。圖36是對語音進行加噪,即通過matlab加1序列的白噪聲。如圖所示:圖35 高信噪比能零率的語音端點檢測圖36 低信噪比能零率的語音端點檢測因為是在比較安靜的環(huán)境的情況下錄得語音,所以信噪比比較高。首先先在比較安靜的環(huán)境下進行錄音,以模擬高信噪比的環(huán)境。文中加Hmmaing窗,通過特性為()的濾波器預(yù)加重。文中語音信號樣本是自己采用麥克風錄得語音“啊”,以wav格式存儲為較純凈的語音樣本。兩個語音字之間發(fā)音是有一定的時間間隔,因此也需設(shè)定最短靜音,如果處于靜音段,而其長度小于最短靜音,則認為語音還沒結(jié)束,繼續(xù)語音段的檢測。因此可以根據(jù)突發(fā)噪聲短時間性質(zhì),對語音長度設(shè)置一定的門限。我們所設(shè)置的最短語音和最短靜音就是為了防止一些突發(fā)性的噪聲。在靜音時,超過門限,則進入語音段,低于門限,進入結(jié)束。從步驟上來看,可以把一個語音信號分成四個階段,靜音、開始過渡結(jié)束四個階段。語音的開始和結(jié)束由于時間上的差異,信噪比也會有差異,這樣決定著門限選擇的復(fù)雜性。如果低于這個門限,則語音信號有可能進入語音結(jié)束,再往后搜索,如果繼續(xù)降低且低于較低的門限,則語音信號進入無聲階段。(3)當進入語音階段時,就開始判決語音信號的終止點。(2)由特征參數(shù)值,先選一個比較低一點的門限,進行最先的預(yù)判,如果低于這個門限肯定不是語音信號。隨后的幾幀一直大于這個值,而這幾幀大于最小語音值,則一定進入語音階段。通常每一個參數(shù)設(shè)兩個門限。但隨著噪聲的增加,過零率占有稍微好點的優(yōu)勢,等加到一定的程度后,這兩種方法都將失去檢測的效果?;诙虝r能量和短時過零率相結(jié)合語音端點檢測方法,充分利用能量和過零率的優(yōu)點,使用過零率區(qū)分清音和靜音。當然,這種高低僅是相對而言的,并沒有精確的數(shù)值關(guān)系。當發(fā)清音時,多數(shù)能量出現(xiàn)在較高頻率上,而高頻就意味著高的平均過零率。定義語音信號Xn(m)的短時過零率Zn為: (37)其中,sgn為符號函數(shù),即: (38)過零率有很重要的作用,如:用于粗略地描述信號的頻譜特性,就是用多帶濾波器將信號分為若干個通道,對各通道進行短時平均過零率和短時能量的計算。由語音信號的波峰波谷之間的變化,然后對其進行歸一化處理,波峰波谷之間的變化轉(zhuǎn)為穿過橫軸的次數(shù),也是穿過零軸的次數(shù),稱為短時過零率。對于高信噪比的語音信號,無語音信號的噪聲能量很小,而有語音信號的能量很大,設(shè)定某一數(shù)值,就可可以區(qū)分語音信號的起點和終點。短時能量函數(shù)可用來區(qū)分清音段和濁音段。下面是通過windows錄的語音“5”,并通過matlab仿真來計算語音短時能量。語音信號的短時能量可用以下幾種算法得到: (34) (35) (36)在計算機上實現(xiàn)仿真時,幅度表現(xiàn)為波形的高度,高能量的信號波峰高,而低能量的信號波峰比較低,進行端點檢測時,設(shè)置門限則根據(jù)波峰的高度來設(shè)置。濁音比起清音來,有較高的短時能量。明智的解決辦法就是每次取一段數(shù)據(jù),進行分析,然后再取下一段數(shù)據(jù),再進行分析,這樣通過語音信號與窗函數(shù)相乘等出一個類似窗的函數(shù)值,在此幀的前面幀和后面的幀都為零值,這樣是語音信號保持了短時性。為了處理語音信號,我們要對語音信號進行加窗,也就是一次僅處理窗中的數(shù)據(jù)。令,則有: (32)式中,h(n)為窗函數(shù),其有一定的長度。經(jīng)實驗發(fā)現(xiàn),濁音的短時能量最大,清音次之,靜音最小。語音信號不是穩(wěn)定的,所以要經(jīng)過分幀。因此通過兩種算法相結(jié)合的方法,在高信噪比下,進行語音端點檢測能有很好的效果。由于清音能量比較小,會常常把其與無聲混淆。算法以短時能量檢測為主,短時過零率檢測為輔。流程圖如圖32所示: 噪聲估計信噪比估計端點檢測短時能量和過零率熵譜算法倒譜算法 高信噪比 低信噪比圖32 算法研究流程圖 基于短時能量和短時過零率的語音端點檢測傳統(tǒng)常用的短時能量和過零率相結(jié)合的算法通常利用用短時能量來檢測濁音、短時過零率來檢測清音,或者兩者相配合以便實現(xiàn)語音信號信噪比較大情況下的端點檢測。因此在低信噪比下將選擇熵值或者倒譜特征參數(shù)來進行語音端點檢測。譜熵的大小取決的是功率譜的方差不是其大小,如果譜的分布保持不變,信號幅值的大小不會影響歸一化譜概率密度函數(shù),因而譜熵對于噪聲有一定的魯棒性。(4)距離和失真測度方法 最常用的是倒譜距離,由梅爾系數(shù)推出倒譜系數(shù),再得出梅爾倒譜距離,具有很好的語音檢測;(5)人工神經(jīng)網(wǎng)絡(luò)方法 包括基于前饋網(wǎng)絡(luò)、徑向基函數(shù)網(wǎng)絡(luò)、多層感知器網(wǎng)絡(luò)、自組織循環(huán)自組織模糊推理神經(jīng)網(wǎng)絡(luò)和自適應(yīng)線性神經(jīng)元網(wǎng)絡(luò)等的方法;(6)統(tǒng)計模型和模式分類方法 主要是指基于HMM模型。此外,基于自適應(yīng)門限的方法也歸入這一類;(2)變換域參數(shù)方法 包括基于頻域參數(shù)、時頻域參數(shù)及小波域參數(shù)的方法。但我們可以按照實際應(yīng)用的范圍分類,當然也可以按照所使用的特征參數(shù)準則分類。以上特征分別是從語音端點檢測的自適應(yīng)性、準確性、穩(wěn)定性、和運算量上對算法提出要求。最初為單門限,后逐漸改為雙門限,隨著科技的發(fā)展,又轉(zhuǎn)變?yōu)槟:碚摶蛘叨嗵卣鲄?shù)相結(jié)合的方式。設(shè)定一定的門限后,當超過設(shè)定值,而且超過最小語音段的幾幀也可以超過設(shè)定值,則會被認為是語音信號。語音端點檢測流程如圖31所示:預(yù)處理參數(shù)提取端點判決是否信號最后一幀后處理 信號輸入 是 結(jié)果輸出圖31 語音端點檢測流程圖噪聲信號常常為說話人周圍的噪聲,不同環(huán)境下的噪聲信號也不同,所以特征參數(shù)會有變化。人的語音又可以分為清音和濁音兩類,其在能量上就可以分出來,而清音和濁音在短時過零率上可以分別出來。這兩者在頻率、能量上有很大的差別。語音是人體所發(fā)出的聲音,其物理原理是源于聲帶的振動。參數(shù)提取意義在于提取的參數(shù)能夠分辨出語音和非語音信號。端點判決就是根據(jù)噪聲和語音特征參數(shù)的不同,設(shè)置一定的門限,再設(shè)置一些相應(yīng)的最短語音段以方便檢測。通常分幀時會有幀與幀之間的幀移,以防止信號的突變,影響端點檢測。得到一個語音信號,先對其進行預(yù)處理,使低頻和高頻在信噪比參數(shù)上表現(xiàn)的平滑,易于檢測。因此,語音端點檢測的速度和準確率在語音處理系統(tǒng)中會非常重要,因此進一步的對語音端點檢測算法的研究,有一定的現(xiàn)實意義。在語音識別系統(tǒng)中,正確的檢測出語音端點,不僅能夠快速且準確的進行語音識別,而且能夠減小計算量,排除無聲段干擾,實驗發(fā)現(xiàn),不管在什么環(huán)境或者什么樣信噪比的環(huán)境下,語音端點檢測的錯誤將導(dǎo)致語音識別的錯誤。 語音端點檢測 簡述語音端點檢測是語音識別中的一個很重要的步驟,所謂語音端點檢測就是將輸入的語音信號從背景噪聲和環(huán)境噪聲中能夠準確地判斷出語音信號中各種語音的起始點和結(jié)束點。語音信號為時域信號,分幀則有助于計算語音信號的各個參數(shù)特征,可以對語音信號進行平滑處理,是進行語音端點檢測必不可少的步驟。介紹了語音信號前期處理的兩個步驟:預(yù)加重、加窗分幀。它們的定義如下: 矩形窗: (210)漢明窗: (211)漢寧窗: (212)式中N為窗長,窗函數(shù)的選取(形狀和長度)對于短時分析參數(shù)的特性影響很大,為此應(yīng)該選擇合適的窗口,使其短時參數(shù)能更好地反映語音信號的特性變化。分幀用可移動的窗口長度進行加權(quán)實現(xiàn),即用窗函數(shù)乘以語音信號s(n),從而形成加窗的語音信號: (29)由于窗函數(shù)一般取為S(n)中間大兩頭小的光滑函數(shù),這樣的沖激響應(yīng)所對應(yīng)的濾波器具有低通特性,其帶寬和頻率取決于窗函數(shù)的選取。分幀一般采用交疊分段的方法,這就是為了使幀與幀之間能夠很好的平滑過渡,使其保持連續(xù)性。重疊是為了是語音信號各幀之間保持平滑,差別不至于太大,更符合人們的語音特征。通常將語音信號劃分為許多短時的語音時段,每個短時的語音段稱為一個幀。但至于選幀,則需要根據(jù)實時而定,不同的算法也會有不同的窗長。如果采用小的窗長,則計算量增加,語音識別的速度可定會降低。 加窗分幀語音端點檢測首先要進行加窗分幀處理,然后依次判斷每一幀的信號是否為語音的起點或終點。目的是提升高頻部分,使信號變得平坦、平滑,使之不僅在低頻而且在高頻的整個頻帶中,:采樣量化預(yù)加重加窗分幀參數(shù)提取語音信號 語音信號的預(yù)處理預(yù)加重是在語音信號數(shù)字量化之后,用具有6dB/倍頻程的提升高頻特性的預(yù)加重數(shù)字濾波器來實現(xiàn),它通常是一階的數(shù)字濾波器: (28)式中的取值一般取1左右。平均來說,幅度較小的高頻分量產(chǎn)生的頻偏小得多。這就造成消息信號高頻端的信噪比可能降到不能容許的程度。語音信號的預(yù)處理應(yīng)保證處理后得到的信號更平滑、均勻,而且能提高語音的質(zhì)量。線性預(yù)測的原理與語音信號數(shù)字模型相關(guān)。這組預(yù)測系數(shù)就反應(yīng)了語音信號與噪聲不同的參數(shù)特征,根據(jù)這種參數(shù)特征,就可以進行語音端點檢測和語音識別等一系列語音信號的處理。設(shè)是取有限個值的隨機變量則取的概率函數(shù)通常表示為: (26)則的熵為: (27) 線性預(yù)測法 線性預(yù)測分析的基本原理如下:語音信號分幀采樣后,各個語音樣點之間存在著聯(lián)系,可以用前幾幀的采樣點來預(yù)測當前幀或者后幾幀的樣點值,即可以用先前的幀的參數(shù)值通過線性組合來近擬后面的幀的采樣值。信號的倒譜也可以定義為信號的能量譜密度函數(shù)的對數(shù)的傅里葉級數(shù)展開式的系數(shù),見式24: (24)即為倒譜系數(shù),通過倒譜系數(shù)求得倒譜距離為: (25)(3)熵 熵(用表示)是物質(zhì)的概率程度的一種反映。由于語音信號可以視為聲門激勵信號和聲道沖擊響應(yīng)進行的卷積,隨后可以對語音信號進行解卷。(1)短時頻譜和短時功率譜 設(shè)信號經(jīng)過傅里葉變換后在頻域記為,則與關(guān)系如公式(21): (21)語音的頻譜為的幅度,則有: (22)語音的短時功率譜的是幅度的平方,其公式為: (23)(2)倒譜距離 語音信號的倒譜分析是通過同態(tài)處理來實現(xiàn)的。對加窗分幀后的語音信號,進行傅里葉變換后再逆傅里葉變換,可以相應(yīng)的得到頻譜、功率譜、倒譜距離、熵譜等特征。 頻域分析語音信號頻域分析,主要是對一些頻域參數(shù)進行分析,常用一些頻域參數(shù)的有頻譜、功率譜等等,最常用頻域分析的方法有傅立葉變換法、線性預(yù)測法等。這種分析方法的特點有:(1)表示語音信號比較直觀、物理意義明確;(2)實現(xiàn)起來比較簡單、運算量少;(3)可得到語音的一些重要參數(shù);(4)采用示波器通用設(shè)備進行觀測等。進行語音信號分析時,先接觸到并且直觀的就是它的時域波形。 時域分析從一般的語音信號處理仿真來看,橫坐標都是為時間,所以說,語音信號是時域信號,經(jīng)常處理的語音信號也是基于時域來分析的,這種方法一般就是利用仿真的波形來處理。參數(shù)的提取,方法的創(chuàng)新,這都基于語音科技的發(fā)展。還有一類是無聲,而無聲是處于波谷。雖然中國與外國人的發(fā)音有所不同,但從音素上來說都是一樣的。語音信號還有一個比較簡單的分類,是基于人類發(fā)音的音素所分類的。我們在進行語音處理過程中,所用到的參數(shù)都是短時內(nèi)的參數(shù)特征,因此在預(yù)處理過程,必須有使信號保持短時的過程,即分幀,就是分為一個一個的短時。因為語音信號只有在短時內(nèi)才能保持它的穩(wěn)定和平滑。如果想要更為精準的采樣或者更為完全的采樣域,我們可以相應(yīng)的提高采樣率或者提高采樣范圍,現(xiàn)在的語音檢測現(xiàn)狀都不在時傳統(tǒng)的采樣率,而是調(diào)整為自適應(yīng)。我們可以對語音通過帶通濾波器來得到我們所需要的頻譜,就可以得到相應(yīng)頻譜所對的語音。語音端點檢測是語音識別系統(tǒng)的前期處理,而語音信號的分析則是語音端點檢測的前期處理。對這種信號進行Matlab進行編程,對于不同信噪比的聲音片段,最后用前后的噪聲信號進行對比以得出結(jié)論。分析了語音信號的時域和頻域,介紹了幾種語音端點檢測算法,簡述了我的實施方案。這兩大問題將是以后研究的主要對象[18]。根據(jù)語音信號參數(shù)的特點可以從兩個較大方向入手。我們常常尋求新的方法,新的算法,或者在新算法上研究新的方法,更容易對人類聲音的識別,或者更適于人耳聽覺系統(tǒng)的算法。當前,語音端點檢測技術(shù)還處于比較初級階段,許多領(lǐng)域還有待解決,還遠遠跟不上現(xiàn)
點擊復(fù)制文檔內(nèi)容
研究報告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1