freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于matlab的語音信號的端點檢測畢業(yè)論文(編輯修改稿)

2025-04-03 09:55 本頁面
 

【文章內(nèi)容簡介】 些音素,從而更好的檢測出語音的端點。 短時平均能量 語音和噪聲的主要區(qū)別在它們的能量上,所以能量是經(jīng)常使用的音頻特征參數(shù),是對語音信號最直觀的表示。語音信號一般可分為無聲段 (靜音段 )、清音段和濁音段。由于語音是不穩(wěn)定的,所以我們采用“短時能量” 。 所謂短時能量 [9] [10],就是先對語音信號進行分幀處理,然后對每一幀分別求其能量。短時能量是隨機參數(shù),在無聲段,清音段和濁音段,它們分別具有不同的概率密度函數(shù),圖 給出了短時能量在清音、無聲和濁音三種情況下的條件概率密度函數(shù)。 14 圖 短時能量在清音無聲和濁音三種情況下條件概率密度函數(shù)示意圖 從圖 中可以看出,在三種情況中,濁音的 短時能量最大,清音的短時能量次之,無聲的短時能量最小。 n 時刻某語音信號 {x(n)}的短時平均能量定義為 : ? ?2)()(????? ??? mn mnmxE ? ( 31) 式中, )(n? 為漢明窗。 令 )()( 2 nnh ?? ,則有 : ????? ??? mn mnhmxE )()(2 ( 32) 式中, )(nh 為可移動的有限長度的窗 函數(shù),用來實現(xiàn)分幀處理 ,是低通濾波器的單位沖激響應。上式表明,經(jīng)過窗口加權的短時能量相當于將“語音平方”信號通過一個線性濾波器的輸出,這個濾波器的取樣響應為 )(nh 。 短時能量函數(shù)可用來區(qū)分清音段和濁音段 。 nE 值大的對應于濁音段,而 nE 值小的對 應于清音段。對于高信噪比的語音信號,無語音信號的噪聲能量 nE 很小, 而 nE語音信號的能量顯著增大到某一數(shù)值,由此可以區(qū)分語音信號的起始點和結束點。 語音信號的短時平均幅度 [11]定義為 : ????? ??? mn mnmxM )()( ? ( 33) nE 和 nM 都反映語音信號的強度,但是其特性有所不同。在實際應用中往往很難 15 保證有很高的信噪比,而且在某些特殊情況下,如當語音段的開始和結束都是弱摩擦音、爆破音或語音段末尾是鼻音時,這些音的短時能量一般很小,往 往與背景噪聲處于相同的電平。在這些情況下,只依靠短時能量或短時平均幅度來檢測語音段的起止點常常會把語音信號起始和末尾的這些音素漏掉。因此, Rbainezr 提出了在短時能量的基礎上結合短時平均過零率的雙門限端點檢測算法。 語音信號的短時能量可用以下幾種算法得到: 1 ()NnniE x i??? ( 34) 21 ()NniiE x i??? ( 35) 21 log ( )NniiE x i??? ( 36) 它們分別為絕對值的累加、平方累加和平方的對數(shù)的累加 [12] [13],本文采用的是絕對值的累加進行計算的, 本文在 MATLAB 軟件 中實現(xiàn)求語音短時 能量 的關鍵代碼為 %計算短時能量 amp = sum(abs(enframe(filter([1 ], 1, x), FrameLen, FrameInc)), 2)。 通過 MATLAB 仿真得出 其短時能量值幅度 如圖 所示: 圖 短時能量波形圖 16 從圖中可以看出“端點檢測”語音信號中語音部分的能量是最高的,而語音部分又分成靜音段、清音段、濁音段。短時能量函數(shù)可用來區(qū)分清音段和濁音段。 nE 值大的對應于濁音段,而 nE 值小的對應于清音段。 對于高信噪比的語音信號,無語音信號的噪聲能量很小,而有語音信號的能量 nE 顯著增大到某一數(shù)值,由此可以區(qū)分語音信號的起始點和結束點。 短時過零率 短時過零率表示一幀語 音信號波形穿過橫軸 (零電平 )的次數(shù) [14]。過零分析是語音時域分析中最簡單的一種。對于連續(xù)語音信號,過零即意味著時域波形通過時間軸 。而對于離散信號,如果相鄰的取樣值改變符號則稱為過零。過零率就是樣本改變符號的次數(shù)。定義語音信號 )(mXn 的短時過零率 nZ 為 : ? ? ? ???? ???10 )1(s g n)(s g n21 Nm nnn mxmxZ ( 37) 其中, sgn 為符號函數(shù),即: ? ? ??? ?? ?? 0)(,1 0)(,1)(s g n nxnxnx ( 38) 過零率有三類重要應用 : 第一,用于 粗略地描述信號的頻譜特性,就是用多帶濾波器將信號分為若干個通道, 對各通道進行短時平均過零率和短時能量的計算,即可粗略地估計頻譜特性。 第二,用于判別清音和濁音、有話和無話。 第三,區(qū)分清音和濁音,對語音信號進行分析,發(fā)現(xiàn)發(fā)濁音時,盡管聲道有若干個共振峰,但由于聲門波引起譜的高頻跌落,所以其語音能量約集中在 3kHz 以下。而發(fā)清音時,多數(shù)能量出現(xiàn)在較高頻率上。高頻就意味著高的平均過零率,低頻就意味著低的平均過零率,所以可以認為濁音時具有較低的過零率,而清音時具有較高的過零率。當然,這種高低僅是相對而言的,并沒有精確的數(shù)值關系。 本文在 MATLAB 軟件 中實現(xiàn)求語音短時過零率的關鍵代碼為 %計算過零率 tmp1=enframe(x(l:length(x)l), FrameLen, Framelne)。 tmp2=enframe(x(2:length(x)), FrameLen, Framelne)。 signs=(tmp1.*tmp2)0。 diffs=(tmp1tmp2)。 17 zcr=sum(signs.*diffs, 2)。 和短時能量一樣,短時過零率也是隨機參數(shù),對應于無聲段、清音段以及濁音段,它們分別具有的短時過零率概率函數(shù)如圖 所示 。 圖 短時過 零率在清音無聲和濁音三種情況下條件概率密度函數(shù)示意圖 對于短時過零率,由于清音的多數(shù)能量出現(xiàn)在較高的頻率上,因此清音的過零率較高,而濁音語音具有高頻跌落的頻譜,所以濁音的過零率低,噪聲的過零率大小處于清音和濁音之間。短時過零 率可以區(qū)別語音是清音還是濁音,它還可以從背景噪聲中找出語音信號,如下圖 所示: 圖 語音信號短時過零率波形圖 18 從圖 中可以看出“端點檢測”語音信號的過零率,在語音信號中清音段的過零率情況,圖中幅度變化反映了過零率次數(shù)的高低。另外,利用短時過零率還可以從背景噪聲中找出語音 信號,判斷寂靜無聲段和有聲段的起點和終點的位置。在背景噪聲較小時用短時平均能量識別較為有效,而在背景噪聲較大時用短時平均過零率識別較為有效。 基于短時能量和短時過零率的雙門限語音端點檢測方法充分利用能量和過零率的優(yōu)點,使用過零率檢測清音,用短時能量檢測濁音,兩者配合來進行語音端點檢測。這種方法在高信噪比時,能有效的檢測出語音信號的端點,但是隨著信噪比的下降,檢測的準確率下降,特別是在噪聲很大時,完全不能檢測出語音端點。 基于短時能量和短時過零率的雙門限端點檢測原理 雙門限法是利用短時能量和過零率的 乘積進行檢測的 。在 基于短時能量和過零率的雙門限端點檢測算法中首先為短時能量和過零率分別確定兩個門限,一個為較低的門限,對信號的變化比較敏感,另一個是較高的門限。當?shù)烷T限被超過時,很有可能是由于很小的噪聲所引起的,未必是語音的開始,當高門限被超過并且在接下來的時間段內(nèi)一直超過低門限時,則意味著語音信號的開始。 本文采用短時能量和短時過零率相結合的方法, 利用短時能量和短時過零率兩個門限來確定語音信號的起點和終點, 目的是從采集到的語音信號中分離出真正的語音信號作為系統(tǒng)處理的對象。 該算法的原理簡述如下 : 對上 述兩種特征作一個統(tǒng)計估計,得到兩個門限值,利用短時能量檢測濁音,短時過零率檢測清音,兩者配合從而確定語音的端點。由于采集的聲音信號中最初的短時段多為無聲或背景噪聲,這樣就可以利用已知為“靜態(tài)”的最初幾幀 (一般取 10 幀 )信號計算其過零率閥值 zcr 及高、低能量閥值 amp2(低能量閥 )和 amp1 (高能量閥 )。過零率公式 [ 15]: ??? ??? 11 )1()()( Nn ii nxnxizc r ( 39) 計算 amp2 和 amp1 時,首先計算最初 10 幀信號中每幀的短時平均能量或平均幅度 E ,最大值記為 max,最小值記為 min。 本文在計算短時能量之前,先經(jīng)過一個濾波器,高通濾波器,此為預加重濾波器,目的在于濾除低頻干擾 ,尤其是 50Hz 或 60Hz 的工頻干擾,將對于語言識別更為有 19 用的高頻部分的頻率進行提升,在計算短時能量之前應用該濾波器,還可以起到消除直 流 漂移 、抑 制隨 機 噪聲 和提 升清 音部 分能 量 的效 果。 其關 鍵代 碼 為amp=sum(abs(enframe(filter([],1,x),FrameLen,FrameInc)),2)。文中能量門限調(diào) 整代碼為: amp1=min(amp1,max(amp)/4)。 amp2=min(amp2,max(amp)/8)。 根據(jù)語音信號的實際情況對門限值進行調(diào)整,以便更好的對語音端點進行檢測。 其端點檢測的流程如下所述:開始進行端點檢測之前,首先為短時能量和過過零率分別確定兩個門限 amp amp zcr zcr2, 其中 amp zcr2 分別為短時能量和過零率比較低的門限,其數(shù)值比較小,對信號的變化比較敏感,很容易就會超過。另外 amp zcr1 是比較高的門限, 數(shù)值比較大,信號必須達到一定的強度,該門限才可能被超過。低 門 限被超過未必就是語音信號的開始,有可能是時間很短的噪聲引起的。高門限被超過則可以基本確信是由于語音信號引起的。 整個語音信號的端點檢測可以分為四段:靜音、過度段、語音段、結束。程序中使用一個變量 status 來表示當前所處的狀態(tài)。在靜音段,如果能量或過零率超越了低門限,就應該開始標記起始點,進入過渡段。在過渡段中,由于參數(shù)的數(shù)值比較小,不能確信是否處于真正的語音段,因此只要個參數(shù)的數(shù)值都回落到低門限以下,就可以確信進入語音段落。而如果在過渡段中兩個參 數(shù)中的任一個超過了高門限,就可以確信進入語音段了。 一些突發(fā)性的噪聲也可以引起短時能量或過零率的數(shù)值很高,但是往往不能維持足夠的長的時間,如門窗的開關、物體的碰撞等引起的噪聲。這些都可以通過設定最短時間門限來判別。當前狀態(tài)處于語音時,如果兩個參數(shù)的值下降低到低門限以下,而且總的記時長度小于最短時間門限,則認為這是一段噪音,繼續(xù)掃描以后的語音數(shù)據(jù),否則就標記好結束端點,并返回。 現(xiàn)以孤立 “檢” 字的發(fā)音為例 , 說明雙門限檢測法的原理 , 如圖 1 所示。該方法需做出兩級判斷 : 首先利用濁音的短時能量最大的特點 , 由 能量定位語音的大致位置。根據(jù)語音短時能量設定一個較高的門限 T H , 若信號的能量大于 T H , 則可確定2 個端點 A 、 B, 并可認為這 2個端點之間是語音信號 , 這樣相當于完成初判。再根據(jù)背景噪聲的平均能量設定一個比 TH 稍低的門限 T L , 如果信號的能量大于 TL ,則所對應的端點 C、 D 之間仍是語音信號 , 至此完成了第一級判斷。接下來進行第二級判 20 斷 , 由于語音的起點很可能是能量很弱的清音 , 此時還采用短時能量來區(qū)分清音和無聲顯然已不合適 , 應采用過零率。根據(jù)短時過零率設定一個新的較低門限 T , 求越過 該門的過零率 , 從 C、 D 兩點分別向前、向后搜索 ,找到短時平均過零率與門限 T 的2個交點 E 、 F, 這 2個點就是語音的真正起點和終點 [16] 。 圖 雙門限檢測法原理示意圖 雙門限語音端點檢測實驗 仿真及 分析 實驗環(huán)境及參數(shù)設置 雙門限語音端點檢測是在 MATLAB 軟件環(huán)境下進行仿真實驗。文中語音信號樣本是在實驗室安靜環(huán)境下采用麥克風進行錄音,以 wav 格式存儲為較純凈的語音樣本。在語音端點檢測之前首先要對被測的語音信號進行預處理等,包括分幀加窗等。文中加 Hmmaing 窗,通過特性為 ( 1?? )的濾波器預加重。對其他參數(shù)進行設置,如設置語音幀長度,幀移長度, FFT 取 512,門限閥值 設 置等。 實驗分析 基于短時能量和短時過零率的雙門限語音端點檢測算法是結合短時能量和過零率 各自優(yōu)點來 進行檢測, 根據(jù)上述方法進行實驗仿真,程序代碼在附錄中給出,其仿真結果如下 : 21 1 2 3 4 5 6 7 8 9x 1 04101Speech1 2 3 4 5 6 7 8x 1 04010Energy1 2 3 4 5 6 7 8x 1 040100ZCR 圖 上述實驗結果較好地展示了雙門限檢測法的工作原理 : 首先利用短時平均能量門限值 ( 先高后低 ) 定位語音端點的大致位置 [17] [18], 之后再利用短時過零 率門限尋找端點的精確位置 , 從中可看出實驗效果還是基本讓人滿意的。 4 分析總結 語音信號端點檢測是語音信號處理中非常重要的一項預處理技術,因此是語音信號處理中不可缺少的一步。本文主要圍繞端點檢測方法進行研究, 詳細闡述短時能量和短時過零率結合
點擊復制文檔內(nèi)容
環(huán)評公示相關推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1