freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

語音端點檢測算法的研究及matla程序仿真與實現(xiàn)畢業(yè)設(shè)計-文庫吧

2025-06-07 08:21 本頁面


【正文】 9第3章 語音端點檢測算法研究 10 語音端點檢測 10 簡述 10 語音端點檢測原理 10 語音端點檢測算法及實施方案 12 基于短時能量和短時過零率的語音端點檢測 14 短時平均能量 14 短時過零率 16 基于短時能量和短時過零率的雙門限端點檢測 17 雙門限語音端點檢測實驗 19 基于倒譜特征的語音端點檢測 20 倒譜特征 20 倒譜距離 20 倒譜距離的檢測算法流程 23 基于倒譜特征的語音端點檢測試驗分析 25 基于譜熵的語音端點檢測 26 譜熵特征 26 基于譜熵的端點檢測流程 27 基于譜熵特征的語音端點檢測試驗分析 28 算法比較 30 本章小結(jié) 33結(jié) 論 35參考文獻(xiàn) 36致 謝 37附錄1 39附錄2 45附錄3 53附錄4 61附錄5 69V第1章 緒論 第1章 緒論 課題背景語音端點檢測在語音識別中占有十分重要的地位。語音信號處理中的端點檢測技術(shù),是指從一句簡單的話語中檢測出每一個字體或字節(jié)的兩個端點。是進(jìn)行其它語音信號處理(如語音識別、講話人識別等)關(guān)鍵的第一步。進(jìn)行有效的語音端點檢測能夠?qū)φZ音信號更好的進(jìn)行分析和訓(xùn)練,這樣語音識別才能有好的識別率[1]。實際運用中,通常要求首先對系統(tǒng)的輸入信號進(jìn)行判斷,準(zhǔn)確地找出語音信號的起始點和終止點。這樣才能采集真正的語音數(shù)據(jù),減少數(shù)據(jù)量和運算量,并減少處理時間。目前,語音技術(shù)進(jìn)入了一個相對成熟點,很多廠商和研究機構(gòu)有了語音技術(shù)在輸入和控制上令人鼓舞的演示,輸入的硬件和軟件平臺環(huán)境也日益向高級化邁進(jìn),但語音技術(shù)比起人類聽覺能力來還相差很遠(yuǎn),其應(yīng)用也才剛剛開始,進(jìn)一步規(guī)范和建設(shè)語音輸入的硬件通道、軟件基本引擎和平臺,使語音技術(shù)能集成到需要語音功能的大量軟件中去。而且語音產(chǎn)業(yè)需要更加開放的環(huán)境,使有興趣和實力的企業(yè)都能加入到這方面的研究和開發(fā)中,逐步改變。隨著聲控電子產(chǎn)品的不斷研發(fā),語音識別技術(shù)在開發(fā)和研究上還有大量的工作需要做。 語音端點檢測現(xiàn)狀一個比較好的語音識別或者語音端點檢測,不僅僅在其所用到的算法。大多數(shù)的語音識別都是對整個系統(tǒng)影響是非常大的,不僅僅是語音識別,也包括語音端點檢測。平常的用于實驗的也許差不多少,但對于一些高精度的檢測或者識別則謬以千里。語音識別都是基于不同算法而進(jìn)行的,所以每一種識別都要與不同算法相匹配。因此從信號段中檢測出語音信號或者語音端點是語音識別的必要的預(yù)先處理過程[2]。隨著科技的進(jìn)步,技術(shù)的發(fā)展。語音識別、語音檢測、語音合成都進(jìn)入了一個跟高的階段,語音識別在手機電腦上的應(yīng)用也雖著科技進(jìn)步而上升。然而,在一些比較嘈雜的環(huán)境下,或者專業(yè)一點的技術(shù)上的識別,隨著信噪比的降低,噪聲污染的多樣性,噪聲環(huán)境下的語音識別會大大的降低[4]。如,在我們身處的環(huán)境下,開門聲、風(fēng)扇、水聲等等,都算背景噪聲。而語音信號所處理的信號時一些純語音信號,或者是把一些背景噪聲降下去。而語音端點檢測就是在語音中檢測出語音信號和非語音信號,并把語音信號的兩個端點給標(biāo)記處理。語音端點檢測是語音識別、語音增強以及語音編碼等中的一個非常重要的環(huán)節(jié)而且必不可少的。有效的端點檢測技術(shù)不僅能減少系統(tǒng)的處理時間、提高系統(tǒng)的處理實時性,而且能排除無聲段的噪聲干擾,從而使后面工作的性能得以較大提高[5],[6]。隨著越來越多的學(xué)者對語音端點檢測技術(shù)的關(guān)注,大量的新的語音端點檢測算法相繼被提出,而基于同一種算法又有不同的方法。例如對于熵值參數(shù)特征的檢測算法,有基于信息熵[7],[8]、基于自適應(yīng)子帶譜熵[9]、子帶二次譜熵[10]、基于小波能量熵[11]、基于樣本熵等的方法[12]。信息愈來愈趨近多樣化。同樣也有檢測不同參數(shù)特征相結(jié)合來進(jìn)行語音端點檢測[13],比如倒譜的方法[14],[15]和熵譜相結(jié)合而形成的算法[16]。盡管算法和方法多種多樣,都是為了更簡便、更易于實現(xiàn)、運算量小、魯棒性好等特點,并且對于不同的信噪比具有較好的效果。 相關(guān)工作隨著生活品質(zhì)的不斷提高,對聲控產(chǎn)品的要求越來越高?;谡Z音端點檢測的識別系統(tǒng)則有不可替代的作用,在不同的聲控產(chǎn)品語音識別系統(tǒng)中,有效準(zhǔn)確地確定語音段端點不僅能使處理時間減到最小,而且能排除無聲段的噪聲干擾,從而使識別系統(tǒng)具有良好的性能。通過大量的文獻(xiàn)調(diào)研與實際研究發(fā)現(xiàn),現(xiàn)有的各種語音信號端點檢測技術(shù)都存在各自的不足。對于語音信號在低信噪比時的端點檢測的研究有待進(jìn)一步深入研究。當(dāng)前,語音端點檢測技術(shù)還處于比較初級階段,許多領(lǐng)域還有待解決,還遠(yuǎn)遠(yuǎn)跟不上現(xiàn)代科技發(fā)展的腳步。對于現(xiàn)在噪聲污染的環(huán)境的加重,還有信噪比的一直變化,語音端點檢測還有待更深一步的研究。我們常常尋求新的方法,新的算法,或者在新算法上研究新的方法,更容易對人類聲音的識別,或者更適于人耳聽覺系統(tǒng)的算法。但這些算法都是基于一些舊的理論上研發(fā)出來的,因此這種領(lǐng)域是很難有更大的進(jìn)步,但也正是考驗創(chuàng)新的能力[17]。根據(jù)語音信號參數(shù)的特點可以從兩個較大方向入手。一個是努力尋求新型的特征參數(shù),再一個就是利用現(xiàn)有的特征參數(shù)采用多特征融合。這兩大問題將是以后研究的主要對象[18]。 本文主要研究內(nèi)容第2章 ,簡述了語音信號的一些基礎(chǔ)知識,包括預(yù)處理、分幀、加窗。分析了語音信號的時域和頻域,介紹了幾種語音端點檢測算法,簡述了我的實施方案。第三章,從每一種算法的方程式入手,以原理簡便、運算量小等方面為標(biāo)準(zhǔn),通過大量的文獻(xiàn)調(diào)研與實際研究,本課主題要研究語音起點和終點的檢測,以短時能量和短時過零率相結(jié)合的雙門限語音端點檢測算法以及倒譜分析和譜熵技術(shù)等進(jìn)行語音端點檢測,并分析各算法在低信噪比和高信噪比條件下的檢測效果進(jìn)行對比。對這種信號進(jìn)行Matlab進(jìn)行編程,對于不同信噪比的聲音片段,最后用前后的噪聲信號進(jìn)行對比以得出結(jié)論。9第2章 語音信號時頻域分析及預(yù)處理 第2章 語音信號時頻域分析及預(yù)處理語音信號處理包括語音識別、語音合成、語音編碼、說話人識別等方面,但是其前提和基礎(chǔ)是對語音信號進(jìn)行分析。語音端點檢測是語音識別系統(tǒng)的前期處理,而語音信號的分析則是語音端點檢測的前期處理。 語音信號簡述 通過對人們所說的語音進(jìn)行研究和對語音頻譜的分析,發(fā)現(xiàn)人們包括男女老少的語音頻譜很集中,大部分都集中在300~3400Hz范圍內(nèi)。我們可以對語音通過帶通濾波器來得到我們所需要的頻譜,就可以得到相應(yīng)頻譜所對的語音。然后對頻譜范圍內(nèi)的語音進(jìn)行采集采樣,一般是8kHz左右的采樣率,這樣我們就可以得到離散時域的語音信號。如果想要更為精準(zhǔn)的采樣或者更為完全的采樣域,我們可以相應(yīng)的提高采樣率或者提高采樣范圍,現(xiàn)在的語音檢測現(xiàn)狀都不在時傳統(tǒng)的采樣率,而是調(diào)整為自適應(yīng)。語音信號有另一個非常重要的特性,就是要保持它的短時特點,所有的關(guān)于信號處理都是基于它的短時特性而研發(fā)的。因為語音信號只有在短時內(nèi)才能保持它的穩(wěn)定和平滑。就如同我們經(jīng)常見到的短時能量、短時過零率,還有一些如同短時頻譜和短時自相關(guān)函數(shù)。我們在進(jìn)行語音處理過程中,所用到的參數(shù)都是短時內(nèi)的參數(shù)特征,因此在預(yù)處理過程,必須有使信號保持短時的過程,即分幀,就是分為一個一個的短時。常常分的幀為幾十毫秒,在這幾十毫秒內(nèi),我們認(rèn)為語音信號是保持平穩(wěn)的。語音信號還有一個比較簡單的分類,是基于人類發(fā)音的音素所分類的。一般可以分為清音和濁音兩類。雖然中國與外國人的發(fā)音有所不同,但從音素上來說都是一樣的。如果從短時性上來分析,就會很直觀的發(fā)現(xiàn)清音和濁音的不同,一般來說,濁音在短時能量上擁有較高的波峰,而清音則一般就低一點。還有一類是無聲,而無聲是處于波谷。 語音信號分析平常的語音信號處理包括一些語音識別、語音檢測、語音編碼、說話人識別等方面,這所有的檢測都是基于對語音信號的識別,所以必須先對人們所說語音信號進(jìn)行分析,則需要對語音信號短時性的特征參數(shù)進(jìn)行提取分析。參數(shù)的提取,方法的創(chuàng)新,這都基于語音科技的發(fā)展。語音信號的處理歸根還是對語音短時內(nèi)的分析,語音端點檢測的好壞、語音識別的精準(zhǔn)度,這都根據(jù)語音信號分析的準(zhǔn)確度。 時域分析從一般的語音信號處理仿真來看,橫坐標(biāo)都是為時間,所以說,語音信號是時域信號,經(jīng)常處理的語音信號也是基于時域來分析的,這種方法一般就是利用仿真的波形來處理。通常分析方法有基于短時能量、短時頻譜、短時過零率、短時自相關(guān)函數(shù)等,這些短時性參數(shù)更為直觀的顯示語音信號的特性,因此在語音信號數(shù)字處理技術(shù)占有很重要的地位。進(jìn)行語音信號分析時,先接觸到并且直觀的就是它的時域波形。時域分析常用于基本的參數(shù)分析,語音信號的分割、預(yù)處理與檢測。這種分析方法的特點有:(1)表示語音信號比較直觀、物理意義明確;(2)實現(xiàn)起來比較簡單、運算量少;(3)可得到語音的一些重要參數(shù);(4)采用示波器通用設(shè)備進(jìn)行觀測等。取樣之后對信號進(jìn)行量化采樣,而量化過程會產(chǎn)生量化誤差,即量化后的信號與原信號之間的差值。 頻域分析語音信號頻域分析,主要是對一些頻域參數(shù)進(jìn)行分析,常用一些頻域參數(shù)的有頻譜、功率譜等等,最常用頻域分析的方法有傅立葉變換法、線性預(yù)測法等。 傅立葉變換法 傅里葉變換是語音信號頻域分析中最廣泛使用的方法,并且是分析線性系統(tǒng)和平穩(wěn)信號穩(wěn)態(tài)特性最有力的手段。對加窗分幀后的語音信號,進(jìn)行傅里葉變換后再逆傅里葉變換,可以相應(yīng)的得到頻譜、功率譜、倒譜距離、熵譜等特征。由于語音信號的特性是隨著時間變化,所以采用短時傅里葉變換,相應(yīng)的求得的特征為短時頻域特征,這里的窗函數(shù)都采用漢明窗。(1)短時頻譜和短時功率譜 設(shè)信號經(jīng)過傅里葉變換后在頻域記為,則與關(guān)系如公式(21): (21)語音的頻譜為的幅度,則有: (22)語音的短時功率譜的是幅度的平方,其公式為: (23)(2)倒譜距離 語音信號的倒譜分析是通過同態(tài)處理來實現(xiàn)的。同態(tài)信號處理也稱為同態(tài)濾波,是將非線性問題轉(zhuǎn)為線性問題進(jìn)行處理的方法。由于語音信號可以視為聲門激勵信號和聲道沖擊響應(yīng)進(jìn)行的卷積,隨后可以對語音信號進(jìn)行解卷。倒譜能很好表示語音的特征,在噪聲環(huán)境下,可通過倒譜系數(shù)而求得倒譜距離,使用倒譜距離來作為語音端點檢測的特征。信號的倒譜也可以定義為信號的能量譜密度函數(shù)的對數(shù)的傅里葉級數(shù)展開式的系數(shù),見式24: (24)即為倒譜系數(shù),通過倒譜系數(shù)求得倒譜距離為: (25)(3)熵 熵(用表示)是物質(zhì)的概率程度的一種反映。熵代表的信息量,當(dāng)?shù)姆植几怕氏嗟葧r,熵取最大值,也就是說,的概率分布越隨機,越難判斷,值也就越大。設(shè)是取有限個值的隨機變量則取的概率函數(shù)通常表示為: (26)則的熵為: (27) 線性預(yù)測法 線性預(yù)測分析的基本原理如下:語音信號分幀采樣后,各個語音樣點之間存在著聯(lián)系,可以用前幾幀的采樣點來預(yù)測當(dāng)前幀或者后幾幀的樣點值,即可以用先前的幀的參數(shù)值通過線性組合來近擬后面的幀的采樣值。這樣通過抽樣和線性組合得到的采樣值只有唯一的組合系數(shù)。這組預(yù)測系數(shù)就反應(yīng)了語音信號與噪聲不同的參數(shù)特征,根據(jù)這種參數(shù)特征,就可以進(jìn)行語音端點檢測和語音識別等一系列語音信號的處理。將線性預(yù)測應(yīng)用與語音信號分析,不僅僅是因為它的預(yù)測功能,而且更為重要的是由于它可以提供一個非常好的聲道模型和模型參數(shù)估計方法。線性預(yù)測的原理與語音信號數(shù)字模型相關(guān)。 語音信號分析處理為了消除人類發(fā)聲器官本身和一些采集語音信號的設(shè)備等所引發(fā)的混疊、高次諧波失真現(xiàn)象,在對語音信號進(jìn)行分析及處理之前,須對其進(jìn)行預(yù)處理。語音信號的預(yù)處理應(yīng)保證處理后得到的信號更平滑、均勻,而且能提高語音的質(zhì)量。 預(yù)加重在進(jìn)行語音信號數(shù)字處理時,它們的功率譜隨頻率的增加而減小,其大部分能量集中在低頻范圍內(nèi)。這就造成消息信號高頻端的信噪比可能降到不能容許的程度。但是由于消息信號中較高頻率分 量的能量小,很少有足以產(chǎn)生最大頻偏的幅度,因此產(chǎn)生最大頻偏的信號幅度多數(shù)是由信號的低頻分量引起。平均來說,幅度較小的高頻分量產(chǎn)生的頻偏小得多。為此在預(yù)處理中先進(jìn)行預(yù)加重處理。目的是提升高頻部分,使信號變得平坦、平滑,使之不僅在低頻而且在高頻的整個頻帶中,:采樣量化預(yù)加重加窗分幀參數(shù)提取語音信號 語音信號的預(yù)處理預(yù)加重是在語音信號數(shù)字量化之后,用具有6dB/倍頻程的提升高頻特性的預(yù)加重數(shù)字濾波器來實現(xiàn),它通常是一階的數(shù)字濾波器: (28)式中的取值一般取1左右。有時需要恢復(fù)原信號,需要從做過預(yù)加重的信號來求實際的頻譜,需要對測量值進(jìn)行去加重處理,即加上6dB/倍頻程的下降的頻率特性來恢復(fù)原來的特性。 加窗分幀語音端點檢測首先要進(jìn)行加窗分幀處理,然后依次判斷每一幀的信號是否為語音的起點或終點。而在語音端點檢測時如果采用大的窗長,則幀長長,幀數(shù)少,這樣計算量會小些,而且進(jìn)行語音端點檢測時速度會快些,但是這樣語音端點檢測的誤差會增加。如果采用小的窗長,則計算量增加,語音識別的速度可定會降低。所以我們在語音端點檢測時,采用適量的窗,可以確切判斷語音的起始點,會有比較快的速度,也不會有太大的運算量。但至于選幀,則需要根據(jù)實時而定,不同的算法也會有不同的窗長。在進(jìn)行了預(yù)加重后,要對語音信號進(jìn)行加窗分幀處理。通常將語音信號劃分為許多短時的語音時段,每個短時的語音段稱為一個幀。幀和幀之間可以連續(xù),也可以重疊。重疊是為了是語音信號各幀之間保持平滑,差別不至于太大,更符合人們的語音特征。為了能夠符合實際而且能精準(zhǔn)的描述語音信號能量的實際中的變化規(guī)律,通常將窗寬選為幾十毫秒左右。分幀一般采用交疊分段的方法,這就是為了使幀與幀之間能夠很好的平滑過
點擊復(fù)制文檔內(nèi)容
研究報告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1