freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于vq的大學(xué)生語(yǔ)音識(shí)別算法研究畢業(yè)論文-文庫(kù)吧

2025-07-22 14:06 本頁(yè)面


【正文】 .............................................................................................. 27 附錄一 外文翻譯 ............................................................................................................................ 28 外文原文 .................................................................................................................................... 28 外文譯文 .................................................................................................................................... 44 附錄二 程序 .................................................................................................................................... 61 致 謝 ................................................................................................................................................ 65 蘭州理工大學(xué)畢業(yè)論文 1 第一章 緒論 概述 語(yǔ)言是人和動(dòng)物最基本,同時(shí)也是最重要的信息交換形式,語(yǔ)音信號(hào)是構(gòu)成其思想疏通和情感交流的最主要途徑。通信系統(tǒng)中最常見(jiàn)的數(shù)據(jù)形式就是語(yǔ)音數(shù)據(jù)。人類目前已經(jīng)進(jìn)入信息 化時(shí)代 ,用現(xiàn)代化手段研究語(yǔ)音處理技術(shù) ,能使我們更加有效地產(chǎn)生、傳輸、存儲(chǔ)、獲取和應(yīng)用語(yǔ)音信息 ,這對(duì)于促進(jìn)社會(huì)的發(fā)展具有十分重要的意義。 社會(huì)進(jìn)入 21世紀(jì),信息在各個(gè)領(lǐng)域發(fā)生了大爆炸的態(tài)勢(shì),同時(shí)伴隨著數(shù)字信號(hào)的數(shù)據(jù)量迅速暴增,對(duì)存儲(chǔ)器的存儲(chǔ)容量、通信信道的帶寬以及計(jì)算機(jī)的處理速度帶來(lái)很大的壓力,因此,在這種情況下需要對(duì)數(shù)據(jù)進(jìn)行量化壓縮以達(dá)到緊縮數(shù)據(jù)存儲(chǔ)容量的目的 ,該方法能夠較快地傳輸各種信號(hào) ,并使發(fā)信機(jī)功率降低。 數(shù)字語(yǔ)音通信的兩個(gè)關(guān)鍵技術(shù)是語(yǔ)音質(zhì)量和傳輸碼率,同時(shí)這兩者之間又是矛盾的:要獲得較高的語(yǔ)音質(zhì) 量,就必須使用較高的傳輸碼率;相反,為了實(shí)現(xiàn)高效地壓縮傳輸碼率,就很難得到良好的語(yǔ)音質(zhì)量 ]1[ 。然而采用矢量量化技術(shù)是一種既能得到高效壓縮的傳輸碼率 ,又能保證較好的語(yǔ)音質(zhì)量的方法。 矢量量化 ]2[ ( VQ, Vector Quantization)技術(shù)是 Steinhaus 在 1956 年首次提出的,并于 20世紀(jì) 70年代后期發(fā)展起來(lái)的一種數(shù)據(jù)壓縮和編碼技術(shù),現(xiàn) 已廣泛應(yīng)用于語(yǔ)音編碼、語(yǔ)音合成、語(yǔ)音識(shí)別和說(shuō)話人識(shí)別等領(lǐng)域。在許多領(lǐng)域的課題研究中,矢量量化技術(shù)都起著非常重要的作用。采用矢量量化技術(shù)對(duì)信號(hào)波形或參數(shù)進(jìn)行壓縮處理,可以獲得很好的效果。矢量量化技術(shù)不僅可以壓縮表示語(yǔ)音參數(shù)所需的數(shù)碼率,而且在減少運(yùn)算量方面也是非常高效的,它還能直接用于構(gòu)成語(yǔ)音識(shí)別和說(shuō)話人識(shí)別系統(tǒng)。 量化一般可以分為兩大類 ]1[ ,一類是把抽樣后的信號(hào)值逐個(gè)進(jìn)行量化的標(biāo)量量化;另一類量化是先將 k 個(gè)抽樣值組成 k 維 空間中的 一個(gè)矢量,然后將此矢量進(jìn)行量化,稱之為矢量量化( VQ) ,它可以極大的降低數(shù)碼率,優(yōu)于標(biāo)量量化。各種數(shù)據(jù)都可以用矢量表示,直接對(duì)矢量進(jìn)行量化,可以方便的對(duì)數(shù)據(jù)進(jìn)行壓縮。矢量量化屬于不可逆壓縮方法,具備比特率低,解碼簡(jiǎn)單,失真較小的優(yōu)點(diǎn)。 研究語(yǔ)音識(shí)別的目的及意義 語(yǔ)音識(shí)別在語(yǔ)音鏈中是很重要的的一環(huán),其研究的最終目的是使計(jì)算機(jī)能夠準(zhǔn)確的識(shí)別任何人、任何內(nèi)容的講話。語(yǔ)音識(shí)別屬于多維模式識(shí)別以及智能計(jì)算機(jī)接口的范疇,是一項(xiàng)集聲學(xué)、語(yǔ)言學(xué)、計(jì)算機(jī)工程、信息處理、人工智能等領(lǐng)域的綜合技術(shù),在計(jì)算機(jī)技術(shù)、信蘭州理工大學(xué)畢業(yè)論文 2 息處理、 通信與電子系統(tǒng)、自控制等領(lǐng)域,以及交通、醫(yī)學(xué)、工業(yè)、軍事、民用等諸多方面有著廣泛的應(yīng)用。語(yǔ)音識(shí)別是一門(mén)新興科學(xué),是近來(lái)國(guó)內(nèi)外競(jìng)相研究的熱點(diǎn),信息產(chǎn)業(yè)迅速發(fā)展的要求促使著科技、工業(yè)及國(guó)防部門(mén)投入大量人力和財(cái)力來(lái)對(duì)其進(jìn)行重點(diǎn)研究,其中包括計(jì)算機(jī)、通信、國(guó)防、機(jī)器人等關(guān)乎于國(guó)計(jì)民生的科技領(lǐng)域。 語(yǔ)音識(shí)別主要具有如下優(yōu)點(diǎn) ]2[ : ( 1) 語(yǔ)音是人類最自然、最方便的交互工具,不需要作專門(mén)訓(xùn)練。 ( 2) 如果能輸入專門(mén)的聲音,這與使用打字機(jī)和按鈕等方法比較, 操作簡(jiǎn)單,使用方便。計(jì)算機(jī)語(yǔ)音輸入系統(tǒng),使用口述代替鍵盤(pán)操作,實(shí)現(xiàn)向計(jì)算機(jī)輸入文字,這對(duì)于辦公自動(dòng)化將帶來(lái)革命性的變化。由于漢字輸入的特殊性,漢語(yǔ)語(yǔ)音輸入系統(tǒng)的重要性尤其突出。 ( 3) 語(yǔ)音的反應(yīng)速度特別快,可以達(dá)到毫秒量級(jí)。語(yǔ)音信息輸入速度比打字機(jī)大約快34 倍,比人工抄寫(xiě)文字大約快 810 倍。 ( 4) 同時(shí)使用手、腳、耳、眼睛等器官,可以在進(jìn)行其他工作的同時(shí)兼顧周圍動(dòng)作來(lái)輸入信息。 ( 5) 因在輸入終端可使用麥克風(fēng)、電話機(jī)等,所以非常經(jīng)濟(jì),還可直接利用現(xiàn)有的電話網(wǎng),并能遙控輸入信息。 因此語(yǔ)音識(shí)別系統(tǒng)具有重要的應(yīng)用價(jià)值,它是人 機(jī)通信的自然媒介。語(yǔ)音識(shí)別和語(yǔ)音合成相結(jié)合,可以構(gòu)成“人 機(jī)通信系統(tǒng)”。由于語(yǔ)音識(shí)別技術(shù)的逐步成熟,隨之產(chǎn)生的各類語(yǔ)音識(shí)別產(chǎn)品在人機(jī)交互應(yīng)用中,已經(jīng)占到越來(lái)越大的比例。語(yǔ)音是通信系統(tǒng)中最自然的通信媒介,語(yǔ)音識(shí)別技術(shù)的應(yīng)用前景是無(wú)限的。 矢量量化技術(shù)的發(fā)展歷程 矢量量化技術(shù)在其發(fā)展到目前為止的過(guò)程中大致經(jīng)歷了兩個(gè)階段 ]3[ 。 第一階段: 1956 年 Steinhaus 首次系統(tǒng)的闡述了關(guān)于最佳矢量量化的問(wèn)題。隨之, 1957年 Loyd 在“ PCM 中的最小平方化”一文中給出了如何劃分量化區(qū)間和如何求量化值問(wèn)題的結(jié)論。幾乎與此同時(shí), Max 也得出了同樣的結(jié)論,雖然他們的結(jié)論基本上都是關(guān)于標(biāo)量量化問(wèn)題的,但他們的算法對(duì)后來(lái)矢量量化的發(fā)展有著深刻的影響。 1964 年 Newman 研究了正六邊形原理。 1977 年 Berger 出版了《率失真理論》一書(shū)??傊?,該階段的工作多以理論性的研究為主,但它奠定了其后來(lái)發(fā)展的基礎(chǔ)。 第二階段: 1978年 Buzo 第一個(gè)提出矢量量化器的概念 ,他提出的量化系統(tǒng)組成分為兩步 ,首先是將語(yǔ)音信號(hào)做線性預(yù)測(cè)分析,求出預(yù)測(cè)系數(shù);其次對(duì)這 些系數(shù)做矢量量化,得到了壓縮數(shù)據(jù)的語(yǔ)音編碼器。 1980 年, Linde、 Buzo 和 Gray 將 Loydmax 算法推廣,發(fā)表了第一個(gè)蘭州理工大學(xué)畢業(yè)論文 3 矢量量化器的設(shè)計(jì)算法,通常稱之為 LBG 算法,將矢量量化的研究向前推進(jìn)了一大步。這一階段,人們對(duì)各種矢量量化系統(tǒng)展開(kāi)了全面的研究,其中主要是對(duì)失真測(cè)度的探討,碼書(shū)的設(shè)計(jì),快速搜索算法的尋找等等。 矢量量化技術(shù)的研究進(jìn)展是迅速的, 1980 年,美國(guó)加州公司在原來(lái)編碼速度為 的線性預(yù)測(cè)聲編碼器的基礎(chǔ)上,僅將濾波系數(shù)從標(biāo)量量化改為矢量量化,就可以使編碼速率降低到 800b/s,同時(shí) 聲音質(zhì)量基本未下降。 1983 年,美國(guó) BBN 公司研制出了一種采用矢量量化技術(shù)的分段式聲編碼器,可以用 150b/s 的速率來(lái)傳送可懂的話音。 近年來(lái)在已經(jīng)提出的各種矢量量化方法和系數(shù)的基礎(chǔ)上,更多優(yōu)秀的矢量量化方法逐漸凸顯出來(lái),在圖像數(shù)據(jù)壓縮和語(yǔ)音識(shí)別的應(yīng)用方面,矢量量化的研究得到了很快的發(fā)展,提出了各種各樣的矢量量化系統(tǒng),用硬件實(shí)現(xiàn)矢量量化系統(tǒng)的方法也越來(lái)越多。 蘭州理工大學(xué)畢業(yè)論文 4 第二章 基本原理 語(yǔ)音識(shí)別 模式識(shí)別是指計(jì)算機(jī)對(duì)事物的認(rèn)知,包活語(yǔ)音、文字、圖像、機(jī)器的運(yùn)行狀態(tài)等。語(yǔ)音識(shí)別是一種特殊的模式識(shí)別。 模式識(shí) 別的基本原理是將一個(gè)輸入模式與保存在系統(tǒng)中的多個(gè)標(biāo)準(zhǔn)模式進(jìn)行比較,找出最近似的標(biāo)準(zhǔn)模式,然后將該標(biāo)準(zhǔn)模式所代表的類名作為輸入模式的類名輸出。根據(jù)比較的方法不同,模式識(shí)別可分為模式匹配法、統(tǒng)計(jì)模式識(shí)別和句法模式識(shí)別。其中,模式匹配法是將兩個(gè)模式直接進(jìn)行比較的方法,是最基本、最原理性的模式識(shí)別方法,在實(shí)際應(yīng)用中是最廣泛的。 目前,絕大多數(shù)語(yǔ)音識(shí)別系統(tǒng)都采用了模式匹配法。根據(jù)該原理 ]4[ ,未知語(yǔ)音的模式要與已知語(yǔ)音的參考模式逐一進(jìn)行比 較,最佳匹配的參考模式將被作為識(shí)別結(jié)果輸出。語(yǔ)音識(shí)別的步驟大致可分為兩步進(jìn)行:第一步,根據(jù)識(shí)別系統(tǒng)的類型,選擇能夠滿足要求的一種識(shí)別方法,采用語(yǔ)音分析方法分析出該識(shí)別方法所要求的語(yǔ)音特征參數(shù),這些參數(shù)將作為標(biāo)準(zhǔn)模式由機(jī)器存儲(chǔ)起來(lái),形成標(biāo)準(zhǔn)模式庫(kù),該語(yǔ)音參數(shù)庫(kù)稱為模式或樣本,這一過(guò)程稱為學(xué)習(xí)或訓(xùn)練;第二步,識(shí)別過(guò)程。 圖 21 語(yǔ)音識(shí)別的原理框圖 圖 21 所示為語(yǔ)音識(shí)別系統(tǒng)的模式匹配原理構(gòu)成圖,它是一種統(tǒng)計(jì)模式識(shí)別,這里采用的是模板匹配法。語(yǔ)音識(shí)別系統(tǒng)從本質(zhì)上說(shuō)是一種模式識(shí)別系統(tǒng),其基 本結(jié)構(gòu)與常規(guī)模式識(shí)別系統(tǒng)一樣,包含有特征提取、模式匹配、參考模式庫(kù)等三個(gè)基本單元。圖 21中測(cè)度估計(jì)、判決和專家知識(shí)庫(kù)三部分的功能是完成模式匹配。由于語(yǔ)音識(shí)別系統(tǒng)所處理的人類語(yǔ)言信息結(jié)構(gòu)非常復(fù)雜、內(nèi)容及其豐富,因此,其系統(tǒng)結(jié)構(gòu)比通常情況下的模式識(shí)別系統(tǒng)要復(fù)雜得多。 輸入 語(yǔ)音 參考模式庫(kù) 距離測(cè)度 測(cè)度估計(jì) 特征提取 預(yù)處理 判決 專家知識(shí)庫(kù) 識(shí)別 結(jié)果 訓(xùn)練,聚類 蘭州理工大學(xué)畢業(yè)論文 5 預(yù)處理 預(yù)處理包括反混疊濾波、模數(shù)變換、自動(dòng)增益控制、去除聲門(mén)激勵(lì)及口唇輻射影響,以及去除個(gè)體發(fā)音的差異和設(shè)備、環(huán)境引起的噪聲影響等,涉及語(yǔ)音識(shí)別基元的選取和端點(diǎn)檢測(cè)問(wèn)題。 特征提取 對(duì)經(jīng)過(guò)預(yù)處理的語(yǔ)音信號(hào)要進(jìn)行特征提取。 特征提取即參數(shù)分析,是指從語(yǔ)音信號(hào)波形中獲取一組能夠描述該語(yǔ)音信號(hào)特征的參數(shù)的過(guò)程。其基本思想是將信號(hào)通過(guò)一次變換,去掉冗余部分,而將代表語(yǔ)音本質(zhì)的特征參數(shù)抽取出來(lái)。與特征提取相關(guān)的內(nèi)容是特征間的距離測(cè)度。在語(yǔ)音識(shí)別中,特征參數(shù)的提取是構(gòu)成整個(gè)模式識(shí)別系統(tǒng)的重要一環(huán)。特征參數(shù)的好壞對(duì)語(yǔ)音識(shí)別的精度有很大影響,特征參數(shù)應(yīng)盡可能多的反映出用于識(shí)別的信息,之后系統(tǒng)中所有的處理都是建立在特征參數(shù)之上,一旦特征參數(shù)不能很好地反映語(yǔ)音信號(hào)的本質(zhì),識(shí)別就不能成功。特征的選擇標(biāo)準(zhǔn)應(yīng)體現(xiàn)出異音字特征間的距離應(yīng)盡可能大,而同音 字間的距離應(yīng)盡可能小的原則。同時(shí),還需要考慮到特征參數(shù)的計(jì)算量,在保持高識(shí)別率的情況下,應(yīng)盡可能減少特征維數(shù),以利于減少存儲(chǔ)的要求和實(shí)時(shí)實(shí)現(xiàn)。 特征參數(shù)的選擇應(yīng)注重于能得到高的識(shí)別率,如選用那些能較好地表征語(yǔ)音特征、攜帶語(yǔ)音信息多、較穩(wěn)定的參數(shù),并且最好的幾種參數(shù)并用。由于某些參數(shù)的提取較復(fù)雜,因而要折衷考慮選用哪些參數(shù)并確定采用哪種識(shí)別方法。 距離測(cè)度 用于語(yǔ)音識(shí)別的距離測(cè)度有多種,如歐式距離及其變形的距離、似然比測(cè)度、加權(quán)了超音段信息的識(shí)別測(cè)度,此外,人們比較關(guān)注的測(cè)度還有 HMM 之間的距離測(cè) 度、主管感知的距離測(cè)度等。 參考模式庫(kù) 用訓(xùn)練與聚類的方法,由單講話或多講話者的多次重復(fù)的語(yǔ)音參數(shù),從原始語(yǔ)音樣本中去除冗余信息,保留關(guān)鍵數(shù)據(jù),經(jīng)過(guò)長(zhǎng)時(shí)間的訓(xùn)練,再按照一定的規(guī)則對(duì)數(shù)據(jù)加以聚類得到的。 訓(xùn)練與識(shí)別方法 語(yǔ)音訓(xùn)練與識(shí)別的方法有很多種,如 DTW、 VQ、 FSVQ、 LVQ HMM、 TDNN、模糊邏輯算法等,也可以混合使用上述各種算法。 測(cè)度估計(jì)是語(yǔ)音識(shí)別的核心。目前,在已經(jīng)研究過(guò)的多種求取測(cè)試語(yǔ)音參數(shù)與模板之間的測(cè)度的方法中,比較經(jīng)典的有:( 1) DTW 法:用輸入的待識(shí)別語(yǔ)音 模式和預(yù)存的參考模式匹配;( 2) HMM 法:以統(tǒng)計(jì)方法為依據(jù)進(jìn)行識(shí)別;( 3) VQ 方法:基于信息論中信源編碼技蘭州理工大學(xué)畢業(yè)論文 6 術(shù)的識(shí)別。此外還有一些混合派生出來(lái)的方法,如 VQ/DTW 法、 FSVQ/HMM 法等。 在語(yǔ)音訓(xùn)練和識(shí)別方法中, DTW 方法適合于識(shí)別特定人的基元較小的場(chǎng)合,多用于孤立詞的識(shí)別。 DTW 算法的匹配過(guò)程比較細(xì),計(jì)算量比較大。其主要缺點(diǎn)是太依賴于發(fā)音人的原來(lái)發(fā)音,發(fā)音人身體不好或發(fā)音時(shí)情緒緊張都會(huì)影響識(shí)別率。它不能對(duì)樣本作動(dòng)態(tài)的訓(xùn)練,不適合于非特定人的語(yǔ)音識(shí)別。 HMM 方法不僅解決了短時(shí)模型描述平穩(wěn)段的信號(hào)問(wèn)題,而 且解決了每個(gè)短時(shí)平穩(wěn)段是如何轉(zhuǎn)變到下一個(gè)短時(shí)平穩(wěn)段的問(wèn)題。它使用 Markov 鏈 ]5[ 來(lái)模擬信號(hào)的統(tǒng)計(jì)特性變化。 HMM以大量訓(xùn)練作為基礎(chǔ),語(yǔ)音識(shí)別過(guò)程中需要測(cè)算待識(shí)別語(yǔ)音的概率大小。其算法適合于語(yǔ)音本身易變的特點(diǎn),適用于非特定人的語(yǔ)音識(shí)別,同時(shí)也適用于特定人的語(yǔ)音識(shí)別。 基于 VQ 的語(yǔ)音識(shí)別技術(shù)是在 20 世紀(jì) 80 年代發(fā)展起來(lái)的,它可替代 DTW 完成動(dòng)態(tài)匹配,其存儲(chǔ)量和計(jì)算量都比較小。 VQ 主要適用于小詞匯量、孤立詞的語(yǔ)音識(shí)別中,其過(guò)程是將對(duì) 欲處理的大量語(yǔ)音 K 維幀矢量通過(guò)統(tǒng)計(jì)實(shí)驗(yàn)進(jìn)行統(tǒng)計(jì)劃分,即將 K 維無(wú)限空間聚類劃分為 M 個(gè)區(qū)域邊界,每個(gè)
點(diǎn)擊復(fù)制文檔內(nèi)容
試題試卷相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1