【正文】
其為一個(gè)類(lèi)似于函數(shù)優(yōu)化的問(wèn)題,所以設(shè)計(jì)時(shí)要搜索最優(yōu)化的全局碼書(shū),需要一種全局算法。由于矢量量化高壓縮比的特性,使得它可以應(yīng)用在國(guó)防軍事的遙感衛(wèi)星、雷達(dá)監(jiān)測(cè)等方面,可以應(yīng)用在高清電視、網(wǎng)絡(luò)視頻等民用設(shè)施的實(shí)時(shí)傳輸上。這些門(mén)限值與語(yǔ)種有著密切的關(guān)系。知識(shí)庫(kù)中的知識(shí)需要具有便于修改和擴(kuò)充的特點(diǎn)。VQ主要適用于小詞匯量、孤立詞的語(yǔ)音識(shí)別中,其過(guò)程是將對(duì)欲處理的大量語(yǔ)音K維幀矢量通過(guò)統(tǒng)計(jì)實(shí)驗(yàn)進(jìn)行統(tǒng)計(jì)劃分,即將K維無(wú)限空間聚類(lèi)劃分為M個(gè)區(qū)域邊界,每個(gè)區(qū)域邊界對(duì)應(yīng)一個(gè)碼字,所有M個(gè)碼字構(gòu)成碼本。它使用Markov鏈來(lái)模擬信號(hào)的統(tǒng)計(jì)特性變化。DTW算法的匹配過(guò)程比較細(xì),計(jì)算量比較大。測(cè)度估計(jì)是語(yǔ)音識(shí)別的核心。由于某些參數(shù)的提取較復(fù)雜,因而要折衷考慮選用哪些參數(shù)并確定采用哪種識(shí)別方法。特征參數(shù)的好壞對(duì)語(yǔ)音識(shí)別的精度有很大影響,特征參數(shù)應(yīng)盡可能多的反映出用于識(shí)別的信息,之后系統(tǒng)中所有的處理都是建立在特征參數(shù)之上,一旦特征參數(shù)不能很好地反映語(yǔ)音信號(hào)的本質(zhì),識(shí)別就不能成功。特征提取即參數(shù)分析,是指從語(yǔ)音信號(hào)波形中獲取一組能夠描述該語(yǔ)音信號(hào)特征的參數(shù)的過(guò)程。圖21中測(cè)度估計(jì)、判決和專(zhuān)家知識(shí)庫(kù)三部分的功能是完成模式匹配。根據(jù)該原理,未知語(yǔ)音的模式要與已知語(yǔ)音的參考模式逐一進(jìn)行比較,最佳匹配的參考模式將被作為識(shí)別結(jié)果輸出。模式識(shí)別的基本原理是將一個(gè)輸入模式與保存在系統(tǒng)中的多個(gè)標(biāo)準(zhǔn)模式進(jìn)行比較,找出最近似的標(biāo)準(zhǔn)模式,然后將該標(biāo)準(zhǔn)模式所代表的類(lèi)名作為輸入模式的類(lèi)名輸出。1983年,美國(guó)BBN公司研制出了一種采用矢量量化技術(shù)的分段式聲編碼器,可以用150b/s的速率來(lái)傳送可懂的話音。第二階段:1978年Buzo第一個(gè)提出矢量量化器的概念,他提出的量化系統(tǒng)組成分為兩步,首先是將語(yǔ)音信號(hào)做線性預(yù)測(cè)分析,求出預(yù)測(cè)系數(shù);其次對(duì)這些系數(shù)做矢量量化,得到了壓縮數(shù)據(jù)的語(yǔ)音編碼器。幾乎與此同時(shí),Max也得出了同樣的結(jié)論,雖然他們的結(jié)論基本上都是關(guān)于標(biāo)量量化問(wèn)題的,但他們的算法對(duì)后來(lái)矢量量化的發(fā)展有著深刻的影響。語(yǔ)音是通信系統(tǒng)中最自然的通信媒介,語(yǔ)音識(shí)別技術(shù)的應(yīng)用前景是無(wú)限的。(5) 因在輸入終端可使用麥克風(fēng)、電話機(jī)等,所以非常經(jīng)濟(jì),還可直接利用現(xiàn)有的電話網(wǎng),并能遙控輸入信息。由于漢字輸入的特殊性,漢語(yǔ)語(yǔ)音輸入系統(tǒng)的重要性尤其突出。語(yǔ)音識(shí)別是一門(mén)新興科學(xué),是近來(lái)國(guó)內(nèi)外競(jìng)相研究的熱點(diǎn),信息產(chǎn)業(yè)迅速發(fā)展的要求促使著科技、工業(yè)及國(guó)防部門(mén)投入大量人力和財(cái)力來(lái)對(duì)其進(jìn)行重點(diǎn)研究,其中包括計(jì)算機(jī)、通信、國(guó)防、機(jī)器人等關(guān)乎于國(guó)計(jì)民生的科技領(lǐng)域。各種數(shù)據(jù)都可以用矢量表示,直接對(duì)矢量進(jìn)行量化,可以方便的對(duì)數(shù)據(jù)進(jìn)行壓縮。在許多領(lǐng)域的課題研究中,矢量量化技術(shù)都起著非常重要的作用。社會(huì)進(jìn)入21世紀(jì),信息在各個(gè)領(lǐng)域發(fā)生了大爆炸的態(tài)勢(shì),同時(shí)伴隨著數(shù)字信號(hào)的數(shù)據(jù)量迅速暴增,對(duì)存儲(chǔ)器的存儲(chǔ)容量、通信信道的帶寬以及計(jì)算機(jī)的處理速度帶來(lái)很大的壓力,因此,在這種情況下需要對(duì)數(shù)據(jù)進(jìn)行量化壓縮以達(dá)到緊縮數(shù)據(jù)存儲(chǔ)容量的目的 ,該方法能夠較快地傳輸各種信號(hào) ,并使發(fā)信機(jī)功率降低。 Vector Quantization (VQ)。pattern matching reference modelpattern recognitionis essentially a本文主要講了矢量量化過(guò)程中最佳碼書(shū)設(shè)計(jì)算法LBG算法的設(shè)計(jì)和實(shí)現(xiàn),利用MATLAB工具進(jìn)行仿真的實(shí)現(xiàn)。LANZHOU UNIVERSITY OF TECHNOLOGY畢業(yè)論文題 目: 基于VQ的大學(xué)生語(yǔ)音識(shí)別算法研究 College Students Speech Recognition based on VQ Algorithm 蘭州理工大學(xué)畢業(yè)論文摘 要語(yǔ)音識(shí)別主要研究的是使機(jī)器能夠準(zhǔn)確的聽(tīng)出說(shuō)話人語(yǔ)音內(nèi)容的問(wèn)題,即語(yǔ)音識(shí)別的最終目的是使計(jì)算機(jī)能夠準(zhǔn)確的識(shí)別任何人、任何內(nèi)容的講話。矢量量化技術(shù)在語(yǔ)音識(shí)別中占有很重要的地位,其包括碼書(shū)設(shè)計(jì)、碼字搜索和碼字索引分配,前兩者尤為重要。s voice content problem that speech recognition is the ultimate goal enables a puter to accurately identify the person, any speech content. Speech recognition technology is a set of acoustics, linguistics, puter, information processing, artificial intelligence and other areas of integrated technology, puter, information processing, munications and electronic systems, automatic control and other areas, as well as industrial, military, transportation, medical , has a wide range of civilian and many other applications.Speech recognition systemand the conventionalfeature extraction, Quantization in speech recognition technology plays a very important role, which includes codebook design, code word search and codeword index distribution, the first two particularly important. This article is mainly about the best course of vector quantization codebook design LBG algorithm and implementation using MATLAB simulation tool implementations. The results of the experimental data than can be seen LBG algorithm is a descent algorithm, the simulation process, with each iteration the average distortion does not increase monotonically characteristics (size, or at least remain unchanged), can be used to improve initial codebook training sequence to generate optimal code book, but can also be seen through the simulation process LBG presence of large amount of putation and storage space, easy to get the characteristics of the local optimal codebook. Finally, the use of simulation tools, by varying the amount of data, the codebook dimension, quantization pression ratio, the minimum distortion threshold and other parameters of a large number of simulation experiments, pared to the simulation result, the data for the implementation process and the parameters of performance characteristics of the LBG algorithm is analyzed.Key words: speech recognition。人類(lèi)目前已經(jīng)進(jìn)入信息化時(shí)代,用現(xiàn)代化手段研究語(yǔ)音處理技術(shù),能使我們更加有效地產(chǎn)生、傳輸、存儲(chǔ)、獲取和應(yīng)用語(yǔ)音信息,這對(duì)于促進(jìn)社會(huì)的發(fā)展具有十分重要的意義。矢量量化(VQ, Vector Quantization)技術(shù)是Steinhaus在1956年首次提出的,并于20世紀(jì)70年代后期發(fā)展起來(lái)的一種數(shù)據(jù)壓縮和編碼技術(shù),現(xiàn)已廣泛應(yīng)用于語(yǔ)音編碼、語(yǔ)音合成、語(yǔ)音識(shí)別和說(shuō)話人識(shí)別等領(lǐng)域。量化一般可以分為兩大類(lèi),一類(lèi)是把抽樣后的信號(hào)值逐個(gè)進(jìn)行量化的標(biāo)量量化;另一類(lèi)量化是先將k個(gè)抽樣值組成k維空間中的一個(gè)矢量,然后將此矢量進(jìn)行量化,稱(chēng)之為矢量量化(VQ),它可以極大的降低數(shù)碼率,優(yōu)于標(biāo)量量化。語(yǔ)音識(shí)別屬于多維模式識(shí)別以及智能計(jì)算機(jī)接口的范疇,是一項(xiàng)集聲學(xué)、語(yǔ)言學(xué)、計(jì)算機(jī)工程、信息處理、人工智能等領(lǐng)域的綜合技術(shù),在計(jì)算機(jī)技術(shù)、信息處理、通信與電子系統(tǒng)、自控制等領(lǐng)域,以及交通、醫(yī)學(xué)、工業(yè)、軍事、民用等諸多方面有著廣泛的應(yīng)用。計(jì)算機(jī)語(yǔ)音輸入系統(tǒng),使用口述代替鍵盤(pán)操作,實(shí)現(xiàn)向計(jì)算機(jī)輸入文字,這對(duì)于辦公自動(dòng)化將帶來(lái)革命性的變化。(4) 同時(shí)使用手、腳、耳、眼睛等器官,可以在進(jìn)行其他工作的同時(shí)兼顧周?chē)鷦?dòng)作來(lái)輸入信息。由于語(yǔ)音識(shí)別技術(shù)的逐步成熟,隨之產(chǎn)生的各類(lèi)語(yǔ)音識(shí)別產(chǎn)品在人機(jī)交互應(yīng)用中,已經(jīng)占到越來(lái)越大的比例。隨之,1957年Loyd在“PCM中的最小平方化”一文中給出了如何劃分量化區(qū)間和如何求量化值問(wèn)題的結(jié)論??傊?,該階段的工作多以理論性的研究為主,但它奠定了其后來(lái)發(fā)展的基礎(chǔ)。矢量量化技術(shù)的研究進(jìn)展是迅速的,1980年,僅將濾波系數(shù)從標(biāo)量量化改為矢量量化,就可以使編碼速率降低到800b/s,同時(shí)聲音質(zhì)量基本未下降。語(yǔ)音識(shí)別是一種特殊的模式識(shí)別。 目前,絕大多數(shù)語(yǔ)音識(shí)別系統(tǒng)都采用了模式匹配法。語(yǔ)音識(shí)別系統(tǒng)從本質(zhì)上說(shuō)是一種模式識(shí)別系統(tǒng),其基本結(jié)構(gòu)與常規(guī)模式識(shí)別系統(tǒng)一樣,包含有特征提取、模式匹配、參考模式庫(kù)等三個(gè)基本單元。 特征提取對(duì)經(jīng)過(guò)預(yù)處理的語(yǔ)音信號(hào)要進(jìn)行特征提取。在語(yǔ)音識(shí)別中,特征參數(shù)的提取是構(gòu)成整個(gè)模式識(shí)別系統(tǒng)的重要一環(huán)。特征參數(shù)的選擇應(yīng)注重于能得到高的識(shí)別率,如選用那些能較好地表征語(yǔ)音特征、攜帶語(yǔ)音信息多、較穩(wěn)定的參數(shù),并且最好的幾種參數(shù)并用。 訓(xùn)練與識(shí)別方法語(yǔ)音訓(xùn)練與識(shí)別的方法有很多種,如DTW、VQ、FSVQ、LVQHMM、TDNN、模糊邏輯算法等,也可以混合使用上述各種算法。在語(yǔ)音訓(xùn)練和識(shí)別方法中,DTW方法適合于識(shí)別特定人的基元較小的場(chǎng)合,多用于孤立詞的識(shí)別。HMM方法不僅解決了短時(shí)模型描述平穩(wěn)段的信號(hào)問(wèn)題,而且解決了每個(gè)短時(shí)平穩(wěn)段是如何轉(zhuǎn)變到下一個(gè)短時(shí)平穩(wěn)段的問(wèn)題?;赩Q的語(yǔ)音識(shí)別技術(shù)是在20世紀(jì)80年代發(fā)展起來(lái)的,它可替代DTW完成動(dòng)態(tài)匹配,其存儲(chǔ)量和計(jì)算量都比較小。知識(shí)庫(kù)中一般包含詞匯、語(yǔ)法、句法、語(yǔ)義和常用搭配等知識(shí),如漢語(yǔ)的聲調(diào)變調(diào)規(guī)則、音長(zhǎng)分布規(guī)則、同音字判別規(guī)則、構(gòu)詞規(guī)則、語(yǔ)法規(guī)則、語(yǔ)義規(guī)則等。因此,選擇適當(dāng)?shù)母鞣N距離測(cè)度的門(mén)限值是最主要的問(wèn)題。由于采用矢量量化技術(shù)的數(shù)據(jù)壓縮具有編碼簡(jiǎn)單、效率高、壓縮比大等諸多優(yōu)點(diǎn),因而,矢量量化最先在語(yǔ)音、圖像、視頻這些媒體信息的壓縮中得到了廣泛的應(yīng)用。碼書(shū)設(shè)計(jì)在一方面可以看成是一個(gè)統(tǒng)計(jì)聚類(lèi)的過(guò)程,但從另一個(gè)角度來(lái)看,碼書(shū)設(shè)計(jì)也是一個(gè)迭代過(guò)程。此外,先進(jìn)的預(yù)測(cè)技術(shù)也是提高壓縮比的一種方法。當(dāng)輸入的標(biāo)量信號(hào)落入這個(gè)小區(qū)間時(shí),其量化值就用這個(gè)代表值代替,或者稱(chēng)之為被量化為這個(gè)代表值。矢量量化是標(biāo)量量化的發(fā)展,同時(shí),矢量量化總是優(yōu)于標(biāo)量量化。例如,當(dāng)K=2時(shí)所構(gòu)成的是一個(gè)二維矢量,所有可能的二維矢量就構(gòu)成了一個(gè)平面,記二維矢量,所有可能的就是一個(gè)二維空間。其中最小失真值所對(duì)應(yīng)的那個(gè)量化矢量,就是模擬矢量X的重構(gòu)矢量(或稱(chēng)恢復(fù)矢量)。 (a) (b) 圖22 矢量量化示意圖根據(jù)上面對(duì)矢量量化的描述,可以給矢量量化進(jìn)行如下下的定義:矢量量化是把一個(gè)K維模擬矢量映射成為另一個(gè)K維量化矢量,其數(shù)學(xué)表達(dá)式為: (21) (22) 式中,X表示輸入矢量;表示信源空間;表示K維歐氏空間;Y表示量化矢量(碼字或碼矢);表示量化符號(hào);表示輸出空間(即碼書(shū));N表示碼書(shū)的大?。创a字的數(shù)目)。因而,尋求一種高效的算法,使盡可能找到全局最優(yōu)或接近全局最優(yōu)的碼書(shū)來(lái)提高碼書(shū)的性能,從而減少計(jì)算的復(fù)雜程度才是研究碼書(shū)設(shè)計(jì)算法的目的。好的碼書(shū)能最大程度的提高矢量量化的效果,使得恢復(fù)后的矢量、語(yǔ)音、圖像和原來(lái)的矢量、語(yǔ)音、圖像盡可能的相似。矢量量化器根據(jù)其原理可以分解為編碼器和解碼器兩部分,如圖23。 失真測(cè)度碼書(shū)(a)計(jì)算 置信道/存儲(chǔ)器碼書(shū)(b)尋找輸入矢量X編碼器譯碼器ii