【正文】
域內(nèi)不隨波形的擴(kuò)充或壓縮而變化,因此它具有過(guò)程的特性[20,21]。在各種數(shù)量語(yǔ)音(如10句,50句,100句)的情況下,識(shí)別率很高,對(duì)于無(wú)噪音下識(shí)別率可達(dá)98%以上。圖211 對(duì)帶噪信號(hào)的處理結(jié)果 Detection oute of speech signal containing noise 實(shí)驗(yàn)結(jié)果比較表22為在各種信噪比的情況下,采用db4小波分別對(duì)不同數(shù)量的語(yǔ)音信號(hào)進(jìn)行子帶平均能量方差端點(diǎn)檢測(cè)所得到的實(shí)驗(yàn)結(jié)果,以及與基于能量與過(guò)零率算法的比較。標(biāo)準(zhǔn)結(jié)果為在不加入噪聲的基礎(chǔ)上對(duì)語(yǔ)音進(jìn)行手工標(biāo)記所得。持續(xù)幀長(zhǎng)的確定是由具體的實(shí)驗(yàn)結(jié)果來(lái)決定的,本方法根據(jù)實(shí)驗(yàn)取的經(jīng)驗(yàn)值,規(guī)定最小語(yǔ)音持續(xù)幀長(zhǎng)為8幀,最小噪聲持續(xù)幀長(zhǎng)為4幀,一些界限如小于被定義的最小持續(xù)時(shí)間時(shí)就被舍棄。4.如果則算法結(jié)束,否則返回到第2步。為了增加算法的精度,對(duì)閾值進(jìn)行自適應(yīng)處理。3.通過(guò)式(224)、(225)、(226)分別進(jìn)行計(jì)算,得到方差參數(shù),取前三幀語(yǔ)音的參數(shù),的平均值的2倍作為閾值。在本論文中進(jìn)行小波處理后得到的包含低頻率信息的小波系數(shù)記為第6層小波系數(shù)。記為,D為幀的總數(shù)。圖29帶噪語(yǔ)音信號(hào) Speech signal containing noise圖210 信號(hào)平均能量方差 The average power variance of signal 具體實(shí)驗(yàn)步驟如下:1.對(duì)系統(tǒng)用到的所有語(yǔ)音信號(hào)進(jìn)行數(shù)據(jù)采樣,由于語(yǔ)音信號(hào)主要集中在5kHz以下。實(shí)驗(yàn)所用的語(yǔ)音數(shù)據(jù)為4秒到7秒不等的160句英文語(yǔ)音,把它們隨機(jī)的分為三組,分別包含10句、50句和100句語(yǔ)音。圖29與圖210進(jìn)行比較可明顯看出檢測(cè)效果比較明顯,在采用一定閾值判定后可以精確的檢測(cè)出語(yǔ)音的端點(diǎn)。然后經(jīng)過(guò)式(224)、(225)和(226)的計(jì)算得到所求的方差參數(shù)。圖28 語(yǔ)音信號(hào)波形圖 The plot of the speech signal首先給該段語(yǔ)音加入15db的高斯白噪聲,形成待測(cè)信號(hào),如圖29所示。然后選取方差作為特征參數(shù)來(lái)表示各個(gè)小波子帶平均能量的差異,計(jì)算各個(gè)子帶平均能量的方差,如式(226)所示。計(jì)算各級(jí)小波系數(shù)平均能量的均值,如式(225)所示。計(jì)算各層小波系數(shù)的平均能量,如式(224)所示。根據(jù)上一節(jié)的分析可以確定語(yǔ)音信號(hào)在各個(gè)子帶內(nèi)的平均能量分布不均,信號(hào)的能量主要集中在低頻子帶[19]內(nèi)。根據(jù)第二節(jié)所介紹的小波變換原理可知,小波變換相當(dāng)于信號(hào)通過(guò)的一系列低通和高通濾波器,所得的小波子帶系數(shù)分別代表了不同頻率段信號(hào)的能量分布,如圖27所示。 (223)式中。沒(méi)有明確的表達(dá)式(除外),但轉(zhuǎn)換函數(shù)的平方模[18]是很明確的。Daubechies小波是由世界著名的小波分析學(xué)者Inrid Daubechies構(gòu)造的小波函數(shù),我們一般簡(jiǎn)寫(xiě)成,是小波的階數(shù)。比較圖25與圖26可明確的看出語(yǔ)音與噪聲在頻域存在很大的差異,而以小波分析為工具,利用這一特點(diǎn)進(jìn)行端點(diǎn)檢測(cè),也正是本節(jié)所介紹的一種基于子帶平均能量的端點(diǎn)檢測(cè)方法。在噪聲段,由于高斯白噪聲能量變化平緩,分布相對(duì)平均,所以各個(gè)頻段的能量方差較小。即利用語(yǔ)音與噪聲在各個(gè)頻段內(nèi)的平均能量的方差可以判別出語(yǔ)音段與噪聲段。與之相反語(yǔ)音信號(hào)的能量主要分布于低頻部分,在整個(gè)頻率區(qū)間內(nèi)能量分布起伏較大。因此信號(hào)在各個(gè)頻段內(nèi)的信號(hào)能量分布均勻。一般來(lái)說(shuō),信號(hào)所含的噪聲都可看作是平穩(wěn)的高斯白噪聲。所以如果過(guò)程是寬平穩(wěn)的,即其均值與時(shí)間無(wú)關(guān),協(xié)方差函數(shù)只與時(shí)間間隔有關(guān),而與時(shí)間起點(diǎn)無(wú)關(guān),則它的維分布也與時(shí)間起點(diǎn)無(wú)關(guān),故它也是嚴(yán)平穩(wěn)的。歸一化協(xié)方差函數(shù),如式(222)所示。 (219)式中 (220)為歸一化協(xié)方差矩陣的行列式,如式(221)所示。所以它被近似的表述為高斯白噪聲。起伏噪聲的特點(diǎn)是,無(wú)論在時(shí)域內(nèi)還是在頻域它們總是普遍存在和不可避免的,它們是信號(hào)中存在的主要噪聲。由此可見(jiàn),平穩(wěn)隨機(jī)過(guò)程的統(tǒng)計(jì)特性將不隨時(shí)間的推移而不同。在信號(hào)處理中占重要地位的一種類(lèi)型的隨機(jī)過(guò)程是平穩(wěn)隨機(jī)過(guò)程,所謂平穩(wěn)隨機(jī)過(guò)程,即指它的任何維分布函數(shù)或概率密度函數(shù)與時(shí)間起點(diǎn)無(wú)關(guān)。 (217)如果存在則稱(chēng)其為的維概率密度函數(shù)。 (216)在一般情況下用一維分布函數(shù)去描述隨機(jī)過(guò)程的完整統(tǒng)計(jì)特性是極不充分的,通常需要在足夠多的時(shí)刻上考慮隨機(jī)過(guò)程的多維分布函數(shù)。顯然,這個(gè)隨機(jī)變量的統(tǒng)計(jì)特性可以用分布函數(shù)或概率密度函數(shù)去描述,我們稱(chēng)式(215)為隨機(jī)過(guò)程的一維分布函數(shù)。隨機(jī)過(guò)程的統(tǒng)計(jì)特性是通過(guò)它的概率分布或數(shù)字特征加以表述的。這種不能預(yù)測(cè)的噪聲統(tǒng)稱(chēng)為隨機(jī)噪聲。雖然消除這些噪聲不一定很容易,但至少在原理上可消除或基本消除。人為噪聲來(lái)源于由人類(lèi)活動(dòng)造成的其他信號(hào)源,例如:外臺(tái)信號(hào)、開(kāi)關(guān)接觸噪聲、工業(yè)的點(diǎn)火輻射及熒光燈干擾等;自然噪聲是指自然界存在的各種電磁波源,例如:閃電、大氣中的電暴、銀河系噪聲及其他各種宇宙噪聲等;內(nèi)部噪聲是系統(tǒng)設(shè)備本身產(chǎn)生的各種噪聲,例如,在電阻一類(lèi)的導(dǎo)體中自由電子的熱運(yùn)動(dòng)(常稱(chēng)熱噪聲)、真空管中電子的起伏發(fā)射和半導(dǎo)體中載流子的起伏變化(常稱(chēng)為散彈噪聲)及電源哼聲等[14]。信號(hào)在傳播過(guò)程中會(huì)被各種加性噪聲所干擾,加性噪聲雖然獨(dú)立于有用信號(hào),但它卻始終干擾有用信號(hào),因而不可避免地對(duì)語(yǔ)音信號(hào)造成危害。 噪聲與語(yǔ)音的頻域差異在語(yǔ)音的通信和處理過(guò)程中,常伴隨有噪聲的加入。這種算法根據(jù)高斯白噪聲在小波變換域內(nèi)各個(gè)子帶的平均能量變化平緩的特點(diǎn)來(lái)判別語(yǔ)音段和噪聲段。如果,則有表達(dá)式(214)。函數(shù)的時(shí)移不改變其所屬空間,即如果則有式(213)。圖24 函數(shù)空間的剖分 The function space partition這種剖分方式使得空間與空間正交,各個(gè)之間下次也正交,如式(212)所示。空間剖分是完整的,即當(dāng)時(shí),包含整個(gè)平面可積的實(shí)變函數(shù)空間。 (211)式中是從到的整數(shù),值愈小空間愈大。每級(jí)逼近都是用某一低通平滑函數(shù)對(duì)做平滑的結(jié)果,在逐級(jí)逼近時(shí)平滑函數(shù)也做逐級(jí)伸縮,這就是“多分辨率”,即用不同分辨率來(lái)逐級(jí)逼近待分析函數(shù)。圖23 平面二進(jìn)離散柵格 The binary discrete grid of the plane當(dāng)時(shí),沿軸的相應(yīng)采樣間隔是此時(shí),如式(29)所示。 (28)在實(shí)際中,我們一般取,這時(shí)。這樣,就改成如式(27)所示,記為。所以每當(dāng)增加l時(shí),尺度增加一倍,對(duì)應(yīng)的頻率減小一半,可見(jiàn)采樣率可以降低一半而不致引起信息的丟失(帶通信號(hào)的采樣率決定于其帶寬,而不是決定于其頻率上限)。通常對(duì)進(jìn)行均勻離散取值,以覆蓋整個(gè)時(shí)間軸。目前通行的辦法是對(duì)尺度進(jìn)行冪數(shù)級(jí)離散化,即令取,此時(shí)對(duì)應(yīng)的小波函數(shù)如式(26)所示。為了減小小波變換系數(shù)冗余,我們將小波基函數(shù)的,限定在一些離散的點(diǎn)上取值。 (25)式中是小波與的內(nèi)積,反映了兩者的相關(guān)程度。處的小波變換值可以表示成半平面上其他各處值的“總貢獻(xiàn)”如式(24)所示。從小波分析的角度看,是一族超完備基函數(shù),它們之間是線性相關(guān)的,度量冗余度的量稱(chēng)為再生核[12]如式(23),它反映了小波變換的冗余性。連續(xù)小波變換將一維信號(hào)變換到二維空間,因此小波變換中存在多余的信息,我們稱(chēng)之為冗余度(Redundancy)。由以上定義,我們可以看出小波變換和傅立葉變換一樣,也是一種積分變換,為小波變換系數(shù)。 (22)式中是基本小波的位移和尺度伸縮。 (21)式中是尺度因子,反映位移,其值可正可負(fù)。 連續(xù)小波變換設(shè)是平方可積函數(shù)(記作),是被稱(chēng)為基本小波[11]或母小波(mother wavelet)函數(shù)。它在語(yǔ)音信號(hào)處理方面的潛力己經(jīng)得到確認(rèn)。小波變換理論己由一維發(fā)展到了多維。例如Gabor在1946年提出的Gabor變換,Burt在1982年提出的金字塔式圖像壓縮編碼概念,通信及語(yǔ)言處理中的子帶編碼(subband coding),數(shù)字信號(hào)處理中的多采樣濾波器組(multirate sampling filterbank),計(jì)算機(jī)視覺(jué)中的多分辨率分析等。函數(shù)的小波基有很多類(lèi)型:有一個(gè)函數(shù)的二進(jìn)伸縮與平移所產(chǎn)生的小波基,可成為經(jīng)典小波;有經(jīng)典小波基生成的小波包,它可使信號(hào)分解為更小的子頻帶、局部三角基,它可用于有限區(qū)間、多元小波、球面小波、用于不規(guī)則抽樣與流形的第二廣義小波等。小波的基本思想是通過(guò)伸縮平移一組小范圍的基,使其時(shí)頻域窗口均隨頻率的變化而變化,以實(shí)現(xiàn)對(duì)低頻分量采用大視窗分析,對(duì)高頻分量采用小視窗分析[10]。Mallat提出的多分辨率分析(multiresolotion alysis,MRA)的思想,使小波的構(gòu)造趨于規(guī)范。 小波分析的基本理論小波變換(Wavelet Transform)是八十年代后期發(fā)展起來(lái)的應(yīng)用數(shù)學(xué)分支,在理論上構(gòu)成較系統(tǒng)的構(gòu)架主要是法國(guó)數(shù)學(xué)家Y.Meyer、地質(zhì)物理學(xué)家J.Morlet和理論物理學(xué)家A.Grossman的貢獻(xiàn)?;谏鲜鎏岬降脑肼暫瓦m應(yīng)性等問(wèn)題,論文在研究了兩種基于小波的語(yǔ)音端點(diǎn)檢測(cè)算法的基礎(chǔ)上,采用了綜合兩種算法的方法來(lái)解決以上問(wèn)題。3.對(duì)于一些能量較低的爆破音、鼻音,如:等,與噪聲相混合容易造成誤判而截去這些音節(jié)的有效成分,對(duì)識(shí)別結(jié)果造成影響。由于語(yǔ)音數(shù)據(jù)大部分都是在接近理想的條件下采集的,語(yǔ)音一般都要在高保真設(shè)備上錄制語(yǔ)音,尤其要在無(wú)噪環(huán)境下錄音。另外,全世界有近百種官方語(yǔ)言,每種語(yǔ)言有多達(dá)幾十種方言,同種語(yǔ)言的不同方言在語(yǔ)音上相差懸殊,這樣,隨著語(yǔ)言環(huán)境的改變,系統(tǒng)性能也會(huì)變得很差。表21各類(lèi)方法優(yōu)缺點(diǎn)比較Table 21 The camparison of characteristic of several methods方法優(yōu)點(diǎn)缺點(diǎn)短時(shí)平均過(guò)零率較簡(jiǎn)單難以識(shí)別弱爆破音、摩擦音、末尾的鼻音拖長(zhǎng)的元音等短時(shí)能量或平均幅度較簡(jiǎn)單弱摩擦音與結(jié)尾時(shí)的鼻音易和噪聲混淆HMM較準(zhǔn)確需要事先訓(xùn)練雙門(mén)限比較法有效區(qū)分語(yǔ)音信號(hào)中的濁音和噪聲難以區(qū)分清音和噪聲自相關(guān)相似距離對(duì)濁音的檢測(cè)精度較高對(duì)開(kāi)端的清音檢測(cè)精度不夠頻帶方差較準(zhǔn)確在脈沖干擾下門(mén)限值需要測(cè)定盡管語(yǔ)音端點(diǎn)檢測(cè)的研究工作迄今已近幾十年,取得了輝煌的成就,但是現(xiàn)有的語(yǔ)音識(shí)別系統(tǒng)還面臨著許多困難,具體表現(xiàn)在以下幾個(gè)方面:1.語(yǔ)音端點(diǎn)檢測(cè)算法的適應(yīng)性差。通過(guò)大量的文獻(xiàn)調(diào)研與實(shí)際研究發(fā)現(xiàn),現(xiàn)有的各種語(yǔ)音信號(hào)端點(diǎn)檢測(cè)技術(shù)都存在各自的不足,比如基于自相關(guān)相似距離的語(yǔ)音信號(hào)端點(diǎn)檢測(cè)方法,總的來(lái)說(shuō)它與HMM方法的效果大致相同,但是對(duì)于結(jié)尾的判斷卻優(yōu)于HMM模型,這是因?yàn)檎Z(yǔ)音大多以濁音結(jié)尾,此時(shí)自相關(guān)法的判斷精度較高,但是對(duì)于清音開(kāi)頭的語(yǔ)音,尤其是[s],[ks],[n]等音節(jié),自相關(guān)算法的檢測(cè)精度就不高。對(duì)于語(yǔ)譜分析方法,目前在語(yǔ)音端點(diǎn)檢測(cè)的方法中應(yīng)用還有待進(jìn)一步的研究。與不同的人有不同的指紋類(lèi)似,不同講話者的語(yǔ)譜圖有不同的聲紋,據(jù)此可以用于識(shí)別講話者的身份。3.從語(yǔ)譜圖上還可以得到能量隨語(yǔ)音發(fā)生過(guò)程(時(shí)間)的變化情況,由此可以區(qū)別濁音及清音、輔音(或聲母)等的不同種類(lèi)。這一點(diǎn)是優(yōu)于前兩種分析方法的。語(yǔ)譜圖提供有關(guān)不同時(shí)間不同頻率的相對(duì)音強(qiáng)的有價(jià)值信息,可以在二個(gè)維度(時(shí)間及頻率)上表示出音強(qiáng)的關(guān)系。20世紀(jì)40年代已經(jīng)研制成功了語(yǔ)譜儀,將它用于語(yǔ)音分析做出的圖叫語(yǔ)譜圖。4.頻域分析要用到FFT變換等,有時(shí)會(huì)需要專(zhuān)門(mén)的硬件工具。2.語(yǔ)音信號(hào)的頻譜具有非常明顯的聲學(xué)概念,利用頻譜分析獲得的語(yǔ)音特征具有實(shí)際的物理意義。與上文時(shí)域圖相對(duì)應(yīng)的一幅頻譜圖如圖22所示。語(yǔ)音信號(hào)的頻域分析包含有語(yǔ)音信號(hào)的頻譜、功率譜、倒頻譜、頻譜包絡(luò)、短時(shí)間頻譜等。音頻時(shí)域波形圖如圖21所示。3.用時(shí)域語(yǔ)音信號(hào)進(jìn)行一些數(shù)字處理,可以得到語(yǔ)音信號(hào)的一些重要特征參數(shù),為分析語(yǔ)音信號(hào)提供了有用的基礎(chǔ)。時(shí)域分析法的特點(diǎn)是:1.用時(shí)域波形表示的語(yǔ)音信號(hào)比較直觀,清晰易懂。各種電信號(hào)可以記錄成時(shí)域波形,人體的生物電(如腦電、心電等)也可以記錄成時(shí)域波形。這3種方法分別由對(duì)應(yīng)的圖來(lái)表示:時(shí)域分析對(duì)應(yīng)時(shí)域波形圖、頻譜分析對(duì)應(yīng)頻域波形圖、語(yǔ)譜分析則對(duì)應(yīng)語(yǔ)譜圖。例如,20世紀(jì)40年代,貝爾電話實(shí)驗(yàn)室的研究人員就對(duì)語(yǔ)音分析做了大量、細(xì)微且卓有成效的工作,這些工作的成果推動(dòng)了計(jì)算機(jī)語(yǔ)音處理的發(fā)展。因此,可以先對(duì)語(yǔ)音做頻譜分析,得到提高語(yǔ)音識(shí)別率的有用數(shù)據(jù),并據(jù)此來(lái)設(shè)計(jì)計(jì)算機(jī)語(yǔ)音識(shí)別系統(tǒng)的硬件和軟件。計(jì)算機(jī)合成的語(yǔ)音音質(zhì)的好壞,計(jì)算機(jī)語(yǔ)音識(shí)別率的高低,都取決于計(jì)算機(jī)語(yǔ)音分析工作質(zhì)量的高低。5.優(yōu)化系統(tǒng),對(duì)軟硬件進(jìn)行合理配置,提高系統(tǒng)性能。3.掌握DSP開(kāi)發(fā)板的工作原理、硬件結(jié)構(gòu),以TMS320C5402為核心設(shè)計(jì)硬件電路。本文主要研究音頻信號(hào)的處理,對(duì)視頻信號(hào)只用做控制和傳輸。本論文主要把語(yǔ)音端點(diǎn)檢測(cè)的算法應(yīng)用到實(shí)際的音視頻矩陣控制系統(tǒng)中,借住了TI公司的數(shù)字信號(hào)處理器TMS320C5402利用語(yǔ)音端點(diǎn)檢測(cè)的算法實(shí)現(xiàn)音視頻矩陣的智能控制,符合了音視頻矩陣控制的發(fā)展現(xiàn)狀。所以,TMS320C5402是54系列芯片的典型代表。DARAM總是被映射到數(shù)據(jù)存儲(chǔ)空間上,也可被映射進(jìn)程序存儲(chǔ)空間用于保存程序代碼。其中,TMS320C5402所采用的RAM是雙存取訪問(wèn)RAM (DARAM)。大小都是64K,總共是192K大小。其中C54xx以其低廉的價(jià)格,低功耗和高性能等特點(diǎn)被廣泛應(yīng)用到通信和個(gè)人消費(fèi)電子領(lǐng)域。作為DSP業(yè)界公認(rèn)的龍頭,TI一直在技術(shù)上獨(dú)領(lǐng)風(fēng)騷,為適應(yīng)不同領(lǐng)域提供了不同的解決方案。而第六代TMSC6000系列則是目前速度最快,性能最高的DSP芯片,該系列芯片的發(fā)展中有高至5000MIPS,3G FLOPS的處理性能。這樣的芯片通常稱(chēng)之為MVP(多媒體視頻處理器)。當(dāng)前的DSP多數(shù)基于RISC(精簡(jiǎn)指令集計(jì)算機(jī))結(jié)構(gòu)