【正文】
前總會(huì)有無聲間隙。2.拒絕非語音的信號(hào)。在現(xiàn)代通信技術(shù)中,凡是涉及到語音通信的,都需要應(yīng)用到語音端點(diǎn)檢測(cè)這一技術(shù),并且這一技術(shù)的重要性不僅體現(xiàn)在日常語音通信中,更體現(xiàn)在科研和國(guó)防建設(shè)上。 國(guó)內(nèi)外研究現(xiàn)狀 端點(diǎn)檢測(cè)算法的國(guó)內(nèi)外研究現(xiàn)狀語音端點(diǎn)檢測(cè)算法經(jīng)過幾十年的發(fā)展,產(chǎn)生了很多方法,而且隨著語音技術(shù)在現(xiàn)代科學(xué)中的重要性不斷增大,也不斷的有新方法被提出來滿足需要。這些參數(shù)描述了此語音信號(hào)的重要的信息,繼而用一定的算法進(jìn)行推理,從而可以判定此信號(hào)是語音段還是非語音段。2003年Gazor提出了利用拉普拉斯概率密度函數(shù)(PDF)為帶噪語音和噪聲譜建模,它被證明是一個(gè)更好的純凈語音分布的模型。由此,首先,用主元分析(PCA)分析噪聲觀察值的估計(jì)協(xié)方差矩陣構(gòu)造噪聲特征空間。因此,基于可靠信息就可以實(shí)現(xiàn)魯棒性VAD。隨著小波分析在信號(hào)處理領(lǐng)域的廣泛應(yīng)用,也有不少基于小波分析語音端點(diǎn)檢測(cè)算法被提出,如:選擇小波部分子帶跟蹤信號(hào)的能量變化以實(shí)現(xiàn)端點(diǎn)檢測(cè),將小波變換模極大值應(yīng)用于信號(hào)突變點(diǎn)的檢測(cè)等[6]。DSP發(fā)展歷程大致分為三個(gè)階段:70年代理論先行,80年代產(chǎn)品普及,90年代突飛猛進(jìn)。隨著大規(guī)模集成電路技術(shù)的發(fā)展,1982年世界上誕生了首枚通用可編程DSP芯片TI公司的TMS32010。90年代DSP發(fā)展十分驚人,相繼出現(xiàn)了第四代和第五代DSP器件。如TI公司的TMS320C80代表了新一代芯片集成技術(shù),它將4個(gè)32位的DSP,1個(gè)32位RISC主處理器,1個(gè)傳輸控制器,2個(gè)視頻控制器和50Kb SRAM集成在一個(gè)芯片上。按照CMOS的發(fā)展趨勢(shì),DSP的運(yùn)算速度提高到1000MIPS是完全有可能的。而以C54xx系列內(nèi)核為基礎(chǔ)的DSP器件TMS320C5402不僅繼承了上述優(yōu)點(diǎn),而且存儲(chǔ)器有三個(gè)獨(dú)立的可選擇的空間:程序存儲(chǔ)空間、數(shù)據(jù)存儲(chǔ)空間和I/O空間。片上雙存取訪問RAM被組織在一些塊上,因?yàn)槊總€(gè)DARAM塊能夠在每個(gè)機(jī)器周期中被訪問兩次,結(jié)合并行的體系結(jié)構(gòu),使得5402得以在一個(gè)指定的周期內(nèi)完成四個(gè)并發(fā)的存儲(chǔ)器操作:一個(gè)取指操作、兩個(gè)數(shù)據(jù)讀操作和一個(gè)數(shù)據(jù)寫操作。本文開發(fā)的系統(tǒng)就是建立在TMS320C5402的基礎(chǔ)上。2.使用MATLAB軟件進(jìn)行算法仿真,分析實(shí)驗(yàn)結(jié)果得出并驗(yàn)證優(yōu)化后的算法。第2章 語音端點(diǎn)檢測(cè)算法的分析及其優(yōu)化 語音分析的一般方法計(jì)算機(jī)語音分析是計(jì)算機(jī)語音處理的一個(gè)重要內(nèi)容,也是計(jì)算機(jī)語音合成及語音識(shí)別的基礎(chǔ)[8]。國(guó)外的經(jīng)驗(yàn)說明,語音分析的工作必須先于其它的語音處理工作。 時(shí)域分析法時(shí)域分析是最早被使用的一種方法,也是應(yīng)用范圍最廣泛的一種方法。2.時(shí)域波形語音信號(hào)的數(shù)字處理實(shí)現(xiàn)起來比較簡(jiǎn)單。圖21 音頻時(shí)域波形圖 The plot of audio in time domain 頻域分析方法頻域分析是常用的第二種語音分析方法。圖22 音頻頻域波形圖 plot of audio in frequency domain頻域分析方法的特點(diǎn)是:1.語音信號(hào)的頻譜波形不太容易受外界環(huán)境的影響,而時(shí)域波形易隨外界環(huán)境變化。 語譜分析法利用語譜圖是第三種語音分析方法。語譜分析法的特點(diǎn)是:1.它是時(shí)間、頻率、音強(qiáng)的三位顯示圖,同時(shí) 也是時(shí)域波形與頻譜圖的結(jié)合。4.由于語譜圖具有不同的黑白程度,形成不同的花紋,這種花紋被稱作聲紋。 語音端點(diǎn)檢測(cè)算法的分析隨著越來越多的學(xué)者對(duì)語音端點(diǎn)檢測(cè)技術(shù)的關(guān)注,大量新的語音端點(diǎn)檢測(cè)算法相繼被提出。主要體現(xiàn)在對(duì)環(huán)境條件的依賴性很強(qiáng),繼續(xù)要保持測(cè)試條件和訓(xùn)練條件的一致性,否則系統(tǒng)性能嚴(yán)重下降。然而,當(dāng)語音處理由實(shí)驗(yàn)室走向?qū)嶋H應(yīng)用時(shí),環(huán)境噪聲的存在所帶來的問題就變得越來越重要。并比較了各自的檢測(cè)性能,筆者針對(duì)不同的噪聲類型,采用相應(yīng)比較合適的端點(diǎn)檢測(cè)算法從而取得更好的檢測(cè)結(jié)果。簡(jiǎn)而言之,小波就是小范圍的波。在小波理論的發(fā)展過程中,一些已發(fā)展起來的問題經(jīng)常用小波變換作為理論基礎(chǔ),看成是從不同角度應(yīng)用小波所得的特例。二維情況下它除了“顯微”能力外還具有“極化”能力(即方向選擇性),因而引人注意。的小波變換如式(21)所示。和都是連續(xù)變量,因此成為連續(xù)的小波變換(Continuous Wavelet Transform,簡(jiǎn)記為CWT)。因此小波變換的逆變換公式不是惟一的。 (24)式中如式(25)所示。1.尺度的離散化。為了防止信息的丟失,我們要求采樣間隔滿足Nyquist采樣定理,采樣率大于等于該尺度下頻率通帶的二倍。 (27)離散小波變換定義為如式(28)所示。 (29)我們把軸用歸一化,于是有式(210) (210)此時(shí),對(duì)應(yīng)的為 多分辨率分析我們把平方可積函數(shù)看成是某一逐級(jí)逼近的極限情況。當(dāng)時(shí),函數(shù)空間的劃分如圖24所示。 (212)進(jìn)一步要求函數(shù)空間剖分還應(yīng)具有以下兩項(xiàng)特性:1.位移不變性。 (214) 子帶平均能量方差子帶平均能量方差的語音端點(diǎn)檢測(cè)算法針對(duì)主要由高斯白噪聲[13]組成的背景噪聲提出的一種算法。由此看來,分析與研究語音信號(hào)的處理,總離不開對(duì)信號(hào)與噪聲的分析。某些類型的噪聲是確知的,例如電源哼聲、自激振蕩、各種內(nèi)部的諧波干擾等。隨機(jī)信號(hào)與隨機(jī)噪聲均可歸納為依賴于時(shí)間參數(shù)的隨機(jī)過程,這種過程的基本特征是,它是時(shí)間的函數(shù),但在任一時(shí)刻上觀察到的值卻是不確定的,是一個(gè)隨機(jī)變量。 (215)如果存在式(216),則稱為的一維概率密度函數(shù)。顯然,越大,用維分布函數(shù)或維概率密度函數(shù)去描述的統(tǒng)計(jì)特性就越充分[15]。 (218)隨機(jī)噪聲中的起伏噪聲是熱噪聲,散彈噪聲以及宇宙噪聲為代表的噪聲。所謂高斯過程,即指定它的任意維概率密度如式(219)所示。 (222)由上式可以看出,由于正態(tài)隨機(jī)過程的維分布僅由各隨機(jī)變量的數(shù)學(xué)期望、方差和兩兩之間的歸一化協(xié)方差函數(shù)所決定[16]。由高斯白噪聲特點(diǎn)可知,該噪聲在相當(dāng)寬的頻率范圍內(nèi)具有平坦的功率譜密度。這就為我們進(jìn)行端點(diǎn)檢測(cè)提供了可行的方法。語音的幅頻特性如圖26所示。小波和尺度函數(shù)中的支撐區(qū)[17]為,的消失矩為(除外),不具有對(duì)稱性(即非線性相位)。2.算法原理。而噪聲在各個(gè)子帶內(nèi)的平均能量分布均勻。 (225)式中表示小波層數(shù)。根據(jù)式(26),選取db3作為小波基函數(shù)對(duì)待測(cè)信號(hào)進(jìn)行四層小波變換,得到小波系數(shù)。在Windows操作系統(tǒng)下使用MATLAB進(jìn)行算法仿真,仿真成功后編程實(shí)現(xiàn)。語音采樣后進(jìn)行分幀處理,幀長(zhǎng)為20ms,220個(gè)點(diǎn),幀移10ms,110個(gè)點(diǎn)。而高頻子帶中,值從小到大頻率依次降低。每當(dāng)信號(hào)從語音段進(jìn)入噪聲段時(shí),重新取三幀語音的參數(shù)的平均值作為閾值。6.對(duì)所得的結(jié)果與標(biāo)準(zhǔn)結(jié)果進(jìn)行比較以得到檢測(cè)率。從表中結(jié)果可以看出子帶平均能量方差的算法不僅在安靜的環(huán)境下有較好的識(shí)別率,在加入噪音后(實(shí)驗(yàn)中采用含有高斯白噪聲且信噪比15db,10db,0db的語音數(shù)據(jù))系統(tǒng)識(shí)別率下降很少,充分說明這種特征有很好的抗噪性。根據(jù)這一特性,可知對(duì)處理的語音信號(hào)進(jìn)行小波變換,每一小波子帶內(nèi)的小波系數(shù)也必有相同的統(tǒng)計(jì)特性。進(jìn)一步,對(duì)于一個(gè)隨機(jī)過程,如果滿足式(227),就可以稱為是自相似的。在實(shí)際中,考慮的自相似過程通常也是過程。在信息工程中有著廣泛的應(yīng)用。特別的,當(dāng)H增大時(shí),會(huì)使得變大,從而功率譜中能量的分布會(huì)發(fā)生變化,低頻的能量變大,高頻部分的會(huì)變小,從而,采樣會(huì)變得平滑。自相似和長(zhǎng)相關(guān),這兩種性質(zhì)通常有著十分密切的聯(lián)系。語音信號(hào)的氣流波動(dòng)可能經(jīng)常導(dǎo)致一些較小或較大的紊亂。 (231)在不相關(guān)隨機(jī)變量的條件下,小波基展開為過程建立了非常好的模型,因?yàn)檎换男〔ɑ归_扮演著為類過程Karhonenloevetype展開的角色,如式(232)所示。如此的小波基表示的是過程的魯棒性。 小波系數(shù)方差算法實(shí)現(xiàn)語音信號(hào)是統(tǒng)計(jì)自相似的隨機(jī)過程,它的統(tǒng)計(jì)特性在時(shí)域內(nèi)不隨波形的擴(kuò)充或壓縮而變化,因此它具有過程的特性。假設(shè)有一離散語音信號(hào)為,經(jīng)小波變換后它的小波系數(shù)為它的方差如式(237)所示 (237)根據(jù)過程的特性,信號(hào)經(jīng)過小波變換后獲得的小波系數(shù)可以近似看作是零均值的隨機(jī)變量,如式(238)所示。根據(jù)貝葉斯分類原理它們分別如式(240)、(241)及(242)所示。如果則標(biāo)識(shí)此幀為語音,否則標(biāo)識(shí)此幀為噪聲。根據(jù)噪音的特性,對(duì)噪音環(huán)境可以簡(jiǎn)單地分為以下三類:分別是準(zhǔn)靜音環(huán)境、平穩(wěn)噪聲環(huán)境和有色噪聲環(huán)境(也稱為非平穩(wěn)噪聲環(huán)境[27])。對(duì)語音的頻譜特性和能量的描述如表23所示[28]。 (245)式中是第個(gè)信號(hào)的長(zhǎng)度,這里。將能量序列通過一個(gè)中心濾波器,進(jìn)行一次中心消波,這樣可以使得能量序列的特征更好的表現(xiàn)出來。6.對(duì)5檢測(cè)所得的檢測(cè)結(jié)果,進(jìn)行后續(xù)處理。每當(dāng)信號(hào)從語音段進(jìn)入噪聲段時(shí),重新取四幀語音的參數(shù)的平均值作為閥值。在所有實(shí)驗(yàn)中,語音信號(hào)被分為每幀含有220樣點(diǎn)的幀。圖212 原始語音信號(hào) The original speech signal圖213 含高斯白噪聲的語音信號(hào) Speech signal with gaussian white noise圖214含混雜噪聲的語音信號(hào) Speech signal with mixed noise圖215含高斯白噪聲的信號(hào)檢測(cè) Detection of signal with gaussian white noise圖216 含混雜噪聲的信號(hào)檢測(cè) Detection of signal with mixed noise實(shí)驗(yàn)同時(shí)使用子帶平均能量方差與小波系數(shù)方差的算法,以及上述兩種方法的綜合算法實(shí)現(xiàn)對(duì)相同語音進(jìn)行了端點(diǎn)檢測(cè)處理。在分析噪聲類型的基礎(chǔ)上,著重研究了基于小波分析的子帶平均能量方差和小波系數(shù)方差算法,充分了利用子帶平均能量方差算法和小波系數(shù)方差算法各自的優(yōu)點(diǎn)給出一種基于小波分析語音端點(diǎn)檢測(cè)的綜合實(shí)現(xiàn)方法并進(jìn)行了大量的仿真實(shí)驗(yàn)。該芯片的內(nèi)部結(jié)構(gòu)及指令系統(tǒng)都是全新設(shè)計(jì)的,它的主要特點(diǎn)[30]如下:CPU1.先進(jìn)的多總線結(jié)構(gòu)。5.指數(shù)編碼器可以在單個(gè)周期內(nèi)計(jì)算40位累加器中數(shù)值的指數(shù)。2.塊存儲(chǔ)器傳送指令。6.條件存儲(chǔ)指令。3.帶有內(nèi)部振蕩器。并行主機(jī)接口(HPI)。 最小系統(tǒng)模塊硬件設(shè)計(jì)最小系統(tǒng)模塊是使得DSP芯片TMS320C5402能夠工作的最精簡(jiǎn)模塊,它主要包括電源電路、復(fù)位電路、時(shí)鐘電路和存儲(chǔ)器接口電路。根據(jù)TPS73HD318芯片性能設(shè)計(jì)雙電壓輸出的電源電路[31,32],如圖32所示。本系統(tǒng)采用內(nèi)部振蕩器,在管腳X1和X2/CLKOUT之間連接一個(gè)10MHz晶體來啟動(dòng)內(nèi)部振蕩器[34]。輸入時(shí)鐘乘以一個(gè)1~31之間的常數(shù)。PLL受存儲(chǔ)器映射的時(shí)鐘模式寄存器CLKMD控制。與并行接口相比,串行接口的最大特點(diǎn)是減少了器件引腳數(shù)目,降低了接口設(shè)計(jì)復(fù)雜性。在外部通道選擇電路的控制下,采用分時(shí)方式實(shí)現(xiàn)多路緩沖串行通信。圖33 McBSP 框圖 McBSP block diagram表31給出了有關(guān)引腳的定義,McBSP通過這7個(gè)引腳為外部設(shè)備提供了數(shù)據(jù)通道和控制通道。數(shù)據(jù)發(fā)送和接收如圖3圖35所示。圖34 數(shù)據(jù)發(fā)送時(shí)序圖 Data transmit sequence diagram數(shù)據(jù)接收過程為:首先,McBSP串口通過DR引腳,將接收數(shù)據(jù)移入接收移位數(shù)據(jù)寄存器RSR[l,2]中。芯片集成了16位A/D和D/A轉(zhuǎn)換器,使用過采樣(over sampling)技術(shù)提供16位A/D和D/A低速信號(hào)轉(zhuǎn)換,該器件包括兩個(gè)串行的同步轉(zhuǎn)換通道,工作方式和采樣速率均可由DSP編程設(shè)置。圖36 TLC320AD50C的引腳排列圖 TLC320AD50C diagram of the pin2.功能介紹 TLC320AD50C的主要功能有[36]:內(nèi)含16位精度的E–△ADC和DAC,DAC和ADC各同步串行輸入輸出、多種數(shù)據(jù)傳輸模式,可通過串行口或直接配置接口(DCSI)對(duì)寄存器編程,控制工作方式、采樣率、輸入/輸出增益等、可與TMS320C5x系列DSP多通道緩沖串口(McBSP)直接串接通信。若采用15+1位傳送模式,其最低位D0為非數(shù)據(jù)位,輸入DAC數(shù)據(jù)的D0位為次通信請(qǐng)求位,輸出ADC數(shù)據(jù)的D0位為M/S腳的狀態(tài)位。采樣頻率選擇為8KHz,內(nèi)部PLL使能(控制寄存器4中的N=8)。圖37 TMS320C5402與TLC32DAD50C硬件連接示意圖 TMS320C5402 and TLC32DAD50C hardware connection diagram 音視頻矩陣控制模塊本模塊實(shí)現(xiàn)了多路音視頻信號(hào)的智能控制切換,主要分為前端處理、矩陣控制、后級(jí)驅(qū)動(dòng)三個(gè)部分如下系統(tǒng)框圖如圖38所示。帶寬可達(dá)4M,完全滿足應(yīng)用視頻信號(hào)對(duì)帶寬的要求。3.AV信號(hào)的后級(jí)驅(qū)動(dòng) 信號(hào)經(jīng)過切換電路有一定衰減,需要增加驅(qū)動(dòng)能力和下級(jí)匹配輸出。第4章 系統(tǒng)軟件實(shí)現(xiàn) 軟件開發(fā)工具介紹C5402的開發(fā)工具包括代碼生成和代碼調(diào)試工具兩大類。CCS有兩種工作模式,即:軟件仿真器模式和硬件在線編程模式;前者可以脫離DSP芯片,在PC機(jī)上模擬DSP的指令集和工作機(jī)制,主要用于前期算法實(shí)現(xiàn)和調(diào)試;后者可以實(shí)時(shí)運(yùn)行在DSP芯片上,與硬件開發(fā)板相結(jié)合在線編程和調(diào)試應(yīng)用程序。4.實(shí)時(shí)數(shù)據(jù)交換的RTDX插件以及相應(yīng)的程序接口API。3.高性能編輯器支持匯編文件的動(dòng)態(tài)語法加亮顯示,使用戶很容易閱讀代碼,發(fā)現(xiàn)語法