【正文】
語音信號(hào),并確定語音信號(hào)的開始及結(jié)束。本文采用了語音端點(diǎn)檢測(cè)的算法來實(shí)現(xiàn)音視頻矩陣的智能語音控制[1]。這樣,既方便控制,又節(jié)約成本。打印前,不要忘記把上面“Abstract”這一行后加一空行第1章 緒論 課題研究的目的和意義 音視頻矩陣概述音視頻矩陣在系統(tǒng)中介于音視頻源與顯示或復(fù)用終端之間,負(fù)責(zé)將不同的音視頻信號(hào)按用戶的選擇進(jìn)行集中調(diào)控。本人授權(quán) 大學(xué)可以將本學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索,可以采用影印、縮印或掃描等復(fù)制手段保存和匯編本學(xué)位論文。除了文中特別加以標(biāo)注引用的內(nèi)容外,本論文不包含任何其他個(gè)人或集體已經(jīng)發(fā)表或撰寫的成果作品。盡我所知,除文中特別加以標(biāo)注和致謝的地方外,不包含其他人或組織已經(jīng)發(fā)表或公布過的研究成果,也不包含我為獲得 及其它教育機(jī)構(gòu)的學(xué)位或?qū)W歷而使用過的材料。對(duì)本研究提供過幫助和做出過貢獻(xiàn)的個(gè)人或集體,均已在文中作了明確的說明并表示了謝意。對(duì)本文的研究做出重要貢獻(xiàn)的個(gè)人和集體,均已在文中以明確方式標(biāo)明。涉密論文按學(xué)校規(guī)定處理。最簡(jiǎn)單的模擬音頻矩陣系統(tǒng)是利用電子開關(guān),來實(shí)現(xiàn)輸入與輸出的連接。但是傳統(tǒng)音視頻矩陣的功能單一,也不具備擴(kuò)展功能。 語音端點(diǎn)檢測(cè)檢測(cè)的作用語音端點(diǎn)檢測(cè)(Endpoint Detection),也被稱為語音活躍檢測(cè)(Voice Activity Detection,簡(jiǎn)稱VAD),主要應(yīng)用在語音處理中的語音編解碼,語音識(shí)別、語音增強(qiáng)及語音監(jiān)控等領(lǐng)域[2]。一般的信號(hào)流都存在一定的背景聲,而語音識(shí)別的模型都是基于語音信號(hào)訓(xùn)練的,語音信號(hào)和語音模型進(jìn)行模式匹配才有意義。2.在信號(hào)流中檢測(cè)到語音信號(hào)后,判斷此處是否是語句的開始或結(jié)束點(diǎn)。可以大量減少信號(hào)傳輸量及識(shí)別器的運(yùn)算負(fù)載,對(duì)于語音對(duì)話的實(shí)時(shí)識(shí)別有重要作用。在端點(diǎn)檢測(cè)找到語音的起始點(diǎn)時(shí),系統(tǒng)將停止提示音的播放,完成打斷功能。由此可見,語音端點(diǎn)檢測(cè)技術(shù)己經(jīng)成為語音信號(hào)處理領(lǐng)域的重要課題之一,具有重要的理論研究?jī)r(jià)值和廣闊的應(yīng)用前景。對(duì)于每個(gè)語音幀,計(jì)算其較為重要的8個(gè)參數(shù):歸一化的短時(shí)低通能量、歸一化的短時(shí)高通能量、過零率、低頻帶的一階、二階反射系數(shù)、前向后向匹配相關(guān)系數(shù)及它們的乘積。他們采用在離散傅立葉變換(DFT)系數(shù)域的統(tǒng)計(jì)模型,噪聲環(huán)境下的語音和噪聲譜分布均假設(shè)為聯(lián)合高斯分布。語音與噪音在能量域通常有不同的分布,如果我們能分清含有低功率噪音和高功率語音的成分,即使帶噪語音的平均信噪比很低,我們也有可能提取更多可靠的語音信息。與規(guī)模較小的特征值?;贖MM模型的檢測(cè)方法也是語音信號(hào)端點(diǎn)檢測(cè)中的重要方法,用viterbi解碼算法對(duì)待測(cè)信號(hào)進(jìn)行分解,求出語音的哪些語音幀與模型相匹配,從而得出端點(diǎn)所在處。芯片內(nèi)部采用程序和數(shù)據(jù)分開的哈佛結(jié)構(gòu),具有專門的硬件乘法器,廣泛采用流水線操作,具有良好的并行特性,提供特殊的DSP指令,可以快速地實(shí)現(xiàn)各種數(shù)字信號(hào)處理算法。因此,直到70年代,有人才提出了DSP的理論和算法基礎(chǔ)。進(jìn)入80年代后期,隨著數(shù)字信號(hào)處理技術(shù)應(yīng)用范圍的擴(kuò)大,要求提高處理速度,到1988年出現(xiàn)了浮點(diǎn)DSP,同時(shí)提供了高級(jí)語言的編譯器,使運(yùn)算速度進(jìn)一步提高,其應(yīng)用范圍逐步擴(kuò)大到通信、計(jì)算機(jī)領(lǐng)域。當(dāng)前的DSP多數(shù)基于RISC(精簡(jiǎn)指令集計(jì)算機(jī))結(jié)構(gòu),且進(jìn)入了VLSI(超大規(guī)模集成電路)階段。而第六代TMSC6000系列則是目前速度最快,性能最高的DSP芯片,該系列芯片的發(fā)展中有高至5000MIPS,3G FLOPS的處理性能。其中C54xx以其低廉的價(jià)格,低功耗和高性能等特點(diǎn)被廣泛應(yīng)用到通信和個(gè)人消費(fèi)電子領(lǐng)域。其中,TMS320C5402所采用的RAM是雙存取訪問RAM (DARAM)。所以,TMS320C5402是54系列芯片的典型代表。本文主要研究音頻信號(hào)的處理,對(duì)視頻信號(hào)只用做控制和傳輸。5.優(yōu)化系統(tǒng),對(duì)軟硬件進(jìn)行合理配置,提高系統(tǒng)性能。因此,可以先對(duì)語音做頻譜分析,得到提高語音識(shí)別率的有用數(shù)據(jù),并據(jù)此來設(shè)計(jì)計(jì)算機(jī)語音識(shí)別系統(tǒng)的硬件和軟件。這3種方法分別由對(duì)應(yīng)的圖來表示:時(shí)域分析對(duì)應(yīng)時(shí)域波形圖、頻譜分析對(duì)應(yīng)頻域波形圖、語譜分析則對(duì)應(yīng)語譜圖。時(shí)域分析法的特點(diǎn)是:1.用時(shí)域波形表示的語音信號(hào)比較直觀,清晰易懂。音頻時(shí)域波形圖如圖21所示。與上文時(shí)域圖相對(duì)應(yīng)的一幅頻譜圖如圖22所示。4.頻域分析要用到FFT變換等,有時(shí)會(huì)需要專門的硬件工具。語譜圖提供有關(guān)不同時(shí)間不同頻率的相對(duì)音強(qiáng)的有價(jià)值信息,可以在二個(gè)維度(時(shí)間及頻率)上表示出音強(qiáng)的關(guān)系。3.從語譜圖上還可以得到能量隨語音發(fā)生過程(時(shí)間)的變化情況,由此可以區(qū)別濁音及清音、輔音(或聲母)等的不同種類。對(duì)于語譜分析方法,目前在語音端點(diǎn)檢測(cè)的方法中應(yīng)用還有待進(jìn)一步的研究。表21各類方法優(yōu)缺點(diǎn)比較Table 21 The camparison of characteristic of several methods方法優(yōu)點(diǎn)缺點(diǎn)短時(shí)平均過零率較簡(jiǎn)單難以識(shí)別弱爆破音、摩擦音、末尾的鼻音拖長(zhǎng)的元音等短時(shí)能量或平均幅度較簡(jiǎn)單弱摩擦音與結(jié)尾時(shí)的鼻音易和噪聲混淆HMM較準(zhǔn)確需要事先訓(xùn)練雙門限比較法有效區(qū)分語音信號(hào)中的濁音和噪聲難以區(qū)分清音和噪聲自相關(guān)相似距離對(duì)濁音的檢測(cè)精度較高對(duì)開端的清音檢測(cè)精度不夠頻帶方差較準(zhǔn)確在脈沖干擾下門限值需要測(cè)定盡管語音端點(diǎn)檢測(cè)的研究工作迄今已近幾十年,取得了輝煌的成就,但是現(xiàn)有的語音識(shí)別系統(tǒng)還面臨著許多困難,具體表現(xiàn)在以下幾個(gè)方面:1.語音端點(diǎn)檢測(cè)算法的適應(yīng)性差。由于語音數(shù)據(jù)大部分都是在接近理想的條件下采集的,語音一般都要在高保真設(shè)備上錄制語音,尤其要在無噪環(huán)境下錄音?;谏鲜鎏岬降脑肼暫瓦m應(yīng)性等問題,論文在研究了兩種基于小波的語音端點(diǎn)檢測(cè)算法的基礎(chǔ)上,采用了綜合兩種算法的方法來解決以上問題。Mallat提出的多分辨率分析(multiresolotion alysis,MRA)的思想,使小波的構(gòu)造趨于規(guī)范。函數(shù)的小波基有很多類型:有一個(gè)函數(shù)的二進(jìn)伸縮與平移所產(chǎn)生的小波基,可成為經(jīng)典小波;有經(jīng)典小波基生成的小波包,它可使信號(hào)分解為更小的子頻帶、局部三角基,它可用于有限區(qū)間、多元小波、球面小波、用于不規(guī)則抽樣與流形的第二廣義小波等。小波變換理論己由一維發(fā)展到了多維。 連續(xù)小波變換設(shè)是平方可積函數(shù)(記作),是被稱為基本小波[11]或母小波(mother wavelet)函數(shù)。 (22)式中是基本小波的位移和尺度伸縮。連續(xù)小波變換將一維信號(hào)變換到二維空間,因此小波變換中存在多余的信息,我們稱之為冗余度(Redundancy)。處的小波變換值可以表示成半平面上其他各處值的“總貢獻(xiàn)”如式(24)所示。為了減小小波變換系數(shù)冗余,我們將小波基函數(shù)的,限定在一些離散的點(diǎn)上取值。通常對(duì)進(jìn)行均勻離散取值,以覆蓋整個(gè)時(shí)間軸。這樣,就改成如式(27)所示,記為。圖23 平面二進(jìn)離散柵格 The binary discrete grid of the plane當(dāng)時(shí),沿軸的相應(yīng)采樣間隔是此時(shí),如式(29)所示。 (211)式中是從到的整數(shù),值愈小空間愈大。圖24 函數(shù)空間的剖分 The function space partition這種剖分方式使得空間與空間正交,各個(gè)之間下次也正交,如式(212)所示。如果,則有表達(dá)式(214)。 噪聲與語音的頻域差異在語音的通信和處理過程中,常伴隨有噪聲的加入。人為噪聲來源于由人類活動(dòng)造成的其他信號(hào)源,例如:外臺(tái)信號(hào)、開關(guān)接觸噪聲、工業(yè)的點(diǎn)火輻射及熒光燈干擾等;自然噪聲是指自然界存在的各種電磁波源,例如:閃電、大氣中的電暴、銀河系噪聲及其他各種宇宙噪聲等;內(nèi)部噪聲是系統(tǒng)設(shè)備本身產(chǎn)生的各種噪聲,例如,在電阻一類的導(dǎo)體中自由電子的熱運(yùn)動(dòng)(常稱熱噪聲)、真空管中電子的起伏發(fā)射和半導(dǎo)體中載流子的起伏變化(常稱為散彈噪聲)及電源哼聲等[14]。這種不能預(yù)測(cè)的噪聲統(tǒng)稱為隨機(jī)噪聲。顯然,這個(gè)隨機(jī)變量的統(tǒng)計(jì)特性可以用分布函數(shù)或概率密度函數(shù)去描述,我們稱式(215)為隨機(jī)過程的一維分布函數(shù)。 (217)如果存在則稱其為的維概率密度函數(shù)。由此可見,平穩(wěn)隨機(jī)過程的統(tǒng)計(jì)特性將不隨時(shí)間的推移而不同。所以它被近似的表述為高斯白噪聲。歸一化協(xié)方差函數(shù),如式(222)所示。一般來說,信號(hào)所含的噪聲都可看作是平穩(wěn)的高斯白噪聲。與之相反語音信號(hào)的能量主要分布于低頻部分,在整個(gè)頻率區(qū)間內(nèi)能量分布起伏較大。在噪聲段,由于高斯白噪聲能量變化平緩,分布相對(duì)平均,所以各個(gè)頻段的能量方差較小。Daubechies小波是由世界著名的小波分析學(xué)者Inrid Daubechies構(gòu)造的小波函數(shù),我們一般簡(jiǎn)寫成,是小波的階數(shù)。 (223)式中。根據(jù)上一節(jié)的分析可以確定語音信號(hào)在各個(gè)子帶內(nèi)的平均能量分布不均,信號(hào)的能量主要集中在低頻子帶[19]內(nèi)。計(jì)算各級(jí)小波系數(shù)平均能量的均值,如式(225)所示。圖28 語音信號(hào)波形圖 The plot of the speech signal首先給該段語音加入15db的高斯白噪聲,形成待測(cè)信號(hào),如圖29所示。圖29與圖210進(jìn)行比較可明顯看出檢測(cè)效果比較明顯,在采用一定閾值判定后可以精確的檢測(cè)出語音的端點(diǎn)。圖29帶噪語音信號(hào) Speech signal containing noise圖210 信號(hào)平均能量方差 The average power variance of signal 具體實(shí)驗(yàn)步驟如下:1.對(duì)系統(tǒng)用到的所有語音信號(hào)進(jìn)行數(shù)據(jù)采樣,由于語音信號(hào)主要集中在5kHz以下。在本論文中進(jìn)行小波處理后得到的包含低頻率信息的小波系數(shù)記為第6層小波系數(shù)。為了增加算法的精度,對(duì)閾值進(jìn)行自適應(yīng)處理。持續(xù)幀長(zhǎng)的確定是由具體的實(shí)驗(yàn)結(jié)果來決定的,本方法根據(jù)實(shí)驗(yàn)取的經(jīng)驗(yàn)值,規(guī)定最小語音持續(xù)幀長(zhǎng)為8幀,最小噪聲持續(xù)幀長(zhǎng)為4幀,一些界限如小于被定義的最小持續(xù)時(shí)間時(shí)就被舍棄。圖211 對(duì)帶噪信號(hào)的處理結(jié)果 Detection oute of speech signal containing noise 實(shí)驗(yàn)結(jié)果比較表22為在各種信噪比的情況下,采用db4小波分別對(duì)不同數(shù)量的語音信號(hào)進(jìn)行子帶平均能量方差端點(diǎn)檢測(cè)所得到的實(shí)驗(yàn)結(jié)果,以及與基于能量與過零率算法的比較。表22 語音端點(diǎn)檢測(cè)識(shí)別率(%)Table 22 Recognition Rate of Speech Endpoint Detection (%)子帶平均能量方差算法cleanSNR=15dbSNR=10dbSNR=0db10句語音50句語音100句語音平均檢測(cè)結(jié)果 小波系數(shù)方差語音信號(hào)是統(tǒng)計(jì)自相似的隨機(jī)過程,它的統(tǒng)計(jì)特性在時(shí)域內(nèi)不隨波形的擴(kuò)充或壓縮而變化,因此它具有過程的特性[20,21]。自相似過程是在統(tǒng)計(jì)上具有尺度不變性的一種隨機(jī)過程,定義為:一個(gè)隨機(jī)過程,如果這個(gè)隨機(jī)過程在時(shí)間上壓縮或者擴(kuò)展時(shí),統(tǒng)計(jì)特性不變。自相似過程與平穩(wěn)過程之間沒有必然的聯(lián)系,自相似過程可以是平穩(wěn)的,例如高斯白噪聲;當(dāng)然,也可以不是平穩(wěn)的,例如分形布朗運(yùn)動(dòng)[22]。 (228)式中,這樣的隨機(jī)過程稱為過程,也叫類分形信號(hào)。對(duì)于過程,分形維與自相似過程中的Hurst參數(shù)有著十分密切的關(guān)系。 (229)那么這個(gè)過程稱為是長(zhǎng)相關(guān)的(Long Range Dependent)。近年來成熟起來的小波變換理論,同時(shí)具有時(shí)變分析和尺度分析的功能,這為人們研究具有長(zhǎng)程相關(guān)性的類分形信號(hào)提供了一個(gè)有效的工具。根據(jù)式(230)可知,統(tǒng)計(jì)自相似過程的平均和協(xié)方差函數(shù)也是自相似的,因此統(tǒng)計(jì)自相似過程總被定義為過程,已測(cè)得功率譜服從式(231)的能量規(guī)律關(guān)系,如式(231)所示。 (234)式中是樣本點(diǎn)的數(shù)量,代表可獲得的不同級(jí)的集,是在每個(gè)值的有效系數(shù)的集合。 (236)本節(jié)根據(jù)類分形信號(hào)小波變換系數(shù)在不同分解級(jí)數(shù)上的特點(diǎn),提出了一種方法估計(jì)語音信號(hào)參數(shù)及加性白噪聲方差,進(jìn)而從噪聲背景下估計(jì)出語音信號(hào),以實(shí)現(xiàn)信號(hào)與噪聲的區(qū)分。在端點(diǎn)檢測(cè)中,經(jīng)常利用貝葉斯分類方法對(duì)小波系數(shù)方差的統(tǒng)計(jì)特性進(jìn)行分類[26]。表示預(yù)先提取的噪聲的方差參數(shù),表示預(yù)先提取的純凈語音的方差參數(shù),表示清音的方差參數(shù)。通過式(240)、(241)分別進(jìn)行計(jì)算,如果則判斷為語音,否則計(jì)算式(242)。因此本文提出一種語音端點(diǎn)檢測(cè)的綜合方法,根據(jù)對(duì)噪聲的估計(jì)來選擇算法對(duì)語音進(jìn)行端點(diǎn)檢測(cè),利用子帶平均能量方差簡(jiǎn)單高效的特點(diǎn)做靜音條件下和平穩(wěn)噪聲條件下的端點(diǎn)檢測(cè),而如果檢測(cè)到信號(hào)中具有有色噪聲或者其它噪聲時(shí),采用小波系數(shù)方差的檢測(cè)方法。而有色噪聲的幅度從1Hz到的分布有很大的變化,與語音信號(hào)相似。 (244)3.提取前五幀語音信號(hào)檢測(cè)其頻率分布,各個(gè)頻帶能量幅值如式(245)所示。 (246) (247)式中表示信號(hào)的小波子帶平均能量序列[29]。通過式(240)、(241)、(242)的概率判斷含語音幀和非語音幀。為了增加算法的精度,對(duì)閥值進(jìn)行了自適應(yīng)處理,實(shí)驗(yàn)采取語音信號(hào)前三幀子帶頻域方差的平均值的兩倍作為閥值。首先,使用軟件對(duì)語音信號(hào)進(jìn)行抽樣和量化,與白噪聲和其它噪聲相混合。圖215,圖216為經(jīng)過上述綜合方法處理后的輸出結(jié)果。表24語音端點(diǎn)檢測(cè)率(%)Table 24 Speech endpoint detection rate (%)檢測(cè)算法純語音高斯白噪聲(SNR=15db)混雜噪聲(SNR=15db)子帶平均能量方差