【正文】
在MATLAB軟件中采集語(yǔ)音信號(hào)、回放語(yǔ)音信號(hào)并畫(huà)出語(yǔ)音信號(hào)的時(shí)域波形和頻譜圖;對(duì)所采集的語(yǔ)音信號(hào)加入干擾噪聲,對(duì)加入噪聲的信號(hào)進(jìn)行播放,并進(jìn)行時(shí)域和頻譜分析;對(duì)比加噪前后的時(shí)域圖和頻譜圖,分析討論采用什么樣的濾波器進(jìn)行濾除噪聲。另一方面,為了語(yǔ)音識(shí)別實(shí)用化的需要,講者自適應(yīng)、聽(tīng)覺(jué)模型、快速搜索識(shí)別算法以及進(jìn)一步的語(yǔ)言模型的研究等課題倍受關(guān)注。由于美國(guó)貝爾實(shí)驗(yàn)室的Babiner等人在20世紀(jì)80年代中期,對(duì)隱馬爾可夫模型深人淺出的介紹,才使世界各國(guó)從事語(yǔ)音信號(hào)處理的研究人員了解和熟悉,進(jìn)而成為一個(gè)公認(rèn)的研究熱點(diǎn),也是目前語(yǔ)音識(shí)別等的主流研究途徑。因此,20世紀(jì)80年代開(kāi)始出現(xiàn)的語(yǔ)音信號(hào)處理技術(shù)產(chǎn)品化的熱溯,與上述語(yǔ)音信號(hào)處理新技術(shù)的推動(dòng)作用是分不開(kāi)的。歷時(shí)五年的龐大的ARPA研究計(jì)劃,雖然在語(yǔ)音理解、語(yǔ)言統(tǒng)計(jì)模型等方面的研究積累了一些經(jīng)驗(yàn),取得了許多成果,但沒(méi)能達(dá)到巨大投資應(yīng)得的成果,在1976年停了下來(lái),進(jìn)入了深刻的反省階段。 到了1970年,好似反駁Pierce的批評(píng),單詞識(shí)別裝置開(kāi)始了實(shí)用化階段,其后實(shí)用化的進(jìn)程進(jìn)一步高漲,實(shí)用機(jī)的生產(chǎn)銷售也上了軌道。 20世紀(jì)60年代中期形成的一系列數(shù)字信號(hào)處理方法和技術(shù),如數(shù)字濾波器、快速博里葉變換(FFT)等成為語(yǔ)音信號(hào)數(shù)字處理的理論和技術(shù)基礎(chǔ)。但是它的快速發(fā)展可以說(shuō)是從1940年前后Dudley的聲碼器(vocoder)和potter等人的可見(jiàn)語(yǔ)音Visible Speech)開(kāi)始的。 國(guó)內(nèi)外研究現(xiàn)狀20世紀(jì)60年代中期形成的一系列數(shù)字信號(hào)處理的理論和算法,如數(shù)字濾波器、快速傅立葉變換(FFT)等是語(yǔ)音信號(hào)數(shù)字處理的理論和技術(shù)基礎(chǔ)。語(yǔ)音信號(hào)采集與分析之所以能夠那樣長(zhǎng)期地、深深地吸引廣大科學(xué)工作者去不斷地對(duì)其進(jìn)行研究和探討,除了它的實(shí)用性之外,另一個(gè)重要原因是,它始終與當(dāng)時(shí)信息科學(xué)中最活躍的前沿學(xué)科保持密切的聯(lián)系.并且一起發(fā)展。作為高科鼓應(yīng)用領(lǐng)域的研究熱點(diǎn),語(yǔ)音信號(hào)采集與分析從理論的研究到產(chǎn)品的開(kāi)發(fā)已經(jīng)走過(guò)了幾十個(gè)春秋并且取得了長(zhǎng)足的進(jìn)步。并且,由于語(yǔ)言和語(yǔ)音與人的智力活動(dòng)密切相關(guān),與社會(huì)文化和進(jìn)步緊密相連,所以它具有最大的信息容量和最高的智能水平。語(yǔ)音信號(hào)處理是研究用數(shù)字信號(hào)處理技術(shù)對(duì)語(yǔ)音信號(hào)進(jìn)行處理的一門學(xué)科,它是一門新興的學(xué)科,同時(shí)又是綜合性的多學(xué)科領(lǐng)域和涉及面很廣的交叉學(xué)科。 課題背景及意義語(yǔ)音信號(hào)處理是一門比較實(shí)用的電子工程的專業(yè)課程,語(yǔ)音是人類獲取信息的重要來(lái)源和利用信息的重要手段。最后,本文對(duì)語(yǔ)音信號(hào)處理的進(jìn)一步發(fā)展方向提出了自己的看法。通過(guò)語(yǔ)音傳遞信息是人類最重要、最有效、最常用和最方便的交換信息形式。Matlab語(yǔ)言是一種數(shù)據(jù)分析和處理功能十分強(qiáng)大的計(jì)算機(jī)應(yīng)用軟件,它可以將聲音文件變換為離散的數(shù)據(jù)文件,然后利用其強(qiáng)大的矩陣運(yùn)算能力處理數(shù)據(jù),如數(shù)字濾波、傅里葉變換、時(shí)域和頻域分析、聲音回放以及各種圖的呈現(xiàn)等,它的信號(hào)處理與分析工具箱為語(yǔ)音信號(hào)分析提供了十分豐富的功能函數(shù),利用這些功能函數(shù)可以快捷而又方便地完成語(yǔ)音信號(hào)的處理和分析以及信號(hào)的可視化,使人機(jī)交互更加便捷。關(guān)鍵字:Matlab;語(yǔ)音信號(hào);傅里葉變換;信號(hào)處理;The Design of Analysis and Processing Voice SignalAbstractSpeech signal processing is to study the use of digital signal processing technology and knowledge of the voice signal voice processing of the emerging discipline is the fastest growing areas of information science one of the core technology. Transmission of information through the voice of humanity39。通過(guò)語(yǔ)言相互傳遞信息是人類最重要的基本功能之一。通過(guò)語(yǔ)音傳遞倍息是人類最重要、最有效、最常用和最方便的交換信息的形式?,F(xiàn)在,人類已開(kāi)始進(jìn)入了信息化時(shí)代,用現(xiàn)代手段研究語(yǔ)音信號(hào),使人們能更加有效地產(chǎn)生、傳輸、存儲(chǔ)、獲取和應(yīng)用語(yǔ)音信息,這對(duì)于促進(jìn)社會(huì)的發(fā)展具有十分重要的意義。它正在直接與辦公、交通、金融、公安、商業(yè)、旅游等行業(yè)的語(yǔ)音咨詢與管理.工業(yè)生產(chǎn)部門的語(yǔ)聲控制,電話、電信系統(tǒng)的自動(dòng)撥號(hào)、輔助控制與查詢以及醫(yī)療衛(wèi)生和福利事業(yè)的生活支援系統(tǒng)等各種實(shí)際應(yīng)用領(lǐng)域相接軌,并且有望成為下一代1操作系統(tǒng)和應(yīng)用程序的用戶界面。語(yǔ)音信號(hào)采集與分析是以語(yǔ)音語(yǔ)言學(xué)和數(shù)字信號(hào)處理為基礎(chǔ)而形成的一門涉及面很廣的綜合性學(xué)科,與心理、生理學(xué)、計(jì)算機(jī)科學(xué)、通信與信息科學(xué)以及模式識(shí)別和人工智能等學(xué)科都有著非常密切的關(guān)系。隨著信息科學(xué)技術(shù)的飛速發(fā)展,語(yǔ)音信號(hào)處理取得了重大的進(jìn)展:進(jìn)入70年代之后,提出了用于語(yǔ)音信號(hào)的信息壓縮和特征提取的線性預(yù)測(cè)技術(shù)(LPC),并已成為語(yǔ)音信號(hào)處理最強(qiáng)有力的工具,廣泛應(yīng)用于語(yǔ)音信號(hào)的分析、合成及各個(gè)應(yīng)用領(lǐng)域,以及用于輸入語(yǔ)音與參考樣本之間時(shí)間匹配的動(dòng)態(tài)規(guī)劃方法;80年代初一種新的基于聚類分析的高效數(shù)據(jù)壓縮技術(shù)—矢量量化(VQ)應(yīng)用于語(yǔ)音信號(hào)處理中;而用隱馬爾可夫模型(HMM)描述語(yǔ)音信號(hào)過(guò)程的產(chǎn)生是80年代語(yǔ)音信號(hào)處理技術(shù)的重大發(fā)展,目前HMM已構(gòu)成了現(xiàn)代語(yǔ)音識(shí)別研究的重要基石。1952年貝爾(Bell)實(shí)驗(yàn)室的Davis等人首次研制成功能識(shí)別十個(gè)英語(yǔ)數(shù)字的實(shí)驗(yàn)裝置。在方法上,隨著電子計(jì)算機(jī)的發(fā)展,以往的以硬件為中心的研究逐漸轉(zhuǎn)化為以軟件為主的處理研究。此外社會(huì)上所宣傳的聲紋(Voice Print)識(shí)別,即說(shuō)話人識(shí)別的研究也扎扎實(shí)實(shí)地開(kāi)展起來(lái),并很快達(dá)到了實(shí)用化的階段。但是,在整個(gè)20世紀(jì)70年代還是有幾項(xiàng)研究成果對(duì)語(yǔ)音信號(hào)處理技術(shù)的進(jìn)步和發(fā)展產(chǎn)生了重大的影響。 20世紀(jì)80年代,由于矢量量化、隱馬爾可夫模型和人工神經(jīng)網(wǎng)絡(luò)(ANN)等相繼被應(yīng)用于語(yǔ)音信號(hào)處理,并經(jīng)過(guò)不斷改進(jìn)與完善,使得語(yǔ)音信號(hào)處理技術(shù)產(chǎn)生了突破性的進(jìn)展。進(jìn)入20世紀(jì)90年代以來(lái),語(yǔ)音信號(hào)采集與分析在實(shí)用化方面取得了許多實(shí)質(zhì)性的研究進(jìn)展。 本課題的研究?jī)?nèi)容和方法 研究?jī)?nèi)容本論文主要介紹的是的語(yǔ)音信號(hào)的簡(jiǎn)單處理。 運(yùn)行環(huán)境運(yùn)行環(huán)境主要介紹了硬件環(huán)境和軟件環(huán)境。GUI的廣泛應(yīng)用是當(dāng)今計(jì)算機(jī)發(fā)展的重大成就之一,他極大地方便了非專業(yè)用戶的使用人們從此不再需要死記硬背大量的命令,取而代之的是可以通過(guò)窗口、菜單、按鍵等方式來(lái)方便地進(jìn)行操作。在濁音段表現(xiàn)出周期信號(hào)的特征,在清音段表現(xiàn)出隨機(jī)噪聲的特征。②抑制50Hz的電源工頻干擾。采樣也稱抽樣,是信號(hào)在時(shí)間上的離散化,即按照一定時(shí)間間隔△t在模擬信號(hào)x(t)上逐點(diǎn)采取其瞬時(shí)值。在采樣的過(guò)程中應(yīng)注意采樣間隔的選擇和信號(hào)混淆:對(duì)模擬信號(hào)采樣首先要確定采樣間隔。 系統(tǒng)框架及實(shí)現(xiàn)1) 語(yǔ)音信號(hào)的采集 使用電腦的聲卡設(shè)備采集一段語(yǔ)音信號(hào),并將其保存在電腦中。語(yǔ)音信號(hào)分析的目的就在與方便有效的提取并表示語(yǔ)音信號(hào)所攜帶的信息。Ⅱ.語(yǔ)音信號(hào)的頻域分析信號(hào)的傅立葉表示在信號(hào)的分析與處理中起著重要的作用。輸出頻譜是聲道系統(tǒng)頻率響應(yīng)與激勵(lì)源頻譜的乘積。濾波:濾除語(yǔ)音信號(hào)中的噪音部分,可采用低通濾波、高通濾波、帶通濾波和帯阻濾波,并比較各種濾波后的效果。最后對(duì)處理過(guò)的語(yǔ)音信號(hào)進(jìn)行處理后的效果顯示。 ,發(fā)送端將被傳輸?shù)臄?shù)字信號(hào)轉(zhuǎn)換成子載波幅度和相位的映射,并進(jìn)行離散傅里葉變換(IDFT)將數(shù)據(jù)的頻譜表達(dá)式變換到時(shí)域上。當(dāng)然,這種復(fù)雜性的節(jié)約則意味著接收發(fā)機(jī)不能同時(shí)進(jìn)行發(fā)送和接收操作。但信號(hào)獨(dú)立于系統(tǒng)時(shí),F(xiàn)FT變換和IFFT變換可以被交替使用。用于讀取語(yǔ)音,采樣值放在向量y中,fs表示采樣頻率(Hz),bits表示采樣位數(shù)。向量y則就代表了一個(gè)信號(hào)(也即一個(gè)復(fù)雜的“函數(shù)表達(dá)式”)也就是說(shuō)可以像處理一個(gè)信號(hào)表達(dá)式一樣處理這個(gè)聲音信號(hào)。無(wú)論采樣頻率如何,理論上來(lái)說(shuō)采樣的位數(shù)決定了音頻數(shù)據(jù)最大的力度范圍。顯然采樣率越高,計(jì)算機(jī)攝取的圖片越多,對(duì)于原始音頻的還原也越加精確。語(yǔ)音信號(hào)分析可以分為時(shí)域和變換域等處理方法,其中時(shí)域分析是最簡(jiǎn)單的方法,直接對(duì)語(yǔ)音信號(hào)的時(shí)域波形進(jìn)行分析,提取的特征參數(shù)主要有語(yǔ)音的短時(shí)能量,短時(shí)平均過(guò)零率,短時(shí)自相關(guān)函數(shù)等。如果x長(zhǎng)度是2的冪次方,函數(shù)fft執(zhí)行高速基-2FFT算法,否則fft執(zhí)行一種混合基的離散傅立葉變換算法,計(jì)算速度較慢。 FIR的特點(diǎn): 不存在極點(diǎn)(z=0除外),系統(tǒng)函數(shù)| z0|處收斂。FIR數(shù)字濾波器的幅頻特性精度較之于IIR數(shù)字濾波器低,但是線性相位即不同頻率分量的信號(hào)經(jīng)過(guò)FIR數(shù)字濾波器后他們的時(shí)間差不變。IIR濾波器運(yùn)算結(jié)構(gòu)通常由延時(shí)、乘以系數(shù)和相加等基本運(yùn)算組成。數(shù)字濾波器有多種分類,根據(jù)數(shù)字濾波器沖激響應(yīng)的時(shí)域特征,可將數(shù)字濾波器分為兩種,即無(wú)限長(zhǎng)沖激響應(yīng)(IIR)濾波器和有限長(zhǎng)沖激響應(yīng)(FIR)濾波器。相反,F(xiàn)IR濾波器卻可以得到嚴(yán)格的線性相位,然而由于FIR濾波器傳輸函數(shù)的極點(diǎn)固定在原點(diǎn),所以只能用較高的階數(shù)達(dá)到高的選擇性;對(duì)于同樣的濾波器設(shè)計(jì)指標(biāo),F(xiàn)IR濾波器所要求的階數(shù)可以比IIR濾波器高5~10倍,結(jié)果,成本較高,信號(hào)延時(shí)也較大;如果按相同的選擇性和相同的線性要求來(lái)說(shuō),則IIR濾波器就必須加全通網(wǎng)絡(luò)進(jìn)行相位較正,同樣要大增加濾波器的節(jié)數(shù)和復(fù)雜性。另外,傅立葉表示使信號(hào)的某些特性變得更明顯,因此,它能更深入地說(shuō)明信號(hào)的各項(xiàng)紅物理現(xiàn)象。由于語(yǔ)音信號(hào)可以認(rèn)為在短時(shí)間內(nèi),近似不變,因而可以采用短時(shí)分析法。如果x長(zhǎng)度是2的冪次方,函數(shù)fft執(zhí)行高速基-2FFT算法,否則fft執(zhí)行一種混合基的離散傅立葉變換算法,計(jì)算速度較慢。l 特點(diǎn):具有可近似地分離并能提取出頻譜包絡(luò)信息和細(xì)微結(jié)構(gòu)信息的特點(diǎn)l 用途:① 提取聲道特征信息:提取頻譜包絡(luò)特征,以此作為描述音韻的特征參 數(shù)而應(yīng)用于語(yǔ)