freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于虛擬儀器的語音識別算法研究-在線瀏覽

2024-08-07 21:05本頁面
  

【正文】 ],但這十年之中并沒有取得令人鼓舞的突破性進(jìn)展。這使得孤立詞發(fā)音和孤立詞發(fā)音的識別技術(shù)成為可行的生活實(shí)用技術(shù)。在這期間,貝爾實(shí)驗(yàn)室開展了用于建立真正的非特定人語音識別系統(tǒng)的實(shí)驗(yàn)研究,提出了范圍較廣泛的一類復(fù)雜的聚類算法,用來確定能夠表示大量人群的不同詞語的所有聲學(xué)變化的不同模式。繼70年代的孤立詞語音識別研究后,80 年代主要研究的是連接詞語音識別的問題,由單個(gè)詞的模式串接在一起的短連接詞語音進(jìn)行匹配識別。HMM 的理論基礎(chǔ)在 1970 年前后由 Baum 等人建立起來,隨后由 CMU 的 Baker和 IBM 的 Jelinek 等人應(yīng)用于語音識別之中,HMM 模型的廣泛應(yīng)用歸功于貝爾實(shí)驗(yàn)室 Rabiner 等研究者的努力,他們把原來艱澀的純數(shù)學(xué)化的 HMM 模型工程化,讓從事語音處理的研究者更了解和熟悉,進(jìn)而成為公認(rèn)的一個(gè)研究熱點(diǎn) [1,4,6,7]。90 年代以前,語音識別系統(tǒng)主要是在實(shí)驗(yàn)室中進(jìn)行的。發(fā)達(dá)國家如日本、美國等著名大公司(IBM、Apple、ATamp。如 IBM 的 ViaVoice 系統(tǒng)、劍橋大學(xué)的 HTK 系統(tǒng)、DARGON 系統(tǒng)、Microsoft 的 Whisper 系統(tǒng)等,這些語音識別系統(tǒng)代表著當(dāng)時(shí)語音識別的最高水平,同時(shí)結(jié)合自然語音處理技術(shù),發(fā)展到基于自然口語識別、理解的人機(jī)對話系統(tǒng)和不同語種的直接語音翻譯設(shè)備。80 年代后期,從 1987 年起國家“863”智能計(jì)算機(jī)的主題專家組委對語音識別技術(shù)立項(xiàng),經(jīng)過二十多年的發(fā)展,漢語語音識別取得了國內(nèi)前所未有的成果,研究水平已經(jīng)與國際同步,在漢語語音識別的技術(shù)上還有自己的特點(diǎn)和優(yōu)勢。清華大學(xué)電子工程系研究的語音識別系統(tǒng)以 1183 個(gè)單音節(jié)詞作為識別單元,它采用的是分段概率的模型,對詞的組成音節(jié)進(jìn)行仔細(xì)的分解,最后用搜索匹配算法來計(jì)算整體的識別率,使二字詞和三字詞的識別率達(dá)到 %。其中聲母識別采用 CHMM 模型,聲調(diào)識別采用感知神經(jīng)網(wǎng)絡(luò)模型,整個(gè)系統(tǒng)識別率高達(dá) %,聲調(diào)識別率為 %,詞的識別率為 95% [1,4,8]。但漢語數(shù)字語音識別技術(shù)由于漢語數(shù)字語音存在高混淆的問題,使得其進(jìn)展相當(dāng)緩慢,再加上漢語獨(dú)特的單音節(jié)特征和多方言語種等問題使得漢語數(shù)字識別系統(tǒng)在噪聲環(huán)境下仍然具有很大難度,任務(wù)艱巨。虛擬儀器是計(jì)算機(jī)硬件資源、虛擬儀器軟件資源和儀器與測控系統(tǒng)硬件資源三者的有效結(jié)合。使用者只要用鼠標(biāo)點(diǎn)擊虛擬面板,就可以操作這臺計(jì)算機(jī)系統(tǒng)硬件平臺,就如同使用一臺專用的測量儀器。 (2)儀器的功能是由用戶根據(jù)需要由軟件來定義的,而不是事先由廠家定義好的。(4)研制周期較傳統(tǒng)儀器大為縮短。決定虛擬儀器具備傳統(tǒng)儀器不可能具備的上述特點(diǎn)的根本原因在于:“虛擬儀器的關(guān)鍵是軟件”。虛擬儀器的構(gòu)成,: 虛擬儀器的構(gòu)成LABVIEW軟件工具的特點(diǎn)可歸納為:(1)圖形化的編程方式,無須寫任何文本格式的代碼,是真正的工程師語言。(3)既提供了傳統(tǒng)的程序調(diào)試手段,如設(shè)置斷點(diǎn)、單步運(yùn)行,同時(shí)又提供了獨(dú)到的高亮執(zhí)行工具,使程序動畫式運(yùn)行,利于設(shè)計(jì)者觀察程序運(yùn)行的細(xì)節(jié),使程序的調(diào)試和開發(fā)更為便捷。(5)囊括了DAQ、GPIB、PXI、VXI在內(nèi)的各種儀器通信總線標(biāo)準(zhǔn)的所有功能函數(shù),使得不懂總線標(biāo)準(zhǔn)的開發(fā)者也能夠驅(qū)動不同總線標(biāo)準(zhǔn)接口設(shè)備與儀器。用LABVIEW設(shè)計(jì)的虛擬儀器控制系統(tǒng)主要包括三個(gè)部分:(1)儀器前面板的設(shè)計(jì)儀器前面板的設(shè)計(jì)是指在虛擬儀器的開發(fā)平臺上,利用各類子模板圖標(biāo)創(chuàng)建用戶界面,即虛擬儀器的前面板。(3)I/O接口儀器驅(qū)動程序的設(shè)計(jì)I/O接口儀器驅(qū)動程序是控制硬件設(shè)備的驅(qū)動程序,也是連接主控計(jì)算機(jī)與儀器設(shè)備的紐帶。 MATLAB語言MATLAB語言[1]是在20世紀(jì)80年代初期,由美國的Math Works軟件開發(fā)公司推出的一種信號圖像處理的數(shù)學(xué)工具軟件。利用MATLAB可以實(shí)現(xiàn)符號運(yùn)算、科學(xué)計(jì)算、算法研究、數(shù)據(jù)分析和可視化、數(shù)學(xué)建模和仿真、圖形用戶界面設(shè)計(jì)以及科學(xué)工程繪圖等強(qiáng)大功能。其主要特點(diǎn)有:(1)先進(jìn)的技術(shù)界面支持 MATLAB給用戶提供的是一種最直觀、最簡潔的程序開發(fā)環(huán)境。(2)開放式的體系結(jié)構(gòu) 除了內(nèi)部函數(shù)外,所有的MATLAB主包文件和各工具包文件都是對用戶開放的源程序文件,用戶可以通過修改源程序文件來構(gòu)成新的適合自己使用的專用工具包。(4)豐富的函數(shù)工具箱 提供專門的對語音信號進(jìn)行處理的工具箱。但是當(dāng)待解決問題所需的指令較多而且所用指令結(jié)構(gòu)較復(fù)雜時(shí),或者當(dāng)一組指令通過改變少量參數(shù)就可以被反復(fù)使用去解決不同問題時(shí),直接在直欞窗中輸入指令的方法就顯得累贅、繁瑣和笨拙。M腳本文件是指:(1)對于解決同一個(gè)問題,在文件中的指令形式和前后位置與在指令窗中輸入的那組指令毫無任何區(qū)別。(3)與在指令窗中直接運(yùn)行質(zhì)量一樣,腳本文件運(yùn)行時(shí)產(chǎn)生的變量都駐留在MATLAB基本工作空間中。其具體步驟如下:1) 編輯調(diào)試器的開啟在缺省的情況下,M文件編輯器(Editor/Debugger)不隨MATLAB的啟動而開啟,通常只有在編寫M文件時(shí)才啟動M文件編輯器窗口。下面介紹M文件編輯器的幾種啟動方法:點(diǎn)擊MATLAB桌面上的“”圖標(biāo),或選中菜單項(xiàng)[File:New:MFile],可以打開空白的M文件編輯器。用鼠標(biāo)左鍵雙擊當(dāng)前目錄窗口中的所需M文件,可直接引出展示相應(yīng)文件夾的M文件編輯器。具體方法是:選中菜單項(xiàng)[File:Page setup],引出一個(gè)頁面設(shè)置對話框,該對話框可以對版面布局(Layout)、版頭(Header)、字體(Fonts)等參數(shù)進(jìn)行設(shè)置。“Header”版頭設(shè)置子項(xiàng):設(shè)置版頭的具體形式包含有版頭的邊界、布局及頁數(shù)的顯示方式等參數(shù)進(jìn)行設(shè)置。(2)編輯器的段落格式、字體(形式、大小、顏色)、自動保存等都可由用戶自己根據(jù)需要進(jìn)行設(shè)置。 Colors”子項(xiàng):在對應(yīng)該項(xiàng)的右側(cè)欄中,可以對字體大小、顏色、類型進(jìn)行設(shè)置?!癒eyboard amp?!癆uto save”子項(xiàng):編輯器窗口中的文件發(fā)生改動后,文件會自動進(jìn)行備份。說明:1.運(yùn)行M文件的方法有很多種,而最常用的方法是:(1)在指令窗中直接運(yùn)行M文件名(不帶擴(kuò)展名);(2)在當(dāng)前目錄窗中,用鼠標(biāo)右鍵單擊所要運(yùn)行的文件,再從引出的現(xiàn)場菜單中選擇[Run]菜單項(xiàng)。但這樣做的目的僅僅是為了管理上的一致,也為了便于用戶記憶和查詢。3.當(dāng)使用M文件編輯器調(diào)試并保存文件時(shí),或在MATLAB指令窗中運(yùn)行M文件時(shí)。5.注意:在MATLAB中,若發(fā)生漢字輸入困難,可用鼠標(biāo)右鍵點(diǎn)擊,引出現(xiàn)場菜單;選中“屬性”菜單項(xiàng),引出“對話框”,或采取在微軟輸入法中選擇“逐鍵指示”,或在智能輸入法中選中“固定”。對語音識別系統(tǒng)進(jìn)行設(shè)計(jì)研究,針對語音識別的功能需求,對比研究VQ和 DTW 算法的識別算法,結(jié)合 LABVIEW 和 MATLAB 各自優(yōu)點(diǎn)綜合設(shè)計(jì)出基于虛擬儀器的語音識別系統(tǒng),用于語音識別功能的進(jìn)一步研究。第二章介紹了語音信號的實(shí)時(shí)采集及預(yù)處理,對語音信號的產(chǎn)生與數(shù)字化進(jìn)行了分析,并詳細(xì)介紹了語音信號的小波消噪及端點(diǎn)檢測以及語音信號的特征提取,其中對當(dāng)前應(yīng)用較廣泛的MFCC特征參數(shù)提取過程做了詳細(xì)的討論。第四章介紹了非特定人連續(xù)語音識別系統(tǒng)的實(shí)現(xiàn)問題,介紹了系統(tǒng)的具體設(shè)計(jì)步驟,及其模板的建立與讀取,并對試驗(yàn)結(jié)果進(jìn)行了分析。第六章 總結(jié)與展望,對本文的研究工作進(jìn)行階段性總結(jié),討論了當(dāng)前存在的問題和將來可能的研究方向。在語音識別系統(tǒng)中主要是采用基于模板匹配識別算法的研究,進(jìn)行待測語音和模板語音的對比分析,再根據(jù)特定的判定準(zhǔn)則得出最終的識別結(jié)果。 所示,主要分為信號預(yù)處理、特征參數(shù)提取、模式匹配和參考模板庫幾個(gè)單元。圖 語音識別系統(tǒng)基本結(jié)構(gòu)圖語音識別系統(tǒng)的處理過程從一開始的對語音信號進(jìn)行采集,即模擬語音信號轉(zhuǎn)化為數(shù)字語音信號,隨機(jī)語音經(jīng)過錄音設(shè)備轉(zhuǎn)化為數(shù)字信號(語音信號)輸入到語音識別系統(tǒng)進(jìn)行識別。由于語音信號具有短時(shí)平穩(wěn)的特性,所以語音信號的特征參數(shù)都是以一段短時(shí)語音信號為單位的,一般短時(shí)時(shí)間段取值為 20ms~30ms 之間。識別過程就是通過對輸入的語音信號與參考模板庫中的語音模板進(jìn)行比較,以特定的測度標(biāo)準(zhǔn)得出的最優(yōu)參考模板作為輸入語音信號的識別結(jié)果輸出,這個(gè)就是語音識別的識別全過程。下面根據(jù)語音識別的過程,分別介紹各個(gè)過程的關(guān)鍵技術(shù)和基本理論,預(yù)處理和語音自動分割算法以及三種語音特征參數(shù)提取技術(shù)。 語音信號的采集通常語音信號是一種連續(xù)的模擬信號,計(jì)算機(jī)無法直接對其做數(shù)字化處理,因此需要經(jīng)過一種轉(zhuǎn)換將模擬信號轉(zhuǎn)化成數(shù)字信號,我們把這個(gè)過程叫做模/數(shù)轉(zhuǎn)換(A/D轉(zhuǎn)換)。將模擬語音信號轉(zhuǎn)化為數(shù)字語音信號需要聲音采集卡即聲卡的支持,不同聲卡的信噪比存在一定的差異,所以質(zhì)量不同的聲卡采集到的語音信號對系統(tǒng)的識別率也有一定的影響。 語音信號采集顯示的前面板圖 語音信號采集顯示的程序框圖 語音信號的數(shù)字化語音信號的數(shù)字化一般包括采樣、放大、增益控制、反混疊濾波、A/D變換及編碼。另一方面抑制50Hz的電源產(chǎn)生的工頻干擾。為了防止混疊效應(yīng),選擇的采樣頻率必須滿足Nyquist采樣定理,一般用的采樣頻率有fs1=8KHz, fs2=11KHz, fs3=16KHz等,在本設(shè)計(jì)中采樣率為8KHz。一般模數(shù)轉(zhuǎn)換器和防混疊濾波通常做在一個(gè)集成塊內(nèi),就目前來說,從市面上購買到的普通聲卡在這方面做的都還可以,對語音信號進(jìn)行數(shù)字化的質(zhì)量還是有一定保證的。要將原始語音模擬信號轉(zhuǎn)變成數(shù)字語音信號,一定要經(jīng)過采樣和量化這兩個(gè)步驟,從而得到在時(shí)間和幅度上均為離散的數(shù)字語音信號。 語音信號預(yù)處理語音信號的預(yù)處理過程一般包括預(yù)加重處理、分幀處理、加窗處理、端點(diǎn)檢測幾個(gè)部分, 描述了整個(gè)預(yù)處理過程。因此,在對語音信號進(jìn)行處理之前有必要對其高頻部分進(jìn)行提升。其時(shí)域表達(dá)式為:圖 。為了保證特征矢量參數(shù)變換的平滑性,分幀時(shí)使幀與幀之間有部分樣本重疊,這樣就可以用平穩(wěn)過程的分析方法來處理非平穩(wěn)的語音信號了。設(shè)原始信號采樣序列為 S ( m ),分幀采用一個(gè)窗函數(shù)乘以原始信號并不斷平移得到幀語音序列。加窗的物理意義可以理解為離散信號經(jīng)過一個(gè)單位沖擊為{w ( m )}的有限沖激響應(yīng)低通濾波器產(chǎn)生的輸出,常用的窗函數(shù)有三種,矩形窗,漢明(Hamming)窗和漢寧( Hanning )窗,其分別定義為:在本文后續(xù)章節(jié)中窗函數(shù)均選擇漢明窗。對于孤立詞識別來說,語音信號端點(diǎn)檢測的正確性直接影響到識別效果。實(shí)際應(yīng)用中,末點(diǎn)的誤差不會明顯地影響識別結(jié)果。端點(diǎn)檢測的準(zhǔn)確性對識別的效率和結(jié)果有直接影響[11]。例如物體的碰撞、門窗的開關(guān)等引起的噪聲,這些噪聲都可以通過設(shè)定最短的時(shí)間門限來判別。否則就標(biāo)記好結(jié)束端點(diǎn),并返回。在靜音段,如果過零率或能量超過了低門限,則開始標(biāo)記為起始點(diǎn),隨后進(jìn)入到過渡段。如果在過渡段中,只要兩個(gè)參數(shù)中的任何一個(gè)超過了高門限,就可以確信進(jìn)入真正的語音段了。端點(diǎn)檢測的短時(shí)過零率法 首先介紹一下過零率,在一段語音波形中,單位時(shí)間內(nèi)信號通過零線的次數(shù)我們就稱為過零率,它可作為信號頻率的一個(gè)度量。由于語音信號是寬帶信號,所以采用了短時(shí)平均過零率來粗略的估計(jì)其譜特性[13]。端點(diǎn)檢測的短時(shí)能量法語音信號的短時(shí)能量反映了語音信號幅度隨時(shí)間的變化,計(jì)算公式為[12]: (210)亦可表示為: (211) 其中。 由于式(211)是卷積形式的,因此可以理解為離散信號經(jīng)過一個(gè)單位脈沖的FIR低通濾波器產(chǎn)生的輸出。這時(shí),能量的主要意義在于能量函數(shù)可用來大致確定出清音語音變?yōu)闈嵋粽Z音的時(shí)刻,可用來區(qū)分有聲與無聲,聲母與韻母。由于語音信號中含有能表征說話人語音個(gè)性特征的一些信息,并且具有一定的冗余性,因此需要對語音信號進(jìn)行特征提取,也就是通過運(yùn)用一定的數(shù)字信號處理技術(shù)將原始的語音信號進(jìn)行處理后得到一個(gè)矢量序列,這個(gè)矢量序列可以認(rèn)為包含了說話人的語音特征信息。經(jīng)過這樣的處理,就可以得到說話人的語音特征參數(shù),為下一步說話人識別系統(tǒng)的構(gòu)建做好了鋪墊。近幾年以來,在說話人識別系統(tǒng)中人們用多種特征參數(shù)進(jìn)行了研究,得到了許多有意義的成果。LPC 就是對于一個(gè)語音信號的每個(gè)采樣值,都能用過去的若干個(gè)采樣值的線性組合來逼近,同時(shí)使實(shí)際采樣與線性預(yù)測抽樣之間均方誤差最小時(shí)解出來的一組系數(shù);線性預(yù)測倒譜系數(shù)是由線性預(yù)測系數(shù)推導(dǎo)得到能夠反映人的聲道特性的系數(shù);美爾倒譜系數(shù)則是端點(diǎn)檢測后的語音信號經(jīng)過美爾濾波器組并進(jìn)行相關(guān)的變換得到的反映人耳聽覺特性的系數(shù),其反映了語音的靜態(tài)特征,并且該參數(shù)的差分參數(shù)能較好地反映人的語音的動態(tài)特征,將美爾倒譜參數(shù)與其一階或多階差分參數(shù)合并作為說話人的語音特征參數(shù),能更好地表征說話人的語音特征 [17]。以上三種參數(shù)的特點(diǎn)如表 所示,相比之下美爾頻率倒譜系數(shù)有較好的優(yōu)越性。線性預(yù)測倒譜系數(shù)(LPCC)去掉了語音產(chǎn)生過程中的激勵信息,主要反映聲道特性,計(jì)算量小。美爾頻率倒譜系數(shù)(MFCC)基于人耳的聽覺特性,在低頻段具有較高的譜分辨率,計(jì)算簡單,區(qū)分能力和抗噪能力好。這種提取方法非常簡單,使用方便。美爾頻率參數(shù)提取過程為 [1718]:經(jīng)過端點(diǎn)檢測后的語音信號,首先經(jīng)過快速傅里葉變換(FFT)得到語音信號的頻譜,對頻譜取模求平方得到語音信號的能量譜,為了壓縮語音譜的動態(tài)范圍,讓能量譜通過 Mel 濾波器組進(jìn)行濾波,再對濾波后的功率譜進(jìn)行對數(shù)操作,使得功率譜的乘性成份變成加性成份,便于濾除乘性噪聲,最后再進(jìn)行離散余弦變換(DCT)求出倒譜,這樣得到 L 個(gè) MFCC 系數(shù),L 是濾波器的個(gè)數(shù),一般取 12到16 個(gè)左右,這樣便得到了 MFCC 參數(shù),其具體提取過程如圖 所示,其中 x(n)是預(yù)處理后的語音信號。 (212)式中 c、d 為一幀語音的參數(shù),k 一般取常數(shù)
點(diǎn)擊復(fù)制文檔內(nèi)容
醫(yī)療健康相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1