freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于matlab的語音識(shí)別系統(tǒng)的設(shè)計(jì)本科畢業(yè)設(shè)計(jì)(更新版)

2025-07-31 01:17上一頁面

下一頁面
  

【正文】 M初始狀態(tài),它的重要性最?。欢鳥則直接與輸出有關(guān),其影響最大。綜上所述,HMM模型的構(gòu)成要素:Y=[y1,y2,……,yn],所觀察到的一段序列,乃為觀察值,N為觀察序列的長度。 常用的一種HMM結(jié)構(gòu)表示xl等于Sl的概率。 HMM的基本理論和數(shù)學(xué)描述HMM是一個(gè)雙重的隨機(jī)過程,它具有一個(gè)有限狀態(tài)的馬爾可夫鏈和與每個(gè)狀態(tài)相聯(lián)系的一套隨機(jī)概率函數(shù)。分類網(wǎng)絡(luò)具有簡(jiǎn)單直觀、在本質(zhì)上是區(qū)分性的、在設(shè)計(jì)上是模塊化的、可以方便地組合成更大的系統(tǒng)、具有完善的數(shù)學(xué)解釋等優(yōu)點(diǎn),所以可以很容易地集成到HMM的統(tǒng)計(jì)識(shí)別框架中。所以混合模型在系統(tǒng)框架上保持了傳統(tǒng)HMM的框架,而局部功能模塊如:概率估計(jì)、上下文關(guān)聯(lián)等則通過ANN實(shí)現(xiàn),這樣有機(jī)地將HMM和ANN的各自優(yōu)勢(shì)統(tǒng)一在一個(gè)系統(tǒng)之中.又彌補(bǔ)了各自的不足。而且在系統(tǒng)體系上又保持了HMM的框架,所以混合HMM/ANN模型是HMM和ANN兩種模型的有機(jī)結(jié)合,具有明確的數(shù)學(xué)和物理意義。ANN和HMM可以以不同的方式進(jìn)行結(jié)合,如ANN直接實(shí)現(xiàn)HMM,兩者在幀層面上的結(jié)合,語音層面上的結(jié)合,音段層面的結(jié)合和子層面上的結(jié)合等方式,而HMM和ANN混合模型的結(jié)合,即能優(yōu)化HMM模型,又能充分利用每一種技術(shù)的長處:HMM的時(shí)間建模和ANN的聲學(xué)建模,特別是用神經(jīng)網(wǎng)絡(luò)計(jì)算HMM狀態(tài)的觀測(cè)概率。這在實(shí)際工作中占有很大的工作量。這種隱含馬爾可夫模型的算法是將語音看成是一連串特定狀態(tài),這種狀態(tài)是不能被直接觀測(cè)到的(如這種狀態(tài)可以是語音的某個(gè)音素的特征),而是以某種隱含的關(guān)系與語音的觀測(cè)量(或特征)相關(guān)聯(lián)。神經(jīng)網(wǎng)絡(luò)依靠連接權(quán)能夠進(jìn)行長時(shí)間記憶和知識(shí)存儲(chǔ),但對(duì)于輸入模式的瞬時(shí)響應(yīng)的短時(shí)記憶能力比較差。也就是說,系統(tǒng)參數(shù)只在整體上有意義,是不可分的。所有的神經(jīng)元協(xié)同工作,使整個(gè)網(wǎng)絡(luò)呈現(xiàn)出大規(guī)模的集體計(jì)算行為,系統(tǒng)的所有計(jì)算都是由這些單元完成的,而單元之間的連接權(quán)決定了網(wǎng)絡(luò)對(duì)任意輸入模式的計(jì)算響應(yīng)。美國卡內(nèi)基——梅隆大學(xué)在七十年代完成的Happy系統(tǒng)是基于這個(gè)理論的最成功的語音識(shí)別系統(tǒng)。也不容易將底層和頂層的各種知識(shí)用到識(shí)別算法中,因此在解決大詞匯表、連續(xù)語音,非特定人語音識(shí)別問題時(shí)較HMM相形見絀。若N=M則可以直接計(jì)算,否則要考慮將T(n)和R(m)對(duì)齊。參考模板與測(cè)試模板一般采用相同類型的特征矢量(如MFCC系數(shù))、相同的幀長、相同的窗函數(shù)和相同的幀移。三、語音識(shí)別主要算法日本學(xué)者首先將動(dòng)態(tài)規(guī)劃的概念用于解決孤立詞識(shí)別時(shí)說話速度不均勻的難題,提出了著名的DTW算法,當(dāng)詞匯表較小以及各個(gè)詞條不易于混淆時(shí),這個(gè)算法取得了很大成功。這是因?yàn)槿祟愒趯?duì)約1000Hz以上的聲音頻率范圍的感知不遵循線性關(guān)系,而是遵循在對(duì)數(shù)頻率坐標(biāo)上的近似線性關(guān)系。通過分析激勵(lì)信號(hào)的語音特點(diǎn)以及聲道傳輸函數(shù)的零極點(diǎn)分布情況,可知的分布范圍很寬,c(n)從低時(shí)域延伸到高時(shí)域,而主要分布于低時(shí)域中。傅立葉頻譜分析的基礎(chǔ)是傅立葉變換,用傅立葉變換及其反變換可以求得傅立葉譜、自相關(guān)函數(shù)、功率譜、倒譜。濾波器可以用寬帶帶通濾波器,也可以用窄帶帶通濾波器。雙門限前端檢測(cè)算法用于有話、無話鑒別或詞語前端檢測(cè),通常窗長(即幀長)取10~15ms,幀間隔(即采樣間隔)取5~10ms,有一定的抗干擾能力,即使存在小的隨機(jī)噪聲,只要它不使信號(hào)越過正負(fù)門限所構(gòu)成的帶,就不會(huì)產(chǎn)生虛假的過零率。為此,可定義短時(shí)平均幅度差函數(shù): (210)顯然,如果x(n)在窗口取值范圍內(nèi)具有周期性,則將出現(xiàn)極小值。短時(shí)自相關(guān)函數(shù)是語音信號(hào)時(shí)域分析的重要參量。為了解決低頻的干擾,我們?cè)O(shè)立一個(gè)門限T,將過零率的含義修改為跨過正負(fù)門限的次數(shù)。在語音識(shí)別系統(tǒng)中,一股也作為特征中的一維參數(shù)來表示語音信號(hào)能量的大小和超音段信息。通常認(rèn)為在一個(gè)語音幀內(nèi),應(yīng)含有1~7個(gè)基音周期。一般每秒的幀數(shù)為33~100,視實(shí)際情況而定。對(duì)于這種低通濾波器的特性和A/D轉(zhuǎn)換頻率,也要求與采樣時(shí)具有相同的關(guān)系。它一般是一階的,即:,式中u值接近于1,。研究表明:要使語音波形的動(dòng)態(tài)變化信噪比達(dá)到55dB的信噪比,B應(yīng)取10位以上。采樣之后要對(duì)信號(hào)進(jìn)行量化,在量化過程中不可避免的會(huì)產(chǎn)生誤差。做一個(gè)合理的假設(shè),當(dāng)在較短的時(shí)間間隔內(nèi)表示語音信號(hào)時(shí),則可以采用線性時(shí)不變模型。聲調(diào)曲線從一個(gè)韻母的起始端開始,到韻母的終止端結(jié)束。所有元音都是濁音。(8)微電子技術(shù):超大規(guī)模集成電路(VLSI)技術(shù)的發(fā)展對(duì)語音識(shí)別的具體應(yīng)用有很大的影響,VLSI使語音識(shí)別系統(tǒng)商品化成為可能。摩爾定律所預(yù)言的硬件產(chǎn)品奇跡般的更新速度使計(jì)算機(jī)處理復(fù)雜運(yùn)算的能力突飛猛進(jìn),也使體積龐大的語音庫有機(jī)會(huì)棲身于普通用戶的硬盤或其他存儲(chǔ)介質(zhì)上;技術(shù)方面,新的語音統(tǒng)計(jì)算法日趨成熟:市場(chǎng)需求方面,簡(jiǎn)化PDA、移動(dòng)電話和其他信息家電原本繁瑣的操作步驟的最佳途徑便是通過語音技術(shù)。從某種意義上說,語音識(shí)別是將計(jì)算機(jī)變成真正的“智能化”設(shè)備的最佳途徑。它既涉及到自然語言理解,又與聲學(xué)有關(guān)。人多的公共場(chǎng)所巨大的噪音對(duì)語音識(shí)別的影響自不用說,早期即使在實(shí)驗(yàn)室環(huán)境下,敲擊鍵盤、挪動(dòng)麥克風(fēng)都會(huì)成為背景噪音。也就是說是有別于普通話的不同的語言,應(yīng)該用不同的聲學(xué)模型來描述。在識(shí)別階段,語音喜好經(jīng)過相同的通道得到語音參數(shù),生成測(cè)試模版,與參考模版進(jìn)行匹配,將匹配分?jǐn)?shù)最高的參考模版作為識(shí)別結(jié)果。非特定人大詞表連續(xù)語音識(shí)別是近幾年研究的重點(diǎn),也是研究的難點(diǎn)。語音識(shí)別按說話人的講話方式可分為孤立詞(Isolated Word)識(shí)別、連接詞(Connected Word)識(shí)別和連續(xù)語音(Continuous Speech)識(shí)別。諸如此類的新問題使連續(xù)語音識(shí)別率的提高比非連續(xù)語音更加困難。臺(tái)灣的一些大學(xué)和研究所也開發(fā)出大詞匯量非特定人連續(xù)語音識(shí)別演示系統(tǒng)。80年代,語音識(shí)別研究的重點(diǎn)之一是連接詞語音識(shí)別,開發(fā)了各種連接詞語音識(shí)別和關(guān)鍵詞識(shí)別算法,如多級(jí)動(dòng)態(tài)規(guī)劃語音識(shí)別算法。因此語音識(shí)別技術(shù)既是國際競(jìng)爭(zhēng)的一項(xiàng)重要技術(shù),也是每一個(gè)國家經(jīng)濟(jì)發(fā)展不可缺少的重要技術(shù)支撐。重點(diǎn)是從理論上研究隱馬爾可夫(HMM)模型算法,對(duì)經(jīng)典的HMM模型算法進(jìn)行改進(jìn)。在此基礎(chǔ)上討論了語音識(shí)別的五種算法:動(dòng)態(tài)時(shí)間伸縮算法(Dynamic Time Warping,DTW)、基于規(guī)則的人工智能方法、人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)方法、隱馬爾可夫(Hidden Markov Model,HMM)方法、HMM和ANN的混合模型。以語音識(shí)別開發(fā)出的產(chǎn)品應(yīng)用領(lǐng)域非常廣泛,有聲控電話交換、語音撥號(hào)系統(tǒng)、信息網(wǎng)絡(luò)查詢、家庭服務(wù)、賓館服務(wù)、旅行社服務(wù)系統(tǒng)、訂票系統(tǒng)、聲控智能玩具、醫(yī)療服務(wù)、銀行服務(wù)、股票查詢服務(wù)、計(jì)算機(jī)控制、工業(yè)控制、語音通信系統(tǒng)、軍事監(jiān)聽、信息檢索、應(yīng)急服務(wù)、翻譯系統(tǒng)等,幾乎深入到社會(huì)的每個(gè)行業(yè)、每個(gè)方面,其應(yīng)用和經(jīng)濟(jì)社會(huì)效益前景非常廣泛。研究特點(diǎn)是以孤立字語音識(shí)別為主,通常把孤立字作為一個(gè)整體來建立模板。IBM開發(fā)的Viavoice和Microsoft開發(fā)的中文識(shí)別引擎代表了當(dāng)前漢語語音識(shí)別的最高水平。語音識(shí)別發(fā)展到一定階段,世界各國都加快了語音識(shí)別引用系統(tǒng)的研究開發(fā),通常連續(xù)語音是含有較完整語法信息的連續(xù)語句,最接近于人的自然講話方式,從非連續(xù)語音到連續(xù)語音的研究面臨著很多完全不同的技術(shù)難點(diǎn),非連續(xù)語音的識(shí)別是一些孤立的聲波片段,連續(xù)語音則面臨著如何切分聲波的問題。本文介紹了語音識(shí)別的基本流程、所用到的語音參數(shù)算法、語音識(shí)別的訓(xùn)練算法和識(shí)別算法做初步的探究,主要運(yùn)用了特定人孤立詞識(shí)別的DTW算法和非特定人識(shí)別的連續(xù)HMM算法的Matlab識(shí)別系統(tǒng)。實(shí)際上,非特定人語音識(shí)別的初始識(shí)別率往往都比較低,一般都要求用戶花一定的時(shí)間對(duì)系統(tǒng)進(jìn)行訓(xùn)練,將系統(tǒng)的參數(shù)進(jìn)行一定的自適應(yīng)調(diào)整,才能使識(shí)別率達(dá)到滿意的程度。在訓(xùn)練階段,將特征參數(shù)進(jìn)行一定的處理之后,為每個(gè)詞條得到一個(gè)模型,保存為模版庫。例如,中國的八大方言多屬于與普通話(北方語系)不同的語系。焦點(diǎn)之二是背景噪音。這就是用戶說話的自由度問題。語音技術(shù)是目前世界上最熱門和最具有發(fā)展前景的技術(shù)之一。未來幾年里,真正實(shí)用的語音識(shí)別和音字轉(zhuǎn)換技術(shù)將首次走出實(shí)驗(yàn)室,走進(jìn)千家萬戶的電器設(shè)備中。(7)數(shù)字信號(hào)處理技術(shù):信號(hào)的時(shí)域分析、噪聲消除、數(shù)字濾波、線性預(yù)測(cè)等方面的知識(shí)。元音構(gòu)成一個(gè)音節(jié)的主干,無論從長度還是能量上看,元音在音節(jié)中都占主要部分。聲調(diào)的變化就是濁音基音周期(或基音頻率)的變化,各個(gè)韻母段中基音周期隨時(shí)問的變化產(chǎn)生了聲調(diào),變化的軌跡稱為聲調(diào)曲線。理想的模型是線性的,且時(shí)不變的;但是語音信號(hào)是一連串的時(shí)變過程,且聲門和聲道相互耦合形成了語音信號(hào)的非線性特性。此時(shí),信號(hào)中的高頻成分將產(chǎn)生失真。此時(shí)量化后的語音質(zhì)量能滿足一般通信系統(tǒng)的要求。同時(shí),預(yù)加重也可在A/D轉(zhuǎn)換之后進(jìn)行,用具有6dB/oct地提升高頻特性地預(yù)加重?cái)?shù)字濾波器實(shí)現(xiàn)。A/D轉(zhuǎn)換后采用低通濾波器作為平滑濾波器,對(duì)重構(gòu)的語音波形的高次諧波起平滑作用,以去除高次諧波失真。在對(duì)語音信號(hào)進(jìn)行短時(shí)分析的過程中,信號(hào)流的處理用分段或分幀來實(shí)現(xiàn)。本文主要采用哈明窗,其公式為: (22)其中L是窗長?!?”的短時(shí)能力函數(shù)利用短時(shí)能量可以區(qū)分清音和濁音,因?yàn)闈嵋舻哪芰勘惹逡舻哪芰看蟮枚?;其次可以用短時(shí)能量對(duì)有聲段和無聲段進(jìn)行判定,對(duì)聲母和韻母分界,以及對(duì)連字分界等。短時(shí)平均過零率公式為: (26)Sgn[*]是符號(hào)函數(shù)。因此對(duì)于濁音語音可以用自相關(guān)函數(shù)求出語音波形序列的基音周期。這些極小值將出現(xiàn)在整數(shù)倍周期的位置上。端點(diǎn)檢測(cè)有雙門限前端檢測(cè)算法和多門限過零率前端檢測(cè)算法。濾波器組法所用的濾波器可以是模擬濾波器,也可以是數(shù)字濾波器。它是法國科學(xué)家J.Fourier在1807年為了得到熱傳導(dǎo)方程的簡(jiǎn)便解法而提出的。語音信號(hào)的倒譜與LPC系數(shù)之間的遞推關(guān)系: (214)或是由LPC得到 (215)根據(jù)同態(tài)處理的概念和語音信號(hào)產(chǎn)生的模型,語音信號(hào)的倒譜c(n)等于激勵(lì)信號(hào)的倒譜與聲道傳輸函數(shù)的倒譜之和。MFCC是采用濾波器組的方法計(jì)算出來的,這組濾波器在頻率的美爾坐標(biāo)上是等寬的。得到相應(yīng)的動(dòng)態(tài)特征。所要識(shí)別的一個(gè)輸入詞條語音稱為測(cè)試模板,可表示為,為測(cè)試語音幀的時(shí)序標(biāo)號(hào),n=1為起點(diǎn)語音幀,n=N為終點(diǎn)語音幀,因此N為該模板所包含的語音幀總數(shù),T(n)為第n幀的語音特征矢量。(2)輸入語音特征矢量序列為,如果M≠N,那么DTW算法就是要尋找時(shí)間規(guī)正函數(shù)m=w(n),它把輸入模板的時(shí)間軸療非線性的映射到參考模板的時(shí)間軸m,并且該w滿足: (31)式中,d[n,w(n)]是第n幀輸入矢量和第m幀參考矢量的距離,D是相應(yīng)于最優(yōu)時(shí)間規(guī)正下二模板的距離測(cè)度。但它沒有一個(gè)有效的用統(tǒng)計(jì)方法進(jìn)行訓(xùn)練的框架。另一方面,人類的語言要受詞、句法、語義等約束,人在識(shí)別語音的過程中充分應(yīng)用了這些約束以及對(duì)話環(huán)境的有關(guān)信息,將來自聲學(xué)——語音學(xué)的“區(qū)別性特征”(這稱為一個(gè)識(shí)別系統(tǒng)的“底層”)與來自構(gòu)詞、句法、語義和語用約束(這稱為識(shí)別系統(tǒng)的“頂層”)相互結(jié)合,就可以構(gòu)成一個(gè)“由底向上(Bottomup)”和“由頂向下(Topdown)”交互作用的識(shí)別系統(tǒng),不同層次的知識(shí)可以用若干規(guī)則來描述。一個(gè)神經(jīng)網(wǎng)絡(luò)包含大量類似大腦神經(jīng)元的處理單元,這些單元之間相互連接形成一定的拓?fù)浣Y(jié)構(gòu),并相互影響。它完全不同于傳統(tǒng)識(shí)別方法的地方在于:?jiǎn)蝹€(gè)權(quán)值與識(shí)別基元之間不存在明確的對(duì)應(yīng)關(guān)系,只存在整個(gè)權(quán)值構(gòu)成的系統(tǒng)參數(shù)與整個(gè)識(shí)別空間之間的對(duì)應(yīng)關(guān)系。靜態(tài)網(wǎng)絡(luò)在音素識(shí)別問題上的識(shí)別效果非常好,而動(dòng)態(tài)分類在字以及句子層面上的識(shí)別效果比較好。從20世紀(jì)80年代初人們開始用這種模型來描述語音信號(hào)后,就不斷有人對(duì)它進(jìn)行了各種改良和發(fā)展。隨著語音識(shí)別研究工作的深入開展,HMM語音識(shí)別方法愈來愈收到人們的重視,基于HMM技術(shù)的識(shí)別系統(tǒng)的缺點(diǎn)就在于統(tǒng)計(jì)模型的建立需要依賴一個(gè)較大的語音庫。因此考慮將人工神經(jīng)網(wǎng)絡(luò)與已經(jīng)發(fā)展的方法結(jié)合構(gòu)成一種混合系統(tǒng),在這種系統(tǒng)中,神經(jīng)網(wǎng)絡(luò)或者作為其前端進(jìn)行預(yù)處理,或者作為后端進(jìn)行后處理。混合模型克服了最大似然準(zhǔn)則(MLE)區(qū)分能力差的缺陷。混合模型利用了HMM在這方面的特長。分類網(wǎng)絡(luò)可以用n個(gè)輸出節(jié)點(diǎn)表示n個(gè)類,將輸入映射成n類中的一種。這也成就了HMM的霸主地位。它的每一個(gè)分量al。若yn為離散分布,則稱為離散HMM模型(DHMM),若yn以為連續(xù)分布,則稱為連續(xù)HMM模型(CHMM),在通常情況下假定虬服從正態(tài)分布,為了更好地逼近實(shí)際的分布模型有時(shí)也采用若干個(gè)正態(tài)分布函數(shù)線性相加。為了簡(jiǎn)明起見,通常將HMM模型表示成A=(a,A,B)。以上三個(gè)問題分別對(duì)應(yīng)語音識(shí)別中的識(shí)別問題、搜索問題和訓(xùn)練問題。前向概率用an(j)表示,其意義為:系統(tǒng)n時(shí)刻處于Sj狀態(tài)下,已經(jīng)出現(xiàn)前n1個(gè)觀察矢量y1y2…yn1的情況下,又觀察yn的概率。對(duì)于所有可能的X,直接計(jì)算上述概率并選擇其中的最大者,計(jì)算量很大。為初始狀態(tài)概率矢量的新估計(jì),其中元素aj’可以用n=l時(shí)刻系統(tǒng)位于狀態(tài)Sj并又觀察矢量序列Y的概率來表示,有 (425)A的估計(jì):假設(shè)A39。初始模型的產(chǎn)生有兩種主要方法,一種是采取均勻分布或隨機(jī)設(shè)置的方法,另一種方法是將訓(xùn)練語音的數(shù)據(jù)根據(jù)HMM模型的狀態(tài)數(shù)按照某種規(guī)則分段,每段作為某一狀態(tài)的訓(xùn)練數(shù)據(jù),從而計(jì)算模型的初始參數(shù)。由(428)式可知:給定模型λ,產(chǎn)生某一狀態(tài)序列Q=q1,q2,…,qN的概率: (430)其中πi為系統(tǒng)在時(shí)刻n=1時(shí)狀態(tài)為Si的概率,Aij表示狀態(tài)Si→Sj,的概率。全連接的HMM可以用于說話人識(shí)別:無跨越從左向右模型符合人的語音特點(diǎn),因此可以用來進(jìn)行語音識(shí)別。淡然,不同形式的pdf是由不同的參數(shù)來描述的,而估計(jì)這種參數(shù)的重估公式也是不一樣的。本文就結(jié)合Matlab 優(yōu)秀的數(shù)值計(jì)算能力及強(qiáng)大的信號(hào)處理功能,借助于對(duì)聲音的部分基本特征的研究,拓展Matlab在語音識(shí)別中的應(yīng)用,并將揭開語音識(shí)別的奧秘。聲卡的工作原理如圖5.1所示。:,整個(gè)語音識(shí)別系統(tǒng)包括四部分:預(yù)處理、特征參數(shù)提取、訓(xùn)練和識(shí)別。常用的參數(shù)有線性預(yù)測(cè)的倒譜系數(shù)(LPCC)和Mel頻率的倒譜系數(shù)(MF
點(diǎn)擊復(fù)制文檔內(nèi)容
語文相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1