freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于matlab的語音識(shí)別系統(tǒng)的設(shè)計(jì)本科畢業(yè)設(shè)計(jì)(完整版)

2024-10-14 15:19上一頁面

下一頁面
  

【正文】 C倒譜系數(shù) 線性預(yù)測(cè)倒譜參數(shù) (Linear Prediction Cepstrum Coefficient, LPCC)是線性預(yù)測(cè)系數(shù)在倒譜域中的表示,該特征是基于語音信號(hào)為自回歸信號(hào)的假設(shè),利用線性預(yù)測(cè)分析獲得倒譜系數(shù)。它是 法國科學(xué)家J. Fourier 在 1807 年為了得到熱傳導(dǎo)方程的簡(jiǎn)便解法而提出的。濾波器組法所用的濾波器可以是模擬濾波器,也可以是數(shù)字濾波器。 端點(diǎn)檢測(cè)有雙門限前端檢測(cè)算法和多門限過零率前端檢測(cè)算法。這些極小值將出現(xiàn)在整數(shù)倍周期河南理工大學(xué)畢業(yè)設(shè)計(jì)(論文)說明書 13 的位置上。因此對(duì)于濁音語音可以用自相關(guān)函數(shù)求出語音波形序列的基音周期。短時(shí)平均過零率公式為: ? ?? ? ? ?? ? ? ?? ?? ? ? ?? ?????????????????1 1s g ns g n211s g ns g n21NnnmwwmnmxmxmnwmxmxZ (26) Sgn[*]是符號(hào)函數(shù)。 圖 “ 0”的短時(shí)能力函數(shù) 利用短時(shí)能量可以區(qū)分清音和濁音,因?yàn)闈嵋舻哪芰勘惹逡舻哪芰看蟮枚?;其次可以用短時(shí)能量對(duì)有聲段和無聲段進(jìn)行判定,對(duì)聲母和韻母分界,以及對(duì)連字分界等。本文主要采用哈明窗,其公式為: ? ?????????????? ? ???其他nLnL mnw,0~0,1 12c o )( ? (22) 其中 L 是窗長。在對(duì)語音信號(hào)進(jìn)行短時(shí)分析的過程中,信號(hào)流的處理用分段或分幀來實(shí)現(xiàn)。 A/D 轉(zhuǎn)換后采用低通濾波器作為平滑濾波器,對(duì)重構(gòu)的語音波形的高次諧波起平滑作用,以去除高次諧波失真。同時(shí),預(yù)加重也可在 A/D 轉(zhuǎn)換之后進(jìn)行,用具有 6dB/oct 地提升高頻特性地預(yù)加重?cái)?shù)字濾波器實(shí)現(xiàn)。此時(shí)量化后的語音質(zhì)量能滿足一般通信系統(tǒng)的要求。此時(shí),信號(hào)中的高頻成分將產(chǎn)生失真。理想的模型是線性的,且時(shí)不變的;但是語音信號(hào)是一連串的時(shí)變過程,且聲門和聲道相互耦合形成了語音信號(hào)的非線性特性。聲調(diào)的變化就是濁音基音周期 (或基音頻率 )的變化,各個(gè)韻母段中基音周期隨時(shí)問的變化產(chǎn)生了聲調(diào),變化的軌跡稱為聲調(diào)曲線。元音構(gòu)成一個(gè)音節(jié)的主干,無論從長度還是能量上看,元音在音節(jié)中都占主要部分。 (7)數(shù)字信號(hào)處理技術(shù):信號(hào)的時(shí)域分析、 噪聲消除、數(shù)字濾波、線性預(yù)測(cè)等方面的知識(shí)。未來幾年里,真正實(shí)用的語音識(shí)別和音字轉(zhuǎn)換技術(shù)將首次走出實(shí)驗(yàn)室,走進(jìn)千家萬戶的電器設(shè)備中。 語音識(shí)別發(fā)展前景 語音技術(shù)是目前世界上最熱門和最具有發(fā)展前景的技術(shù)之一。這就是用戶說話的自由度問題。 焦點(diǎn)之二是背景噪音。例如,中國的八大方言多屬于與普通話 (北方語系 )不同的語系。 在訓(xùn)練階段,將特征參數(shù)進(jìn)行一定的處理之后,為每個(gè)詞條得到一個(gè)模型,保存為模版庫。實(shí)際上,非特定人語音識(shí)別的初始識(shí)別率往往都比較低,一般都要求用戶花一定的時(shí)間對(duì)系統(tǒng)進(jìn)行訓(xùn)練,將系統(tǒng)的參數(shù)進(jìn)行一定的自適應(yīng)調(diào)整,才能使識(shí)別率達(dá)到滿意的程度。本文介紹了語音識(shí)別的基本流程、所用到的語音參數(shù)算法、語音識(shí)別的訓(xùn)練算法和識(shí)別算法做初步的探究,主要運(yùn)用了特定人孤立詞識(shí)別的 DTW算法和非特定人識(shí)別的連續(xù) HMM算法的 Matlab識(shí)別系統(tǒng)。 語音識(shí)別發(fā)展到一定階段,世界各國都加快了語音識(shí)別引用系統(tǒng)的研究開發(fā),通常連續(xù)語音是含有較完整語法信息的連續(xù)語句,最接近于人的自然講話方式,從非連續(xù)語音到連續(xù)語音的研究 面臨著很多完全不同的技術(shù)難點(diǎn),非連續(xù)語音的識(shí)別是一些孤立的聲波片段,連續(xù)語音則面臨著如何切分聲波的問題。 IBM開發(fā)的 Viavoice和 Microsoft開發(fā)的中文識(shí)別引擎代表了當(dāng)前漢語語音識(shí)別的最高水平。研究特點(diǎn)是以孤立字語音識(shí)別為主,通常把孤立字作為一個(gè)整體來建立模板。以語音識(shí)別開發(fā)出的產(chǎn)品應(yīng)用領(lǐng)域非常廣泛,有聲控電話交換、語音撥號(hào)系統(tǒng)、信息網(wǎng)絡(luò)查詢、家庭服務(wù)、賓館服務(wù)、旅行社服務(wù)系統(tǒng)、訂票系統(tǒng)、聲控智能玩具、醫(yī)療服務(wù)、銀行服務(wù)、股票查詢服務(wù)、計(jì)算機(jī)控制、工業(yè)控制、語音通信系統(tǒng)、軍事監(jiān)聽、信息檢索、應(yīng)急服務(wù)、翻譯系統(tǒng)等,幾乎深入到社會(huì)的每個(gè)行業(yè)、每個(gè)方面,其應(yīng)用和經(jīng)濟(jì)社會(huì)效益前景非常廣泛。在此基礎(chǔ)上討論了語音識(shí)別的五種算法:動(dòng)態(tài)時(shí)間伸縮算法 (Dynamic Time Warping, DTW)、基于規(guī)則的人工智能方法、人工神經(jīng)網(wǎng)絡(luò) (Artificial Neural Network, ANN)方法、隱馬爾 可夫 (Hidden Markov Model,HMM)方法、 HMM 和 ANN 的混合模型。重點(diǎn)是從理論上研究隱馬爾可夫 (HMM)模型算法,對(duì)經(jīng)典的 HMM 模型算法進(jìn)行改進(jìn)。因此語音識(shí)別技術(shù)既是國際競(jìng)爭(zhēng)的一項(xiàng)重要技術(shù),也是每一個(gè)國家 經(jīng)濟(jì)發(fā)展不可缺少的重要技術(shù)支撐。 80年代,語音識(shí)別研究的重點(diǎn)之一是連接詞語音識(shí)別,開發(fā)了各種連接詞語音識(shí)別和關(guān)鍵詞識(shí)別算法,如多級(jí)動(dòng)態(tài)規(guī)劃語音識(shí)別算法。臺(tái)灣的一些大學(xué)和研究所也開發(fā)出大詞匯量非特定人連續(xù)語音識(shí)別演示系統(tǒng)。諸如此類的新問題使連續(xù)語音識(shí)別率的提高比非連續(xù)語音更加困難。 語音識(shí)別按說話人的講話方式可分為孤立詞 (Isolated Word)識(shí)別、連接詞 (Connected Word)識(shí)別和連續(xù)語音 (Continuous Speech)識(shí)別。 非特定人大詞表連續(xù)語音識(shí)別是近幾年研究的重點(diǎn),也是研究的難點(diǎn)。在識(shí)別階段,語音喜好經(jīng)過相同的通道得到語音參數(shù),生成測(cè)試模版,與參考模版進(jìn)行匹配,將匹配分?jǐn)?shù)最高的參考模版作為識(shí)別結(jié)果。也就是說是有別于普通話 的不同的語言,應(yīng)該用不同的聲學(xué)模型來描述。人多的公共場(chǎng)所巨大的噪音對(duì)語音識(shí)別的影響自不用說,早期即使在實(shí)驗(yàn)室環(huán)境下,敲擊鍵盤、挪動(dòng)麥克風(fēng)都會(huì)成為背景噪音。它既涉及到自然語言理解,又與聲學(xué)有關(guān)。從某種意義上說,語音識(shí)別是將計(jì)算機(jī)變成真正的“智能化”設(shè)備的最佳途徑。摩爾定律所預(yù)言的硬件產(chǎn)品奇跡般的更新速度使計(jì)算機(jī)處理復(fù)雜運(yùn)算的能力突飛猛進(jìn),也使體積龐大的語音庫有機(jī)會(huì)棲身于普通用戶的硬盤或其他存儲(chǔ)介質(zhì)上;技術(shù)方面,新的語音統(tǒng)計(jì)算法日趨成熟:市場(chǎng)需求方面,簡(jiǎn)化 PDA、移動(dòng)電話和其他信息家電原本繁瑣的操作步驟的最佳途徑便是通過語音技術(shù)。 (8)微電子技術(shù):超大規(guī)模集成電路 (VLSI)技術(shù)的發(fā)展對(duì)語音識(shí)別的具體應(yīng)用有很大的影響, VLSI使語音識(shí)別系統(tǒng)商品化成為可能。所有元音都是濁音。聲調(diào)曲線從一個(gè)韻母的起始端開始,到韻母的終止端結(jié)束。做一個(gè)合理的假設(shè),當(dāng)在較短的時(shí)間間隔內(nèi)表示語音信號(hào)時(shí),則可以采用線性 時(shí)不變模型。 采樣之后要對(duì)信號(hào)進(jìn)行量化,在量化過程中不可避免的會(huì)產(chǎn)生誤差。研究表明 :要使語音波形的動(dòng)態(tài)變化信噪比達(dá)到 55dB的信噪比, B應(yīng)取 10位以上。它一般是一階的,即:11)( ??? uzzH ,式中 u值接近于 1,本文中去為 。對(duì)于這種低通濾波器的特性和 A/D 轉(zhuǎn)換頻率,也要求與采樣時(shí)具有相同的關(guān)系。一般每秒的幀數(shù)為33~ 100,視實(shí)際情況而定。通常認(rèn)為在一個(gè)語音幀內(nèi),應(yīng)含 有 1~ 7 個(gè)基音周期。在語音識(shí)別系統(tǒng)中,一股也作為特征中的一維參數(shù)來表示語音信號(hào)能量的大小和超音段信息。為了解決低頻的干擾,我們?cè)O(shè)立一個(gè)門限 T,將過零率的含義修改為跨過正負(fù)門限的次數(shù)。 短時(shí)自相關(guān)函數(shù)是語音信號(hào)時(shí)域分析的重要參量。為此,可定義短時(shí)平均幅度差函數(shù): ? ? ? ? ? ?kmxmxkF nkNm nn ??? ????1 0 (210) 顯然,如果 x(n)在窗口取值范圍內(nèi)具有周期性,則將出現(xiàn)極小值。雙門限前端檢測(cè)算法用于有話、無話鑒別或詞語前端檢測(cè),通常窗長 (即幀長 )取 10~ 15ms,幀間隔 (即采樣間隔 )取 5~ 10ms,有一定的抗干擾能力,即使存在小的隨機(jī)噪聲,只要它不使信號(hào)越過正負(fù)門限所構(gòu)成的帶,就不會(huì)產(chǎn)生虛假的過零率。濾波器可以用寬帶帶通濾波器,也可以用窄帶帶通濾波器。傅立葉頻譜分析的基礎(chǔ)是傅立葉變換,用傅立葉變換及其反變換可以求得傅立葉譜、自相關(guān)函數(shù)、功率譜、倒譜。 LPCC參數(shù)的優(yōu)點(diǎn)是計(jì)算量小,易于實(shí)現(xiàn),對(duì)元音有較好的描述能力,其缺點(diǎn)在于對(duì)輔音的描述能力較差,抗噪聲性能較差。在漢語數(shù)碼語音識(shí)別中, MFCC參數(shù)的性能明顯優(yōu)于 LPCC參數(shù)。 MFCC系數(shù)為 ? ? ? ?? ? LnMnkkC n ,2,1,/ osl og ???? ? ?? (218) ( 4)將這種直接得到的 MFCC特征作為靜態(tài)特征,再將這種靜態(tài)特征傲一階和二階差河南理工大學(xué)畢業(yè)設(shè)計(jì)(論文)說明書 17 分。已存入模板庫的各個(gè)詞條稱為參考模板,一個(gè)參考模板可表示為, m 為訓(xùn)練語音幀的時(shí)序標(biāo)號(hào), m=1為起點(diǎn)語音幀, m=M為終點(diǎn)語音幀,因此為該模板所包含的語音幀總數(shù),為第幀的語音特征矢量。如設(shè) :(1)參考模 板特征矢量序列為 Maaa , 21 ? 。 DTW 算法的優(yōu)點(diǎn)是既簡(jiǎn)單又有效,對(duì)于小詞匯表孤立詞識(shí)別系統(tǒng)十分適用。如果能將這些原理加以發(fā)現(xiàn)并且歸納為一些規(guī)則,由計(jì)算機(jī)執(zhí)行,就能接近人類同樣的水平。 人工神經(jīng)網(wǎng)絡(luò)方法 人工神經(jīng)網(wǎng)絡(luò)的出發(fā)點(diǎn)是通過模擬大腦的機(jī)制 (實(shí)際上人們到目前為止還不完全清楚大腦的思維機(jī)制 ),將包括聽覺系統(tǒng)的生物神經(jīng)系統(tǒng)的信息處理機(jī)制引入機(jī)器學(xué)習(xí)的研究中,使其具有學(xué)習(xí)和理解的能力。這些實(shí)驗(yàn)都取得了很好的分類結(jié)果,充分顯示了神經(jīng)網(wǎng)絡(luò)強(qiáng)大的分類區(qū)分能力。 河南理工大學(xué)畢業(yè)設(shè)計(jì)(論文)說明書 20 圖 基于神經(jīng)網(wǎng)絡(luò)的語音識(shí)別方法原理圖 神經(jīng)網(wǎng)絡(luò)對(duì)語音進(jìn)行分類有兩個(gè)基本方法:靜態(tài)識(shí)別和動(dòng)態(tài)識(shí)別。 隱馬爾可夫方法 基于統(tǒng)計(jì)的 HMM算法可能是目前最為成功的一種語音識(shí)別模型和算法了。因此, HMM 語音識(shí)別模型與算法是迄今為止最為完美的一個(gè)語音識(shí)別模型,從中也可看出好的理論體系對(duì)研究工作所起的重要的指導(dǎo)作用。在此模型中用狀態(tài)的段長分布函數(shù)替代了齊次 HMM中的狀態(tài)轉(zhuǎn)移矩陣,徹底拋棄了“平穩(wěn)的假設(shè)”,而從非平穩(wěn)的角度考慮問題,使模型成為一種基于狀態(tài)段長分布的隱含 Markov模型。這樣就可以讓網(wǎng)絡(luò)更好地利用存在音段中的所有語音幀之間的相 關(guān)性,而且還可以更容易地利用其它信息,比如時(shí)長。 (2)可以把人的聽覺模型融合于 ANN 中,在 ANN 的輸入端可以同時(shí)加載相鄰數(shù)幀的語音特征矢量,因而和語音信號(hào)的實(shí)際情況更加符合。預(yù)測(cè)網(wǎng)絡(luò)的輸入是相繼的幾幀語音特征矢量,輸出下一幀語音的預(yù)測(cè)值,通過給每一個(gè)音子分配一個(gè)預(yù)測(cè)網(wǎng)絡(luò),就可以比較每個(gè)音素預(yù)測(cè)網(wǎng)絡(luò)的預(yù)測(cè)誤差,選取其中具有最小預(yù)測(cè)誤差的網(wǎng)絡(luò)與當(dāng)前語音段匹配,體現(xiàn)了相鄰語音幀之間的時(shí)域相關(guān)性。在分類網(wǎng)絡(luò)中,輸入還是相繼的幾幀語音矢量。 (4)ANN的訓(xùn)練著眼于描述類間的邊界,而不是描述每一類內(nèi)的分布.所以是一種區(qū)分性訓(xùn)練。在這些不同的結(jié)合形式中,實(shí)驗(yàn)結(jié)果表明,幀層面上的結(jié)合比較符合 HMM和 ANN兩種方法的特點(diǎn)。由于該模 型解除了對(duì)語音信號(hào)狀態(tài)的齊次性和對(duì)語音特征的非相關(guān)性的限制,因此,為語音識(shí)別研究的深入發(fā)展提供了一個(gè)和諧的框架。 河南理工大學(xué)畢業(yè)設(shè)計(jì)(論文)說明書 21 圖 基于 HMM 的語音識(shí)別框圖 目前,基本上所有實(shí)驗(yàn)系統(tǒng)和實(shí)用化的產(chǎn)品都是使用 HMM 方法,比如 IBM 公司的ViaVoice系統(tǒng)、卡內(nèi)基梅隆大學(xué) SPHINX系統(tǒng)和 Dragon System的 Naturally Speaking系統(tǒng)等。這是因?yàn)檫@種數(shù)學(xué)模型出現(xiàn)的時(shí)間較早,人們對(duì)它的研究也比較深入,己建立起了完整的理論框架。而在動(dòng)態(tài)分類網(wǎng)絡(luò)中,神經(jīng)網(wǎng)絡(luò)輸入一幀加窗語音矢量序列,這個(gè)窗在語音矢量序列上滑動(dòng),網(wǎng)絡(luò)就做出一系列局部決策,這些局部決策不斷地整合形成一個(gè)全局決策。它完全不同于傳統(tǒng)識(shí)別方法的地方在于:?jiǎn)蝹€(gè)權(quán)值與識(shí)別基元之間不存在明確的對(duì)應(yīng)關(guān)系,只存在整個(gè)權(quán)值構(gòu)成的系統(tǒng)參數(shù)與整個(gè)識(shí)別空間之間的對(duì)應(yīng)關(guān)系。 一個(gè)神經(jīng)網(wǎng)絡(luò)包含大量類似大腦神 經(jīng)元的處理單元,這些單元之間相互連接形成一定的拓?fù)浣Y(jié)構(gòu),并相互影響。另一方面,人類的語言要受詞、句法、語 義等約束,人在識(shí)別語音的過程中充分應(yīng)用了這些約束以及對(duì)話環(huán)境的有關(guān)信息,將來自聲學(xué) —— 語音學(xué)的“區(qū)別性特征” (這稱為一個(gè)識(shí)別系統(tǒng)的“底層” )與來自構(gòu)詞、句法、語義和語用約束 (這稱為識(shí)別系統(tǒng)的“頂層” )相互結(jié)合,就可以構(gòu)成一個(gè)“由底向上 (Bottomup)”和“由頂向下 (Topdown)”交互作用的識(shí)別系統(tǒng),不同層次的知識(shí)可以用若干規(guī)則來描述。也不容易將底層和頂層的各種知識(shí)用到識(shí)別算法中,因此在解決大詞匯表、連續(xù)語音,非特定人語音識(shí)別問題時(shí)較 HMM 相形見絀。若 N=M則可以直接計(jì)算,否則要考慮將 T(n)和 R(m)對(duì)齊。參 考模板與測(cè)試模板一般采用相同類型的特征矢量(如MFCC 系數(shù))、相同的幀長、相同的窗函數(shù)和相同的幀移。 三、語音識(shí)別主要算法 動(dòng)態(tài)時(shí)間伸縮算法 日本學(xué)者首先將動(dòng)態(tài)規(guī)劃的概念用于解決孤立詞識(shí)別時(shí)說話速度不 均勻的難題,提出了著名的 DTW算法,當(dāng)詞匯表較小以及各個(gè)詞條不易于混淆時(shí),這個(gè)算法取得了很大成功。這是因?yàn)槿祟愒趯?duì)約 1000Hz以上的聲音頻率范圍的感知不遵循線性關(guān)系,而是遵循在對(duì)數(shù)頻率坐標(biāo)上的近似線性關(guān)系。通過分析激勵(lì)信號(hào)的語音特點(diǎn)以及聲道傳輸函數(shù)的零極點(diǎn)分布情況,可知 ??ne? 的分布范圍很寬, c(n)從低時(shí)域延伸到高時(shí)域,而 ??nh? 主要分布于低時(shí)域中。 信號(hào) x(盯 )的短時(shí)傅立葉變換為: ? ? ? ? ? ?????? ??? m jw mjwn emnwmxeX (211) 式中, w(n)為窗口函數(shù)。使用窄帶帶通
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1