freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于虛擬儀器的語音識(shí)別算法研究(參考版)

2025-06-30 21:05本頁面
  

【正文】 3. 對(duì)于本文引用的基于模板匹配的識(shí)別算法,用MFCC作為語音的特征參數(shù),從仿真數(shù)據(jù)來看,性能仍有待提高,需進(jìn)一步探索其改進(jìn)的方法。,為增強(qiáng)測(cè)試系統(tǒng)的自然語音識(shí)別功能,需要進(jìn)一步研究連續(xù)語音識(shí)別算法,實(shí)現(xiàn)對(duì)連續(xù)語音的識(shí)別。1. 環(huán)境的噪聲對(duì)系統(tǒng)正常運(yùn)行的影響很大,語音特征參數(shù)對(duì)環(huán)境的魯棒性不強(qiáng),需要進(jìn)一步研究語音噪聲增強(qiáng)算法,提高系統(tǒng)在噪聲環(huán)境下的魯棒性。但是語音識(shí)別技術(shù)在智能測(cè)試系統(tǒng)中的應(yīng)用仍然只是一個(gè)初步的研究,系統(tǒng)仍需更多的研究和改進(jìn)。 展望3. 應(yīng)用了基于模板匹配算法中的美爾頻率倒譜系數(shù)作為本系統(tǒng)中識(shí)別語音的特征參數(shù),并在LABVIEW 平臺(tái)下進(jìn)行了仿真并分析仿真結(jié)果。1. 對(duì)語音識(shí)別技術(shù)原理進(jìn)行了深入的研究和討論,奠定了本文的理論基礎(chǔ)。其次,介紹了語音識(shí)別和虛擬儀器的基本概念,結(jié)合虛擬儀器開發(fā)平臺(tái) LABVIEW 的特點(diǎn)對(duì)特征參數(shù)算法進(jìn)行改進(jìn)。本文主要研究的是語音識(shí)別技術(shù)在功能測(cè)試系統(tǒng)中的應(yīng)用。由于時(shí)間上和本人自身能力的有限,論文工作中存在許多不足之處,敬請(qǐng)老師同學(xué)給予批評(píng)和指正。(5) 本設(shè)計(jì)系統(tǒng)通過分析說話人聽覺非線性特性和聲道特性,最后決定選擇美爾倒譜系數(shù)及其差分美爾倒譜系數(shù)(MFCC)作為說話人識(shí)別的特征參數(shù)。大量實(shí)驗(yàn)表明,這種方法有比較好的分辨率和穩(wěn)定性。(2) 本設(shè)計(jì)應(yīng)用電子測(cè)量?jī)x器與自動(dòng)測(cè)試領(lǐng)域的一項(xiàng)嶄新技術(shù)-虛擬儀器的專用語言LABVIEW,和對(duì)語音信號(hào)具有強(qiáng)大表述、計(jì)算能力和分析處理的MATLAB語言相結(jié)合的方法,實(shí)現(xiàn)了兩種軟件聯(lián)合編程的功能。對(duì)選用不同特征參數(shù)的提取方法和語音信號(hào)的參考特征模板庫的構(gòu)建進(jìn)行了方案討論和理論分析。 語音信號(hào)的讀取模板。 語音信號(hào)模板的建立 。該模板將語音信號(hào)的特征參數(shù)轉(zhuǎn)化為相應(yīng)的二進(jìn)制文件,以方便文件的保存與調(diào)用。xx是在s1s2之間的一段語音,以數(shù)組形式進(jìn)行表現(xiàn)。設(shè)置語音庫中每個(gè)語音信號(hào)進(jìn)行MFCC特征參數(shù)提取,對(duì)其隨機(jī)進(jìn)行賦值,并建起轉(zhuǎn)化為相應(yīng)的數(shù)組形式進(jìn)行輸出顯示,為識(shí)別提供匹配參考模板。 語音消噪和端點(diǎn)檢測(cè)。 語音信號(hào)的采集。 語音識(shí)別系統(tǒng)結(jié)構(gòu)框圖 語音信號(hào)實(shí)時(shí)采集、消噪。: 非特定人連續(xù)語音識(shí)別系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn) 語音信號(hào)的實(shí)時(shí)采集與小波消噪處理 對(duì)原始語音信號(hào)進(jìn)行實(shí)時(shí)采集以及消噪處理,與此同時(shí),對(duì)小波消噪和濾波器消噪的優(yōu)劣進(jìn)行了分析比較,得到了語音信號(hào)不同的特性圖形。(6) 語音信號(hào)識(shí)別模板的讀取。(4) 提取出能夠準(zhǔn)確的描述待識(shí)別的語音信號(hào)的特征參數(shù)即MFCC。(2) 用小波變換的方法對(duì)待測(cè)語音信號(hào)進(jìn)行消噪。下面將具體介紹該系統(tǒng)的實(shí)現(xiàn)過程并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析。本設(shè)計(jì)采用的識(shí)別方法是模板匹配方法。那么,如何進(jìn)行模板的訓(xùn)練,如何度量不同語音之間得相似性等,都是目前需要考慮的問題。經(jīng)過大量實(shí)驗(yàn)表明,基于模板匹配的語音識(shí)別技術(shù),有很多因素會(huì)影響識(shí)別的正確率,比如語音模板的多少,發(fā)音的穩(wěn)定性(速度),詞匯量的多少等等。但是,它的訓(xùn)練和識(shí)別時(shí)間太長(zhǎng),而且ANN對(duì)語音信號(hào)的時(shí)間動(dòng)態(tài)特性不能進(jìn)行很好的描述,由于這些缺點(diǎn),仍然處于實(shí)驗(yàn)探索的階段。人工神經(jīng)網(wǎng)絡(luò)(ANN)的方法是90年代初期提出的一種新的語音識(shí)別方法。但對(duì)于復(fù)雜難解決的大詞匯量、連續(xù)語音和非特定人識(shí)別,當(dāng)今大多采用的算法是隱馬爾科夫模型。根據(jù)第一步得到的語音標(biāo)號(hào)序列得到一系列語音基元網(wǎng)格,然后再從詞典得到有效的詞序列,除此之外也可以結(jié)合句子的語義和文法同時(shí)進(jìn)行。把語音信號(hào)分成按時(shí)間離散的語音段,每小段對(duì)應(yīng)一個(gè)或幾個(gè)語音基元的聲學(xué)特性,然后再根據(jù)相應(yīng)的聲學(xué)特性對(duì)每個(gè)小分段的語音與給出的語音進(jìn)行比對(duì),按照相近的做標(biāo)號(hào)。通常我們認(rèn)為常用的語言中有有限個(gè)不同的語音基元,可以通過其語音信號(hào)的時(shí)域或頻域特性來區(qū)分。由于獨(dú)立的人工神經(jīng)網(wǎng)普遍存在著時(shí)間規(guī)整問題和訓(xùn)練過程復(fù)雜、識(shí)別時(shí)間過長(zhǎng)等缺點(diǎn),因此,如何與傳統(tǒng)的方法相結(jié)合,形成優(yōu)勢(shì)互補(bǔ)的ANN與DTW、 ANN與VQ和ANN與HMM混合的新型漢語語音識(shí)別技術(shù),以有效解決漢語語音識(shí)別中同音字多、聲調(diào)不明、界限不清、新詞不斷出現(xiàn)等諸多與其它語言語音識(shí)別所不同的特殊難題,己成為ANN法漢語語音識(shí)別系統(tǒng)的研究方向。為了提高識(shí)別率,將不同的識(shí)別模式結(jié)合起來構(gòu)成混合型模式識(shí)別的漢語語音識(shí)別系統(tǒng)是目前研究的一個(gè)方向,其主要應(yīng)用有:動(dòng)態(tài)時(shí)間規(guī)整法與隱馬爾可夫模型法混合的DTWHMM模式、矢量量化法與隱馬爾可夫模型法混合的VQHMM模式、隱馬爾可夫模型法級(jí)聯(lián)式和多層決策樹式的HMMHMM模式 [48]。FSVQ和LVQ2技術(shù)在孤立詞和連續(xù)語音的漢語語音識(shí)別中也得到應(yīng)用,但沒有DTW技術(shù)和HMM技術(shù)普遍。由于碼字的序號(hào)是矢量量化技術(shù)中存貯和傳輸?shù)闹饕獏?shù),因此,具有高效的數(shù)據(jù)壓縮性能和信息保密性能,不足之處是訓(xùn)練過程中的計(jì)算方法復(fù)雜且計(jì)算量過大。矢量量化器的設(shè)計(jì)就是從大量信號(hào)樣本中訓(xùn)練出好的碼書,從實(shí)際效果出發(fā)尋找到好的失真測(cè)度定義公式,設(shè)計(jì)出最佳的矢量量化系統(tǒng),用最少的搜索和計(jì)算失真的運(yùn)算量,實(shí)現(xiàn)最大可能的平均信噪比。在每一個(gè)子空間找一個(gè)代表矢量,則J個(gè)代表矢量可以組成矢量集為: (33)這樣就組成了一個(gè)矢量量化器,在矢量量化里,Y叫作碼書或碼本(Code Book);稱為碼矢(Code Vector)或碼字(Code Word);Y內(nèi)矢量的個(gè)數(shù)J,則叫做碼本長(zhǎng)度或碼本尺寸(Codebook Size) [46]。設(shè)有N個(gè)K維特征矢量(X在K維歐幾里德空間中),其中第 i 個(gè)矢量可以記為: (31)它可以被看作是語音信號(hào)中某幀參數(shù)組成的矢量。量化時(shí),將k維無限空間劃分為M個(gè)區(qū)域邊界,然后將輸入矢量與這些邊界進(jìn)行比較,并被量化為“距離”最小的區(qū)域邊界的中心矢量值 [45]。與HMM相比,矢量量化主要適用于小詞匯量、孤立詞的語音識(shí)別中。然而在實(shí)際應(yīng)用中它的識(shí)別效果不太好,主要原因是:(1)提取的特征不能很好的代表各種語言固有的、獨(dú)特的特性,不同語種的特征空間重復(fù)較大,因而導(dǎo)致后端模型的識(shí)別效果不夠理想;(2)由于模型的建立原則是基于大數(shù)定理,因此,需要大規(guī)模的訓(xùn)練樣本參與建模,這樣一來訓(xùn)練時(shí)間過長(zhǎng),工程上難以接受,一般不采用這種方法。在基于 GMM 的說話人識(shí)別系統(tǒng)中,訓(xùn)練階段首先用高斯混合模型為系統(tǒng)中的每個(gè)說話人建立概率模型;在識(shí)別階段,利用系統(tǒng)中所有人的 GMM 模型計(jì)算待識(shí)別矢量積的對(duì)數(shù)似然函數(shù),根據(jù)最大似然準(zhǔn)則做出判決。 的研究表明基于連續(xù) HMM 的與文本無關(guān)的說話人識(shí)別系統(tǒng)的識(shí)別率取決于模型中的混合分量的個(gè)數(shù),而與 HMM 中的狀態(tài)數(shù)無關(guān) [44]。另一個(gè)是一個(gè)隨機(jī)過程產(chǎn)生的輸出為觀察值序列。因而稱為“隱”Markov鏈模型,即HMM。在該模型中,馬爾可夫鏈中的一個(gè)狀態(tài)轉(zhuǎn)移到另一個(gè)狀態(tài)與否取決于該狀態(tài)的統(tǒng)計(jì)特性(或狀態(tài)轉(zhuǎn)移概率),而某一狀態(tài)產(chǎn)生的觀察值也取決于該狀態(tài)生成語音觀察值的概率(狀態(tài)生成概率)。HMM是一個(gè)雙重隨機(jī)過程,一個(gè)隨機(jī)過程描述狀態(tài)的轉(zhuǎn)移,另一個(gè)隨機(jī)過程描述狀態(tài)和觀察值之間的統(tǒng)計(jì)對(duì)應(yīng)關(guān)系。根據(jù)隨機(jī)函數(shù)的不同特點(diǎn)HMM模型可以分為離散 HMM(DHMM)、連 續(xù)HMM(CHMM)和半連續(xù)HMM(SCHMM)以及基于段長(zhǎng)分布的HMM(DDBHMM)等類型。 隱馬爾可夫模型法 HMM隱馬爾可夫模型法(Hidden Markov Model HMM)是70年代引入語音識(shí)別理論的,它的出現(xiàn)使得自然語音識(shí)別系統(tǒng)取得了實(shí)質(zhì)性的突破。為了簡(jiǎn)單和便于處理,通常適用歐氏距離(歐基里德距離)或其變形來進(jìn)行度量。參考模板 R和測(cè)試模板 T 之間的總體失真為D[ T, R]。測(cè)試模板可以表示為:,其中 N 為測(cè)試模板中語音幀數(shù),n 為幀標(biāo)號(hào),T(n)為第 n 幀的特征矢量。為了進(jìn)行相似性度量,將特征模板庫中的各個(gè)模板稱之為參考模板,用 R 表示;將待識(shí)別的輸入語音經(jīng)過預(yù)處理以及特征提取以后得到的特征矢量序列稱之為測(cè)試模板,用T表示。動(dòng)態(tài)時(shí)間規(guī)整(Dynamic Time Warping)是語音識(shí)別中較為經(jīng)典的一種算法,又由于DTW算法其本身既簡(jiǎn)單又有效,因此在許多特定的場(chǎng)合下得到了廣泛的應(yīng)用。這是一個(gè)將時(shí)間規(guī)整和距離測(cè)度有機(jī)結(jié)合在一起的非線性規(guī)整技術(shù),保證了待識(shí)別特征與模板特征之間最大的聲學(xué)相似特性和最小的時(shí)差失真,是成功解決模式匹配問題最早和最常用的方法。DTW是采用一種最優(yōu)化的算法—?jiǎng)討B(tài)規(guī)整法,算法的思想就是把未知量均勻的增大或縮短,直到與參考模式的長(zhǎng)度一致。但效果往往不明顯。所謂端點(diǎn)檢測(cè)就是在語音信號(hào)中檢測(cè)出的各種段落(如音素、音節(jié)、詞素)的起點(diǎn)和終點(diǎn)的位置,從語音信號(hào)中排除無聲段。如果考慮把具有不同內(nèi)容的語音經(jīng)過某種轉(zhuǎn)換以后作為不同的模板,則可以構(gòu)建一個(gè)基于模板匹配的簡(jiǎn)單的語音識(shí)別系統(tǒng)。常用的技術(shù)有5種 [41]:隱馬爾科夫(HMM)理論、動(dòng)態(tài)時(shí)間規(guī)整(DTW)、矢量量化(VQ)和混合高斯模型(GMM)等技術(shù)、混合型算法。 模板匹配的方法目前,語音識(shí)別的方法有很多,其中發(fā)展比較成熟的有模板匹配的方法,現(xiàn)己達(dá)到了實(shí)用的階段。圖 說話人的美爾特征參數(shù)提取部分截圖說話人的原始語音信號(hào)經(jīng)過上述兩大部分的相關(guān)處理后,得到了包含說話人語音特征的多個(gè)特征向量,這些向量之間有一定的相關(guān)性,能更好地表征說話人的語音特性,為說話人識(shí)別系統(tǒng)的建立奠定了基礎(chǔ)。具體參數(shù)設(shè)置為:幀長(zhǎng) 512,幀移 256,濾波器的個(gè)數(shù)為 12,采樣頻率 44100Hz,并去除了首尾各兩幀,因?yàn)檫@兩幀的一階差分為零,這樣就得到了 24 維的語音特征向量,將其作為一幀語音信號(hào)的參數(shù)。于是常將靜態(tài)參數(shù)和動(dòng)態(tài)參數(shù)合并作為說話人識(shí)別的特征參數(shù),這樣語音幀之間的相關(guān)性能較好地消除掉,為說話人識(shí)別系統(tǒng)的創(chuàng)建提供了良好的基礎(chǔ)。 圖 Mel 倒譜系數(shù)的提取 差分倒譜系數(shù)提取方法圖 是計(jì)算 MFCC 最常用的算法,得到的是反映語音靜態(tài)特征的參數(shù),可是語音的動(dòng)態(tài)特性更容易被人耳接受,差分倒譜就能更好地反映語音動(dòng)態(tài)特性 [1920],其計(jì)算公式如式(212)。因?yàn)槿说穆犛X系統(tǒng)是一個(gè)很好的語音識(shí)別系統(tǒng),對(duì)不同頻率的聲音有較好的分辨能力,而 MFCC 又是基于人耳聽覺特性的參數(shù),能夠充分利用人耳這種感知特性并結(jié)合語音產(chǎn)生機(jī)理,在說話人識(shí)別系統(tǒng)中得到了廣泛的應(yīng)用。 美爾頻率倒譜參數(shù)及提取方法美爾頻率倒譜參數(shù)(MFCC)充分利用聽覺原理和倒譜的解相關(guān)特性,將語音通過傅里葉變換成頻譜再轉(zhuǎn)換為 Mel 頻率下的非線性頻譜,以便更好地模擬人的聽覺系統(tǒng) [16]。對(duì)輔音的描述能力較差,抗噪性能較弱。 語音特征參數(shù)比較語音特征參數(shù) 特點(diǎn)線性預(yù)測(cè)分析(LPC)體現(xiàn)了語音信號(hào)的聲道諧振特性,對(duì)于聲道響應(yīng)含有零點(diǎn)的清音和濁音描述不確切。通常將這種組合參數(shù)用于說話人識(shí)別系統(tǒng)中,能得到較好的識(shí)別效果。最為常用在說話人識(shí)別中的特征參數(shù) [18]有線性預(yù)測(cè)系數(shù)(LPC)及其導(dǎo)出的線性預(yù)測(cè)倒譜系數(shù)(LPCC)、由頻譜導(dǎo)出的 Mel 倒譜系數(shù)(MFCC),倒譜特征是說話人識(shí)別中常用的特征之一。若說話人的語音特征參數(shù)不能很好地提取出來,則系統(tǒng)的識(shí)別結(jié)果就不理想。在此處理過程中盡可能將對(duì)識(shí)別有用的信息保留下來同時(shí)將那些多余的、易引起識(shí)別模糊性的信息去掉,從而實(shí)現(xiàn)數(shù)據(jù)的壓縮 [1617] 。 語音信號(hào)的特征參數(shù)提取語音信號(hào)的特征參數(shù)選取是說話人識(shí)別系統(tǒng)中的一個(gè)重要部分,不同的語音特征參數(shù)對(duì)說話人識(shí)別系統(tǒng)性能有不同的影響。為了使算法簡(jiǎn)單化,避免高信號(hào)電平對(duì)它的干擾,那么短時(shí)能量函數(shù)可以用平均幅度函數(shù)來代替[12]。此式表明,短時(shí)能量相當(dāng)于語音信號(hào)平方通過一個(gè)單位函數(shù)相應(yīng)為h(n)的線性濾波器的輸出。具體計(jì)算公式為: (27)其中 (28) (29)語音信號(hào)中,清音語音能量大多集中在較高頻率段內(nèi),濁音語音能量大多集中在較低的頻率段內(nèi) (3KHz以下),而頻率的高低又意味著過零率的高低 ,所以根據(jù)此可以大致判斷出濁音與清音。離散時(shí)間情況下,如果相鄰的抽樣具有不同的代數(shù)符號(hào),也就是相鄰抽樣的代數(shù)符號(hào)不同就稱為發(fā)生了過零。下面將逐一介紹短時(shí)過零率法和能量法。在過渡段,由于參數(shù)的數(shù)值一般比較小,不能確信語音信號(hào)是否處于真正的語音段,因此只有當(dāng)兩個(gè)參數(shù)的數(shù)值都回落到低門限以下,那么就將當(dāng)前狀態(tài)恢復(fù)到靜音狀態(tài)。: 硬件實(shí)現(xiàn)端點(diǎn)檢測(cè)程序流圖在程序中使用一個(gè)變量來表示當(dāng)前語音信號(hào)所處的狀態(tài),整個(gè)語音信號(hào)的端點(diǎn)檢測(cè)一般可以分為四段:靜音段、過渡段、語音段、結(jié)束段。如果當(dāng)前狀態(tài)處于語音段時(shí),兩個(gè)參數(shù)的數(shù)值也降低到低門限以下,且最短時(shí)間門限也大于總的計(jì)時(shí)長(zhǎng)度,那么就認(rèn)為這是一段噪音,繼續(xù)掃描以后的語音數(shù)據(jù)。有時(shí)一些突發(fā)性的噪聲也有可能引起過零率或短時(shí)能量的數(shù)值很高,但這種噪聲不能持續(xù)足夠長(zhǎng)的時(shí)間。因?yàn)榇蠖鄶?shù)聲母都是清聲母,例如 h 等,還有送氣與不送氣的賽音和塞擦音,將它們與環(huán)境噪聲分辨是比較困難的,所以漢語語音識(shí)別中重點(diǎn)在起始點(diǎn)檢測(cè)。漢語的音節(jié)末尾都是濁音,只用短時(shí)平均能量就能較好的判斷一個(gè)詞語的末點(diǎn)。 漢明窗時(shí)域波形與頻譜圖 端點(diǎn)檢測(cè)語音端點(diǎn)檢測(cè)是從一段語音信號(hào)中計(jì)算真正語音信號(hào)的起始點(diǎn)和終止點(diǎn),來獲得真正語音信號(hào)的方法。圖 。由于漢明窗的主瓣較寬而旁瓣幅值較低,能有效地克服窗泄露現(xiàn)象,具有平滑低通特性,因此應(yīng)用廣泛,同時(shí)漢明窗可以加強(qiáng)相鄰幀左右兩端的連續(xù)性。矩形窗: (24)漢明窗:
點(diǎn)擊復(fù)制文檔內(nèi)容
醫(yī)療健康相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1