freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于倒譜的大學(xué)生語音識別算法研究畢業(yè)論文(編輯修改稿)

2024-08-14 23:34 本頁面
 

【文章內(nèi)容簡介】 變?yōu)橄鄳?yīng)的文本或命令的高 科技 技術(shù)。語音識別是一門交叉學(xué)科 , 近二十年來,語音識別技術(shù)取得顯著進步,開始從實驗室走向市場。人們預(yù)計,未來 10 年內(nèi),語音識別技術(shù)將進入工業(yè)、 制造 、 通信 、汽車電子、醫(yī)療、家庭服務(wù)、 消費電子產(chǎn)品 等各領(lǐng)域。語音識別聽寫機在一些領(lǐng)域的應(yīng)用被 美國 新聞界評為 1997年計算機發(fā)展十件大事之一。 語音識別技術(shù)原理 語音信號處理雖然包括語音通信 [4],語音合成和語音識別等方面的內(nèi)容,但其基本前提和基礎(chǔ)是對語言信號進行分析。語音的壓縮和恢復(fù)是語音信號處理的關(guān)鍵技術(shù)。近年來有關(guān)這方面的研究不斷發(fā)展成熟,并形成一系列的標準。在語音信號的各種分析合成系統(tǒng)中,需要提取頻譜包絡(luò)參數(shù),推測音源參數(shù)(清濁音的判定以及濁音周期等)。只有將語音信號分析表示成其本質(zhì) 特性的參數(shù),才可能利用這些參數(shù)進行高效的語音通信,才能建立用于語音合成的語音庫,從而建立用于識別的模板或知識庫。 語音識別的技術(shù)原理是找出特征參數(shù)。特征提取的目的是找出一組可以代表每位說話者聲音特性參數(shù)來進行識別,該參數(shù)應(yīng)不宜受環(huán)境干擾并具有鑒別能力。對于語音信號而言,倒譜可以將頻譜上的高低頻成分分離,所以只需取前面幾項參數(shù),就能代表語音信號的特性,從而提高識別率。而根據(jù)所分析的參數(shù)不同,語音信號分析可分為時域,頻域,倒譜域等方法。進行語音信號分析時,最先接觸到的,也是最直觀的是它的時域波形。時域分析具有簡單直觀,清晰易懂,運算量小,物理意義明確等優(yōu)點。但更為有效的分析是圍繞頻域進行的,因為語音中最重要的感知特性反映在其功率譜中,而相位變化只起著很小的作用 [5]。 頻譜分析具有以下優(yōu)點:時域波形較易隨外界環(huán)境變化,但語音信號的頻譜對外界環(huán)境變化具有一定的頑健性。另外,語音信號的頻譜具有非常明顯的聲學(xué)特性,利用頻域分析獲得的語音特征具有實際的物理意義。如 MFCC,共振峰,基音周期等參數(shù)。 倒譜域是將對數(shù)功率譜進行逆傅立葉變換后得到的,它可以進一步 將聲道特性和激勵特蘭州理工大學(xué)畢業(yè)論文 8 性有效地分開,因此可以更好地揭示語音信號的本質(zhì)特 性。本文給出 基于倒譜的 語音特性的提取 算法設(shè)計及其實現(xiàn)。使讀者對相關(guān)技術(shù)的基本理論,方法和基本應(yīng)用有一個系統(tǒng)的了解。 語音識別系統(tǒng)分類 語音識別系統(tǒng)可以根據(jù)對輸入語音的限制 [6]加以分類。 從說話者與識別系統(tǒng)的相關(guān)性考慮 : 可以將識別系統(tǒng)分為 3 類: (1)特定人語音識別系統(tǒng):僅考慮對于專人的話音進行識別;(2)非特定人語音系統(tǒng):識別的語音與人無關(guān),通常要用大量不同人的語音數(shù)據(jù)庫對識別系統(tǒng)進行 擴充 ; (3)多人的識別系統(tǒng):通常能識別一組人的語音,或者 是 特定組語音識別系統(tǒng),該系統(tǒng)僅要求對要識別的那組人的語音進行 訓(xùn)練。 從說話的方式考慮 : 也可以將識別系統(tǒng)分為 3類: (1)孤立詞語音識別系統(tǒng):孤立詞識別系統(tǒng)要求輸入每個 單詞后要停頓; (2)連接詞語音識別系統(tǒng):連接詞輸入系統(tǒng)要求對每個詞都清楚發(fā)音,一些連音現(xiàn)象開始出現(xiàn); (3)連續(xù)語音識別系統(tǒng):連續(xù)語音輸入是自然流利的連續(xù)語音輸入,大量連音和變音 將 會出現(xiàn)。 從識別系統(tǒng)的詞匯量大小考慮 : 也可以將識別系統(tǒng)分為 3類: (1)小詞匯量語音識別系統(tǒng) : 通常包括幾十個詞的語音識別系統(tǒng)。 (2)中等詞匯量的語音識別系統(tǒng) : 通常包括幾百個詞到上千個詞的識別系統(tǒng)。 (3)大詞匯量語音識別系統(tǒng) : 通常 包括幾千到幾萬個詞的語音識別系統(tǒng)。隨著計算機與 數(shù)字信號處理器 運算能力以及識別系統(tǒng)精度的提高,識別系統(tǒng)根據(jù)詞匯量大小進行分類也不斷進行變化。目前是中等詞匯量的識別系統(tǒng)到將來可能就是小詞匯量的語音識別系統(tǒng)。這些不同的限制也提高 了語音識別系統(tǒng)的困難度。 語音識別基本方法 一般來說 ,語音識別的方法有三種:基于聲道模型和語音知識的方法、模板匹配的方法以及利用人工神經(jīng)網(wǎng)絡(luò) [7]的方法 。 基于語音學(xué)和聲學(xué)的方法: 該方法起步較早,在語音識別技術(shù)提出的開始,就有了這方面的研究,但由于其模型及語音知識過于復(fù)雜,現(xiàn)階段 仍 沒有達到實用的階段。 通常認為常用語言中有有限個不同的語音 基 元,而且可以通過其語音信號的頻域或時域特性來區(qū)分。這樣該方法分為兩步實現(xiàn): 蘭州理工大學(xué)畢業(yè)論文 9 第一步,分段和標號 : 把語音信號按時間分成離散的段,每段對應(yīng)一個或幾個語音基元的聲學(xué)特性。然后根據(jù)相應(yīng)聲學(xué)特性對每個分段給出相近的語音標號 。 第二步,得到詞序列 : 根據(jù)第一步所得語音標號序列得到一個語音基元 網(wǎng)格 ,從詞典得到有效的詞序列,也可結(jié)合句子的文法和語義同時進行。 模板匹配的方法: 模板匹配的方法發(fā)展比較成熟,目前已達到了實用階段。在模板匹配方法中,要經(jīng)過四個步驟: 特征提取 、模板訓(xùn)練、模板分類、判決。常用的技術(shù)有三種:隱 馬爾可夫 ( HMM)理論、動態(tài)時間規(guī)整 (DTW)、 矢量量化 ( VQ)技術(shù)。 動態(tài)時間規(guī)整 (DTW) 語音信號的 端點 檢測是進行語音識別中的一個基本步驟,它是特征訓(xùn)練和識 別的基礎(chǔ)。所謂 端點 檢測就是在語音信號中的各種段落 (如音素、音節(jié)、詞素 )的始點和終點的位置,從語音信號中排除無聲段。在早期,進行端點檢測的主要依據(jù)是 能量 、振幅和過零率。但效果往往不明顯。 日本 學(xué)者 Itakura 提出了動態(tài)時間規(guī)整 算法 (DTW DynamicTimeWarping)。 算法的思想就是把未知量均勻的升長或縮短 ,直到與參考模式的長度一致。在這一過程中,未知單詞的 時間軸 要不均勻地扭曲或彎折,以使其特征與模型特征對正。 隱馬爾可夫法 (HMM) 隱馬爾可夫法 (HMM)是 70 年代引入語音識別理論的,它的出現(xiàn)使得自然語音識別系統(tǒng)取得了實質(zhì)性的突破。 HMM 方法現(xiàn)已成為語音識別的主流技術(shù),目前大多數(shù)詞匯量、連續(xù)語音的非特定人語音識別系統(tǒng)都是基于 HMM 模型 來實現(xiàn)的 。 HMM 是對語音信號的時間序列結(jié)構(gòu)建立 統(tǒng)計模型 ,將之看作一個數(shù)學(xué)上的雙重隨機過程:一個是用具有有限狀態(tài)數(shù)的Markov 鏈來模擬語音信號統(tǒng)計特性變化的隱含的隨機過程,另一個是與 Markov 鏈的每一個狀態(tài)相關(guān)聯(lián)的觀測序列的隨機過程。前者通過后者表現(xiàn)出來,但前者的具體參數(shù)是不可測的。人的言語過程實際上就是一個雙重隨機過程,語音信號本身是一個可觀測的時變序列,是由大腦根據(jù)語法知識和言語需要 (不可觀測的狀態(tài) )發(fā)出的音素的參數(shù)流??梢?HMM 合 理地模仿了這一過程,很好地描 述了語音信號的整體非平穩(wěn)性和局部平穩(wěn)性 ,是較理想的一種 語音模型 。 矢量量化 (VQ) 矢量量化 (VectorQuantization)是一種重要的信號壓縮方法。與 HMM 相比 ,矢量量化 主要適用于小詞匯量、孤立詞的語音識別。其 識別 過程是:將語音信號波形的 k 個樣點的每一幀,蘭州理工大學(xué)畢業(yè)論文 10 或有 k 個參數(shù)的每一參數(shù)幀,構(gòu)成 k維空間 中的一個 矢量 ,然后對矢量進行量化。量化時,將 k 維無限空間劃分為 M個區(qū)域邊界,然后將輸入矢量與這些邊界進行比較,并被量化為 “ 距離 ” 最小的區(qū)域邊界的中心矢量值。 矢量量化 器的設(shè)計就是從大量信號樣本中訓(xùn)練出好的碼書,從實際效果出發(fā)尋找到好的失真測度定義 公式 ,設(shè)計出最佳的矢量量化系統(tǒng),用最少的搜索和計算失真的運算量,實現(xiàn)最大可能的平均信噪比 [9]。 核心思想可以這樣理解:如果一個碼書是為某一特定的信源而優(yōu)化設(shè)計的,那么由這一信息源產(chǎn)生的信號與該碼書的平均量化失真就應(yīng)小于其他信息的信號與該碼書的平均量化失真,也就是說編碼器本身存在區(qū)分能力。 在實際的應(yīng)用過程中,人們還研究了多種降低 復(fù)雜度 的方法,這些方法大致可以分為兩類:無記憶的 矢量量化 和有記憶的矢量量化。無記憶的 矢量量化 包括樹形搜索的矢量量化和多級矢量量化 [8]。 神經(jīng)網(wǎng)絡(luò)的方法: 利用人工神經(jīng)網(wǎng)絡(luò)的方法是 80 年代末期提出的一種新的語音識別方法 。人工神經(jīng)網(wǎng)絡(luò)(ANN)本質(zhì)上是一個自適應(yīng) 非線性動力學(xué) 系統(tǒng),模擬了人類神經(jīng)活動的原理,具有自適應(yīng)性、并行性、容錯性 、 魯棒性 和學(xué)習(xí)特性,其強的分類能力和輸入 輸出映射能力在語音識別中都很有吸引力。但由于存在訓(xùn)練、識別時間太長的缺點,目前仍處于實驗探 索階段。 由于 ANN 不能很好的描述語音信號的時間動態(tài)特性,所以常把 ANN 與傳統(tǒng)識別方法 相結(jié)合,分別利用各自優(yōu)點來進行語音識別。 語音識別系統(tǒng)基本結(jié)構(gòu) 一個完整的基于統(tǒng)計的語音識別系統(tǒng)可大致分為三部分: (1)語音信號預(yù)處理與 特征提取 ; (2)聲學(xué)模型 與模式匹配 ; (3)語言模型與語言處理 。 語音信號預(yù)處理與特征提取 : 選擇識別單元是語音識別研究的第一步。語音識別單元有單詞(句)、音節(jié)和音素三種,具體選擇哪一種,由具體的研究任務(wù)決定。 單詞(句)單元廣泛應(yīng)用于中小詞匯語音識別系統(tǒng),但不適合大詞匯系統(tǒng),原因在于模型庫太龐大,訓(xùn)練模型任務(wù)繁重,模型匹配 算法 復(fù)雜,難以滿足實時性要求。 音節(jié)單元多見于漢語語音識別,主要因 為漢語是單音節(jié)結(jié)構(gòu)的語言,而英語是多音節(jié),并且漢語雖然有大約 1300 個音節(jié),但若不考慮聲調(diào),約有 408 個無調(diào)音節(jié),數(shù)量相對較少。因此,對于中、大詞匯量漢語語音識別系統(tǒng)來說,以音節(jié)為識別單元基本是可行的。 蘭州理工大學(xué)畢業(yè)論文 11 音素單元以前多見于英語語音識別的研究中,但目前中、大詞匯量漢語語音識別系統(tǒng)也在越來越多地采用。原因在于漢語音節(jié)僅由聲母(包括零聲母有 22 個)和韻母(共有 28 個)構(gòu)成,且聲韻母聲學(xué)特性相差很大。實際應(yīng)用中常把聲母依后續(xù)韻母的不同而構(gòu)成細化聲母,這樣雖然增加了模型數(shù)目,但提高了易混淆音節(jié)的區(qū)分能力。由于協(xié)同發(fā)音 的影響,音素單元不穩(wěn)定,所以如何獲得穩(wěn)定的音素單元,還有待研究。 語音識別一個根本的問題是合理的選用特征。特征參數(shù)提取的目的是對語音信號進行分析處理,去掉與語音識別無關(guān)的 冗余信息 ,獲得影響語音識別的重要信息,同時對語音信號進行壓縮。在實際應(yīng)用中,語音信號的 壓縮率 介于 10100 之間。語音信號包含了大量各種不同的信息,提取哪些信息,用哪種方式提取,需要綜合考慮各方面的因素,如成本,性能,響應(yīng)時間,計算量等。非特定人語音識別系統(tǒng)一般側(cè)重提取反映語義的特征參數(shù),盡量去除說話人的個人信息;而特定人語音識別系統(tǒng)則希望在提取反映語義的特征參數(shù)的同時,盡量也包含說話人的個人信息 [9]。 線性預(yù)測( LP)分析技術(shù)是目前應(yīng)用 最 廣泛的特征參數(shù)提取技術(shù),許多成功的應(yīng)用系統(tǒng)都采用基于 LP技術(shù)提取的倒譜參數(shù)。但線性 預(yù)測模型 是純數(shù)學(xué)模型,沒有考慮人類聽覺系統(tǒng)對語音的處理特點。 Mel參數(shù)和基于感知線性預(yù)測( PLP)分析提取的感知線性預(yù)測倒譜,在一定程度上模擬了人耳對語音的處理特點,應(yīng)用了人耳聽覺感知方面的一些研究成果。實驗證明,采用這種技術(shù),語音識別系統(tǒng)的性能有 很大 提高。從目前使用的情況來看, 梅爾 刻度式 倒頻譜 參數(shù)已逐漸取代原本常用的線性預(yù)測編碼導(dǎo)出的倒頻譜參數(shù),原因是它考慮了人類發(fā)聲與接收聲音的特性,具有更好的 魯棒性 ( Robustness)。 也有研究者嘗試把 小波分析 技術(shù)應(yīng)用于 特征提取 ,但目前性能難以與上述技術(shù)相比,有待進一步研究。 聲學(xué)模型與模式匹配: 聲學(xué)模型 通常是將獲取的語音特征使用訓(xùn)練 算法 進行訓(xùn)練后產(chǎn)生。在識別時將輸入的語音特征同聲學(xué)模型(模式)進行匹配與比較,得到最佳的識別結(jié)果。 聲學(xué)模型 是識別系統(tǒng)的底層模型,并且是語音識別系統(tǒng)中最關(guān)鍵的一部分。 聲學(xué)模型 的目的是提供一種 有效的方法計算語音的 特征矢量 序列和每個發(fā)音模板之間的距離。聲學(xué)模型的設(shè)計和語言發(fā)音特點密切相關(guān)。聲學(xué)模型單元大?。ㄗ职l(fā)音模型、半音節(jié)模型或音素模型)對語音訓(xùn)練數(shù)據(jù)量大小、系統(tǒng)識別率,以及靈活性有較大的影響。必須根據(jù)不同語言的特點、識別系統(tǒng)詞匯量的大小決定識別單元 [10]的大小。 蘭州理工大學(xué)畢業(yè)論文 12 以漢語為例:漢語按音素的發(fā)音特征分類分為輔音、單元音、復(fù)元音、復(fù)鼻尾音四種,按音節(jié)結(jié)構(gòu)分類為聲母和 韻母。并且由音素構(gòu)成聲母或韻母。有時,將含有聲調(diào)的韻母稱為調(diào)母。由單個調(diào)母或由聲母與調(diào)母拼音成為音節(jié)。漢語的一個音節(jié)就是漢語一個字的音,即音節(jié)字。由音節(jié)字構(gòu)成詞,最后再由詞構(gòu)成句子。 漢語聲母共有 22 個,其中包括零聲母,韻母共有 38 個。按音素分類,漢語輔音共有 22個,單元音 13 個,復(fù)元音 13 個,復(fù)鼻尾音 16 個。 目前常用的 聲學(xué)模型 基元為聲韻母、音節(jié)或詞,根據(jù)實現(xiàn)目的不同來選取 不同的基元。漢語加上語氣詞共有 412 個音節(jié),包括輕音字,共有 1282 個有調(diào)音節(jié)字,所以當在小詞匯表孤立詞語音識別時常選用詞作為基元,在大詞匯表語音識別時常采用音節(jié)或聲韻母建模,而在連續(xù)語音識別時,由于協(xié)同發(fā)音的影響,常采用聲韻母建模。 基于統(tǒng)計的語音識別模型常用的就是 HMM 模型 λ(N,M,π,A,B)[11],涉及到 HMM 模型的相關(guān)理論包括模型的結(jié)構(gòu)選取、模型的初始化、模型參數(shù)的重估以及相應(yīng)的識別算法等。 語言模型與語言處理: 語言模型包括由識別語音命令構(gòu)成的語法網(wǎng)絡(luò)或由 統(tǒng)計方法 構(gòu)成的語言模型,語言處理可以進行語法、語義分析。 語言模型對中、大詞匯量的語音識別系統(tǒng)特別重要。當分類發(fā)生錯誤時可以根據(jù)語言學(xué)模型、語法結(jié)構(gòu)、 語義學(xué) 模型進行判斷糾正,特別是一些同音字則必須通過上下文結(jié)構(gòu)才能確定詞義。語言學(xué)理論包括語義結(jié)構(gòu)、 語法規(guī)則 、語言的數(shù)
點擊復(fù)制文檔內(nèi)容
研究報告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1