freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于倒譜的大學生語音識別算法研究畢業(yè)論文-在線瀏覽

2024-09-11 23:34本頁面
  

【正文】 學的一個分支學科。當今通信和廣播的發(fā)展非常迅 速,語言廣播和語言通信仍然是最重要的部分,而語言聲學則是這些技術(shù)科學的基礎(chǔ)。 在它發(fā)展的過程中,有過幾次飛躍:第一次飛躍是 1907 年電子管的發(fā)明和 1920 年無線電廣播的出現(xiàn)。從而使電聲學和語言聲學的一些研究成果,擴展到通信和廣播部門。這樣就可以用數(shù)字計算方法,對語音信號進行處理和加工。在這個基礎(chǔ)上,逐漸形成了一門新學科 —— 語音信號處理。在信息科學中占有很重要的地位,其中語音識別的研究也開始了飛速的發(fā)展。T 貝爾實驗室的 Audry 系統(tǒng),它是第一個可以識別十個英文數(shù)字的語音識別系統(tǒng)。這首先是因為計算機技術(shù)的發(fā)展為語音識別的實現(xiàn)提供了硬件和軟件的可能,更重要的是語音信號線性預(yù)測編碼 ( LPC) 技術(shù)和動態(tài)時間規(guī)整( DTW)技術(shù)的提出,有效的解決了語音信號的特征提取和不等長匹配問題。 隨著應(yīng)用領(lǐng)域的擴大,小詞匯表,特定人,孤 立詞等這些對語音識別的約束條件需要放寬,與此同時也帶來了許多新的問題:第一,詞匯表的擴大使得模板的選取和建立發(fā)生困難;第二,連續(xù)的語音中,各個音素、音節(jié)以及詞之間沒有明顯的邊界,各個發(fā)音單位存在受上下文強烈影響的協(xié)同發(fā)音 ( Coarticulation) 現(xiàn)象;第三,在非特定人識別時,不同的人說相同的話相應(yīng)的聲學特征有很大的差異,即使相同的人在不同的時間、生理、心理狀態(tài)下,說同樣內(nèi)容的話也會有很大的差異;第四,識別的語音中有背景噪聲和其他干擾。 20 世紀 90 年代前期,許多著名 的大公司如蘋果、 IBM、 NTT 和 ATamp。語音識別技術(shù)有一個很好的評估機制,那就是識別的準確率,而這項指標在 20 世紀 90 年代中后期實驗室研究中得到了不斷提高。 其中 IBM 公司于 1997 年開發(fā)出漢語 ViaVoice 語音識別 系統(tǒng),次年又開發(fā)出可以識別上蘭州理工大學畢業(yè)論文 3 海話、廣東話和四川話等地方口音的語音識別系統(tǒng) ViaVoice’ 98。該系統(tǒng)對新聞?wù)Z音識別具有較高的精確度,是目前最具有代表性的漢語連續(xù)語音。研究成果也從實驗室逐步走向?qū)嵱谩N覈Z音識別技術(shù)的研究水平已經(jīng) 基本上和國外同步,在漢語語音識別技術(shù)上還有自己的特點與優(yōu)勢,并達到國際先進水平。 清華大學電子工程系語音技術(shù)與專用芯片設(shè)計課題組,研發(fā)的非特定人漢語數(shù)碼串連續(xù)語音識別系統(tǒng)的識別精度,達到 %(不定長數(shù)字串)和 %(定長數(shù)字串)。研發(fā)的五千詞語音庫對非特定人連續(xù)語音識別系統(tǒng)的識別率達到 %;并且可以識別四川話和普通話兩種語言,達到實用要求。 主要研究內(nèi)容 本文研究的是語音信號的倒譜分析,首先第一 章的緒論部分,介紹了本文的研究目的與意義、語音信號的研究現(xiàn)狀和本文的研究內(nèi)容。簡要對其進行了分類研究,詳細說明了語音信號的數(shù)字化和預(yù)處理、語音識別技術(shù)的基本原理、技術(shù)模型、以及處理所使用的基本方法。將倒譜化分為實倒譜和復(fù)倒譜,并對二者之間的關(guān)系進行區(qū)分,由此奠定了倒譜分析研究的基礎(chǔ)。 接著第四章介紹了倒譜系數(shù)分析在語音特征提取中的應(yīng)用,包括基音檢測以及共振峰的蘭州理工大學畢業(yè)論文 4 提取。首先通過輸入一段語音,并將其導(dǎo)入到 MATLAB 程序中進行語音的處理,完成語音在MATLAB 中的倒譜實現(xiàn)。 蘭州理工大學畢業(yè)論文 5 第 2 章 語音識別技術(shù)基本理論 語音識別技術(shù),也被稱為 自動語音識別 Automatic Speech Recognition, (ASR)[2], 其目標是將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計算機可讀的輸入,例如按鍵、二進制編碼或者字符序列。 語音識別是模式識別的一種 ,它是讓機器通過識別和處理過程將語音信號轉(zhuǎn)變成相應(yīng)的模型參數(shù)。常用的語音特征參數(shù)有 LPCC 和 MFCC。 MFCC 參數(shù)是基于人的聽覺特性利用人聽覺的臨界帶效應(yīng) ,在 Mel 標度頻率域提取出來的倒譜特征參數(shù)。 語音信號的數(shù)字化與預(yù)處理 對模擬語音信號進行量化和采樣,獲得數(shù)字化的語音信號;然后將含噪的語音信號通過去噪處理,得到干凈的語音信號后并通過預(yù)加重技術(shù)濾除低頻干擾,尤其是 50Hz 到 60Hz之間的工頻干擾,提升語音信號的高頻部分,而且它還具有消除直流漂移、抑制隨機噪聲和提升清音部分能量的作用。 預(yù)處理:假設(shè)輸入的音頻信號為 )(nx ,預(yù)處理過程如下。 2)預(yù)加重:預(yù)加重一般是用具有 6db/倍頻程的一階數(shù)字濾波器來實現(xiàn) ,如式 (2— 1)所示 : 1μZ1=H(z) (21) 其中μ為常數(shù) ,一般取 。 語音信號的數(shù)字化一般包括放大及增益控制、預(yù)濾波(主要是反混疊濾波)、 A/D 轉(zhuǎn)換(包含采樣過程)及編碼( PCM 編碼)。有時在分析處理之前必須把分析的語音信號部分從輸入信號中找出來,這就是語音信號的端點檢測。 圖 21 語音信號數(shù)字處理系統(tǒng)框圖 語音識別技術(shù)模型 目前,主流的大 量 語音識別系統(tǒng)多采用統(tǒng)計 模式識別技術(shù) 。該模塊的主要任務(wù)是從輸入信號中提取特征,供 聲學模型 處理。統(tǒng)計 聲 學模型 : 典型系統(tǒng)多采用基于一階隱馬爾科夫模型進行 建模 。發(fā)音詞典實際提供了聲學模型建模單元與語言模型建模單元間的映射。理論上,包括正 規(guī) 語言, 上下文無關(guān) 語 法 在內(nèi)的各種語言模型都可以作為語言模型,但目前各種系統(tǒng)普遍采用的還是基于統(tǒng)計的 N 元文法及其變體。從數(shù)學角度可以更加清楚的了解上述 模塊之間的關(guān)系。 從這個角度來看,信號處理模塊提供了對輸入信號的預(yù)處理,也就是說,提供了從采集的語音信號 (記為 S)到特征序列 0 的映射。 為了將 聲學模型 建模單元串映射到符號集,就需要發(fā)音詞典發(fā)揮作用 , 它實際上定義了映射的映射。語音技術(shù)的應(yīng)用已經(jīng)成為一個具有競爭性的新興高技術(shù)產(chǎn)業(yè) [3]。語音識別技術(shù)就是讓機器通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的高 科技 技術(shù)。人們預(yù)計,未來 10 年內(nèi),語音識別技術(shù)將進入工業(yè)、 制造 、 通信 、汽車電子、醫(yī)療、家庭服務(wù)、 消費電子產(chǎn)品 等各領(lǐng)域。 語音識別技術(shù)原理 語音信號處理雖然包括語音通信 [4],語音合成和語音識別等方面的內(nèi)容,但其基本前提和基礎(chǔ)是對語言信號進行分析。近年來有關(guān)這方面的研究不斷發(fā)展成熟,并形成一系列的標準。只有將語音信號分析表示成其本質(zhì) 特性的參數(shù),才可能利用這些參數(shù)進行高效的語音通信,才能建立用于語音合成的語音庫,從而建立用于識別的模板或知識庫。特征提取的目的是找出一組可以代表每位說話者聲音特性參數(shù)來進行識別,該參數(shù)應(yīng)不宜受環(huán)境干擾并具有鑒別能力。而根據(jù)所分析的參數(shù)不同,語音信號分析可分為時域,頻域,倒譜域等方法。時域分析具有簡單直觀,清晰易懂,運算量小,物理意義明確等優(yōu)點。 頻譜分析具有以下優(yōu)點:時域波形較易隨外界環(huán)境變化,但語音信號的頻譜對外界環(huán)境變化具有一定的頑健性。如 MFCC,共振峰,基音周期等參數(shù)。本文給出 基于倒譜的 語音特性的提取 算法設(shè)計及其實現(xiàn)。 語音識別系統(tǒng)分類 語音識別系統(tǒng)可以根據(jù)對輸入語音的限制 [6]加以分類。 從說話的方式考慮 : 也可以將識別系統(tǒng)分為 3類: (1)孤立詞語音識別系統(tǒng):孤立詞識別系統(tǒng)要求輸入每個 單詞后要停頓; (2)連接詞語音識別系統(tǒng):連接詞輸入系統(tǒng)要求對每個詞都清楚發(fā)音,一些連音現(xiàn)象開始出現(xiàn); (3)連續(xù)語音識別系統(tǒng):連續(xù)語音輸入是自然流利的連續(xù)語音輸入,大量連音和變音 將 會出現(xiàn)。 (2)中等詞匯量的語音識別系統(tǒng) : 通常包括幾百個詞到上千個詞的識別系統(tǒng)。隨著計算機與 數(shù)字信號處理器 運算能力以及識別系統(tǒng)精度的提高,識別系統(tǒng)根據(jù)詞匯量大小進行分類也不斷進行變化。這些不同的限制也提高 了語音識別系統(tǒng)的困難度。 基于語音學和聲學的方法: 該方法起步較早,在語音識別技術(shù)提出的開始,就有了這方面的研究,但由于其模型及語音知識過于復(fù)雜,現(xiàn)階段 仍 沒有達到實用的階段。這樣該方法分為兩步實現(xiàn): 蘭州理工大學畢業(yè)論文 9 第一步,分段和標號 : 把語音信號按時間分成離散的段,每段對應(yīng)一個或幾個語音基元的聲學特性。 第二步,得到詞序列 : 根據(jù)第一步所得語音標號序列得到一個語音基元 網(wǎng)格 ,從詞典得到有效的詞序列,也可結(jié)合句子的文法和語義同時進行。在模板匹配方法中,要經(jīng)過四個步驟: 特征提取 、模板訓練、模板分類、判決。 動態(tài)時間規(guī)整 (DTW) 語音信號的 端點 檢測是進行語音識別中的一個基本步驟,它是特征訓練和識 別的基礎(chǔ)。在早期,進行端點檢測的主要依據(jù)是 能量 、振幅和過零率。 日本 學者 Itakura 提出了動態(tài)時間規(guī)整 算法 (DTW DynamicTimeWarping)。在這一過程中,未知單詞的 時間軸 要不均勻地扭曲或彎折,以使其特征與模型特征對正。 HMM 方法現(xiàn)已成為語音識別的主流技術(shù),目前大多數(shù)詞匯量、連續(xù)語音的非特定人語音識別系統(tǒng)都是基于 HMM 模型 來實現(xiàn)的 。前者通過后者表現(xiàn)出來,但前者的具體參數(shù)是不可測的??梢?HMM 合 理地模仿了這一過程,很好地描 述了語音信號的整體非平穩(wěn)性和局部平穩(wěn)性 ,是較理想的一種 語音模型 。與 HMM 相比 ,矢量量化 主要適用于小詞匯量、孤立詞的語音識別。量化時,將 k 維無限空間劃分為 M個區(qū)域邊界,然后將輸入矢量與這些邊界進行比較,并被量化為 “ 距離 ” 最小的區(qū)域邊界的中心矢量值。 核心思想可以這樣理解:如果一個碼書是為某一特定的信源而優(yōu)化設(shè)計的,那么由這一信息源產(chǎn)生的信號與該碼書的平均量化失真就應(yīng)小于其他信息的信號與該碼書的平均量化失真,也就是說編碼器本身存在區(qū)分能力。無記憶的 矢量量化 包括樹形搜索的矢量量化和多級矢量量化 [8]。人工神經(jīng)網(wǎng)絡(luò)(ANN)本質(zhì)上是一個自適應(yīng) 非線性動力學 系統(tǒng),模擬了人類神經(jīng)活動的原理,具有自適應(yīng)性、并行性、容錯性 、 魯棒性 和學習特性,其強的分類能力和輸入 輸出映射能力在語音識別中都很有吸引力。 由于 ANN 不能很好的描述語音信號的時間動態(tài)特性,所以常把 ANN 與傳統(tǒng)識別方法 相結(jié)合,分別利用各自優(yōu)點來進行語音識別。 語音信號預(yù)處理與特征提取 : 選擇識別單元是語音識別研究的第一步。 單詞(句)單元廣泛應(yīng)用于中小詞匯語音識別系統(tǒng),但不適合大詞匯系統(tǒng),原因在于模型庫太龐大,訓練模型任務(wù)繁重,模型匹配 算法 復(fù)雜,難以滿足實時性要求。因此,對于中、大詞匯量漢語語音識別系統(tǒng)來說,以音節(jié)為識別單元基本是可行的。原因在于漢語音節(jié)僅由聲母(包括零聲母有 22 個)和韻母(共有 28 個)構(gòu)成,且聲韻母聲學特性相差很大。由于協(xié)同發(fā)音 的影響,音素單元不穩(wěn)定,所以如何獲得穩(wěn)定的音素單元,還有待研究。特征參數(shù)提取的目的是對語音信號進行分析處理,去掉與語音識別無關(guān)的 冗余信息 ,獲得影響語音識別的重要信息,同時對語音信號進行壓縮。語音信號包含了大量各種不同的信息,提取哪些信息,用哪種方式提取,需要綜合考慮各方面的因素,如成本,性能,響應(yīng)時間,計算量等。 線性預(yù)測( LP)分析技術(shù)是目前應(yīng)用 最 廣泛的特征參數(shù)提取技術(shù),許多成功的應(yīng)用系統(tǒng)都采用基于 LP技術(shù)提取的倒譜參數(shù)。 Mel參數(shù)和基于感知線性預(yù)測( PLP)分析提取的感知線性預(yù)測倒譜,在一定程度上模擬了人耳對語音的處理特點,應(yīng)用了人耳聽覺感知方面的一些研究成果。從目前使用的情況來看, 梅爾 刻度式 倒頻譜 參數(shù)已逐漸取代原本常用的線性預(yù)測編碼導(dǎo)出的倒頻譜參數(shù),原因是它考慮了人類發(fā)聲與接收聲音的特性,具有更好的 魯棒性 ( Robustness)。 聲學模型與模式匹配: 聲學模型 通常是將獲取的語音特征使用訓練 算法 進行訓練后產(chǎn)生。 聲學模型 是識別系統(tǒng)的底層模型,并且是語音識別系統(tǒng)中最關(guān)鍵的一部分。聲學模型的設(shè)計和語言發(fā)音特點密切相關(guān)。必須根據(jù)不同語言的特點、識別系統(tǒng)詞匯量的大小決定識別單元 [10]的大小。并且由音素構(gòu)成聲母或韻母。由單個調(diào)母或由聲母與調(diào)母拼音成為音節(jié)。由音節(jié)字構(gòu)成詞,最后再由詞構(gòu)成句子。按音素分類,漢語輔音共有 22個,單元音 13 個,復(fù)元音 13 個,復(fù)鼻尾音 16 個。漢語加上語氣詞共有 412 個音節(jié),包括輕音字,共有 1282 個有調(diào)音節(jié)字,所以當在小詞匯表孤立詞語音識別時常選用詞作為基元,在大詞匯表語音識別時常采用音節(jié)或聲韻母建模,而在連續(xù)語音識別時,由于協(xié)同發(fā)音的影響,常采用聲韻母建模。 語言模型與語言處理: 語言模型包括由識別語音命令構(gòu)成的語法網(wǎng)絡(luò)或由 統(tǒng)計方法 構(gòu)成的語言模型,語言處理可以進行語法、語義分析。當分類發(fā)生錯誤時可以根據(jù)語言學模型、語法結(jié)構(gòu)、 語義學 模型進行判斷糾正,特別是一些同音字則必須通過上下文結(jié)構(gòu)才能確定詞義。目前比較成功的語言模型通常是采用統(tǒng)計語法的語言模型和基于規(guī)則語法結(jié)構(gòu)命令的語言模型。 蘭州理工大學畢業(yè)論文 13 第 3 章 倒譜系數(shù)分析原理 在語音信號處理的實際應(yīng)用中,很多場合需要根據(jù)語音信號反過來求解聲門信號或聲道沖激響應(yīng)。由于語音信號進行同態(tài)分析后得到的是語音信號的倒譜參數(shù),因此同態(tài)分析也叫倒譜分析 [12]。對語音信號的某一幀同樣可分析出它的短時倒譜參數(shù),總的說來,無論對于語音通信、語音合成或語音識別,倒譜參數(shù)所含的信息比其他參數(shù)多,也就是語音質(zhì)量好,識別正確率高。 復(fù)倒譜和倒譜的定義 在離散信號 x(n)情況下,用 z變換表示復(fù)倒 譜,可以寫作 復(fù)倒譜可以利用同態(tài)系統(tǒng)中一種特定的特征系統(tǒng)來求得,如圖所示。又因頻譜一般為復(fù)
點擊復(fù)制文檔內(nèi)容
研究報告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1