freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于倒譜的大學(xué)生語音識別算法研究畢業(yè)論文-文庫吧

2025-06-05 23:34 本頁面


【正文】 題 ,因此也就不能及時地、有針對性地反饋指導(dǎo)意見。利用計算機來幫助外語教學(xué)是幫助提高外語水平的重要方 法 之 一 。 在 非 母 語 的 語 言 學(xué) 習(xí) 中 , 以 計 算 機 輔 助 使 用 者 進(jìn) 行 非 母 語 學(xué) 習(xí)(ComputerAssistedLanguageLeaming,CALL)己受到相當(dāng)重視 ,各方也紛紛投入相關(guān)的研究。 語音識別技術(shù),也稱為自動語音識別,其是為了將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計算機可讀的輸入,例如二進(jìn)制編碼、按鍵或者字符序列。與說話人確認(rèn)及說話人識別不同,前者嘗試識別或確認(rèn)發(fā)出語音的說話人而非其中的詞匯內(nèi)容。 語音識別的關(guān)鍵是提取出語音特征,而語音特征有很多,倒譜系數(shù)分析是其中一種。 在語音信號處理中可以 常 用 倒譜域 來提取語音的共振峰 與基音頻率 ,用于語音識別。 倒譜系數(shù)是 一種非常有效表征語音特征的參數(shù)矢量 , 倒譜具有解卷的特性 , 它能將語音信號的聲門激勵信息和聲道響應(yīng)信息分離開,因此倒譜是說話人識別和語音識別中最常用的特征參數(shù)之一。 語音信號研究現(xiàn)狀 聲學(xué)是物理學(xué)的一個分支學(xué)科,而語言聲學(xué)又是聲學(xué)的一個分支學(xué)科。它主要的研究方向是人的發(fā)聲器官機理,發(fā)聲器官的類比線路和數(shù)學(xué)模型,聽覺器官的特性 (如聽閾、掩蔽、臨界帶寬、聽力損失等 ) ,聽覺器官的數(shù)學(xué)模型,語音信號的物理特性 (如頻譜特性、聲調(diào)特性、相關(guān)特性、概率分布等 ) ,語音的清晰度和可懂度等。當(dāng)今通信和廣播的發(fā)展非常迅 速,語言廣播和語言通信仍然是最重要的部分,而語言聲學(xué)則是這些技術(shù)科學(xué)的基礎(chǔ)。語言聲學(xué)蘭州理工大學(xué)畢業(yè)論文 2 的發(fā)展和電子學(xué)以及計算機科學(xué)有著非常密切的關(guān)系。 在它發(fā)展的過程中,有過幾次飛躍:第一次飛躍是 1907 年電子管的發(fā)明和 1920 年無線電廣播的出現(xiàn)。 因為有了電子管放大器 ,很微弱的聲音也可以放大,而且可以定量測量。從而使電聲學(xué)和語言聲學(xué)的一些研究成果,擴展到通信和廣播部門。第二次飛躍應(yīng)該是 20 世紀(jì) 70 年代初 ,由于電子計算機和數(shù)字信號處理的發(fā)展,人們發(fā)現(xiàn):聲音信號特別是語音信號,可以通過模數(shù)轉(zhuǎn)換器 (A /D)采樣和量化,它們轉(zhuǎn)換 為數(shù)字信號后,能夠送進(jìn)計算機。這樣就可以用數(shù)字計算方法,對語音信號進(jìn)行處理和加工。例如頻譜分析可以用傅里葉變換或快速傅里葉變換 ( FFT)實現(xiàn),數(shù)字濾波器可以用差分方程實現(xiàn)。在這個基礎(chǔ)上,逐漸形成了一門新學(xué)科 —— 語音信號處理。它的發(fā)展很快,在通信、自動控制等領(lǐng)域,解決了很多用傳統(tǒng)方法難以解決的問題。在信息科學(xué)中占有很重要的地位,其中語音識別的研究也開始了飛速的發(fā)展。 語音識別的研究工作可以追溯到 20 世紀(jì) 50 年代 ATamp。T 貝爾實驗室的 Audry 系統(tǒng),它是第一個可以識別十個英文數(shù)字的語音識別系統(tǒng)。 但真正取得實質(zhì) 性進(jìn)展,并將其作為一個重要的課題開展研究則是在 60 年代末 70 年代初。這首先是因為計算機技術(shù)的發(fā)展為語音識別的實現(xiàn)提供了硬件和軟件的可能,更重要的是語音信號線性預(yù)測編碼 ( LPC) 技術(shù)和動態(tài)時間規(guī)整( DTW)技術(shù)的提出,有效的解決了語音信號的特征提取和不等長匹配問題。這一時期的語音識別主要基于模板匹配原理,研究的領(lǐng)域局限在特定人,小詞匯表的孤立詞識別,實現(xiàn)了基于線性預(yù)測倒譜和 DTW 技術(shù)的特定人孤立詞語音識別系統(tǒng);同時提出了矢量量化 ( VQ) 和隱馬爾可夫模型( HMM) 理論。 隨著應(yīng)用領(lǐng)域的擴大,小詞匯表,特定人,孤 立詞等這些對語音識別的約束條件需要放寬,與此同時也帶來了許多新的問題:第一,詞匯表的擴大使得模板的選取和建立發(fā)生困難;第二,連續(xù)的語音中,各個音素、音節(jié)以及詞之間沒有明顯的邊界,各個發(fā)音單位存在受上下文強烈影響的協(xié)同發(fā)音 ( Coarticulation) 現(xiàn)象;第三,在非特定人識別時,不同的人說相同的話相應(yīng)的聲學(xué)特征有很大的差異,即使相同的人在不同的時間、生理、心理狀態(tài)下,說同樣內(nèi)容的話也會有很大的差異;第四,識別的語音中有背景噪聲和其他干擾。因此原有的模板匹配方法已不再適用。 20 世紀(jì) 90 年代前期,許多著名 的大公司如蘋果、 IBM、 NTT 和 ATamp。T 都對語音識別系統(tǒng)的實用化研究投以巨資。語音識別技術(shù)有一個很好的評估機制,那就是識別的準(zhǔn)確率,而這項指標(biāo)在 20 世紀(jì) 90 年代中后期實驗室研究中得到了不斷提高。比較有代表性的系統(tǒng)如下:IBM 公司推出的 ViaVoice 和 DragonSystem 公司的 NaturallySpeaking, Nuance 公司的NuanceVoicePlatform語音平臺, Microsoft 的 Whisper, Sun 的 VoiceTone 等。 其中 IBM 公司于 1997 年開發(fā)出漢語 ViaVoice 語音識別 系統(tǒng),次年又開發(fā)出可以識別上蘭州理工大學(xué)畢業(yè)論文 3 海話、廣東話和四川話等地方口音的語音識別系統(tǒng) ViaVoice’ 98。它帶有一個 320xx 詞的基本詞匯表,可以擴展到 65000 詞,還包括辦公常用詞條,具有“糾錯機制”,其平均識別率可以達(dá)到 95%。該系統(tǒng)對新聞?wù)Z音識別具有較高的精確度,是目前最具有代表性的漢語連續(xù)語音。 我國語音識別研究工作起步于五十年代初,但近年來發(fā)展很快。研究成果也從實驗室逐步走向?qū)嵱?。?1987 年開始執(zhí)行國家 863 計劃后,國家計算機專家組為語音識別技術(shù)研究專門立項,每兩年滾動一次。我國語音識別技術(shù)的研究水平已經(jīng) 基本上和國外同步,在漢語語音識別技術(shù)上還有自己的特點與優(yōu)勢,并達(dá)到國際先進(jìn)水平。中科院自動化所、聲學(xué)所、北京大學(xué)、清華大學(xué)、哈爾濱工業(yè)大學(xué)、中國科技大學(xué)、上海交通大學(xué)、北京郵電大學(xué)、華中科技大學(xué)等科研機構(gòu)都有實驗室進(jìn)行過語音識別方面的研究,其中具有代表性的研究單位為清華大學(xué)電子工程系和中科院自動化研究所的模式識別國家重點實驗室。 清華大學(xué)電子工程系語音技術(shù)與專用芯片設(shè)計課題組,研發(fā)的非特定人漢語數(shù)碼串連續(xù)語音識別系統(tǒng)的識別精度,達(dá)到 %(不定長數(shù)字串)和 %(定長數(shù)字串)。在有 5%拒識率情況下, 系統(tǒng)識別率可以達(dá)到 %(不定長數(shù)字串)和 %(定長數(shù)字串),這是目前國際最好的識別結(jié)果之一,其性能已經(jīng)達(dá)到實用水平。研發(fā)的五千詞語音庫對非特定人連續(xù)語音識別系統(tǒng)的識別率達(dá)到 %;并且可以識別四川話和普通話兩種語言,達(dá)到實用要求。 中科院自動化所及其所屬模式科技公司 20xx 年發(fā)布了他們共同推出的面向不同計算平臺和應(yīng)用的“天語”中文語音系列產(chǎn)品 —— PattekASR,結(jié)束了中文語音識別產(chǎn)品自 1998 年以來一直由國外公司壟斷的歷史。 主要研究內(nèi)容 本文研究的是語音信號的倒譜分析,首先第一 章的緒論部分,介紹了本文的研究目的與意義、語音信號的研究現(xiàn)狀和本文的研究內(nèi)容。 第二章介紹了 語音識別技術(shù)基本理論。簡要對其進(jìn)行了分類研究,詳細(xì)說明了語音信號的數(shù)字化和預(yù)處理、語音識別技術(shù)的基本原理、技術(shù)模型、以及處理所使用的基本方法。 第三章詳細(xì)敘述了倒譜的定義基本原理以及計算方法,優(yōu)點和缺點。將倒譜化分為實倒譜和復(fù)倒譜,并對二者之間的關(guān)系進(jìn)行區(qū)分,由此奠定了倒譜分析研究的基礎(chǔ)。然后利用到譜進(jìn)行了 MFCC 參數(shù)的提取。 接著第四章介紹了倒譜系數(shù)分析在語音特征提取中的應(yīng)用,包括基音檢測以及共振峰的蘭州理工大學(xué)畢業(yè)論文 4 提取。 最后第 五章具體研究了倒譜在語音信號處理中的實現(xiàn)方法,主要是語音信號識別的參數(shù)提取。首先通過輸入一段語音,并將其導(dǎo)入到 MATLAB 程序中進(jìn)行語音的處理,完成語音在MATLAB 中的倒譜實現(xiàn)。接著介紹倒譜在同態(tài)信號處理系統(tǒng)中的作用及同態(tài)信號處理系統(tǒng)的工作原理,然后是語音信號的主要應(yīng)用,也是語音倒譜分析的重點內(nèi)容,包括基音檢測和共振峰檢測兩個方面,作為語音信號的重要參數(shù),分別進(jìn)行了詳細(xì)的設(shè)計,同時為了清晰的描述程序的編寫過程,對設(shè)計思路方法都進(jìn)行了完備的闡述,并依據(jù)設(shè)計的算法畫出了邏輯流程圖,從而在 MATLAB 中完成程序 的編寫,最后通過對仿真結(jié)果進(jìn)行了理論的分析,得出了語音的參數(shù)量值,完成了對語音信號倒譜分析的內(nèi)容。 蘭州理工大學(xué)畢業(yè)論文 5 第 2 章 語音識別技術(shù)基本理論 語音識別技術(shù),也被稱為 自動語音識別 Automatic Speech Recognition, (ASR)[2], 其目標(biāo)是將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計算機可讀的輸入,例如按鍵、二進(jìn)制編碼或者字符序列。與說話人識別 和 說話人確認(rèn)不同,后者 嘗試識別或確認(rèn)發(fā)出語音的說話人而非其中所包含的詞匯內(nèi)容。 語音識別是模式識別的一種 ,它是讓機器通過識別和處理過程將語音信號轉(zhuǎn)變成相應(yīng)的模型參數(shù)。一個完整的語音識別系統(tǒng)主要由兩部分組成 :語音特征提取、聲學(xué)模型和模式匹配 (即識別算法 )。常用的語音特征參數(shù)有 LPCC 和 MFCC。 LPCC 參數(shù)是根據(jù)聲管模型建立的特征參數(shù) ,主要反映聲道響應(yīng)。 MFCC 參數(shù)是基于人的聽覺特性利用人聽覺的臨界帶效應(yīng) ,在 Mel 標(biāo)度頻率域提取出來的倒譜特征參數(shù)。標(biāo)準(zhǔn)的 MFCC 和 LPCC 參數(shù)只反映了語音的靜態(tài)特性 ,而它們的差分倒譜參數(shù)可以反映語音的 動態(tài)變化。 語音信號的數(shù)字化與預(yù)處理 對模擬語音信號進(jìn)行量化和采樣,獲得數(shù)字化的語音信號;然后將含噪的語音信號通過去噪處理,得到干凈的語音信號后并通過預(yù)加重技術(shù)濾除低頻干擾,尤其是 50Hz 到 60Hz之間的工頻干擾,提升語音信號的高頻部分,而且它還具有消除直流漂移、抑制隨機噪聲和提升清音部分能量的作用。降噪后,通過對語音信號的短時能量和短時過零率檢測可以剔除掉靜默幀、白噪聲幀和清音幀,最后保留對求取基音、 LPCC、 MFCC 等特征參數(shù)非常有用的語音信號。 預(yù)處理:假設(shè)輸入的音頻信號為 )(nx ,預(yù)處理過程如下。 1)歸一化處理:歸一化處理的目的是消除不同樣本聲音大小的差異,將樣本幅度值限定在 [1,+1]。 2)預(yù)加重:預(yù)加重一般是用具有 6db/倍頻程的一階數(shù)字濾波器來實現(xiàn) ,如式 (2— 1)所示 : 1μZ1=H(z) (21) 其中μ為常數(shù) ,一般取 。 3)對音頻信號進(jìn)行重疊分幀:為避免信號間斷一般取 256 點為一幀 ,幀間重疊為 128 點。 語音信號的數(shù)字化一般包括放大及增益控制、預(yù)濾波(主要是反混疊濾波)、 A/D 轉(zhuǎn)換(包含采樣過程)及編碼( PCM 編碼)。預(yù)處理一般包括預(yù)處理、加窗和分幀等。有時在分析處理之前必須把分析的語音信號部分從輸入信號中找出來,這就是語音信號的端點檢測。圖 21 蘭州理工大學(xué)畢業(yè)論文 6 是語音信號數(shù)字分析或處理的系統(tǒng)框圖。 圖 21 語音信號數(shù)字處理系統(tǒng)框圖 語音識別技術(shù)模型 目前,主流的大 量 語音識別系統(tǒng)多采用統(tǒng)計 模式識別技術(shù) 。典型的基于 統(tǒng)計模式識別 方法的語音識別系統(tǒng)由以下幾個基本 模塊 所構(gòu)成 : 信號處理及 特征提取 模塊。該模塊的主要任務(wù)是從輸入信號中提取特征,供 聲學(xué)模型 處理。同時,它一般包括了一些信號處理技術(shù),以盡可能 的 降低環(huán)境噪聲、信道、說話人等因素對特征造成的影響。統(tǒng)計 聲 學(xué)模型 : 典型系統(tǒng)多采用基于一階隱馬爾科夫模型進(jìn)行 建模 。 發(fā)音詞典 : 發(fā)音詞典包含系統(tǒng)所能處理的詞匯集及其發(fā)音。發(fā)音詞典實際提供了聲學(xué)模型建模單元與語言模型建模單元間的映射。語言模型 : 語言模型對系統(tǒng)所針對的語言進(jìn)行建模。理論上,包括正 規(guī) 語言, 上下文無關(guān) 語 法 在內(nèi)的各種語言模型都可以作為語言模型,但目前各種系統(tǒng)普遍采用的還是基于統(tǒng)計的 N 元文法及其變體。解碼器 : 解碼器 是語音識別系統(tǒng)的核心之一,其任務(wù)是對輸入的信號,根據(jù) 聲學(xué) 、語言模型及詞典,尋找能夠以最大概率輸出該信號的詞串。從數(shù)學(xué)角度可以更加清楚的了解上述 模塊之間的關(guān)系。首先,統(tǒng)計語音識別的最基本問題是,給定輸入信號或特征序列,符號集(詞典),求解符號串使得: )0/(m a xa rg WPW ? ( 22) 通過貝葉斯公式,上式可寫為: )()/0(m a xa r g WPWPW ? ( 23) 由于對于確定的輸入串 P(O)[4]是確定的,因此省略它并不會影響上式的最終結(jié)果,因此,一般來說語音識別所討論的問題可以用 上 面的公式來表示,可以將它稱為語音識別的基本 公式。 從這個角度來看,信號處理模塊提供了對輸入信號的預(yù)處理,也就是說,提供了從采集的語音信號 (記為 S)到特征序列 0 的映射。而 聲學(xué)模型 本身定義了一些更具推廣性的聲學(xué)建反混疊濾波 A/D 轉(zhuǎn)換 平滑濾波 D/A 轉(zhuǎn)換 分析處理 傳輸或存儲 合成處理 語音輸入 語音輸出 蘭州理工大學(xué)畢業(yè)論文 7 模單元,并且提供了在給定輸入特征下,估計 P 的方法。 為了將 聲學(xué)模型 建模單元串映射到符號集,就需要發(fā)音詞典發(fā)揮作用 , 它實際上定義了映射的映射。 語音識別是一門交叉學(xué)科,語音識別正逐步成為 信息技術(shù) 中人機接口的關(guān)鍵技術(shù),語音識別技術(shù)與語音合成技術(shù)結(jié)合使人們能夠甩掉鍵盤,通過語音命令進(jìn)行操作。語音技術(shù)的應(yīng)用已經(jīng)成為一個具有競爭性的新興高技術(shù)產(chǎn)業(yè) [3]。 與機器進(jìn)行語音交流,讓機器明 白你說什么,這是人們長期以來夢寐以求的事情。語音識別技術(shù)就是讓機器通過識別和理解過程把語音信號轉(zhuǎn)
點擊復(fù)制文檔內(nèi)容
研究報告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1