freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于倒譜的大學(xué)生語音識別算法研究畢業(yè)論文(存儲版)

2025-08-19 23:34上一頁面

下一頁面
  

【正文】 的波形并不是一個完全的周期序列。豐富的諧波成分使語音信號的波形變的很復(fù)雜,給基音檢測帶來困難,經(jīng)常發(fā)生基頻估計結(jié)果為實際基音頻率的二三次倍頻或二次分頻的情況 [14]。如果計算的是一個時變的倒譜,則可估計出激勵源模型及基音周期隨時間的變化。所以共振峰已經(jīng)廣泛地用作語音識別的主要特征和語讀入語音數(shù)據(jù) 到文件尾嗎? 結(jié)束 對該幀數(shù)據(jù)加窗 計算基音周期 pitch 基音周期 pitch=0 找出該搜索范圍內(nèi)倒譜的最大值 max 設(shè)置門限為 求該幀數(shù)據(jù)的倒譜 設(shè)置基音搜索范圍 取出一幀語音數(shù)據(jù) max? Y N N Y 蘭州理工大學(xué)畢業(yè)論文 24 音編碼傳輸?shù)幕拘畔?。在正常情況下,頻譜包絡(luò)中的極大值完全是又共振峰引起的。傳統(tǒng)的頻譜包絡(luò)估計方法是利用由諧波峰值提供的樣點。包括并行處理法,數(shù)據(jù)減少法等。根據(jù)復(fù)倒譜的定義,可以得到 x(n)的復(fù)倒譜為: 0( ) ( )kPkx n n k N???????? (52) 其中, 0? =ln 0? 11 011 ()MMkk rkrrrkk??? ???? ? ? ??? (53) MATLAB 中的設(shè)計與實 現(xiàn) 當(dāng)語音采樣率 sf =8kHz 時,倒譜的第一個峰值點即等于基音周期值 Np,其變化范圍在蘭州理工大學(xué)畢業(yè)論文 26 25200 之間,因而應(yīng)在此范圍內(nèi)搜索峰值點。 在發(fā)濁音時,聲門激勵是以基音周期為周期的沖激序列: 0( ) ( )MrPrx n n r N?????? (51) 式中, M 是正整數(shù); r 是正整數(shù),且 0≤ r≤ M。對倒譜進行低時窗選,通過語音倒譜分析系統(tǒng)的最后一級,進 行 DFT 后的輸出即為平滑后的對數(shù)模函數(shù),這個平滑的對數(shù)譜顯示了特定輸入語音段的諧振結(jié)構(gòu),即譜的峰值基本上對應(yīng)于共振峰頻率,對平滑過的對數(shù)譜中的峰值進行定位,即可估計共振峰。這時會產(chǎn)生共振峰合并現(xiàn)象,而探討一種理想的能對共振峰合并進行識別的共振峰提取算法存在很多實際困難。與基音檢測類似,共振峰估計也是表面上看起來很容易,而實際上又受很多問題困擾。共振峰信息包括在語音頻譜包絡(luò)中。如果倒譜的峰值超出了預(yù)先規(guī)定的門限,則輸入語音段定為濁音,而峰的位置就是基音周期的良好估計。另外,濁音信號可能包含有三四十次諧波分量,而基波分量往往不是最強的分量。 3 基音檢測的難點 自進行語音信號分析研究以來,基音檢測一直是一個重點研究的課題,很多方法已被提出,然而這些方法都有它們的局限性?;糁芷诰哂袝r變性和準(zhǔn)周期性,它的大小與個人聲帶的長短、厚薄、韌性和發(fā)音習(xí)慣有關(guān),還與發(fā)音者的性別、年齡、發(fā)音時的力度及情感有關(guān),是語音信號處理中的重要參數(shù)之一,它描述了語音激勵源的一個重要特征。由于語音信號可以視為聲門激勵信號和聲道響應(yīng)信號的卷積結(jié)果。 由于 MFCC參數(shù)是 對人耳聽覺特征的描述,因此,可以認(rèn)為,不同聲紋的 MFCC參數(shù)距離,能夠代表人耳對兩個語音聽覺上的差異,可以為聲紋的識別提供可靠的依據(jù) 。其分幀函數(shù)調(diào)用為:f=enframe(X, hamming(256), 128)。 Mel 頻率倒譜系數(shù)提取過程 人的聽覺系統(tǒng)是一個特殊的非線性系統(tǒng),它響應(yīng)不同頻率信號的靈敏度是不同的,基本上是一個對數(shù)的關(guān)系。對不同的頻率,在相應(yīng)的臨界帶寬內(nèi)的信號會引起基礎(chǔ)膜上不同位置的振動。值得注意的是,倒譜不能通過逆特征系統(tǒng)還原成自身,因為在計算中相位信息丟失了。為了區(qū)別于用一般方法所求得的頻譜 (spectrum),將spectrum 這一詞前半部 (spec)字母順序顛倒即成 cepstrum, 根據(jù)詞形定名為倒譜。語法結(jié)構(gòu)可以限定不同詞之間的相互連接關(guān)系,減少了識別系統(tǒng)的搜索空間,這有利于提高系統(tǒng)的識別。 目前常用的 聲學(xué)模型 基元為聲韻母、音節(jié)或詞,根據(jù)實現(xiàn)目的不同來選取 不同的基元。 蘭州理工大學(xué)畢業(yè)論文 12 以漢語為例:漢語按音素的發(fā)音特征分類分為輔音、單元音、復(fù)元音、復(fù)鼻尾音四種,按音節(jié)結(jié)構(gòu)分類為聲母和 韻母。 也有研究者嘗試把 小波分析 技術(shù)應(yīng)用于 特征提取 ,但目前性能難以與上述技術(shù)相比,有待進一步研究。在實際應(yīng)用中,語音信號的 壓縮率 介于 10100 之間。 音節(jié)單元多見于漢語語音識別,主要因 為漢語是單音節(jié)結(jié)構(gòu)的語言,而英語是多音節(jié),并且漢語雖然有大約 1300 個音節(jié),但若不考慮聲調(diào),約有 408 個無調(diào)音節(jié),數(shù)量相對較少。 神經(jīng)網(wǎng)絡(luò)的方法: 利用人工神經(jīng)網(wǎng)絡(luò)的方法是 80 年代末期提出的一種新的語音識別方法 。 矢量量化 (VQ) 矢量量化 (VectorQuantization)是一種重要的信號壓縮方法。 算法的思想就是把未知量均勻的升長或縮短 ,直到與參考模式的長度一致。 模板匹配的方法: 模板匹配的方法發(fā)展比較成熟,目前已達到了實用階段。目前是中等詞匯量的識別系統(tǒng)到將來可能就是小詞匯量的語音識別系統(tǒng)。使讀者對相關(guān)技術(shù)的基本理論,方法和基本應(yīng)用有一個系統(tǒng)的了解。進行語音信號分析時,最先接觸到的,也是最直觀的是它的時域波形。語音的壓縮和恢復(fù)是語音信號處理的關(guān)鍵技術(shù)。 語音識別是一門交叉學(xué)科,語音識別正逐步成為 信息技術(shù) 中人機接口的關(guān)鍵技術(shù),語音識別技術(shù)與語音合成技術(shù)結(jié)合使人們能夠甩掉鍵盤,通過語音命令進行操作。語言模型 : 語言模型對系統(tǒng)所針對的語言進行建模。圖 21 蘭州理工大學(xué)畢業(yè)論文 6 是語音信號數(shù)字分析或處理的系統(tǒng)框圖。降噪后,通過對語音信號的短時能量和短時過零率檢測可以剔除掉靜默幀、白噪聲幀和清音幀,最后保留對求取基音、 LPCC、 MFCC 等特征參數(shù)非常有用的語音信號。與說話人識別 和 說話人確認(rèn)不同,后者 嘗試識別或確認(rèn)發(fā)出語音的說話人而非其中所包含的詞匯內(nèi)容。 第三章詳細(xì)敘述了倒譜的定義基本原理以及計算方法,優(yōu)點和缺點。中科院自動化所、聲學(xué)所、北京大學(xué)、清華大學(xué)、哈爾濱工業(yè)大學(xué)、中國科技大學(xué)、上海交通大學(xué)、北京郵電大學(xué)、華中科技大學(xué)等科研機構(gòu)都有實驗室進行過語音識別方面的研究,其中具有代表性的研究單位為清華大學(xué)電子工程系和中科院自動化研究所的模式識別國家重點實驗室。比較有代表性的系統(tǒng)如下:IBM 公司推出的 ViaVoice 和 DragonSystem 公司的 NaturallySpeaking, Nuance 公司的NuanceVoicePlatform語音平臺, Microsoft 的 Whisper, Sun 的 VoiceTone 等。 但真正取得實質(zhì) 性進展,并將其作為一個重要的課題開展研究則是在 60 年代末 70 年代初。第二次飛躍應(yīng)該是 20 世紀(jì) 70 年代初 ,由于電子計算機和數(shù)字信號處理的發(fā)展,人們發(fā)現(xiàn):聲音信號特別是語音信號,可以通過模數(shù)轉(zhuǎn)換器 (A /D)采樣和量化,它們轉(zhuǎn)換 為數(shù)字信號后,能夠送進計算機。 倒譜系數(shù)是 一種非常有效表征語音特征的參數(shù)矢量 , 倒譜具有解卷的特性 , 它能將語音信號的聲門激勵信息和聲道響應(yīng)信息分離開,因此倒譜是說話人識別和語音識別中最常用的特征參數(shù)之一。例如 ,課堂教學(xué)通常受時間、地點以及教師教學(xué)水平的限制 。 倒譜法提取基音頻率 .................................................... 25 蘭州理工大學(xué)畢業(yè)論文 提取基音的方法 ................................................... 25 倒譜分析算法的原理 ............................................... 25 MATLAB 中的設(shè)計與實現(xiàn) ............................................ 25 倒譜法提取共振峰 ...................................................... 27 提取共振峰的方法 ................................................. 27 倒譜法的原理 ..................................................... 27 MATLAB 中的設(shè)計與實現(xiàn) ............................................ 27 第 6 章 結(jié)論與展望 ............................................. 錯誤 !未定義書簽。 倒譜法作為信號處理的重要的方法,能夠得到比較好的識別性能。 Speech Recognition Algorithm based on Cepstrum 摘要 語音是人類最重要的交流工具,隨著電子計算機和人工智能機器的廣泛應(yīng)用,人們發(fā)現(xiàn)人和機器之間最好的通信方式是語言通信,而語音是語言的聲學(xué)表現(xiàn)形式。 接下來通過 對語音倒譜在各個方面的應(yīng) 用進行 MATLAB 編程仿真,得到語音基音檢測和共振峰檢測的實驗仿真結(jié)果。 蘭州理工大學(xué)畢業(yè)論文 1 第 1 章 緒論 研究背景及意義 語音是語言的聲學(xué)表現(xiàn) ,是人類交流信息最自然、最有效、最方便的手段。 在 非 母 語 的 語 言 學(xué) 習(xí) 中 , 以 計 算 機 輔 助 使 用 者 進 行 非 母 語 學(xué) 習(xí)(ComputerAssistedLanguageLeaming,CALL)己受到相當(dāng)重視 ,各方也紛紛投入相關(guān)的研究。當(dāng)今通信和廣播的發(fā)展非常迅 速,語言廣播和語言通信仍然是最重要的部分,而語言聲學(xué)則是這些技術(shù)科學(xué)的基礎(chǔ)。在這個基礎(chǔ)上,逐漸形成了一門新學(xué)科 —— 語音信號處理。 隨著應(yīng)用領(lǐng)域的擴大,小詞匯表,特定人,孤 立詞等這些對語音識別的約束條件需要放寬,與此同時也帶來了許多新的問題:第一,詞匯表的擴大使得模板的選取和建立發(fā)生困難;第二,連續(xù)的語音中,各個音素、音節(jié)以及詞之間沒有明顯的邊界,各個發(fā)音單位存在受上下文強烈影響的協(xié)同發(fā)音 ( Coarticulation) 現(xiàn)象;第三,在非特定人識別時,不同的人說相同的話相應(yīng)的聲學(xué)特征有很大的差異,即使相同的人在不同的時間、生理、心理狀態(tài)下,說同樣內(nèi)容的話也會有很大的差異;第四,識別的語音中有背景噪聲和其他干擾。該系統(tǒng)對新聞?wù)Z音識別具有較高的精確度,是目前最具有代表性的漢語連續(xù)語音。研發(fā)的五千詞語音庫對非特定人連續(xù)語音識別系統(tǒng)的識別率達到 %;并且可以識別四川話和普通話兩種語言,達到實用要求。 接著第四章介紹了倒譜系數(shù)分析在語音特征提取中的應(yīng)用,包括基音檢測以及共振峰的蘭州理工大學(xué)畢業(yè)論文 4 提取。常用的語音特征參數(shù)有 LPCC 和 MFCC。 2)預(yù)加重:預(yù)加重一般是用具有 6db/倍頻程的一階數(shù)字濾波器來實現(xiàn) ,如式 (2— 1)所示 : 1μZ1=H(z) (21) 其中μ為常數(shù) ,一般取 。該模塊的主要任務(wù)是從輸入信號中提取特征,供 聲學(xué)模型 處理。從數(shù)學(xué)角度可以更加清楚的了解上述 模塊之間的關(guān)系。語音識別技術(shù)就是讓機器通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的高 科技 技術(shù)。只有將語音信號分析表示成其本質(zhì) 特性的參數(shù),才可能利用這些參數(shù)進行高效的語音通信,才能建立用于語音合成的語音庫,從而建立用于識別的模板或知識庫。 頻譜分析具有以下優(yōu)點:時域波形較易隨外界環(huán)境變化,但語音信號的頻譜對外界環(huán)境變化具有一定的頑健性。 從說話的方式考慮 : 也可以將識別系統(tǒng)分為 3類: (1)孤立詞語音識別系統(tǒng):孤立詞識別系統(tǒng)要求輸入每個 單詞后要停頓; (2)連接詞語音識別系統(tǒng):連接詞輸入系統(tǒng)要求對每個詞都清楚發(fā)音,一些連音現(xiàn)象開始出現(xiàn); (3)連續(xù)語音識別系統(tǒng):連續(xù)語音輸入是自然流利的連續(xù)語音輸入,大量連音和變音 將 會出現(xiàn)。 基于語音學(xué)和聲學(xué)的方法: 該方法起步較早,在語音識別技術(shù)提出的開始,就有了這方面的研究,但由于其模型及語音知識過于復(fù)雜,現(xiàn)階段 仍 沒有達到實用的階段。 動態(tài)時間規(guī)整 (DTW) 語音信號的 端點 檢測是進行語音識別中的一個基本步驟,它是特征訓(xùn)練和識 別的基礎(chǔ)。 HMM 方法現(xiàn)已成為語音識別的主流技術(shù),目前大多數(shù)詞匯量、連續(xù)語音的非特定人語音識別系統(tǒng)都是基于 HMM 模型 來實現(xiàn)的 。量化時,將 k 維無限空間劃分為 M個區(qū)域邊界,然后將輸入矢量與這些邊界進行比較,并被量化為 “ 距離 ” 最小的區(qū)域邊界的中心矢量值。 由于 ANN 不能很好的描述語音信號的時間動態(tài)特性,所以常把 ANN 與傳統(tǒng)識別方法 相結(jié)合,分別利用各自優(yōu)點來進行語音識別。原因在于漢語音節(jié)僅由聲母(包括零聲母有 22 個)和韻母(共有 28 個)構(gòu)成,且聲韻母聲學(xué)特性相差很大。 線性預(yù)測( LP)分析技術(shù)是目前應(yīng)用 最 廣泛的特征參數(shù)提取技術(shù),許多成功的應(yīng)用系統(tǒng)都采用基于 LP技術(shù)提取的倒譜參數(shù)。 聲學(xué)模型 是識別系統(tǒng)的底層模型,并且是語音識別系統(tǒng)中最關(guān)鍵的一部分。由單個調(diào)母或由聲母與調(diào)母拼音成為音節(jié)。 語言模型與語言處理: 語言模型包括由識別語音命令構(gòu)成的語法網(wǎng)絡(luò)或由 統(tǒng)計方法 構(gòu)成的語言模型,語言處理可以進行語法、語義分析。由于語音信號進行同態(tài)分析后得到的是語音信號的
點擊復(fù)制文檔內(nèi)容
研究報告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1