freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

孤立詞語音識別的并行編程實現(xiàn)--畢業(yè)設(shè)計-資料下載頁

2025-06-05 17:25本頁面
  

【正文】 都是采用 SPMD 形式。 、 18 第三章 基于 VC2021 孤立詞語音識別的 編程 實現(xiàn) 語音識別系統(tǒng)原理 及設(shè)計方法 語音識別系統(tǒng)的基本原理 使用 C 語言編程,實現(xiàn)基于 馬爾科夫模型 的數(shù)據(jù)特征提取,在此基礎(chǔ)上編程實現(xiàn) 特 定 語音實例 的 語音 識別;將 語音 識別功能編寫成可供其他模塊調(diào)用的函數(shù),為進一步實現(xiàn) 語音 識別系統(tǒng)提供基礎(chǔ);并且從中培養(yǎng)、提高查閱文獻和綜合運用知識的編程開發(fā)能力。 語音識別本質(zhì)上是一種模式識別的過程,未知語音的模式與已知語音的參考模式逐一進行比較,最佳匹配的參考模式被作為識別結(jié)果。圖 31 是基于模式匹配原理的自動語音識別系統(tǒng)原理框圖。 圖 31 語音識別系統(tǒng)原理框圖 (1)預(yù)處理模塊:對輸入的原始語音信號進行處 理,濾除掉其中的不重要的信息以及背景噪聲,并進行語音信號的端點檢測、語音分幀以及預(yù)加重等處理。 (2)特征提取模塊:負責(zé)計算語音的聲學(xué)參數(shù),并進行特征的計算,以便提取出反映信號特征的關(guān)鍵特征參數(shù)用于后續(xù)處理?,F(xiàn)在較常用的特征參數(shù)有線性預(yù)測( LPC)參數(shù)、線譜對( LSP)參數(shù)、 LPCC、 MFCC、 ASCC、感覺加權(quán)的線性預(yù)測( PLP)參數(shù)、動態(tài)差分參數(shù)和高階信號譜類特征等。其中, Mel 頻率倒譜系數(shù)( MFCC)參數(shù)因其良好的抗噪性和魯棒性而應(yīng)用廣泛。 (3)訓(xùn)練階段:用戶輸入若干次訓(xùn)練語音,經(jīng)過預(yù)處理 和特征提取后得到特征矢量參數(shù),建立或修改訓(xùn)練語音的參考模式庫。 (4)識別階段:將輸入的語音提取特征矢量參數(shù)后與參考模式庫中的模式進行相似性度量比較,并結(jié)合一定的判別規(guī)則和專家知識(如構(gòu)詞規(guī)則,語法規(guī)則等 )得出最終的識別結(jié)果。 參考模式庫 判別規(guī)則 預(yù)處理 模式匹配 特征提取 訓(xùn)練 識別結(jié)果 語音信號 輸入 、 19 語音識別的幾種基本設(shè)計方法 語音識別的方法主要有三種:基于聲道模型和語音知識的方法、模板匹配的方法以及利用人工神經(jīng)網(wǎng)絡(luò)的方法。 (1)基于語音學(xué)和聲學(xué)的方法 該方法起步較早,在語音識別技術(shù)提出的開始,就有了這方面的研究,但由于其模型及語音知識過于復(fù)雜,現(xiàn)階段沒有達到 實用的階段。 通常認為常用語言中有有限個不同的語音基元,而且可以通過其語音信號的頻域或時域特性來區(qū)分。這樣該方法分為兩步實現(xiàn): 第一步,分段和標(biāo)號 把語音信號按時間分成離散的段,每段對應(yīng)一個或幾個語音基元的聲學(xué)特性。然后根據(jù)相應(yīng)聲學(xué)特性對每個分段給出相近的語音標(biāo)號 。 第二步,得到詞序列 根據(jù)第一步所得語音標(biāo)號序列得到一個語音基元網(wǎng)格,從詞典得到有效的詞序列,也可結(jié)合句子的文法和語義同時進行。 (2)模板匹配的方法 模板匹配的方法發(fā)展比較成熟,目前已達到了實用階段。在模板匹配方法中,要經(jīng)過四個步驟:特征提取、 模板訓(xùn)練、模板分類、判決。常用的技術(shù)有三種:動態(tài)時間規(guī)整 (DTW)、隱馬爾可夫( HMM)理論、矢量量化( VQ)技術(shù)。 (DTW) 語音信號的端點檢測是進行語音識別中的一個基本步驟,它是特征訓(xùn)練和識別的基礎(chǔ)。所謂端點檢測就是在語音信號中的各種段落 (如音素、音節(jié)、詞素 )的始點和終點的位置,從語音信號中排除無聲段。在早期,進行端點檢測的主要依據(jù)是能量、振幅和過零率。但效果往往不明顯。 60 年代日本學(xué)者 Itakura 提出了動態(tài)時間規(guī)整算法 (DTW: DynamicTimeWarping)。算法的思想就是 把未知量均勻的升長或縮短 ,直到與參考模式的長度一致。在這一過程中,未知單詞的時間軸要不均勻地扭曲或彎折,以使其特征與模型特征對正。 (HMM) 隱馬爾可夫法 (HMM)是 70 年代引入語音識別理論的,它的出現(xiàn)使得自然語音識別系統(tǒng)取得了實質(zhì)性的突破。 HMM 方法現(xiàn)已成為語音識別的主流技術(shù),目前大多數(shù)大詞匯量、連續(xù)語音的非特定人語音識別系統(tǒng)都是基于 HMM 模型的。 HMM 是對語音信號的時間序列結(jié)構(gòu)建立統(tǒng)計模型,將之看作一個數(shù)學(xué)上的雙重隨機過程:一個是用具有有限狀態(tài)數(shù)的 Markov 鏈來模擬語音信號統(tǒng)計特性 變化的隱含的隨機過程,另一個是與 Markov 鏈的每一個狀態(tài)相關(guān)聯(lián)的觀測序列的隨機過程。前者通過后者表現(xiàn)出來,但前者的具體參數(shù)是不可測的。人的言語過程實際上就是一個雙重隨機過程,語音信號本身是一個可觀測的時變序列,是由大腦根據(jù)語法、 20 知識和言語需要 (不可觀測的狀態(tài) )發(fā)出的音素的參數(shù)流。可見 HMM 合理地模仿了這一過程,很好地描述了語音信號的整體非平穩(wěn)性和局部平穩(wěn)性 ,是較為理想的一種語音模型。 (VQ) 矢量量化 (VectorQuantization)是一種重要的信號壓縮方法。與 HMM 相比 ,矢量量化主要 適用于小詞匯量、孤立詞的語音識別中。其過程是:將語音信號波形的 k 個樣點的每一幀,或有 k 個參數(shù)的每一參數(shù)幀,構(gòu)成 k 維空間中的一個矢量,然后對矢量進行量化。量化時,將 k維無限空間劃分為 M 個區(qū)域邊界,然后將輸入矢量與這些邊界進行比較,并被量化為 “ 距離 ”最小的區(qū)域邊界的中心矢量值。矢量量化器的設(shè)計就是從大量信號樣本中訓(xùn)練出好的碼書,從實際效果出發(fā)尋找到好的失真測度定義公式,設(shè)計出最佳的矢量量化系統(tǒng),用最少的搜索和計算失真的運算量,實現(xiàn)最大可能的平均信噪比。 核心思想可以這樣理解:如果一個碼書是為某一特定的信源而優(yōu)化 設(shè)計的,那么由這一信息源產(chǎn)生的信號與該碼書的平均量化失真就應(yīng)小于其他信息的信號與該碼書的平均量化失真,也就是說編碼器本身存在區(qū)分能力。 在實際的應(yīng)用過程中,人們還研究了多種降低復(fù)雜度的方法,這些方法大致可以分為兩類:無記憶的矢量量化和有記憶的矢量量化。無記憶的矢量量化包括樹形搜索的矢量量化和多級矢量量化。 (3)神經(jīng)網(wǎng)絡(luò)的方法 利用人工神經(jīng)網(wǎng)絡(luò)的方法是 80 年代末期提出的一種新的語音識別方法。人工神經(jīng)網(wǎng)絡(luò)(ANN)本質(zhì)上是一個自適應(yīng)非線性動力學(xué)系統(tǒng),模擬了人類神經(jīng)活動的原理,具有自適應(yīng)性、并行性、魯棒性、容錯 性和學(xué)習(xí)特性,其 較 強的分類能力和輸入 - 輸出映射能力在語音識別中都很有吸引力。但由于存在訓(xùn)練、識別時間太長的缺點,目前仍處于實驗探索階段。 由于 ANN 不能很好的描述語音信號的時間動態(tài)特性,所以常把 ANN 與傳統(tǒng)識別方法結(jié)合,分別利用各自優(yōu)點來進行語音識別。 孤立詞語音識別系統(tǒng) 孤立詞語音識別系統(tǒng)的構(gòu)成 參考以模板為單詞單位 圖 32 參考以模板為單詞單位 單詞參考模板 單詞識別 聲學(xué)參數(shù)分析 識別輸出 、 21 參考模板為 音 素單位 圖 33 參考模板為 音 素單位 孤立詞語音識別系統(tǒng) 的技術(shù)主要項目 詞 匯 詞匯固定 — 可變,內(nèi)容(數(shù)字、命令、地名等),聲學(xué)性質(zhì)的類似性 說話人 特定說話人 — 非特定說話人 發(fā)生法 孤立發(fā)聲 — 連續(xù)發(fā)聲 分析法 頻域分析,倒譜域分析,線性預(yù)測分析 模式變換 固定長 — 可變長,特征提取,語音分段,因素識別 模式法 多重參考模式匹配法,統(tǒng)計決定法,構(gòu)詞識別法 標(biāo)準(zhǔn)模式 標(biāo)準(zhǔn)模板(多重),單詞辭典,概率分布,生成規(guī)則 輸入方式 電話 — 話筒(近講話筒) 發(fā)聲環(huán)境 信噪比 SNR30dB(SNR:Signal to Noise Ratio) 環(huán) 境 比較安靜的辦公室 寬敞的辦公室 行駛中的小轎車內(nèi) 電 平 4050dB 6070dB 6575dB 單詞辭典 單詞識別 音素參考模板 單詞模板 聲學(xué)參數(shù)分析 識別輸出 表 31 孤立詞語音識別系統(tǒng)的技術(shù)主要項目 、 22 基于語音軌跡特征的匹配技術(shù) 語音 識別設(shè)計流程 樣本語音采集 在室內(nèi)錄制標(biāo)準(zhǔn)漢語數(shù)字 09 的 wav 語音做樣本語音,錄音軟件采用 MS Visual C++WavRecorder,采樣率 16KHz,采樣位 16 位,語音數(shù)據(jù)以 wav 文件格式存儲,其音頻格式為 Windows PCM。 語音信號預(yù)處理 語音信號數(shù)字化 通過采樣及量化提取語音信號的數(shù)據(jù)。 其中,數(shù)據(jù)提取部分,掌握語音文件的存儲形式極為重要,有效地提取并清楚各部分數(shù)據(jù)的含義,對分析數(shù)據(jù)起到幫助作用,為下一步工作做了良好的起步。 預(yù)加重處理 提升高頻部分, 使 信號頻譜變得平坦,以便于進行聲道參數(shù)分析或頻譜分析。 預(yù)加重語音信號的平均功率譜受聲門激勵和口鼻輻射影響,高頻端大約在 800Hz 以上按 6dB/倍頻程跌落,即 6dB/oct(2 倍頻 )或 20dB/dec(10 倍頻 )。求語音信號頻譜時,頻率越高,相應(yīng)的成分越小。S1 S2 SS SS SS V1 V2 V3 V4 V5 V6 V7 S1 S2 SS V’1 V’2 V’3 V’4 V’5 V6’ V’6 (V’1) (V’6) S1 S2 SS SS Concept: a sequence of symbols Parameterize Recognize Vector space (V’2) (V’3) (V’5) (V’4) Speech Waveform Speech Vectors Vector space (V2,V3) (V4,V5,V6,V7)) (V1) 圖 34 基于語音軌跡特征的匹配技術(shù) 、 23 為此 ,要在預(yù)處理中進行預(yù)加重處理 (Pre—emphasis)。預(yù)加重的目的是使信號的頻譜變得平坦,保持從低頻到高頻的整個頻帶中,能用同樣的信噪比求頻譜,以便于頻譜分析或聲道參數(shù)分析。預(yù)加重一般是采用一階的數(shù)字濾波器 181。: H(Z)=1181。1z , 181。 值接近于 1,或者采用公式y(tǒng)(n)=x(n)αx(n1),其中, x(n)為原始信號序列; y(n)為預(yù)加重后序列; α為預(yù)加重系數(shù)。 端點檢測及分幀加窗 斷點檢測主要為 實現(xiàn)對數(shù)據(jù)中有效部分的提取。 閾值采用 (最大值 最 小值 ), 語音信號是一種典型的非平穩(wěn)信號,處理中一般使用窗函數(shù)截取其中一段來進行分析,截取出來的那部分信號被認為是短時平穩(wěn)的。加窗處理的另一個作用就是消除由無限序列截斷導(dǎo)致的Gibbs 效應(yīng)。常見的窗函數(shù)有: 1)矩形窗 (RectangularWindow) ? 1 ( 0 1 )0( 0) nN? ? ? ?其 他 (1) 2)漢明窗 (Hamming Window) 20 . 5 4 0 . 4 6 c o s ( ) ( 0 1 )10( n )n nNN?? ? ? ? ????? 其 他 (2) 3)哈寧窗 (Hann Window) 20 . 5 0 . 5 c o s ( ) ( 0 1 )10( n )n nNN?? ? ? ? ????? 其 他 (3) 漢明窗和哈寧窗都屬于廣義升余弦函數(shù),通過分析他們的頻率響應(yīng)幅度特征,可以發(fā)現(xiàn),矩形窗的譜平滑性能好,但是旁瓣太高,容易造成頻譜泄露,損失高頻成分;哈寧窗衰減太快,低通特性不平滑;漢明窗由于其平滑的低通特性和最低的旁瓣高度而得到廣泛的應(yīng)用。 Mel倒譜系數(shù) 特征 表示 提取 MFCC 參數(shù) 、 PLCC 參數(shù),即狀態(tài)轉(zhuǎn)移矩陣 A,混合高斯分布的權(quán)矩陣 C,均值矢量 181。和協(xié)方差矩陣 U 這四個參數(shù)的訓(xùn)練過程,并進行極大似然值估計。 Mel 倒譜系數(shù)提取 人耳對不同頻率的語音具有不同的感知能力 , 是一種非線性的關(guān)系。結(jié)合人耳的生理結(jié)構(gòu),運用對數(shù)關(guān)系來模擬人耳對不同頻率語音的感知特性, Davies 和 Merelstein 于 1980 年提出了 Mel 頻率的概念。其意義為 1Mel 為 l000Hz 的音調(diào)感知程度的 l/1000。 Hz 頻率 Melf 與 Mel頻率 Melf 之間的轉(zhuǎn)換關(guān)系如公式 : Melf =1127ln(1+700Hzf ) (4) 、 24 Mel 倒譜頻率系數(shù) (MFCC)是上述 Mel 頻率概念基礎(chǔ)上提出的,其計算機流程如圖 3331 所示 1)將原始語音信號預(yù)加重,分幀加窗之后得到一幀語音信號。 2)對一幀語音信號進行快速傅立葉變換 (fast fouriert transform, FFT),得到信號的離散功率譜 X(k)。 3)定義一個由 M 個三角型帶通濾波器組成的濾波器組,每個濾波器的中心頻率
點擊復(fù)制文檔內(nèi)容
畢業(yè)設(shè)計相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1