freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于dtw算法的語音識別原理與實現(xiàn)-展示頁

2025-05-19 18:25本頁面
  

【正文】 和關(guān)鍵技術(shù)。 DTW是較早的一種模式匹配和模型訓(xùn)練技術(shù),它應(yīng)用動態(tài)規(guī)劃的思想成功解決了語音信號特征參數(shù)序列比較時時長不等的難題,在孤立詞語音識別中獲得了良好性能。其中中科院自動化所研制的非特定人連續(xù)語音聽寫系統(tǒng)和漢語語音人機對話系統(tǒng),其準(zhǔn)確率 和系統(tǒng)響應(yīng)率均可達 90%以上。國內(nèi)的語音識別起步較晚,1987 年開始執(zhí)行國家 863 計劃后語音識別技術(shù)才得到廣泛關(guān)注。 語音識別技術(shù)起源于 20世紀(jì) 50年代,以貝爾實驗室的 Audry 系統(tǒng)為標(biāo)志[1,8]。傳統(tǒng)的鍵盤、鼠標(biāo)等輸入設(shè)備的存在大大妨礙了系統(tǒng)的小型化 [10],而成熟的語音識別技術(shù)可以輔助甚至取代這些設(shè)備。 【關(guān)鍵字】語音識別;端點檢測; MFCC 系數(shù); DTW算法 【中圖分類號】 TN 【文獻標(biāo)識碼】 A 0 引言 自計算機誕生以來,通過語音與計算機交互一直是人類的夢想,隨著計算機軟硬件和信息技術(shù)的飛速發(fā)展,人們對語音識別功能的需求也更加明顯和迫切?;?DTW算法的語音識別原理與實現(xiàn) 您好,歡迎來到阿里巴巴 基于 DTW 算法的語音識別原理與實現(xiàn) (2021/07/12 17: 44)【摘要】以一個能識別數(shù)字 0~9的語音識別系統(tǒng)的實現(xiàn)過程為例,闡述了基于 DTW算法的特定人孤立詞語音識別的基本原理和關(guān)鍵技術(shù)。其中包括對語音端點檢測方法、特征參數(shù)計算方法和 DTW算法實現(xiàn)的詳細(xì)討論,最后給出了在 Matlab 下的編程方法和實驗結(jié)果。語音識別技術(shù)就是讓機器通過識別和理解過程把人類的語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的技術(shù),屬于多維模式識別和智能計算機接口的范疇。在 PDA、智能手機、智能家電、工業(yè)現(xiàn)場、智能機器人等方面語音識別技術(shù)都有著廣闊的前景。先后取得了線性預(yù)測分析 (LP)、動態(tài)時間歸整 (DTW)、矢量量化 (VQ)、隱馬爾可夫模型 (HMM)等一系列關(guān)鍵技術(shù)的突破和以 IBM 的 ViaVoice、Microsoft 的 VoiceExpress 為代表的一批顯著成果。具有代表性的研究單位為清華大學(xué)電子工程系與中科院自動化研究所模式識別國家重點實驗室,中科院聲學(xué)所等。 常見的語音識別方法有動態(tài)時間歸整技術(shù) (DTW)、矢量量化技術(shù) (VQ)、隱馬爾可夫模型 (HMM)、基于段長分布的非齊次隱馬爾可夫模型 (DDBHMM)和人工神經(jīng)元網(wǎng)絡(luò) (ANN[1,9]。雖然 HMM 模型和 ANN 在連續(xù)語音大詞匯量語音識別系統(tǒng)優(yōu)于 DTW,但由于 DTW算法計算量較少、無需前期的長期訓(xùn)練,也很容易將 DTW算法移植到單片機、 DSP上實現(xiàn)語音識別且能滿足實時性要求,故其在孤立詞語音識別系統(tǒng)中仍然得到了廣泛的應(yīng)用。 1 語音識別系統(tǒng)概述 語音識別系統(tǒng)的典型原理框圖 [1,910]如圖 11所示。由于語音信號是一種典型的非平穩(wěn)信號,加之呼吸氣流、外部噪音、電流干擾等使得語音信號不能直接用于提取特征,而要進行前期的預(yù)處理。經(jīng)過預(yù)處理的語音數(shù)據(jù)就可以進行特征參數(shù)提取。在識別階段,語音信號經(jīng)過相同的通道得到語音參數(shù),生成測試模板,與參考模板進行匹配,將匹配分?jǐn)?shù)最高的參考模板作為識別結(jié)果。 圖 11 語音識別系統(tǒng)原理框圖 本文所描述的語音識別系統(tǒng) (下稱本系統(tǒng) )將對數(shù)字 0~9 共 10段參考語音進行訓(xùn)練 并建立模板庫,之后將對多段測試語音進行識別測試。 2 語音信號預(yù)處理 語音信號的預(yù)處理模塊一般包括預(yù)濾波、采樣和量化、分幀、加窗、預(yù)加重、端點檢測等。 語音信號采集 在 Matlab 環(huán)境中語音信號的采集可使用 wavrecord(n,fs,ch,dtype)函數(shù)錄制,也可使用 Windows 的 錄音機 程序錄制成 .wav 文件然后使用wavread(file)函數(shù)讀入。如圖 21 所示為數(shù)字 0的訓(xùn)練語音 的信號波形圖,第 (I)幅圖為完整的語音波形,第 (II)、 (III)幅圖分別為語音的起始部分和結(jié)束部分的放大波形圖。但研究發(fā)現(xiàn),語音信號在短時間內(nèi)頻譜特性保持平穩(wěn),即具有短時平穩(wěn)特性。分幀小能清楚地描繪語音信號的時變特征但計算量大;分幀大能減少計算量但相鄰幀間變化不大,容易丟失信號特征。 在 Matlab 環(huán)境中的分幀最常用的方法是使用函數(shù) enframe(x,len,inc),其中 x為語音信號, len 為幀長, inc 為幀移。 預(yù)加重 對于語音信號的頻譜,通常是頻率越高幅值越小,在語音信號的頻率增加兩倍時,其功率譜的幅度下降 6dB。其目的是濾除低頻干擾,特別是 50Hz 到 60Hz 的工頻干擾,將對語音識別更為有用的高頻部分進行頻譜提升。預(yù)加重濾波器在 Matlab 中可由語句 x=filter([],1,x)實現(xiàn)。用的最多的三種為矩形窗、漢明窗 (Hamming)和漢寧窗 (Hanning)。 窗口的選擇非常重要,不同的窗口將使能量的平均結(jié)果不同。因此,在語音的時域處理方法中,一般選擇矩形窗,而在語音的頻域處理方法中,一般選擇漢明窗或漢寧窗 [56]。本系統(tǒng)中的端點檢測采用時域方法故加矩形窗,計算 MFCC 系數(shù)時加漢明窗。語音端點檢測是指用計算機數(shù)字處理技術(shù)從包含語音的一段信號中找出字、詞的起始點及結(jié)束點,從而只存儲和處
點擊復(fù)制文檔內(nèi)容
試題試卷相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1