freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

外文翻譯機器人語音識別算法的研究畢業(yè)論文(已修改)

2025-07-02 04:28 本頁面
 

【正文】 畢業(yè)設(shè)計(論文)外文資料翻譯學(xué) 院: 自動化工程學(xué)院 專 業(yè):□自動化□測控技術(shù)與儀器(用外文寫)外文出處: 附 件: ;。 附件1:外文資料翻譯譯文改進型智能機器人的語音識別方法語音識別概述最近,由于其重大的理論意義和實用價值,語音識別已經(jīng)受到越來越多的關(guān)注。到現(xiàn)在為止,多數(shù)的語音識別是基于傳統(tǒng)的線性系統(tǒng)理論,例如隱馬爾可夫模型和動態(tài)時間規(guī)整技術(shù)。隨著語音識別的深度研究,研究者發(fā)現(xiàn),語音信號是一個復(fù)雜的非線性過程,如果語音識別研究想要獲得突破,那么就必須引進非線性系統(tǒng)理論方法。最近,隨著非線性系統(tǒng)理論的發(fā)展,如人工神經(jīng)網(wǎng)絡(luò),混沌與分形,可能應(yīng)用這些理論到語音識別中。因此,本文的研究是在神經(jīng)網(wǎng)絡(luò)和混沌與分形理論的基礎(chǔ)上介紹了語音識別的過程。 語音識別可以劃分為獨立發(fā)聲式和非獨立發(fā)聲式兩種。非獨立發(fā)聲式是指發(fā)音模式是由單個人來進行訓(xùn)練,其對訓(xùn)練人命令的識別速度很快,但它對與其他人的指令識別速度很慢,或者不能識別。獨立發(fā)聲式是指其發(fā)音模式是由不同年齡,不同性別,不同地域的人來進行訓(xùn)練,它能識別一個群體的指令。一般地,由于用戶不需要操作訓(xùn)練,獨立發(fā)聲式系統(tǒng)得到了更廣泛的應(yīng)用。 所以,在獨立發(fā)聲式系統(tǒng)中,從語音信號中提取語音特征是語音識別系統(tǒng)的一個基本問題。語音識別包括訓(xùn)練和識別,我們可以把它看做一種模式化的識別任務(wù)。通常地,語音信號可以看作為一段通過隱馬爾可夫模型來表征的時間序列。通過這些特征提取,語音信號被轉(zhuǎn)化為特征向量并把它作為一種意見,在訓(xùn)練程序中,這些意見將反饋到HMM的模型參數(shù)估計中。這些參數(shù)包括意見和他們響應(yīng)狀態(tài)所對應(yīng)的概率密度函數(shù),狀態(tài)間的轉(zhuǎn)移概率,等等。經(jīng)過參數(shù)估計以后,這個已訓(xùn)練模式就可以應(yīng)用到識別任務(wù)當中。輸入信號將會被確認為造成詞,其精確度是可以評估的。整個過程如圖一所示。 圖1 語音識別系統(tǒng)的模塊圖理論與方法從語音信號中進行獨立揚聲器的特征提取是語音識別系統(tǒng)中的一個基本問題。解決這個問題的最流行方法是應(yīng)用線性預(yù)測倒譜系數(shù)和Mel頻率倒譜系數(shù)。這兩種方法都是基于一種假設(shè)的線形程序,該假設(shè)認為說話者所擁有的語音特性是由于聲道共振造成的。這些信號特征構(gòu)成了語音信號最基本的光譜結(jié)構(gòu)。然而,在語音信號中,這些非線形信息不容易被當前的特征提取邏輯方法所提取,所以我們使用分型維數(shù)來測量非線形語音擾動。本文利用傳統(tǒng)的LPCC和非線性多尺度分形維數(shù)特征提取研究并實現(xiàn)語音識別系統(tǒng)。 線性預(yù)測系數(shù)是一個我們在做語音的線形預(yù)分析時得到的參數(shù),它是關(guān)于毗鄰語音樣本間特征聯(lián)系的參數(shù)。線形預(yù)分析正式基于以下幾個概念建立起來的,即一個語音樣本可以通過一些以前的樣本的線形組合來快速地估計,根據(jù)真實語音樣本在確切的分析框架(短時間內(nèi)的)和預(yù)測樣本之間的差別的最小平方原則,最后會確認出唯一的一組預(yù)測系數(shù)。LPC可以用來估計語音信號的倒譜。在語音信號的短時倒譜分析中,這是一種特殊的處理方法。信道模型的系統(tǒng)函數(shù)可以通過如下的線形預(yù)分析來得到:其中p代表線形預(yù)測命令,(k=1,2,… …,p)代表預(yù)測參數(shù),脈沖響應(yīng)用h(n)來表示,假設(shè)h(n)的倒譜是。那么(1)式可以擴展為(2)式:將(1)帶入(2),兩邊同時 ,(2)變成(3)。就獲得了方程(4):那么 可以通過來獲得。(5)中計算的倒譜系數(shù)叫做LPCC,n代表LPCC命令。在我們采集LPCC參數(shù)以前,我們應(yīng)該對語音信號進行預(yù)加重,幀處理,加工和終端窗口檢測等,所以,中文命令字“前進”的端點檢測如圖2所示,接下來,斷點檢測后的中文命令字“前進”語音波形和LPCC的參數(shù)波形如圖3所示。圖2 中文命令字“前進”的端點檢測圖3 斷點檢測后的中文命令字“前進”語音波形和LPCC的參數(shù)波形 語音分形維數(shù)計算分形維數(shù)是一個與分形的規(guī)模與數(shù)量相關(guān)的定值,也是對自我的結(jié)構(gòu)相似性的測量。分形分維測量是[67]。從測量的角度來看,分形維數(shù)從整數(shù)擴展到了分數(shù),打破了一般集拓撲學(xué)方面被整數(shù)分形維數(shù)的限制,分數(shù)大多是在歐幾里得幾何尺寸的延伸。有許多關(guān)于分形維數(shù)的定義,例如相似維度,豪斯多夫維度,信息維度,相關(guān)維度,容積維度,計盒維度等等,其中,豪斯多夫維度是最古老同時也是最重要的,它的定義如【3】所示:其中,表示需要多少個單位來覆蓋子集F. 端點檢測后,中文命令詞“向前”的語音波形和分形維數(shù)波形如圖4所示。圖4 端點檢測后,中文命令詞“向前”的語音波形和分形維數(shù)波形 改進的特征提取方法考慮到LPCC語音信號和分形維數(shù)在表達上各自的優(yōu)點,我們把它們二者混合到信號的特取中,即分形維數(shù)表表征語音時間波形圖的自相似性,周期性,隨機性,同時,LPCC特性在高語音質(zhì)量和高識別速度上做得很好。由于人工神經(jīng)網(wǎng)絡(luò)的非線性,自適應(yīng)性,強大的自學(xué)能力這些明顯的優(yōu)點,它的優(yōu)良分類和輸入輸出響應(yīng)能力都使它非常適合解決語音識別問題。由于人工神經(jīng)網(wǎng)絡(luò)的輸入碼的數(shù)量是固定的,因此,現(xiàn)在是進行正規(guī)化的特征參數(shù)輸入到前神經(jīng)網(wǎng)絡(luò)[9],在我們的實驗中,LPCC和每個樣本的分形維數(shù)需要分別地通過時間規(guī)整化的網(wǎng)絡(luò),LPCC是一個4幀數(shù)據(jù)(LPCC1,LPCC2,LPCC3,LPCC4,每個參數(shù)都是14維的),分形維數(shù)被模范化為12維數(shù)據(jù),(FD1,FD2,…FD12,每一個參數(shù)都是一維),以便于每個樣本的特征向量有4*14+12*1=68D維,該命令就是前56個維數(shù)是LPCC,剩下的12個維數(shù)是分形維數(shù)。因而,這樣的一個特征向量可以表征語音信號的線形和非線性特征。自動語音識別的結(jié)構(gòu)和特征自動語音識別是一項尖端技術(shù),它允許一臺計算機,甚至是一臺手持掌上電腦(邁爾斯,2000)來識別那些需要朗讀或者任何錄音設(shè)備發(fā)音的詞匯。自動語音識別技術(shù)的最終目的是讓那些不論詞匯量,背景噪音,說話者變音的人直白地說出的單詞能夠達到100%的準確率(CSLU,2002)。然而,大多數(shù)的自動語音識別工程師都承認這樣一個現(xiàn)狀,即對于一個大的語音詞匯單位,當前的準確度水平仍然低于90%。舉一個例子,Dragon39。s Naturally Speaking或者IBM公司,闡述了取決于口音,背景噪音,說話方式的基線識別的準確性僅僅為60%至80%(Ehsani amp。 Knodt, 1998)。更多的能超越以上兩個的昂貴的系統(tǒng)有Subarashii (Bernstein, et al., 1999), EduSpeak (Franco, etal., 2001), Phonepass (Hinks, 2001), ISLE Project (Menzel, et al., 2001) and RAD (CSLU, 2003)。語音識別的準確性將有望
點擊復(fù)制文檔內(nèi)容
研究報告相關(guān)推薦
文庫吧 www.dybbs8.com
公安備案圖鄂ICP備17016276號-1