freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于matlab的語音識別系統(tǒng)的設(shè)計(jì)本科畢業(yè)設(shè)計(jì)-wenkub

2022-09-07 15:19:34 本頁面
 

【正文】 國家 經(jīng)濟(jì)發(fā)展不可缺少的重要技術(shù)支撐。 Bell實(shí)驗(yàn)室的 L. G. Kesta目視觀察語譜圖進(jìn)行識別,提出了“聲紋 (Voiceprint)”的概念。 80年代,語音識別研究的重點(diǎn)之一是連接詞語音識別,開發(fā)了各種連接詞語音識別和關(guān)鍵詞識別算法,如多級動態(tài)規(guī)劃語音識別算法。由于中國的國際地位不斷提高,以及在經(jīng)濟(jì)和市場方面所處的重要地位,漢語語音識別也越來越受到重視。臺灣的一些大學(xué)和研究所也開發(fā)出大詞匯量非特定人連續(xù)語音識別演示系統(tǒng)。每兩年滾動一次,從 1991年開始,專家組每一至二年舉行一次全國性的語音識別系統(tǒng)測試。諸如此類的新問題使連續(xù)語音識別率的提高比非連續(xù)語音更加困難。研究的方向也越來越側(cè)重于口語對話系統(tǒng)。 語音識別按說話人的講話方式可分為孤立詞 (Isolated Word)識別、連接詞 (Connected Word)識別和連續(xù)語音 (Continuous Speech)識別。顯然,連續(xù)非特定人語音識別的難度要大得多,因?yàn)椴粌H有說話人口音的問題,還有協(xié)同發(fā)音、斷字?jǐn)嗑?、搜索等問題,除了考慮語音的聲學(xué)模型外還要涉及到語言模型,如構(gòu)詞法、文法等。 非特定人大詞表連續(xù)語音識別是近幾年研究的重點(diǎn),也是研究的難點(diǎn)。對特征參數(shù)的要求是: 1,提取的特征參數(shù)能有效地代表語音特征,具有很好的區(qū)分性。在識別階段,語音喜好經(jīng)過相同的通道得到語音參數(shù),生成測試模版,與參考模版進(jìn)行匹配,將匹配分?jǐn)?shù)最高的參考模版作為識別結(jié)果。目前,技術(shù)及應(yīng)用的焦點(diǎn)主要集中在三個方面。也就是說是有別于普通話 的不同的語言,應(yīng)該用不同的聲學(xué)模型來描述。此外,該公司的系統(tǒng)優(yōu)化工具為所有系統(tǒng)提供一個實(shí)用、有效的優(yōu)化方法。人多的公共場所巨大的噪音對語音識別的影響自不用說,早期即使在實(shí)驗(yàn)室環(huán)境下,敲擊鍵盤、挪動麥克風(fēng)都會成為背景噪音。這將會使識別系統(tǒng)具有很強(qiáng)的適應(yīng)性。它既涉及到自然語言理解,又與聲學(xué)有關(guān)。Nuance的最新版識別軟件所提供的“隨意說 (Say anything)”技術(shù),使用戶可以以自然的河南理工大學(xué)畢業(yè)設(shè)計(jì)(論文)說明書 4 語言說出自己的需求。從某種意義上說,語音識別是將計(jì)算機(jī)變成真正的“智能化”設(shè)備的最佳途徑。目前這種采用聲覺、視覺兩種信息融合進(jìn)行識別的研究在全球范圍內(nèi)己經(jīng)展開,成為語音識別研究的重要發(fā)展方向和研究熱點(diǎn)之一。摩爾定律所預(yù)言的硬件產(chǎn)品奇跡般的更新速度使計(jì)算機(jī)處理復(fù)雜運(yùn)算的能力突飛猛進(jìn),也使體積龐大的語音庫有機(jī)會棲身于普通用戶的硬盤或其他存儲介質(zhì)上;技術(shù)方面,新的語音統(tǒng)計(jì)算法日趨成熟:市場需求方面,簡化 PDA、移動電話和其他信息家電原本繁瑣的操作步驟的最佳途徑便是通過語音技術(shù)。 (3)統(tǒng)計(jì)學(xué)和模式識別理論;基于各種統(tǒng)計(jì)方法對模式進(jìn)行匹配,以及建立有關(guān)的統(tǒng)計(jì)模型,對語音特征參數(shù)進(jìn)行估值和分類。 (8)微電子技術(shù):超大規(guī)模集成電路 (VLSI)技術(shù)的發(fā)展對語音識別的具體應(yīng)用有很大的影響, VLSI使語音識別系統(tǒng)商品化成為可能。清音通過將口腔內(nèi)有的空氣釋放出來而發(fā)聲,發(fā)聲時喉部封閉,由于該氣流通過一個狹窄通道時在口腔中形成流,因此具有明顯的隨機(jī)噪聲的特點(diǎn)。所有元音都是濁音。 漢語是一種聲調(diào)語言,相同聲母和韻母構(gòu)成的音節(jié)隨聲調(diào)的不同而具有完全不同的意義,對應(yīng)著不同的漢字。聲調(diào)曲線從一個韻母的起始端開始,到韻母的終止端結(jié)束。圖 給出了單獨(dú)說一個音節(jié)時的四種聲調(diào)的典型曲線 ( HzF/0 )。做一個合理的假設(shè),當(dāng)在較短的時間間隔內(nèi)表示語音信號時,則可以采用線性 時不變模型。根據(jù)采樣定理,當(dāng)采樣頻率大于信號的 2 倍帶寬時,在采樣過程中不會丟失信息,且從采樣信號中可以精確地重構(gòu)原始信號波形。 采樣之后要對信號進(jìn)行量化,在量化過程中不可避免的會產(chǎn)生誤差。此時上式變?yōu)?SNR=。研究表明 :要使語音波形的動態(tài)變化信噪比達(dá)到 55dB的信噪比, B應(yīng)取 10位以上。預(yù)加重在防混疊濾波與 A/D 轉(zhuǎn)換之前進(jìn)行。它一般是一階的,即:11)( ??? uzzH ,式中 u值接近于 1,本文中去為 。 圖 語音信號“ 0”的預(yù)加重處理效果 A/D轉(zhuǎn)換之前還需要加一個防混疊濾波器。對于這種低通濾波器的特性和 A/D 轉(zhuǎn)換頻率,也要求與采樣時具有相同的關(guān)系。一般來說,語音信號處理的幀長一般取 20ms(當(dāng) Fs=8kHz 時,相應(yīng)每幀由 160個信號樣值 )。一般每秒的幀數(shù)為33~ 100,視實(shí)際情況而定。這種時間以來處理的基本手段,一般是用 一個長度有限的窗序列 w(n)截取一段語音信號來進(jìn)行分析,并讓這個窗滑動,以便分析任意時刻附近的信號。通常認(rèn)為在一個語音幀內(nèi),應(yīng)含 有 1~ 7 個基音周期。 對于信號 x(n),短時能量定義為: ? ? ? ?? ? ? ? ? ?? ? ? ? ? ?nhnxmnwmxmnwmxE n Nnmmn *1 222 ?? ??????? ????? (23) 式中, h(n)=w2(n), N為窗長, En表示在信號的第 n個點(diǎn)開始加窗函數(shù)時的短時能量。在語音識別系統(tǒng)中,一股也作為特征中的一維參數(shù)來表示語音信號能量的大小和超音段信息。對于連續(xù)語音信號,可以考察其時域波形通過時間軸的情況。為了解決低頻的干擾,我們設(shè)立一個門限 T,將過零率的含義修改為跨過正負(fù)門限的次數(shù)。如圖 “ 0”的過零率,可為端點(diǎn)檢測提供參考。 短時自相關(guān)函數(shù)是語音信號時域分析的重要參量。 平均幅度差函數(shù)能夠代替自相關(guān)函數(shù)進(jìn)行語音分析,是基于這樣一個事實(shí):如果信號是完全的周 期信號 (設(shè)周期為 Np。為此,可定義短時平均幅度差函數(shù): ? ? ? ? ? ?kmxmxkF nkNm nn ??? ????1 0 (210) 顯然,如果 x(n)在窗口取值范圍內(nèi)具有周期性,則將出現(xiàn)極小值。如果語音前后噪音保留過多,則會增加不同語音的共同成分,對識別產(chǎn)生干擾;而如果語音部分被切割掉,則會造成語音信息的丟失,若丟失的恰是區(qū)分語音的重要特征,則造成誤識。雙門限前端檢測算法用于有話、無話鑒別或詞語前端檢測,通常窗長 (即幀長 )取 10~ 15ms,幀間隔 (即采樣間隔 )取 5~ 10ms,有一定的抗干擾能力,即使存在小的隨機(jī)噪聲,只要它不使信號越過正負(fù)門限所構(gòu)成的帶,就不會產(chǎn)生虛假的過零率。 語音信號的頻域分析 語音的感知過程與人類聽覺系統(tǒng)具有頻譜分析功能是緊密相關(guān)的。濾波器可以用寬帶帶通濾波器,也可以用窄帶帶通濾波器。可以將濾波器組的輸出經(jīng)過自適應(yīng)增量調(diào)制器變?yōu)槎M(jìn)制脈沖信號,再經(jīng)過多路開關(guān),變?yōu)橐淮M(jìn)制脈沖信號。傅立葉頻譜分析的基礎(chǔ)是傅立葉變換,用傅立葉變換及其反變換可以求得傅立葉譜、自相關(guān)函數(shù)、功率譜、倒譜。 圖 從帶通濾波器作用理解短時傅里葉變換 ? ?jwneX 可以看作是加窗后函數(shù)的傅立葉變換,為了實(shí)現(xiàn)反變換,將 ? ?jwneX 進(jìn)行頻率河南理工大學(xué)畢業(yè)設(shè)計(jì)(論文)說明書 15 采樣,即令 LKwk /2?? 則有 ? ? ? ? ? ?? ?????? ??? m mjwjwn kk emnwmxeX (212) 式中, L為頻率采樣點(diǎn)數(shù)。 LPCC參數(shù)的優(yōu)點(diǎn)是計(jì)算量小,易于實(shí)現(xiàn),對元音有較好的描述能力,其缺點(diǎn)在于對輔音的描述能力較差,抗噪聲性能較差。 然而 LPCC同時也繼承了 LPC的缺陷,其主要的一點(diǎn)就是 LPC在所有的頻率上都是線性逼近語音的,而這與人的聽覺的特性是不一致的;而且 LPC 包含了語音高頻部分的大部分噪聲細(xì)節(jié),這些都會影響系統(tǒng)的性能。在漢語數(shù)碼語音識別中, MFCC參數(shù)的性能明顯優(yōu)于 LPCC參數(shù)。將頻率按照式 (217)變換到 Mel域后, Mel帶通濾波器組的中心頻率是按照 Mel頻率刻度均勻排列的。 MFCC系數(shù)為 ? ? ? ?? ? LnMnkkC n ,2,1,/ osl og ???? ? ?? (218) ( 4)將這種直接得到的 MFCC特征作為靜態(tài)特征,再將這種靜態(tài)特征傲一階和二階差河南理工大學(xué)畢業(yè)設(shè)計(jì)(論文)說明書 17 分。 在孤立詞語音識別中,最為簡單有效的方法就是該算法,該算法基于動態(tài)規(guī)劃( DP)的思想,解決了發(fā)音長短不一的模板匹配問題,是語音識別中出現(xiàn)較早、較為經(jīng)典的一種算法。已存入模板庫的各個詞條稱為參考模板,一個參考模板可表示為, m 為訓(xùn)練語音幀的時序標(biāo)號, m=1為起點(diǎn)語音幀, m=M為終點(diǎn)語音幀,因此為該模板所包含的語音幀總數(shù),為第幀的語音特征矢量。為了計(jì)算這一失真距離,應(yīng)從 T和 R 中各個對應(yīng)幀之間的距離算起。如設(shè) :(1)參考模 板特征矢量序列為 Maaa , 21 ? 。但是這樣的計(jì)算沒有考慮到語音中各個段在不同的情況下的持續(xù)時間會產(chǎn)生或長或短的變化,因此識別效果不可能最佳。 DTW 算法的優(yōu)點(diǎn)是既簡單又有效,對于小詞匯表孤立詞識別系統(tǒng)十分適用。 圖 基于 DTW 的語音識別流程圖 基于動態(tài)時間歸整匹配的 DTW算法從目前來看,可能是一個最為小巧的語音識別的算法。如果能將這些原理加以發(fā)現(xiàn)并且歸納為一些規(guī)則,由計(jì)算機(jī)執(zhí)行,就能接近人類同樣的水平。這個系統(tǒng)應(yīng)用了“黑板模式”完成底層和頂層之間不同層次的信息交換和規(guī)則調(diào)用 ,在人工句法約束的 1000 詞表的連續(xù)語音識別任務(wù)中,所產(chǎn)生的語義誤差不大于10%,雖然從人工智能的角度看,對這個系統(tǒng)評價(jià)很高,但從語音識別的角度所做的評價(jià)與此相反,因?yàn)閺恼Z音識別的角度看,語音的多變性和不確定性是其固有的,一些研究者經(jīng)長期研究后著重宣稱:人們對于語音的最大知識就是確認(rèn)對于語音的無知,正是需要在這一前提下來研制具有高識別率的系統(tǒng)。 人工神經(jīng)網(wǎng)絡(luò)方法 人工神經(jīng)網(wǎng)絡(luò)的出發(fā)點(diǎn)是通過模擬大腦的機(jī)制 (實(shí)際上人們到目前為止還不完全清楚大腦的思維機(jī)制 ),將包括聽覺系統(tǒng)的生物神經(jīng)系統(tǒng)的信息處理機(jī)制引入機(jī)器學(xué)習(xí)的研究中,使其具有學(xué)習(xí)和理解的能力。連接權(quán)的建立是通過訓(xùn)練算法進(jìn)行的。這些實(shí)驗(yàn)都取得了很好的分類結(jié)果,充分顯示了神經(jīng)網(wǎng)絡(luò)強(qiáng)大的分類區(qū)分能力。從信息處理的角度來看:一組信息的存儲在神經(jīng)網(wǎng)絡(luò)內(nèi)部 是混迭在一起的,在存儲過程中對信息進(jìn)行了大量的加工,而絕對不是只把它們孤立地放在那里。 河南理工大學(xué)畢業(yè)設(shè)計(jì)(論文)說明書 20 圖 基于神經(jīng)網(wǎng)絡(luò)的語音識別方法原理圖 神經(jīng)網(wǎng)絡(luò)對語音進(jìn)行分類有兩個基本方法:靜態(tài)識別和動態(tài)識別。 神經(jīng)網(wǎng)絡(luò)依靠連接權(quán)能夠進(jìn)行長時間記憶和知識存儲,但對于輸入模式的瞬時響應(yīng)的短時記憶能力比較差。 隱馬爾可夫方法 基于統(tǒng)計(jì)的 HMM算法可能是目前最為成功的一種語音識別模型和算法了。這種隱含馬爾可夫模型的算法是將語音看成是一連串特定狀態(tài),這種狀態(tài)是不能被直接觀測到的 (如這種狀態(tài)可以是語音的某個音素的特征 ),而是以某種隱含的關(guān)系與語音的觀測量 (或特征 )相關(guān)聯(lián)。因此, HMM 語音識別模型與算法是迄今為止最為完美的一個語音識別模型,從中也可看出好的理論體系對研究工作所起的重要的指導(dǎo)作用。 隨著語音識別研究工作的深入開展, HMM 語音識別方法愈來愈收到人們的重視,基于HMM 技術(shù)的識別系統(tǒng)的缺點(diǎn)就在于統(tǒng)計(jì)模型的建立需要依賴一個較大的語音庫。在此模型中用狀態(tài)的段長分布函數(shù)替代了齊次 HMM中的狀態(tài)轉(zhuǎn)移矩陣,徹底拋棄了“平穩(wěn)的假設(shè)”,而從非平穩(wěn)的角度考慮問題,使模型成為一種基于狀態(tài)段長分布的隱含 Markov模型。因此考慮將人工神經(jīng)網(wǎng)絡(luò)與已經(jīng)發(fā)展的方法結(jié)合構(gòu)成一種混合系統(tǒng),在這種系統(tǒng)中,神經(jīng)網(wǎng)絡(luò)或者作為其前端進(jìn)行預(yù)處理,或者作為后端進(jìn)行后處理。這樣就可以讓網(wǎng)絡(luò)更好地利用存在音段中的所有語音幀之間的相 關(guān)性,而且還可以更容易地利用其它信息,比如時長?;旌夏P涂朔俗畲笏迫粶?zhǔn)則(MLE)區(qū)分能力差的缺陷。 (2)可以把人的聽覺模型融合于 ANN 中,在 ANN 的輸入端可以同時加載相鄰數(shù)幀的語音特征矢量,因而和語音信號的實(shí)際情況更加符合?;旌夏P屠昧?HMM在這方面的特長。預(yù)測網(wǎng)絡(luò)的輸入是相繼的幾幀語音特征矢量,輸出下一幀語音的預(yù)測值,通過給每一個音子分配一個預(yù)測網(wǎng)絡(luò),就可以比較每個音素預(yù)測網(wǎng)絡(luò)的預(yù)測誤差,選取其中具有最小預(yù)測誤差的網(wǎng)絡(luò)與當(dāng)前語音段匹配,體現(xiàn)了相鄰語音幀之間的時域相關(guān)性。分類網(wǎng)絡(luò)可以用 n個輸出節(jié)點(diǎn)表示 n個類,將輸入映射成 n類中的一種。在分類網(wǎng)絡(luò)中,輸入還是相繼的幾幀語音矢量。在混合 HMM/ANN 中用神經(jīng)網(wǎng)絡(luò)來進(jìn)行聲學(xué)建模,而時域建模依賴于傳統(tǒng)的 HMM。 (4)ANN的訓(xùn)練著眼于描述類間的邊界,而不是描述每一類內(nèi)的分布.所以是一種區(qū)分性訓(xùn)練。與傳統(tǒng)的 HMM相比,混合 HMM/ANN 模型還為融合多種語音特征矢量,考慮不同層次上的多種約束提供了一個非常方便的接口。在這些不同的結(jié)合形式中,實(shí)驗(yàn)結(jié)果表明,幀層面上的結(jié)合比較符合 HMM和 ANN兩種方法的特點(diǎn)。用神經(jīng)網(wǎng)絡(luò)來估計(jì)觀測概率,設(shè)計(jì)和訓(xùn)練神經(jīng)網(wǎng)絡(luò)的方法有很多,最簡單的方式就是將一幀語音矢量直接映射成觀察概率,網(wǎng)絡(luò)的訓(xùn)練也是一幀接一幀地進(jìn)行,這種方法就成為幀層面上的網(wǎng)絡(luò)訓(xùn)練。由于該模 型解除了對語音信號狀態(tài)的齊次性和對語音特征的非相關(guān)性的限制,因此,為語音識別研究的深入發(fā)展提供了一個和諧的框架。且模型所需要的存儲量和匹配計(jì)算 (包括特征矢量的輸出概率計(jì)算 )的運(yùn)算量相對較大,通常需要具有一定容量 SRAN的 DSP才能完成。 河南理工大學(xué)畢業(yè)設(shè)計(jì)(論文)說明書 21 圖 基于 HMM 的語音識別框圖 目前,基本上所有實(shí)驗(yàn)系統(tǒng)和實(shí)用化的產(chǎn)品都是使用 HMM 方法,比如 IBM 公司的ViaVoice系統(tǒng)、卡內(nèi)基梅隆大學(xué) SPHINX系統(tǒng)和 Dragon System的 Naturally Speaking
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1