freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于matlab的語音識(shí)別系統(tǒng)的設(shè)計(jì)本科畢業(yè)設(shè)計(jì)(參考版)

2025-08-23 15:19本頁面
  

【正文】 分類網(wǎng)絡(luò)可以用 n個(gè)輸出節(jié)點(diǎn)表示 n個(gè)類,將輸入映射成 n類中的一種。在分類網(wǎng)絡(luò)中,輸入還是相繼的幾幀語音矢量。預(yù)測(cè)網(wǎng)絡(luò)的輸入是相繼的幾幀語音特征矢量,輸出下一幀語音的預(yù)測(cè)值,通過給每一個(gè)音子分配一個(gè)預(yù)測(cè)網(wǎng)絡(luò),就可以比較每個(gè)音素預(yù)測(cè)網(wǎng)絡(luò)的預(yù)測(cè)誤差,選取其中具有最小預(yù)測(cè)誤差的網(wǎng)絡(luò)與當(dāng)前語音段匹配,體現(xiàn)了相鄰語音幀之間的時(shí)域相關(guān)性。在混合 HMM/ANN 中用神經(jīng)網(wǎng)絡(luò)來進(jìn)行聲學(xué)建模,而時(shí)域建模依賴于傳統(tǒng)的 HMM。混合模型利用了 HMM在這方面的特長(zhǎng)。 (4)ANN的訓(xùn)練著眼于描述類間的邊界,而不是描述每一類內(nèi)的分布.所以是一種區(qū)分性訓(xùn)練。 (2)可以把人的聽覺模型融合于 ANN 中,在 ANN 的輸入端可以同時(shí)加載相鄰數(shù)幀的語音特征矢量,因而和語音信號(hào)的實(shí)際情況更加符合。與傳統(tǒng)的 HMM相比,混合 HMM/ANN 模型還為融合多種語音特征矢量,考慮不同層次上的多種約束提供了一個(gè)非常方便的接口?;旌夏P涂朔俗畲笏迫粶?zhǔn)則(MLE)區(qū)分能力差的缺陷。在這些不同的結(jié)合形式中,實(shí)驗(yàn)結(jié)果表明,幀層面上的結(jié)合比較符合 HMM和 ANN兩種方法的特點(diǎn)。這樣就可以讓網(wǎng)絡(luò)更好地利用存在音段中的所有語音幀之間的相 關(guān)性,而且還可以更容易地利用其它信息,比如時(shí)長(zhǎng)。用神經(jīng)網(wǎng)絡(luò)來估計(jì)觀測(cè)概率,設(shè)計(jì)和訓(xùn)練神經(jīng)網(wǎng)絡(luò)的方法有很多,最簡(jiǎn)單的方式就是將一幀語音矢量直接映射成觀察概率,網(wǎng)絡(luò)的訓(xùn)練也是一幀接一幀地進(jìn)行,這種方法就成為幀層面上的網(wǎng)絡(luò)訓(xùn)練。因此考慮將人工神經(jīng)網(wǎng)絡(luò)與已經(jīng)發(fā)展的方法結(jié)合構(gòu)成一種混合系統(tǒng),在這種系統(tǒng)中,神經(jīng)網(wǎng)絡(luò)或者作為其前端進(jìn)行預(yù)處理,或者作為后端進(jìn)行后處理。由于該模 型解除了對(duì)語音信號(hào)狀態(tài)的齊次性和對(duì)語音特征的非相關(guān)性的限制,因此,為語音識(shí)別研究的深入發(fā)展提供了一個(gè)和諧的框架。在此模型中用狀態(tài)的段長(zhǎng)分布函數(shù)替代了齊次 HMM中的狀態(tài)轉(zhuǎn)移矩陣,徹底拋棄了“平穩(wěn)的假設(shè)”,而從非平穩(wěn)的角度考慮問題,使模型成為一種基于狀態(tài)段長(zhǎng)分布的隱含 Markov模型。且模型所需要的存儲(chǔ)量和匹配計(jì)算 (包括特征矢量的輸出概率計(jì)算 )的運(yùn)算量相對(duì)較大,通常需要具有一定容量 SRAN的 DSP才能完成。 隨著語音識(shí)別研究工作的深入開展, HMM 語音識(shí)別方法愈來愈收到人們的重視,基于HMM 技術(shù)的識(shí)別系統(tǒng)的缺點(diǎn)就在于統(tǒng)計(jì)模型的建立需要依賴一個(gè)較大的語音庫。 河南理工大學(xué)畢業(yè)設(shè)計(jì)(論文)說明書 21 圖 基于 HMM 的語音識(shí)別框圖 目前,基本上所有實(shí)驗(yàn)系統(tǒng)和實(shí)用化的產(chǎn)品都是使用 HMM 方法,比如 IBM 公司的ViaVoice系統(tǒng)、卡內(nèi)基梅隆大學(xué) SPHINX系統(tǒng)和 Dragon System的 Naturally Speaking系統(tǒng)等。因此, HMM 語音識(shí)別模型與算法是迄今為止最為完美的一個(gè)語音識(shí)別模型,從中也可看出好的理論體系對(duì)研究工作所起的重要的指導(dǎo)作用。這為系統(tǒng)最后給出一個(gè)穩(wěn)健的判決創(chuàng)造了條件。這種隱含馬爾可夫模型的算法是將語音看成是一連串特定狀態(tài),這種狀態(tài)是不能被直接觀測(cè)到的 (如這種狀態(tài)可以是語音的某個(gè)音素的特征 ),而是以某種隱含的關(guān)系與語音的觀測(cè)量 (或特征 )相關(guān)聯(lián)。這是因?yàn)檫@種數(shù)學(xué)模型出現(xiàn)的時(shí)間較早,人們對(duì)它的研究也比較深入,己建立起了完整的理論框架。 隱馬爾可夫方法 基于統(tǒng)計(jì)的 HMM算法可能是目前最為成功的一種語音識(shí)別模型和算法了。因此考慮將人工神經(jīng)網(wǎng)絡(luò)與已經(jīng)發(fā)展的方法結(jié)合構(gòu)成一種混和系統(tǒng),在這種系統(tǒng)中,神經(jīng)網(wǎng)絡(luò)或者作為其前端進(jìn)行預(yù)處理,或者作為后端進(jìn)行后處理。 神經(jīng)網(wǎng)絡(luò)依靠連接權(quán)能夠進(jìn)行長(zhǎng)時(shí)間記憶和知識(shí)存儲(chǔ),但對(duì)于輸入模式的瞬時(shí)響應(yīng)的短時(shí)記憶能力比較差。而在動(dòng)態(tài)分類網(wǎng)絡(luò)中,神經(jīng)網(wǎng)絡(luò)輸入一幀加窗語音矢量序列,這個(gè)窗在語音矢量序列上滑動(dòng),網(wǎng)絡(luò)就做出一系列局部決策,這些局部決策不斷地整合形成一個(gè)全局決策。 河南理工大學(xué)畢業(yè)設(shè)計(jì)(論文)說明書 20 圖 基于神經(jīng)網(wǎng)絡(luò)的語音識(shí)別方法原理圖 神經(jīng)網(wǎng)絡(luò)對(duì)語音進(jìn)行分類有兩個(gè)基本方法:靜態(tài)識(shí)別和動(dòng)態(tài)識(shí)別。但神經(jīng)網(wǎng)絡(luò)識(shí)別方法有個(gè)較大的缺點(diǎn),就是時(shí)序性很差,沒有解決時(shí)間對(duì)準(zhǔn)問題。從信息處理的角度來看:一組信息的存儲(chǔ)在神經(jīng)網(wǎng)絡(luò)內(nèi)部 是混迭在一起的,在存儲(chǔ)過程中對(duì)信息進(jìn)行了大量的加工,而絕對(duì)不是只把它們孤立地放在那里。它完全不同于傳統(tǒng)識(shí)別方法的地方在于:?jiǎn)蝹€(gè)權(quán)值與識(shí)別基元之間不存在明確的對(duì)應(yīng)關(guān)系,只存在整個(gè)權(quán)值構(gòu)成的系統(tǒng)參數(shù)與整個(gè)識(shí)別空間之間的對(duì)應(yīng)關(guān)系。這些實(shí)驗(yàn)都取得了很好的分類結(jié)果,充分顯示了神經(jīng)網(wǎng)絡(luò)強(qiáng)大的分類區(qū)分能力。 人工神經(jīng)網(wǎng)絡(luò)在語音識(shí)別中的主要應(yīng)用,如矢量量化、分類區(qū)分、降噪濾波、共振峰檢測(cè)等,其中用的最多的是神經(jīng)網(wǎng)絡(luò)的區(qū)分能力。連接權(quán)的建立是通過訓(xùn)練算法進(jìn)行的。 一個(gè)神經(jīng)網(wǎng)絡(luò)包含大量類似大腦神 經(jīng)元的處理單元,這些單元之間相互連接形成一定的拓?fù)浣Y(jié)構(gòu),并相互影響。 人工神經(jīng)網(wǎng)絡(luò)方法 人工神經(jīng)網(wǎng)絡(luò)的出發(fā)點(diǎn)是通過模擬大腦的機(jī)制 (實(shí)際上人們到目前為止還不完全清楚大腦的思維機(jī)制 ),將包括聽覺系統(tǒng)的生物神經(jīng)系統(tǒng)的信息處理機(jī)制引入機(jī)器學(xué)習(xí)的研究中,使其具有學(xué)習(xí)和理解的能力。所以從七十年代后期到現(xiàn)在,雖然仍然有人應(yīng)用人工智 能的方法進(jìn)行語音識(shí)別,但他們很少取得成果。這個(gè)系統(tǒng)應(yīng)用了“黑板模式”完成底層和頂層之間不同層次的信息交換和規(guī)則調(diào)用 ,在人工句法約束的 1000 詞表的連續(xù)語音識(shí)別任務(wù)中,所產(chǎn)生的語義誤差不大于10%,雖然從人工智能的角度看,對(duì)這個(gè)系統(tǒng)評(píng)價(jià)很高,但從語音識(shí)別的角度所做的評(píng)價(jià)與此相反,因?yàn)閺恼Z音識(shí)別的角度看,語音的多變性和不確定性是其固有的,一些研究者經(jīng)長(zhǎng)期研究后著重宣稱:人們對(duì)于語音的最大知識(shí)就是確認(rèn)對(duì)于語音的無知,正是需要在這一前提下來研制具有高識(shí)別率的系統(tǒng)。另一方面,人類的語言要受詞、句法、語 義等約束,人在識(shí)別語音的過程中充分應(yīng)用了這些約束以及對(duì)話環(huán)境的有關(guān)信息,將來自聲學(xué) —— 語音學(xué)的“區(qū)別性特征” (這稱為一個(gè)識(shí)別系統(tǒng)的“底層” )與來自構(gòu)詞、句法、語義和語用約束 (這稱為識(shí)別系統(tǒng)的“頂層” )相互結(jié)合,就可以構(gòu)成一個(gè)“由底向上 (Bottomup)”和“由頂向下 (Topdown)”交互作用的識(shí)別系統(tǒng),不同層次的知識(shí)可以用若干規(guī)則來描述。如果能將這些原理加以發(fā)現(xiàn)并且歸納為一些規(guī)則,由計(jì)算機(jī)執(zhí)行,就能接近人類同樣的水平。 但是,如果系統(tǒng)稍微復(fù)雜一些,這種算法就顯得力不從心了。 圖 基于 DTW 的語音識(shí)別流程圖 基于動(dòng)態(tài)時(shí)間歸整匹配的 DTW算法從目前來看,可能是一個(gè)最為小巧的語音識(shí)別的算法。也不容易將底層和頂層的各種知識(shí)用到識(shí)別算法中,因此在解決大詞匯表、連續(xù)語音,非特定人語音識(shí)別問題時(shí)較 HMM 相形見絀。 DTW 算法的優(yōu)點(diǎn)是既簡(jiǎn)單又有效,對(duì)于小詞匯表孤立詞識(shí)別系統(tǒng)十分適用。 DTW 是河南理工大學(xué)畢業(yè)設(shè)計(jì)(論文)說明書 18 一個(gè)典型的最優(yōu)化問題。但是這樣的計(jì)算沒有考慮到語音中各個(gè)段在不同的情況下的持續(xù)時(shí)間會(huì)產(chǎn)生或長(zhǎng)或短的變化,因此識(shí)別效果不可能最佳。若 N=M則可以直接計(jì)算,否則要考慮將 T(n)和 R(m)對(duì)齊。如設(shè) :(1)參考模 板特征矢量序列為 Maaa , 21 ? 。距離函數(shù)取決于實(shí)際采用的距離度量,在 DTW算法中通常采用歐氏距離。為了計(jì)算這一失真距離,應(yīng)從 T和 R 中各個(gè)對(duì)應(yīng)幀之間的距離算起。參 考模板與測(cè)試模板一般采用相同類型的特征矢量(如MFCC 系數(shù))、相同的幀長(zhǎng)、相同的窗函數(shù)和相同的幀移。已存入模板庫的各個(gè)詞條稱為參考模板,一個(gè)參考模板可表示為, m 為訓(xùn)練語音幀的時(shí)序標(biāo)號(hào), m=1為起點(diǎn)語音幀, m=M為終點(diǎn)語音幀,因此為該模板所包含的語音幀總數(shù),為第幀的語音特征矢量。所以在孤立詞語音識(shí)別中, DTW算法仍得到廣泛的應(yīng)用。 在孤立詞語音識(shí)別中,最為簡(jiǎn)單有效的方法就是該算法,該算法基于動(dòng)態(tài)規(guī)劃( DP)的思想,解決了發(fā)音長(zhǎng)短不一的模板匹配問題,是語音識(shí)別中出現(xiàn)較早、較為經(jīng)典的一種算法。 三、語音識(shí)別主要算法 動(dòng)態(tài)時(shí)間伸縮算法 日本學(xué)者首先將動(dòng)態(tài)規(guī)劃的概念用于解決孤立詞識(shí)別時(shí)說話速度不 均勻的難題,提出了著名的 DTW算法,當(dāng)詞匯表較小以及各個(gè)詞條不易于混淆時(shí),這個(gè)算法取得了很大成功。 MFCC系數(shù)為 ? ? ? ?? ? LnMnkkC n ,2,1,/ osl og ???? ? ?? (218) ( 4)將這種直接得到的 MFCC特征作為靜態(tài)特征,再將這種靜態(tài)特征傲一階和二階差河南理工大學(xué)畢業(yè)設(shè)計(jì)(論文)說明書 17 分。 (2)求出頻譜平方,即能量譜,并用 M 個(gè) Mel 帶通濾波器進(jìn)行濾波;由于每一個(gè)頻帶中分量的作用在入耳中是疊加的,因此將每個(gè)濾 波器頻帶內(nèi)的能量進(jìn)行疊加,這時(shí)第 k 個(gè)濾波器輸出功率譜 X(k)。將頻率按照式 (217)變換到 Mel域后, Mel帶通濾波器組的中心頻率是按照 Mel頻率刻度均勻排列的。這是因?yàn)槿祟愒趯?duì)約 1000Hz以上的聲音頻率范圍的感知不遵循線性關(guān)系,而是遵循在對(duì)數(shù)頻率坐標(biāo)上的近似線性關(guān)系。在漢語數(shù)碼語音識(shí)別中, MFCC參數(shù)的性能明顯優(yōu)于 LPCC參數(shù)。由于充分考慮了人耳的聽覺特性,而且沒有任何的前提假設(shè), MFCC參數(shù)具有良好的識(shí)別性能和抗噪聲能力,但其計(jì)算量和計(jì)算精度要求高。 然而 LPCC同時(shí)也繼承了 LPC的缺陷,其主要的一點(diǎn)就是 LPC在所有的頻率上都是線性逼近語音的,而這與人的聽覺的特性是不一致的;而且 LPC 包含了語音高頻部分的大部分噪聲細(xì)節(jié),這些都會(huì)影響系統(tǒng)的性能。通過分析激勵(lì)信號(hào)的語音特點(diǎn)以及聲道傳輸函數(shù)的零極點(diǎn)分布情況,可知 ??ne? 的分布范圍很寬, c(n)從低時(shí)域延伸到高時(shí)域,而 ??nh? 主要分布于低時(shí)域中。 LPCC參數(shù)的優(yōu)點(diǎn)是計(jì)算量小,易于實(shí)現(xiàn),對(duì)元音有較好的描述能力,其缺點(diǎn)在于對(duì)輔音的描述能力較差,抗噪聲性能較差。圖 。 圖 從帶通濾波器作用理解短時(shí)傅里葉變換 ? ?jwneX 可以看作是加窗后函數(shù)的傅立葉變換,為了實(shí)現(xiàn)反變換,將 ? ?jwneX 進(jìn)行頻率河南理工大學(xué)畢業(yè)設(shè)計(jì)(論文)說明書 15 采樣,即令 LKwk /2?? 則有 ? ? ? ? ? ?? ?????? ??? m mjwjwn kk emnwmxeX (212) 式中, L為頻率采樣點(diǎn)數(shù)。 信號(hào) x(盯 )的短時(shí)傅立葉變換為: ? ? ? ? ? ?????? ??? m jw mjwn emnwmxeX (211) 式中, w(n)為窗口函數(shù)。傅立葉頻譜分析的基礎(chǔ)是傅立葉變換,用傅立葉變換及其反變換可以求得傅立葉譜、自相關(guān)函數(shù)、功率譜、倒譜。 傅立葉頻譜分析是語音信號(hào)頻域分析中廣泛采用的一種方法。可以將濾波器組的輸出經(jīng)過自適應(yīng)增量調(diào)制器變?yōu)槎M(jìn)制脈沖信號(hào),再經(jīng)過多路開關(guān),變?yōu)橐淮M(jìn)制脈沖信號(hào)。使用窄帶帶通濾波器,其頻率分辨率提高,相當(dāng)于短時(shí)處理時(shí)窗寬較寬的那種情況。濾波器可以用寬帶帶通濾波器,也可以用窄帶帶通濾波器。 利用一組濾波器來分析語音信號(hào)的頻譜,方法使用簡(jiǎn)單、實(shí)時(shí)性好、受外界環(huán)境的影響小。 語音信號(hào)的頻域分析 語音的感知過程與人類聽覺系統(tǒng)具有頻譜分析功能是緊密相關(guān)的。與一股的單門限過零率法相河南理工大學(xué)畢業(yè)設(shè)計(jì)(論文)說明書 14 比,可明顯地減少前端誤判,但是有時(shí)存在 較大時(shí)延。雙門限前端檢測(cè)算法用于有話、無話鑒別或詞語前端檢測(cè),通常窗長(zhǎng) (即幀長(zhǎng) )取 10~ 15ms,幀間隔 (即采樣間隔 )取 5~ 10ms,有一定的抗干擾能力,即使存在小的隨機(jī)噪聲,只要它不使信號(hào)越過正負(fù)門限所構(gòu)成的帶,就不會(huì)產(chǎn)生虛假的過零率。語音端點(diǎn)檢測(cè)算法主要是根據(jù)語音的一些特征參數(shù),短時(shí)能量、過零率等完成端點(diǎn)檢測(cè)。如果語音前后噪音保留過多,則會(huì)增加不同語音的共同成分,對(duì)識(shí)別產(chǎn)生干擾;而如果語音部分被切割掉,則會(huì)造成語音信息的丟失,若丟失的恰是區(qū)分語音的重要特征,則造成誤識(shí)。與 Rn(k)相反的是,在周期的各個(gè)整數(shù)倍點(diǎn)上 Fn(k)具有谷值而不是峰值。為此,可定義短時(shí)平均幅度差函數(shù): ? ? ? ? ? ?kmxmxkF nkNm nn ??? ????1 0 (210) 顯然,如果 x(n)在窗口取值范圍內(nèi)具有周期性,則將出現(xiàn)極小值。即: ? ? ? ? ? ? ? ??,2,00 pp NNkknxnxnd ??????? (29) 對(duì)于實(shí)際的語音信號(hào), d(n)雖不為零,但其值很小。 平均幅度差函數(shù)能夠代替自相關(guān)函數(shù)進(jìn)行語音分析,是基于這樣一個(gè)事實(shí):如果信號(hào)是完全的周 期信號(hào) (設(shè)周期為 Np。利用快速傅立葉變換等簡(jiǎn)化計(jì)算方法都無法避免乘法運(yùn)算。 短時(shí)自相關(guān)函數(shù)是語音信號(hào)時(shí)域分析的重要參量。短時(shí)自相關(guān)函數(shù)具有一 些性質(zhì),如它是偶函數(shù)假設(shè)序列具有周期性,則其自相關(guān)函數(shù)也是同周期的周期函數(shù)等。如圖 “ 0”的過零率,可為端點(diǎn)檢測(cè)提供參考。在背景噪聲較小的情況下,短時(shí) 能量比較準(zhǔn)確,但當(dāng)背景噪聲較大時(shí),短時(shí)平均過零率可以獲得較好的檢測(cè)效果。為了解決低頻的干擾,我們?cè)O(shè)立一個(gè)門限 T,將過零率的含義修改為跨過正負(fù)門限的次數(shù)。在一定程度上短時(shí)過零率可以反映出頻率的信息,在濁音段一般具有較低的過零率,而在清音段具有較高的過零率,這樣就可以初步 判斷清音和濁音,但只是相對(duì)而言,沒有精確的數(shù)值關(guān)系。對(duì)于連續(xù)語音信號(hào),可以考察其時(shí)域波形通過時(shí)間軸的情況。從圖中可觀察到,短時(shí)平均幅度對(duì)能量小的信號(hào)累計(jì)效果要比短時(shí)能量好。在語音識(shí)別系統(tǒng)中,一股也作為特征中的一維參數(shù)來表示語音信號(hào)能量的大小和超音段信息。 圖 短時(shí)能量的方框圖表示 如果用 xw表示 x(n)經(jīng)過加窗處理后的信號(hào),窗函數(shù)的長(zhǎng)
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1