freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

外文翻譯--基于仿生模式識別的非特定人連續(xù)語音識別系統(tǒng)-資料下載頁

2025-05-12 07:25本頁面

【導(dǎo)讀】附錄。英文原文:。,,July2020. timewarping(DTW).。I.Introduction. 第2頁。1.Biomimetic

  

【正文】 的 PC環(huán)境下,利用同 高精度雙權(quán)值突觸神經(jīng)元計算機 CASSANNII 構(gòu)建而成的。這個系統(tǒng)支持標準 16 位聲卡。 ( BPR)和多權(quán) 神經(jīng)元網(wǎng)絡(luò) ( MWNN) 的簡要介紹 (1). 仿生模式識別( BPR) 傳統(tǒng)的模式識別,旨在在特征空間里對不 同種類的樣本進行最優(yōu)的分類。然而仿生模式識別( BPR)是想要找到每一類具有相同類型的樣本的精確覆蓋。它的基礎(chǔ)是“類內(nèi)連續(xù)性準則”,也就是說,任意兩個屬于相同類的樣本,它們的特征差異必定是漸變的。這樣,在這兩個樣本之間,必定存在無數(shù)個特征漸變的樣本點。在仿生模式識別( BPR)理論中,每個類型的樣本的樣本子空間的構(gòu)建,僅僅依賴于類型本身。具體來講,就是一個特定類型的樣本的樣本子空間的構(gòu)建,需要分析被訓(xùn)練樣本的類型同在多維空間里對具有復(fù)雜的幾何形狀的物體的覆蓋而使用的方法之間的關(guān)系。 (2). 多權(quán)神經(jīng)元網(wǎng)絡(luò)( MWNN) 多權(quán)神經(jīng)元可以用下面的式子來描述: 第 7 頁 1 2 mY =f [ ( , , , ) ]W W W X ???… ,,這里 1 2 m,W W W… , 是一個 m 維權(quán)重向量; X 是輸入向量; ? 是神經(jīng)元計算函數(shù); ? 是閾值; f 是動作函數(shù)。 根據(jù)維度理論,在特征空間 nR , nXR? 里面,函數(shù) 1 2 m( , , , )W W W X? … , = ? 在由權(quán)重 1 2 m,W W W… , 決定的 n 維空間里,建立了一個 (n1) 維超曲面。它將 n 維空間分成了兩個部分。如果 1 2 m( , , , )W W W X? … , = ? 是一個封閉的超曲面的話,它就建立了一個有限的子空間。 根據(jù) 仿生模式識 別( BPR)的原則,一類特定類型的樣本的子空間的建立,是基于它自身的類型的。如果我們能夠找出一個能夠覆蓋所有訓(xùn)練樣本的多權(quán)神經(jīng)元(多權(quán)神經(jīng)元網(wǎng)絡(luò))的集合的話,神經(jīng)網(wǎng)絡(luò)的子空間就代表了樣本的子空間。當(dāng)一個未知的樣本出現(xiàn)在子空間里面時,我們就可以判斷它是否與訓(xùn)練樣本具有相同的類型。更進一步,當(dāng)我們加入一個新類型的樣本時,我們不需要重新訓(xùn)練任何一個已經(jīng)被訓(xùn)練過了的樣本類型。一個特定的樣本類型與其他的樣本類型的訓(xùn)練是毫無關(guān)系的。 語言識別系統(tǒng)可以分為兩個模塊。第一個是信號預(yù)處理和語音特征提取模塊,另外 一個就是執(zhí)行 仿生模式識別( BPR)任務(wù)的 多權(quán)神經(jīng)元網(wǎng)絡(luò)。 (1).語音特征提取 Mel 倒譜系數(shù)( MFCC)被用于作為語音特征。它的計算過程如下: A/D 轉(zhuǎn)換;利用短時能量和過零率進行端點檢測;預(yù)加重和 Hamming 窗口化;快速傅里葉變換; DCT 變換。為每幀數(shù)據(jù)提取 16 個特征位,為每個說話者選擇 32 幀數(shù)據(jù)。 1 個512 維 Mel 倒譜特征向量( 16 32? 數(shù)值)代表 1 個漢字的發(fā)音。 (2).多權(quán)神經(jīng)元網(wǎng)絡(luò)結(jié)構(gòu) 作為模式識別中的一種新的通用理論模型,這里的 仿生模式識別( BPR)通過多權(quán)神經(jīng)元網(wǎng)絡(luò)來實現(xiàn)。 在對一類特定的樣本的訓(xùn)練中,我們必須建立一個多權(quán)神經(jīng)元子網(wǎng)絡(luò)。這個多權(quán)神經(jīng)元子網(wǎng)絡(luò)包括 1個輸入層, 1 個多權(quán)神經(jīng)元隱藏層和 1個輸出層。這樣的一個子網(wǎng)絡(luò)可以用下面的映射來描述: 512:F R R? 。 1 2 m( ) m in( , , Y )F X Y Y? … ,這里 Yi 是多權(quán)神經(jīng)元的輸出,有 m 個隱藏的多權(quán)神經(jīng)元,其中: i= 1,2, …,m , 512XR? 是輸入向量 。 (1).有關(guān)多權(quán)神經(jīng)元網(wǎng)絡(luò)訓(xùn)練的基礎(chǔ)知識 訓(xùn)練一個多權(quán)神經(jīng)元子網(wǎng)絡(luò)需要計算每層多權(quán)神經(jīng)元的權(quán)重。多權(quán)神經(jīng)元和使用的訓(xùn)練算法詳見參考 [4].在這個算法中,如果每類訓(xùn)練樣本的數(shù)目是 N 的話,我們可以使用 2N? 個神經(jīng)元。在本文中, N=30, 12[( , , , )]i i i iY f s s s x??? 是一個標量輸出,它是一個關(guān)于多向量輸入的函數(shù)。 (2).優(yōu)化方法 依據(jù)上面 (1)中所述,如 果有很多訓(xùn)練樣本,神經(jīng)元數(shù)目將會很多以至于降低了識別速度。在學(xué)習(xí)幾類樣本的情況下,關(guān)于訓(xùn)練樣本的各個類之間的關(guān)系的知識是可以獲得的。在一個受監(jiān)督的訓(xùn)練算法中,我們使用這個信息來減小網(wǎng)絡(luò)的規(guī)模。 第 8 頁 當(dāng)訓(xùn)練 A類樣本時,我們觀察 B類樣本中留下的 14類樣本。這樣在集合1 2 3 0: { , , }A A a a a? … ,中就有 30個樣本,在集合 1 2 420: { , , }B B b b? … , b中就有 420個訓(xùn)練樣本。首先從 A中選取 3個樣本,我得到一個神經(jīng)元 1 1 2 3Y =f [( , , , )]k k ka a a x。 令0 1 _ 1 2 3, = f [ ( , , , ) ]A i k k k iA A Y a a a a? ,其中 i= 1,2,… , 30; 1 _ 1 2 3Y = f [ ( , , , ) ]B j k k k ja a a b,其中 j= 1,2,…420 ; 1_min(Y )BjV ? ,我們分配一個數(shù)值 r , 0r1 。如果 1_ *AiY r V? ,在集合 A中將 ia 剔除出去,這樣我們得到一個新的集 合 (1)A 。繼續(xù)直到在集合 ()kA 中的樣本的數(shù)目是() {}kA ?? ,然后訓(xùn)練過程結(jié)束, A類子網(wǎng)絡(luò)就有一個包含( 1r? )個神經(jīng)元的隱藏層。 我們專為此項研究建立了 1 個包括 15 個中國菜名的語言數(shù)據(jù)庫。每個菜名的長度是 4 個漢字,即每個語音樣本是一個連續(xù)的 4 個漢字的字符串,比如“魚香肉絲”,“宮保雞丁”等等。我們將其劃分為兩個 集合:訓(xùn)練集合測試集合。語言信號采樣率為 16KHz,分辨率為 16 位。 表 1 r 取不同值時的實驗結(jié)果 r 準確度 (%) 神經(jīng)元數(shù)目 最優(yōu)的 一個選項的 識別率 最優(yōu)的 前兩個選項的 識別率 訓(xùn)練集合 測試集合 訓(xùn)練集合 測試集合 基本算法 448 132 126 115 110 96 93 84 65 52 44 450 個聲音構(gòu)成了訓(xùn)練集合,用于訓(xùn)練多權(quán)神經(jīng)元網(wǎng)絡(luò)。這 450 個聲音屬于 10 個來自中國不同省份的說話者( 5 名男性和 5 名女性)。每個說話者將每個漢字重復(fù) 3 次。測試集合總共有 539 個聲音,其中包括 4 名可以任意說 15 個漢字的說話者的聲音。 我們利用這些測試來評價, r 從 到 ,級差為 的識別系統(tǒng)。不同 r 值下的實驗結(jié)果劍表 1。顯然,這個網(wǎng)絡(luò)可以在任意的 r 值下,對訓(xùn)練集合獲得全部的識別。從實驗結(jié)果可以看出,在 r = 的情況下,獲得的識別率幾乎與基本算法相同。但是,在網(wǎng)絡(luò)中所用的多權(quán)神經(jīng)元數(shù)目卻比基本算法少得多。 第 9 頁 表 2 BPR基本算法實驗結(jié)果 識別方法 最優(yōu)的 一個選項的 識別率 (測試集合) 最優(yōu)的 前兩個選項的 識別率 (測試集合) DTW % % HMM % % BPR基本算法 % % 對語音識別當(dāng)中的連續(xù)密度隱馬爾科夫模型 (CDHMM), 動態(tài)時間規(guī)整 (DTW)和仿生模式識別 (BPR) ,我們進行了評估,重點考察每種方法在減少訓(xùn)練樣本的數(shù)量和訓(xùn)練時間這兩項指標下的性能。連續(xù)密度隱馬爾科夫模型 (CDHMM)系統(tǒng)完成每個漢字的識別需要 5 個狀態(tài)。 Viterbi算法和 BaumWelch重估計被用于訓(xùn)練和識別。 DTW系統(tǒng)的參考模板就是訓(xùn)練樣本本身。 CDHMM 和 DTW技術(shù)都是通過運用參考 [11]中的程序來實現(xiàn)的。我們在表 2中,對BPR 基本算法、 DTW、 HMMs 三種算法的實驗結(jié)果進行了比較。 HMMs 系統(tǒng)基于連續(xù)密度隱馬爾科夫模型 (CDHMMs) ,并且每個名字需要 5個狀態(tài)來實現(xiàn)。 在本文中,我們建立了一個基于仿生模式識別 (BPR)的普通話連續(xù)語音識別系統(tǒng)。另外,我們使用了一個選擇訓(xùn)練樣本的方法,來減少網(wǎng)絡(luò)的規(guī)模。 作為模式識別中的一種新的通用理論模型, 仿生模式識別( BPR)也可以用在語音識別上面,并且實驗結(jié)果顯示它的性能比HMMs、 DTW更好。
點擊復(fù)制文檔內(nèi)容
畢業(yè)設(shè)計相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1