【正文】
在未來(lái)的日子里,我會(huì)更加努力的學(xué)習(xí)和工作,不辜負(fù)父母對(duì)我的殷殷期望!我一定會(huì)好好孝敬和報(bào)答他們!在論文即將完成之際,我的心情無(wú)法平靜,從開始進(jìn)入課題到論文的順利完成,有多少可敬的師長(zhǎng)、同學(xué)、朋友給了我無(wú)言的幫助,在這里請(qǐng)接受我誠(chéng)摯的謝意!。只是今后大家就難得再相聚在一起,各奔前程,請(qǐng)大家珍重。從遙遠(yuǎn)的家鄉(xiāng)來(lái)到這個(gè)陌生的城市里,四年了,仿佛就在昨天。在此,我還要感謝在一起愉快的度過(guò)大學(xué)四年的同學(xué)。鄭老師不僅在學(xué)業(yè)上給我以精心指導(dǎo),同時(shí)還在思想、生活上給我以無(wú)微不至的關(guān)懷,在此謹(jǐn)向鄭老師致以誠(chéng)摯的謝意和崇高的敬意。鄭老師多次詢問(wèn)研究進(jìn)程,并為我指點(diǎn)迷津,幫助我開拓研究思路,精心點(diǎn)撥、熱忱鼓勵(lì)。在這里首先要感謝鄭心武老師。u 學(xué)習(xí)者發(fā)音的準(zhǔn)確度通常以數(shù)字7來(lái)度量(越高越好)u 那些發(fā)音失真的詞語(yǔ)會(huì)被識(shí)別出來(lái)并被明顯地標(biāo)注致 謝大學(xué)四年所收獲的不僅僅是愈加豐厚的知識(shí),更重要的是在閱讀、實(shí)踐中所培養(yǎng)的思維方式、表達(dá)能力和廣闊視野。特別是內(nèi)里,(2002年)評(píng)論例如Talk to Me和Tell Me More等作品中的波形圖,因?yàn)樗麄兤诖∪A的買家,而不會(huì)提供有意義的反饋給用戶。這些程序的大多數(shù)都不會(huì)提供任何反饋給超出簡(jiǎn)單說(shuō)明的發(fā)音準(zhǔn)確率,這個(gè)基于最接近模式匹配說(shuō)明是由用戶提出書面對(duì)話選擇的。KewleyPort,1999).這些程序包括Talk to Me (Auralog,1995),the Tell Me More Series (Auralog,2000),TriplePlay Plus (Mackey amp。雖然語(yǔ)音識(shí)別已被普遍用于商業(yè)聽寫和獲取特殊需要等目的,近年來(lái),語(yǔ)言學(xué)習(xí)的市場(chǎng)占有率急劇增加(Aist,1999;Eskenazi,1999;Hinks,2003)。也就是說(shuō),一臺(tái)基于隱馬爾可夫模型的語(yǔ)音識(shí)別器可以計(jì)算輸入一個(gè)發(fā)音的音素可以和一個(gè)基于概率論相應(yīng)的模型達(dá)到的達(dá)到的接近度。 Martin (2000) and Hosom,Cole,and Fanty (2003)。詳細(xì)說(shuō)明隱馬爾可夫模型如何工作超出了本文的范圍,但可以在任何關(guān)于語(yǔ)言處理的文章中找到。在自動(dòng)語(yǔ)音識(shí)別產(chǎn)品中的幾種語(yǔ)音識(shí)別方式中,隱馬爾可夫模型(HMM)被認(rèn)為是最主要的算法,并且被證明在處理大詞匯語(yǔ)音時(shí)是最高效的(Ehsani amp。更多的能超越以上兩個(gè)的昂貴的系統(tǒng)有Subarashii (Bernstein,et al.,1999),EduSpeak (Franco,etal.,2001),Phonepass (Hinks,2001),ISLE Project (Menzel,et al.,2001) and RAD (CSLU,2003)。s Naturally Speaking或者IBM公司,闡述了取決于口音,背景噪音,說(shuō)話方式的基線識(shí)別的準(zhǔn)確性僅僅為60%至80%(Ehsani amp。然而,大多數(shù)的自動(dòng)語(yǔ)音識(shí)別工程師都承認(rèn)這樣一個(gè)現(xiàn)狀,即對(duì)于一個(gè)大的語(yǔ)音詞匯單位,當(dāng)前的準(zhǔn)確度水平仍然低于90%。4.自動(dòng)語(yǔ)音識(shí)別的結(jié)構(gòu)和特征自動(dòng)語(yǔ)音識(shí)別是一項(xiàng)尖端技術(shù),它允許一臺(tái)計(jì)算機(jī),甚至是一臺(tái)手持掌上電腦(邁爾斯,2000)來(lái)識(shí)別那些需要朗讀或者任何錄音設(shè)備發(fā)音的詞匯。由于人工神經(jīng)網(wǎng)絡(luò)的輸入碼的數(shù)量是固定的,因此,現(xiàn)在是進(jìn)行正規(guī)化的特征參數(shù)輸入到前神經(jīng)網(wǎng)絡(luò)[9],在我們的實(shí)驗(yàn)中,LPCC和每個(gè)樣本的分形維數(shù)需要分別地通過(guò)時(shí)間規(guī)整化的網(wǎng)絡(luò),LPCC是一個(gè)4幀數(shù)據(jù)(LPCC1,LPCC2,LPCC3,LPCC4,每個(gè)參數(shù)都是14維的),分形維數(shù)被模范化為12維數(shù)據(jù),(FD1,FD2,…FD12,每一個(gè)參數(shù)都是一維),以便于每個(gè)樣本的特征向量有4*14+12*1=68D維,該命令就是前56個(gè)維數(shù)是LPCC,剩下的12個(gè)維數(shù)是分形維數(shù)。3.3 改進(jìn)的特征提取方法考慮到LPCC語(yǔ)音信號(hào)和分形維數(shù)在表達(dá)上各自的優(yōu)點(diǎn),我們把它們二者混合到信號(hào)的特取中,即分形維數(shù)表表征語(yǔ)音時(shí)間波形圖的自相似性,周期性,隨機(jī)性,同時(shí),LPCC特性在高語(yǔ)音質(zhì)量和高識(shí)別速度上做得很好。然而,在語(yǔ)音信號(hào)中,這些非線形信息不容易被當(dāng)前的特征提取邏輯方法所提取,所以我們使用分型維數(shù)來(lái)測(cè)量非線形語(yǔ)音擾動(dòng)。這兩種方法都是基于一種假設(shè)的線形程序,該假設(shè)認(rèn)為說(shuō)話者所擁有的語(yǔ)音特性是由于聲道共振造成的。3.理論與方法從語(yǔ)音信號(hào)中進(jìn)行獨(dú)立揚(yáng)聲器的特征提取是語(yǔ)音識(shí)別系統(tǒng)中的一個(gè)基本問(wèn)題。經(jīng)過(guò)參數(shù)估計(jì)以后,這個(gè)已訓(xùn)練模式就可以應(yīng)用到識(shí)別任務(wù)當(dāng)中。通過(guò)這些特征提取,語(yǔ)音信號(hào)被轉(zhuǎn)化為特征向量并把它作為一種意見,在訓(xùn)練程序中,這些意見將反饋到HMM的模型參數(shù)估計(jì)中。語(yǔ)音識(shí)別包括訓(xùn)練和識(shí)別,我們可以把它看做一種模式化的識(shí)別任務(wù)。一般地,由于用戶不需要操作訓(xùn)練,獨(dú)立發(fā)聲式系統(tǒng)得到了更廣泛的應(yīng)用。非獨(dú)立發(fā)聲式是指發(fā)音模式是由單個(gè)人來(lái)進(jìn)行訓(xùn)練,其對(duì)訓(xùn)練人命令的識(shí)別速度很快,但它對(duì)與其他人的指令識(shí)別速度很慢,或者不能識(shí)別。因此,本文的研究是在神經(jīng)網(wǎng)絡(luò)和混沌與分形理論的基礎(chǔ)上介紹了語(yǔ)音識(shí)別的過(guò)程。隨著語(yǔ)音識(shí)別的深度研究,研究者發(fā)現(xiàn),語(yǔ)音信號(hào)是一個(gè)復(fù)雜的非線性過(guò)程,如果語(yǔ)音識(shí)別研究想要獲得突破,那么就必須引進(jìn)非線性系統(tǒng)理論方法。 pronunciation accuracy is scored on a scale of seven (the higher the better).u Words whose pronunciation fails to be recognized are highlighted.改進(jìn)型智能機(jī)器人的語(yǔ)音識(shí)別方法語(yǔ)音識(shí)別概述最近,由于其重大的理論意義和實(shí)用價(jià)值,語(yǔ)音識(shí)別已經(jīng)受到越來(lái)越多的關(guān)注。 KewleyPort,1999).These programs include Talk to Me (Auralog,1995),the Tell Me More Series (Auralog,2000),TriplePlay Plus (Mackey amp。 Knodt,1998).Detailed descriptions of how the HHM model works go beyond the scope of this paper and can be found in any text concerned with language processing; among the best are Jurafsky amp。s ViaVoice,for example,show a baseline recognition accuracy of only 60% to 80%,depending upon accent,background noise,type of utterance,etc.(Ehsani amp。參考文獻(xiàn)[1][M].北京:北京航空航天大學(xué)出版社,2003[2]李玉賢.基于SPCE061A單片機(jī)的語(yǔ)音識(shí)別系統(tǒng)的研究[M],2004[3]李麟.家用機(jī)器人語(yǔ)音識(shí)別及人機(jī)交互系統(tǒng)的研究[M],2007 [4][M],2007[5]王雪松,田西蘭,[N].儀器儀學(xué)報(bào),2006,6[6][Z].北京:北京航空航天大學(xué)出版社,2005[7][Z].北京:北京航空航天大學(xué)出版社,2005[8][Z].北京:北京航空航天大學(xué)出版社,2005[9]趙定遠(yuǎn),[M].北京:中國(guó)水利出版社,2006[10]李曉靜,羅永革,[J].湖北汽車工業(yè)學(xué)院學(xué)報(bào),2007[11]王慧,王超陳,[M].世界科技研究與發(fā)展,2009[12][J].電子世界,1997[13][J].電子世界,2004[14]黃淞,蔣雪峰,[J].應(yīng)用科技,2002[15]Zili Zhou Chris of ConfigurationDependent Flexible Joints for a Parallel Robot. Advances in Mechanical Engineering,2009 [16]羅志增,[J]杭州電子T業(yè)學(xué)院學(xué)報(bào),2004[17]ZbanciocM, neural networks and LPCC to improve speech recognition singals[J].Proceedings of the International symposium on ciucuits and Systems,2003[18]SU JAY Phadke,RH ISH I KESH Limaye,SIDDHARTH Verma, On Design and Implementation of an Embedded Autom atic Speech Recognition System[C]//Proceedings of the 17th International Conference on VLSI Design,Washington,DC,USA:IEEE Computer Society,2004: 127132.[19]BANBROOK M,MCLAUGHLINS ,MANN I Speech Characterization and Synthesis by Nonlinear Methods[J].IEEE Speech and Audio Proc,1999,7(1): 117.附表A 程序流程圖開始初始化IOB口語(yǔ)音訓(xùn)練與存儲(chǔ)置相關(guān)標(biāo)志位語(yǔ)音識(shí)別初始化擦除指定的FLASH判斷是否為第一次下載 是否為觸發(fā)狀態(tài)是否為觸發(fā)名稱判斷是第幾組命令設(shè)置觸發(fā)判斷是第幾條命令判斷是第幾條命令判斷是第幾條命令播放應(yīng)答導(dǎo)出第二組命令導(dǎo)出第三組命令跳舞再來(lái)一曲播放應(yīng)答向前走向后走左轉(zhuǎn)右轉(zhuǎn)播放應(yīng)答向左瞄準(zhǔn)向右瞄準(zhǔn)發(fā)射連續(xù)發(fā)射訓(xùn)練是否超時(shí)Key3鍵是否按下消除觸發(fā)標(biāo)志擦除FLASH標(biāo)志NYNYYNNNYY第一組命令第二組命令第三組命令附錄B Improved speech recognition methodfor intelligent robot2.Overview of speech recognitionSpeech recognition has received more and more attention recently due to the important theoretical meaning and practical value [5].Up to now,most speech recognition is based on conventional linear system theory,such as Hidden Markov Model (HMM) and Dynamic Time Warping(DTW)With the deep study of speech recognition,it is found that speech signal is a plex nonlinear process.If the study of speech recognition wants to break through,nonlinearsystem theory method must be introduced to it.Recently,with the developmentof nonlineasystem theories such as artificial neural networks(ANN),chaos and fractal,it is possibl