【正文】
象,使之像人一樣具備聽、說、寫功能,能對(duì)語(yǔ)音做出理解和反應(yīng),并在交互方式上不受時(shí)間和地點(diǎn)的限制,這是研究機(jī)器人語(yǔ)音識(shí)別的重大意義。隨著語(yǔ)音識(shí)別技術(shù)與機(jī)器人技術(shù)的進(jìn)一步結(jié)合,未來(lái)高智能的人機(jī)交流將不是夢(mèng)想。用61板來(lái)控制機(jī)器人,使用了IOB7IOB15 資源,另外使用了揚(yáng)聲器。nSP (TM)為核心的SPCE061A 微控制器是適用于數(shù)字語(yǔ)音識(shí)別應(yīng)用領(lǐng)域產(chǎn)品的一種最經(jīng)濟(jì)的選擇。這些電機(jī)包括2 個(gè)用于走路的電機(jī)與一個(gè)頭部轉(zhuǎn)向的電機(jī)。頭部加速電機(jī):一般是黑色和綠色的連線,或棕色和綠色的連線。該電機(jī)是單向電機(jī),只可以向一個(gè)方向旋轉(zhuǎn)。在進(jìn)行語(yǔ)音識(shí)別時(shí),首先讀取FLASH 將語(yǔ)音模型取得,然后調(diào)用BSR_ImportSDWord(uiCommandID);函數(shù)將語(yǔ)音資源載入內(nèi)存。機(jī)器人眼睛點(diǎn)亮,只要IOB12口送高電平就可以完成?!緟?shù)】該參數(shù)是辨識(shí)的一個(gè)標(biāo)識(shí)符,0代表選擇SRAM,并初始化。BSR_TRAIN_TWICE表示要求訓(xùn)練兩次。【返回值】當(dāng)無(wú)命令識(shí)別出來(lái)時(shí),返回0;識(shí)別器停止、未初始化或識(shí)別未激活返回-1;當(dāng)識(shí)別不合格時(shí)返回-2;當(dāng)識(shí)別出來(lái)時(shí)返回命令的序號(hào)。【返回值】無(wú)。unsigned int BSR_SDModel[];配合BSR_ExportSDWord(int CommandID)與BSR_ImportSDWord(int CommandID)函數(shù)使用,此數(shù)組的作用相當(dāng)于一個(gè)暫時(shí)的存儲(chǔ)區(qū)。由于SPCE061A的FLASH存儲(chǔ)器只有32K,所以15條指令需要分組存放。最常見的語(yǔ)音合成技術(shù)是將文本轉(zhuǎn)換為語(yǔ)音(TTS)。 Knodt,1998).Detailed descriptions of how the HHM model works go beyond the scope of this paper and can be found in any text concerned with language processing; among the best are Jurafsky amp。因此,本文的研究是在神經(jīng)網(wǎng)絡(luò)和混沌與分形理論的基礎(chǔ)上介紹了語(yǔ)音識(shí)別的過程。通過這些特征提取,語(yǔ)音信號(hào)被轉(zhuǎn)化為特征向量并把它作為一種意見,在訓(xùn)練程序中,這些意見將反饋到HMM的模型參數(shù)估計(jì)中。然而,在語(yǔ)音信號(hào)中,這些非線形信息不容易被當(dāng)前的特征提取邏輯方法所提取,所以我們使用分型維數(shù)來(lái)測(cè)量非線形語(yǔ)音擾動(dòng)。然而,大多數(shù)的自動(dòng)語(yǔ)音識(shí)別工程師都承認(rèn)這樣一個(gè)現(xiàn)狀,即對(duì)于一個(gè)大的語(yǔ)音詞匯單位,當(dāng)前的準(zhǔn)確度水平仍然低于90%。詳細(xì)說明隱馬爾可夫模型如何工作超出了本文的范圍,但可以在任何關(guān)于語(yǔ)言處理的文章中找到。KewleyPort,1999).這些程序包括Talk to Me (Auralog,1995),the Tell Me More Series (Auralog,2000),TriplePlay Plus (Mackey amp。在這里首先要感謝鄭心武老師。從遙遠(yuǎn)的家鄉(xiāng)來(lái)到這個(gè)陌生的城市里,四年了,仿佛就在昨天。只是今后大家就難得再相聚在一起,各奔前程,請(qǐng)大家珍重。鄭老師多次詢問研究進(jìn)程,并為我指點(diǎn)迷津,幫助我開拓研究思路,精心點(diǎn)撥、熱忱鼓勵(lì)。這些程序的大多數(shù)都不會(huì)提供任何反饋給超出簡(jiǎn)單說明的發(fā)音準(zhǔn)確率,這個(gè)基于最接近模式匹配說明是由用戶提出書面對(duì)話選擇的。 Martin (2000) and Hosom,Cole,and Fanty (2003)。s Naturally Speaking或者IBM公司,闡述了取決于口音,背景噪音,說話方式的基線識(shí)別的準(zhǔn)確性僅僅為60%至80%(Ehsani amp。3.3 改進(jìn)的特征提取方法考慮到LPCC語(yǔ)音信號(hào)和分形維數(shù)在表達(dá)上各自的優(yōu)點(diǎn),我們把它們二者混合到信號(hào)的特取中,即分形維數(shù)表表征語(yǔ)音時(shí)間波形圖的自相似性,周期性,隨機(jī)性,同時(shí),LPCC特性在高語(yǔ)音質(zhì)量和高識(shí)別速度上做得很好。經(jīng)過參數(shù)估計(jì)以后,這個(gè)已訓(xùn)練模式就可以應(yīng)用到識(shí)別任務(wù)當(dāng)中。非獨(dú)立發(fā)聲式是指發(fā)音模式是由單個(gè)人來(lái)進(jìn)行訓(xùn)練,其對(duì)訓(xùn)練人命令的識(shí)別速度很快,但它對(duì)與其他人的指令識(shí)別速度很慢,或者不能識(shí)別。 KewleyPort,1999).These programs include Talk to Me (Auralog,1995),the Tell Me More Series (Auralog,2000),TriplePlay Plus (Mackey amp。系統(tǒng)只用了單顆SPCE061A芯片來(lái)完成語(yǔ)音處理和控制功能,與專用的語(yǔ)音處理芯片相比,具有結(jié)構(gòu)簡(jiǎn)單、成本低、易實(shí)現(xiàn)的特點(diǎn),并且凌陽(yáng)科技公司提供了豐富的C函數(shù)庫(kù)和語(yǔ)音處理函數(shù)庫(kù),供調(diào)用,縮短了開發(fā)周期。在不同組指令中交換需要根據(jù)出發(fā)名稱,所以在識(shí)別狀態(tài),要執(zhí)行動(dòng)作首先需要出發(fā)名稱,就是訓(xùn)練的第一條命令,然后可以識(shí)別第一組的其余四條命令。打開機(jī)器人應(yīng)用實(shí)例程序,編譯、鏈接確認(rèn)沒有錯(cuò)誤。 其它語(yǔ)音識(shí)別API介紹BSR_PauseRecognizer()暫停識(shí)別,但不釋放中斷等資源BSR_ResumeRecognizer()恢復(fù)被暫停的識(shí)別BSR_GetRecognizerScore()獲得識(shí)別結(jié)果的可信度,返回值從4096到4096,數(shù)值越大表示輸入語(yǔ)音與特征模型的匹配度越高。【API格式】C:void BSR_StopRecognizer(void)【功能說明】停止辨識(shí)?!緜渥ⅰ竣僭谡{(diào)用訓(xùn)練程序之前,確保識(shí)別器正確的初始化;②訓(xùn)練次數(shù)是2時(shí),則兩次一定會(huì)有差異,所以一定要保證兩次訓(xùn)練結(jié)果接近;③為了增強(qiáng)可靠性,最好訓(xùn)練兩次,否則辨識(shí)的命令就會(huì)傾向于噪音;④調(diào)用函數(shù)后,等待1~2秒開始訓(xùn)練,也就是說。【備注】語(yǔ)音命令的特征模型是通過BSR_Train函數(shù)保存在RAM空間中的。將語(yǔ)音資源分成小段,播放一點(diǎn)語(yǔ)音,執(zhí)行一點(diǎn)動(dòng)作,然后再播放語(yǔ)音……。 位操作模塊由于SPCE061A沒有位操作指令,而在程序控制電機(jī)的時(shí)候需要經(jīng)常操作某一位,為了方便程序的編寫,增強(qiáng)可讀性,編寫了位操作模塊。下面列出標(biāo)號(hào)意義,按照從左向右的順序:EYE_N——眼睛接口,接眼睛的負(fù)極連線(白色);IOB12——眼睛接口,接眼睛的正極連線(土黃色);M_F1——發(fā)射電機(jī)接口,接藍(lán)色連線;VCC——發(fā)射電機(jī)接口,接淡藍(lán)色連線;M_J1——加速電機(jī)接口,接綠色連線;VCC——加速電機(jī)接口,接黑色或棕色連線;M_T1——旋轉(zhuǎn)電機(jī)接口,接旋轉(zhuǎn)電機(jī)的一根連線;M_T2——旋轉(zhuǎn)電機(jī)接口,接旋轉(zhuǎn)電機(jī)的另一根連線;M_R1——右腿電機(jī)接口,接右腿電機(jī)的一根連線;M_R2——右腿電機(jī)接口,接右腿電機(jī)的另一根連線;M_L1——左腿電機(jī)接口,接左腿電機(jī)的一根連線;M_L2——左腿電機(jī)接口,接左腿電機(jī)的另一根連線。喇叭連線:兩條粉色的連線。 機(jī)器人線路的辨認(rèn) 需要改裝的控制線共有14條,10根電機(jī)連線、2根眼睛連線、2根喇叭連線。nSP(TM)微處理器;(2),I/;(3);(4)內(nèi)置2k字SRAM;(5)內(nèi)置32K字Flash存儲(chǔ)器;(6)可編程音頻處理;(7)晶體振蕩器;(8)系統(tǒng)處于備用狀態(tài)下(時(shí)鐘處于停止?fàn)顟B(tài)),耗電小于2uA/;(9)2個(gè)16位可編程定時(shí)器/計(jì)數(shù)器(可自動(dòng)預(yù)置初始計(jì)數(shù)值);(10)2個(gè)10位DAC(數(shù)/模轉(zhuǎn)換)輸出通道;(11)16位通用可編程輸入/輸出端口;(12)14個(gè)中斷源可來(lái)自定時(shí)器AB,時(shí)基,2個(gè)外部時(shí)鐘源輸入,鍵喚醒;(13)具備觸鍵喚醒的功;(14)鎖相環(huán)PLL振蕩器提供系統(tǒng)時(shí)鐘信號(hào);(15)32768Hz實(shí)時(shí)時(shí)鐘;(16)7通道10位電壓模數(shù)轉(zhuǎn)換(ADC)和單通道聲音模數(shù)轉(zhuǎn)換器;(17)聲音模數(shù)轉(zhuǎn)換器輸入通道內(nèi)置麥克風(fēng)放大器和自動(dòng)增益控制(AGC)功能;(18)具備串行設(shè)備接口;(19)低電壓復(fù)位(LVR)功能和低電壓監(jiān)測(cè)(LVD)功能;(20)內(nèi)置在線仿真電路接口ICE (lnCircuit Emulator);(21)具有保密能力;(22)具有WatchDog功能;(23)可編程音頻處理,使用凌陽(yáng)音頻編碼SACM_S240方式(),能容納210s的語(yǔ)音數(shù)據(jù)。61 板作為整個(gè)系統(tǒng)的主控板,驅(qū)動(dòng)電路驅(qū)動(dòng)電機(jī)在主控板61 板的控制下完成各個(gè)動(dòng)作。除發(fā)射電機(jī)和推進(jìn)電機(jī)外,其它三個(gè)電機(jī)均是正反兩用電機(jī),即加在電機(jī)驅(qū)動(dòng)端的兩路輸入為高低電平時(shí)電機(jī)轉(zhuǎn)動(dòng),改變輸入高低電平的順序,電機(jī)反向轉(zhuǎn)動(dòng),這樣可以控制機(jī)器人的前進(jìn),后退,左右搖頭等雙向動(dòng)作。在這種趨勢(shì)的引領(lǐng)下,各國(guó)紛紛加大語(yǔ)音機(jī)器人的研發(fā)力度,并出現(xiàn)了一批高智能的語(yǔ)音機(jī)器人。從實(shí)現(xiàn)手段看,當(dāng)前以電子技術(shù)為基礎(chǔ)實(shí)現(xiàn)語(yǔ)音識(shí)別可以利用單片機(jī)數(shù)字信號(hào)處理或語(yǔ)音識(shí)別專用集成電路芯片來(lái)完成從設(shè)計(jì)成本功能實(shí)現(xiàn)程度等綜合來(lái)看,利用單片機(jī)來(lái)實(shí)現(xiàn)語(yǔ)音識(shí)別是一種高性價(jià)比的方法。當(dāng)今,機(jī)器人的發(fā)展越來(lái)越趨于智能化和人性化,語(yǔ)音是人和機(jī)器人之間交流的最自然、最方便的手段之一。對(duì)本論文(設(shè)計(jì))的研究做出重要貢獻(xiàn)的個(gè)人和集體,均已在文中作了明確說明并表示謝意。學(xué)??梢怨颊撐模ㄔO(shè)計(jì))的全部或部分內(nèi)容。基于以上機(jī)器人的發(fā)展方向,該設(shè)計(jì)制作了一個(gè)以凌陽(yáng)單片機(jī)為核心的智能機(jī)器人軟件系統(tǒng)。目前,語(yǔ)音識(shí)別技術(shù)己經(jīng)在諸多領(lǐng)域得到應(yīng)用。采用了先進(jìn)的非特定人語(yǔ)音識(shí)別技術(shù),對(duì)口音和噪聲不敏感。推進(jìn)電機(jī)的任務(wù)就是把發(fā)射所需要的飛盤從存儲(chǔ)倉(cāng)輸送到發(fā)射轉(zhuǎn)盤位置。它的內(nèi)核采用本公司最新推出的(Microcontroller and Signal Processor)16位微處理器芯片(簡(jiǎn)稱“0nSPT39。nSP的DSP運(yùn)算功能配合使用,就可方便地實(shí)現(xiàn)語(yǔ)音識(shí)別功能,從而使其能更好地用于聲控和語(yǔ)音識(shí)別領(lǐng)域。腿部電機(jī):粉色(或相近顏色)和黑色一組,藍(lán)色和淺藍(lán)色(或相近顏色)一組。其中標(biāo)號(hào)的意義為:M表示Motor,電機(jī)的意思,L表示Left,左邊,M_L1合起來(lái)就是左腿電機(jī)的意思,同理M_L2是另一條左腿電機(jī)連線。程序流程圖見附表A。. 走路、跳舞等其它函數(shù)模塊這些函數(shù)就是控制電機(jī)的通與斷的組合完成不用的動(dòng)作,在需要的時(shí)候播放語(yǔ)音,實(shí)現(xiàn)一定的效果,具體請(qǐng)參考函數(shù)原形。另一種方法就是調(diào)用函數(shù)對(duì)IO口進(jìn)行位操作,這里調(diào)用的函數(shù)為Set_IOB_Bit(unsigned int,unsigned int,unsigned int,unsigned int,unsigned int);第一個(gè)參數(shù)為需要對(duì)IO口的哪個(gè)位進(jìn)行操作,然后參數(shù)依次為操作IO口的Dirretory、Attribion、Data、Buffer。 訓(xùn)練過程【API格式】C:int BSR_Train(int CommandID,int TraindMode)【功能說明】訓(xùn)練函數(shù)?!痉祷刂怠繜o(wú)?!緜渥ⅰ吭摵瘮?shù)是用于停止識(shí)別,當(dāng)調(diào)用此函數(shù)時(shí),F(xiàn)IQ_TMA中斷將關(guān)閉。BSR_DisableCPUIndicator()關(guān)閉CPU狀態(tài)監(jiān)測(cè)功能。每條指令要訓(xùn)練兩遍。語(yǔ)音模型庫(kù),從一個(gè)或多個(gè)講話者多次重復(fù)講話中提取的語(yǔ)音參數(shù)模板。s Naturally Speaking or IBM39。到現(xiàn)在為止,多數(shù)的語(yǔ)音識(shí)別是基于傳統(tǒng)的線性系統(tǒng)理論,例如隱馬爾可夫模型和動(dòng)態(tài)時(shí)間規(guī)整技術(shù)。 所以,在獨(dú)立發(fā)聲式系統(tǒng)中,從語(yǔ)音信號(hào)中提取語(yǔ)音特征是語(yǔ)音識(shí)別系統(tǒng)的一個(gè)基本問題。解決這個(gè)問題的最流行方法是應(yīng)用線性預(yù)測(cè)倒譜系數(shù)和Mel頻率倒譜系數(shù)。因而,這樣的一個(gè)特征向量可以表征語(yǔ)音信號(hào)的線形和非線性特征。語(yǔ)音識(shí)別的準(zhǔn)確性將有望改善。高性能就意味著優(yōu)良的發(fā)音,低性能就意味著劣質(zhì)的發(fā)音(Larocca,et al.,1991)。Talk to Me 2002年的版本已經(jīng)包含了更多Hinks(2003)的特性,比如,信任對(duì)于學(xué)習(xí)者來(lái)說是非常有用的:u 一個(gè)視覺信號(hào)可以讓學(xué)習(xí)者把他們的語(yǔ)調(diào)同模型揚(yáng)聲器發(fā)出的語(yǔ)調(diào)進(jìn)行對(duì)比。同時(shí)還感謝四年來(lái)幫助和教育過我的孫志雄老師、韓建文老師、雷紅老師、石煥玉老師、鄭澤龍老師、于洪老師、林雄老師、張福金老師、黃飛老師……一路走來(lái),從你們的身上我收獲無(wú)數(shù),卻無(wú)以回報(bào),謹(jǐn)此一并表達(dá)我的謝