【正文】
國(guó)家863智能計(jì)算機(jī)專家組為語(yǔ)音識(shí)別技術(shù)研究專門理想,每?jī)赡隄L動(dòng)一次。我國(guó)PC機(jī)語(yǔ)音識(shí)別技術(shù)的研究水平已經(jīng)基本上與國(guó)外同步,在漢語(yǔ)語(yǔ)音識(shí)別技術(shù)上還有自己的特點(diǎn)和優(yōu)勢(shì),但是獨(dú)立開發(fā)的專用漢語(yǔ)語(yǔ)音識(shí)別芯片還是較少,多數(shù)都是與國(guó)外研究機(jī)構(gòu)合作開發(fā)研制的??梢哉f(shuō),語(yǔ)音識(shí)別的研究已經(jīng)得到了全世界范圍的重視,是引領(lǐng)未來(lái)科學(xué)發(fā)展方向的關(guān)鍵技術(shù)之一。因此,研究機(jī)器人的語(yǔ)音識(shí)別,開發(fā)實(shí)用的機(jī)器人語(yǔ)音識(shí)別系統(tǒng),對(duì)于服務(wù)機(jī)器人的普及與應(yīng)用意義重大。 整體方案的規(guī)劃本課題是基于SPCE061A的智能機(jī)器人語(yǔ)音識(shí)別的實(shí)現(xiàn),最終目的是形成一個(gè)較好的人機(jī)交流環(huán)境,使機(jī)器人能夠聽懂經(jīng)過(guò)訓(xùn)練的人的口頭命令,并能夠按照命令進(jìn)行相應(yīng)的動(dòng)作。由多帶通濾波器及現(xiàn)行匹配電路構(gòu)成的專用IC。專用IC是以8位或16位單片機(jī)為計(jì)算核心,外加A/D轉(zhuǎn)換,D/A轉(zhuǎn)換及存儲(chǔ)器。由DSP組成的語(yǔ)音識(shí)別系統(tǒng),一般由定點(diǎn)16位DSP,外加A/D轉(zhuǎn)換,D/A轉(zhuǎn)換,以及ROM、RAM、FALSH等存儲(chǔ)器組成。由人工神經(jīng)網(wǎng)絡(luò)構(gòu)成的語(yǔ)音識(shí)別專用芯片。SOC是將MCU或DSP、A/D、D/A、RAM、ROM以及預(yù)放、功放等電路集成在一個(gè)芯片上,只要加上極少的電源供電等外圍電路,就可以實(shí)現(xiàn)語(yǔ)音識(shí)別、語(yǔ)音合成及語(yǔ)音回放等功能。SPCE061A是一種集成度很高的單片機(jī),它將MCU、A/D、D/A、RAM、ROM集成在一塊芯片上,同時(shí)具有16*16位的乘法運(yùn)算和內(nèi)積運(yùn)算功能,CPU最高時(shí)鐘頻率可達(dá)到49MHz。本課題的主要實(shí)現(xiàn)過(guò)程是:外部語(yǔ)音命令通過(guò)轉(zhuǎn)換裝置輸入到系統(tǒng)內(nèi)部,經(jīng)過(guò)語(yǔ)音識(shí)別程序的處理轉(zhuǎn)化為機(jī)器人可識(shí)別的觸發(fā)命令然后觸發(fā)相應(yīng)子程序進(jìn)行相關(guān)動(dòng)作。動(dòng)作的實(shí)現(xiàn)方法是:凌陽(yáng)61板向控制不同端口送高低電平以控制置于機(jī)器人內(nèi)部不同位置的電機(jī)的運(yùn)轉(zhuǎn),調(diào)用延時(shí),根據(jù)需要使各個(gè)部分電機(jī)相互配合,完成要求的動(dòng)作,從而實(shí)現(xiàn)機(jī)器人的語(yǔ)音控制。本設(shè)計(jì)綜合考慮SPCE061A單片機(jī)的特性以及機(jī)器人行動(dòng)模式來(lái)進(jìn)行設(shè)計(jì)。整個(gè)設(shè)計(jì)分為主控模塊、語(yǔ)音模塊、電機(jī)模塊等,各個(gè)模塊分別完成,然后進(jìn)行結(jié)合,實(shí)現(xiàn)機(jī)器人的語(yǔ)音識(shí)別。具體過(guò)程是:首先進(jìn)行機(jī)器人的語(yǔ)音訓(xùn)練,我們這次設(shè)計(jì)采用的是特定人語(yǔ)音識(shí)別,每一個(gè)命令發(fā)布者都必須在發(fā)布命令之前對(duì)機(jī)器人進(jìn)行命令的語(yǔ)音訓(xùn)練。這樣做有一個(gè)好處,非特定人不能命令機(jī)器人進(jìn)行動(dòng)作。整個(gè)硬件設(shè)計(jì)部分以保持機(jī)器人外部靈活性為前提,在機(jī)器人各個(gè)部分內(nèi)置電機(jī),利用三極管的通斷特性來(lái)設(shè)計(jì)電路,完成硬件電路的設(shè)計(jì)和組裝。具體電路如下:左右腿、脖子電機(jī)驅(qū)動(dòng)模塊(摘抄)加速及發(fā)射電機(jī)輸入/輸出接口嵌入式語(yǔ)音的識(shí)別技術(shù) 模式匹配原理的引入嵌入式語(yǔ)音識(shí)別系統(tǒng)都采用了模式匹配的原理,語(yǔ)音識(shí)別一般分為兩個(gè)步驟。第一步是系統(tǒng)“學(xué)習(xí)”或“訓(xùn)練”階段。這一階段的任務(wù)是建立識(shí)別基本單元的聲學(xué)模型以及進(jìn)行文法分析的語(yǔ)言模型,即構(gòu)建參考模式庫(kù)。第二是“識(shí)別”或“測(cè)試”階段。根據(jù)識(shí)別系統(tǒng)的類型選擇能夠滿足要求的一種識(shí)別方法,采用語(yǔ)音分析方法分析出這種識(shí)別方法所需求的語(yǔ)音特征參數(shù),按照一定的準(zhǔn)則和測(cè)度與參考模式的模型進(jìn)行比較,通過(guò)判決得出結(jié)果。 特征提取經(jīng)過(guò)預(yù)處理后的語(yǔ)音信號(hào),要對(duì)其進(jìn)行特征提取,即特征參數(shù)分析。該過(guò)程就是從原始語(yǔ)音信號(hào)中抽取能夠反映語(yǔ)音本質(zhì)的特征參數(shù),形成特征矢量序列。目前語(yǔ)音識(shí)別所用的特征參數(shù)主要有兩種類型:線性預(yù)測(cè)倒譜系數(shù)(LPCC)和美爾頻標(biāo)倒譜系數(shù)(MFCC)。LPCC系數(shù)主要模擬人的發(fā)聲模型,為考慮人耳的聽覺特性。它對(duì)元音有較好的描述能力,而對(duì)輔音描述能力差。其優(yōu)點(diǎn)是計(jì)算量小,比較徹底地去掉了語(yǔ)音產(chǎn)生過(guò)程中的激勵(lì)信息,易于實(shí)現(xiàn)。MFCC系數(shù)考慮到了人聽覺特性,并具有很高的抗噪聲能力,但因?yàn)樘崛FCC參數(shù)要在頻域處理,計(jì)算傅立葉變換將耗費(fèi)大量寶貴的計(jì)算資源。因此,嵌入式語(yǔ)音識(shí)別系統(tǒng)中一般都選用LPCC系數(shù)。語(yǔ)音特征提取是分幀提取的,每幀特征參數(shù)一般構(gòu)成一個(gè)矢量,因此,語(yǔ)音特征是一個(gè)矢量序列。該序列的數(shù)據(jù)率一般可能過(guò)高,不便于其后的進(jìn)一步處理,為此,有必要采用很有效的數(shù)據(jù)壓縮技術(shù)方法對(duì)數(shù)據(jù)進(jìn)行壓縮。矢量量化就是一種很好的數(shù)據(jù)壓縮技術(shù)。參考模式庫(kù)參考模式庫(kù)是將一個(gè)或多個(gè)說(shuō)話者的多次重復(fù)的語(yǔ)音參數(shù)經(jīng)過(guò)訓(xùn)練得到的。它是聲學(xué)參數(shù)模板。建立參考模式庫(kù)是在系統(tǒng)使用前獲得并存儲(chǔ)起來(lái)的。參考模式庫(kù)的建立過(guò)程稱為訓(xùn)練過(guò)程。模式匹配模式匹配是將輸入的待識(shí)別的語(yǔ)音特征參數(shù)同訓(xùn)練得到的參考語(yǔ)音模式進(jìn)行逐一比較分析,獲得最優(yōu)匹配的參考模式便是識(shí)別結(jié)果。目前常用的語(yǔ)音識(shí)別算法主要有:動(dòng)態(tài)時(shí)間規(guī)整(DTW)、隱馬爾可夫(HMM)理論、矢量量化(VQ)技術(shù)。 語(yǔ)音信號(hào)識(shí)別技術(shù)語(yǔ)音識(shí)別的過(guò)程就是將用麥克風(fēng)或電話捕捉到的聲波信號(hào)轉(zhuǎn)化成一組詞語(yǔ)的過(guò)程。被準(zhǔn)確識(shí)別的詞語(yǔ)The recognized words can be the final results, as for applications such as mands amp。 control , data entry , and document preparation .可以得出最后的結(jié)果,進(jìn)入響應(yīng),如指揮與控制系統(tǒng),數(shù)據(jù)輸入和文件的準(zhǔn)備工作。They can also serve as the input to further linguistic processing in order to achieve speech understanding, a subject covered in section也可以作為輸入,為進(jìn)一步的語(yǔ)言加工服務(wù),以達(dá)到講話被理解的目的。矢量量化的基本原理將若干個(gè)標(biāo)量數(shù)據(jù)組成一個(gè)矢量(或者是從一幀語(yǔ)音數(shù)據(jù)中提取的特征矢量)在多維空間給與整體量化,從而可以在信息量損失較小的情況下壓縮數(shù)