【正文】
進(jìn)步,從中受益匪淺。從論文的選題、論證、研究到最后完成,自始至終無不凝聚著導(dǎo)師的心血。39。k2=1。endk1=j。k2=1。 j=n1 j=j+1。 y = sim(net,P_test39。 y = sim(net,P_test39。 y = sim(net,P_test39。 y = sim(net,P_test39。 y = sim(net,P_test39。 y = sim(net,P_test39。 y = sim(net,P_test39。 y = sim(net,P_test39。 y = sim(net,P_test39。 y = sim(net,P_test39。 y = sim(net,P_test39。 y = sim(net,P_test39。 y = sim(net,P_test39。 y = sim(net,P_test39。 y = sim(net,P_test39。 y = sim(net,P_test39。 y = sim(net,P_test39。 y = sim(net,P_test39。 y = sim(net,P_test39。 y = sim(net,P_test39。 y = sim(net,P_test39。 y = sim(net,P_test39。 y = sim(net,P_test39。 y = sim(net,P_test39。 y = sim(net,P_test39。 y = sim(net,P_test39。 y = sim(net,P_test39。 t27=tezhengtiqu(b27)。 t26=tezhengtiqu(b26)。 t25=tezhengtiqu(b25)。 t24=tezhengtiqu(b24)。 t23=tezhengtiqu(b23)。 t22=tezhengtiqu(b22)。 t21=tezhengtiqu(b21)。 t20=tezhengtiqu(b20)。 t19=tezhengtiqu(b19)。 t18=tezhengtiqu(b18)。 t17=tezhengtiqu(b17)。 t16=tezhengtiqu(b16)。 t15=tezhengtiqu(b15)。 t14=tezhengtiqu(b14)。 t13=tezhengtiqu(b13)。 t12=tezhengtiqu(b12)。 t11=tezhengtiqu(b11)。 t10=tezhengtiqu(b10)。 t9=tezhengtiqu(b9)。 t8=tezhengtiqu(b8)。 t7=tezhengtiqu(b7)。 t6=tezhengtiqu(b6)。 t5=tezhengtiqu(b5)。 t4=tezhengtiqu(b4)。 t3=tezhengtiqu(b3)。 t2=tezhengtiqu(b2)。 t1=tezhengtiqu(b1)。 while s(j)~=m amp。 %行分割[m,n]=size(d)。)。%均值濾波d=im2bw(B1,)。load zmn123。Research Center, Beijing Information Technology Institute Received December 3,1989. 致 謝 在這里,我首先要由衷地感謝我的論文指導(dǎo)老師陳嵐教授對(duì)我的悉心指導(dǎo)。它可以說是對(duì)我大學(xué)四年學(xué)習(xí)成果的考核和總結(jié)。 (4)系統(tǒng)提供用戶自學(xué)習(xí)功能,使用戶自由地?cái)U(kuò)大專業(yè)識(shí)別字符集;以及能夠與時(shí)俱進(jìn),適用于各種應(yīng)用環(huán)境的漢字識(shí)別系統(tǒng)。分析人類在識(shí)別文字的過程,文字一般都是結(jié)合上下文進(jìn)行理解的。另外雖然本系統(tǒng)能全部識(shí)別實(shí)驗(yàn)中所用到的漢字,但也暴露了部分漢字筆畫細(xì)節(jié)可能存在在處理過程中丟失的隱患,并不能證明其能夠識(shí)別國標(biāo)GB2312一80中所有的漢字。經(jīng)過兩組實(shí)驗(yàn)的數(shù)據(jù)顯示,本系統(tǒng)能夠?qū)?shí)驗(yàn)所用的的漢字100%的識(shí)別,說明本系統(tǒng)采用的算法有一定的實(shí)用價(jià)值。 相似字標(biāo)準(zhǔn)圖像 相似字標(biāo)準(zhǔn)轉(zhuǎn)灰度圖像 相似字標(biāo)準(zhǔn)均值濾波圖像 相似字標(biāo)準(zhǔn)二值化圖像 相似字標(biāo)準(zhǔn)圖像處理結(jié)果圖 相似字標(biāo)準(zhǔn)圖像識(shí)別結(jié)果通過Matlab程序仿真結(jié)果得知,此系統(tǒng)對(duì)相似字標(biāo)準(zhǔn)圖像中漢字的識(shí)別率是100%,依然符合我們的預(yù)期。 亂序圖像 亂序轉(zhuǎn)灰度圖像 亂序均值濾波圖像 亂序二值化圖像 亂序圖像處理結(jié)果圖 亂序圖像識(shí)別結(jié)果基于這個(gè)已建立的標(biāo)準(zhǔn)庫,我們通過Matlab程序仿真結(jié)果得知,此系統(tǒng)對(duì)亂序圖像的漢字也能100%識(shí)別,初步驗(yàn)證了本系統(tǒng)具有一定高度的識(shí)別率。 %設(shè)置學(xué)習(xí)速率 =30000。tansig39。},39。這里我們只簡單建立一個(gè)具有32個(gè)字的標(biāo)準(zhǔn)庫,我們所提取的特征點(diǎn)是13個(gè),這對(duì)于具有32個(gè)字的標(biāo)準(zhǔn)庫來說足夠了。 本系統(tǒng)采用的是十三點(diǎn)特征提取法,首先把字符平均分成8份(),統(tǒng)計(jì)每一份內(nèi)黑色像素的個(gè)數(shù)作為其中的前8個(gè)特征,然后分為13和31兩種情況,分別統(tǒng)計(jì)水平方向中間兩列和豎直方向兩列的黑像素點(diǎn)的個(gè)數(shù)作為接下來的4個(gè)特征,最后統(tǒng)計(jì)整個(gè)字符中所有黑色像素的個(gè)數(shù)作為第十三個(gè)特征,從而一共得到了關(guān)于該字符的13個(gè)特征。所有按一定的順序排列,建立每一漢字與其國標(biāo)碼指針。在印刷體漢字識(shí)別中采用有一定的難度,還需進(jìn)一步改進(jìn)和簡化。它主要是針對(duì)小樣本情況,且最優(yōu)解是基于有限的樣本信息,而不是樣本數(shù)趨于無窮大時(shí)的最優(yōu)解。自學(xué)習(xí)模型為: (37) h學(xué)習(xí)因子;輸出節(jié)點(diǎn)i的計(jì)算誤差;Oj輸出節(jié)點(diǎn)j的計(jì)算輸出;a動(dòng)量因子。當(dāng)實(shí)際輸出與期望輸出不符時(shí),進(jìn)入誤差的反向傳播階段。 BP神經(jīng)網(wǎng)絡(luò)BP(Back Propagation)神經(jīng)網(wǎng)絡(luò)是1986年由Rumelhart和McCelland為首的科學(xué)家小組提出,是一種按誤差逆?zhèn)鞑ニ惴ㄓ?xùn)練的多層前饋網(wǎng)絡(luò),是目前應(yīng)用最廣泛的神經(jīng)網(wǎng)絡(luò)模型之一。例如,對(duì)于統(tǒng)計(jì)模式識(shí)別方法,如分段線性判決函數(shù)法,F(xiàn)isher線性判決規(guī)則,多變量高斯線性分類器,主成分分析PCA(Primary Component Analysis)等,都可用神經(jīng)網(wǎng)絡(luò)的并行計(jì)算結(jié)構(gòu)或迭代計(jì)算結(jié)構(gòu)實(shí)現(xiàn):而一些重要的神經(jīng)網(wǎng)絡(luò)模型,其學(xué)習(xí)算法與統(tǒng)計(jì)方法是相通的,如在一定條件下,MLP和RBF分類器的對(duì)于訓(xùn)練樣本的輸出就是該樣本的后驗(yàn)概率的估計(jì),這等價(jià)于Bayes方法。從這個(gè)意義上來說,ANN提供了一種“字符自動(dòng)識(shí)別”的可能性。這是近年來文字識(shí)別領(lǐng)域的一個(gè)重要研究方向,并將得到廣泛應(yīng)用。漢字特征點(diǎn)的提取一般是基于漢字細(xì)化后的單像素圖像,而往往細(xì)化算法不能達(dá)到算法的要求,經(jīng)常有斷筆、非單層像素等情況,一點(diǎn)點(diǎn)變形或噪聲都會(huì)影響漢字特征點(diǎn)的提取。 (3)筆畫方向特征筆畫方向的統(tǒng)計(jì)特征總共有3種:全局筆畫方向密度GDCD,局部筆畫方向密度LDCD和周邊筆畫方向PDC。統(tǒng)計(jì)特征的特點(diǎn)是抗干擾性強(qiáng),匹配與分類的算法簡單,易于實(shí)現(xiàn)。通常抽取筆段或基本筆畫作為基元,由這些基元組合及其相互關(guān)系完全可以精確地對(duì)漢字加以描述,最后利用形式語言及自動(dòng)機(jī)理論進(jìn)行文法推斷,即識(shí)別。然后,把這些候選字以及與之相連的相似度輸入網(wǎng)絡(luò),通過網(wǎng)絡(luò)的并行作用,找到最符合漢語語法和語義組合關(guān)系的詞或句子,從而確定出要識(shí)別的漢字。 (4)句法、語義分析語句無論是從結(jié)構(gòu)上,還是從意思上都有一種人類共同理解、共同接受和共同遵守的語言組合法則。另外,當(dāng)某一個(gè)詞前后兩個(gè)字都被拒識(shí)時(shí),簡單的詞匹配法就無能為力,而綜合詞匹配法仍能利用詞條信息進(jìn)行糾錯(cuò)。 (1)簡單的詞匹配簡單的詞匹配就是利用文本中字的上下文匹配關(guān)系和詞的使用頻度,給識(shí)別后文本中的拒識(shí)字提供一個(gè)“最佳”的候選字,其關(guān)鍵是建立漢語詞條數(shù)據(jù)庫。其主要缺點(diǎn)是運(yùn)算量較大,識(shí)別中往往需要增加預(yù)分類環(huán)節(jié)以減小運(yùn)算量。 (3)松弛匹配無論是相關(guān)匹配還是文法分析,都要求輸入特征向量和模板特征向量的各分量之間具有確切的對(duì)應(yīng)關(guān)系,然而在結(jié)構(gòu)分析中,往往事先難以確定兩者各分量間的對(duì)應(yīng)關(guān)系,此時(shí)可以采用松弛匹配法。識(shí)別的過程包括根據(jù)識(shí)別算法選擇和提取漢字的特征、與標(biāo)準(zhǔn)文字的特征進(jìn)行匹配判別。③四邊碼(Fourside Code)四邊碼是在漢字點(diǎn)陣圖的四周各取一條帶,計(jì)算其中的文字圖像素點(diǎn)數(shù),并將它分成四級(jí),構(gòu)成一個(gè)四元組。 (2)統(tǒng)計(jì)特征 ① 特征點(diǎn)法 特征點(diǎn)提取算法的主要思想是利用字符點(diǎn)陣中一些有代表性的黑點(diǎn)(筆畫)、白點(diǎn)(背景)作為特征來區(qū)分不同的字符。由于信息的缺陷,便不可避免地遇到識(shí)別“死角”的問題。對(duì)于漢字,其特征大致分為兩類,包括結(jié)構(gòu)特征和統(tǒng)計(jì)特征,至今總數(shù)己經(jīng)不下百種。在細(xì)化處理過程中,一方面,去除的像素太少,則不能充分有效地減少圖像的信息量;另一方面,去除的像素太多,特別是某些關(guān)鍵像素若被去除,則改變了原始圖像的主要特征。所以,必須采用恰當(dāng)?shù)臍w一化方法來盡可能的消除尺度變化對(duì)特征值提取的影響。字切分是利用字與字之間的直線型空隙來分辨字,將各字的左邊界和右邊界記錄下來。傾斜校正的核心在于如何檢測(cè)出圖像的傾斜角。這一過程的自動(dòng)完成算法還不是很完善,有些部分常由手工完成,最終的系統(tǒng)能夠自動(dòng)完成所有的版面分析。由此可見,印刷漢字識(shí)別技術(shù)主要包括圖像處理模塊,圖像版面的分析與理解模塊,圖像的行切分與字切分模塊,單字圖像的特征提取與匹配模塊,特征庫,識(shí)別結(jié)果的后處理模塊。漢字圖像通過光電掃描儀,CCD器件等工具掃描成為二維圖像信號(hào)(數(shù)碼圖像),該種信號(hào)在文本中以圖片(jpg,bmp等格式)形式顯現(xiàn),而后通過本文所介紹的預(yù)處理,特征提取與匹配及相關(guān)后處理等實(shí)現(xiàn)漢字識(shí)別的過程。它涉及到模式識(shí)別和圖像處理、人工智能、形式語言學(xué)、模糊數(shù)學(xué)等眾多學(xué)科,是一門綜合性的技術(shù)。與世界上常用的其他民族的文字相比,漢字的結(jié)構(gòu)是最為復(fù)雜的。 印刷體漢字識(shí)別技術(shù)存在的難點(diǎn) 由于漢字具有以下幾個(gè)方面的特點(diǎn),使?jié)h字字符在識(shí)別難度上遠(yuǎn)遠(yuǎn)大于字母化字符的識(shí)別。直到80年代中期以來,以軟件為主并使用通用高檔微機(jī)的產(chǎn)品才逐步走向市場(chǎng)。當(dāng)時(shí),他使用了10塊模板對(duì)應(yīng)10個(gè)數(shù)字,依次把待識(shí)別的數(shù)字投影到這10塊模板上,當(dāng)模板透過的光達(dá)到最小時(shí)(數(shù)字遮擋了模板的透光部分),數(shù)字就被識(shí)別成這塊模板上的數(shù)字。漢字識(shí)別是模式識(shí)別的重要應(yīng)用領(lǐng)域,也是光學(xué)字符識(shí)別OCR(Optical Character Recognition)的重要組成部分。在跨入信息時(shí)代后,現(xiàn)如今漢字印刷材料的數(shù)量大大增加,一些專業(yè)單位如新聞社、圖書館、古籍出版社、檔案館等所接觸的印刷材料更是浩如煙海,信息量均是呈爆炸性增長,畢竟閱讀印刷材料更為符合人的自然閱讀習(xí)慣。這種方法不適用于需要處理大量文字資料的辦公自動(dòng)化、文檔管理、圖書情報(bào)管理等場(chǎng)合。因而該技術(shù)有著重要的實(shí)用價(jià)值和理論意義。1966年,IBM公司發(fā)表了第一篇關(guān)于印刷體漢字識(shí)別的論文,在這篇論文中他們利用簡單的模板匹配法識(shí)別了1000個(gè)印刷體漢字。但由于我國政府從80年代中期開始對(duì)漢字自動(dòng)識(shí)別輸人的研究給予了充分的重視和支持,漢字識(shí)別技術(shù)進(jìn)入了研究的高潮。第一級(jí)3,755個(gè)漢字,%,第二級(jí)有3,008個(gè)漢字,%,識(shí)別系統(tǒng)一般應(yīng)能正確識(shí)別這些常用字,才能滿足實(shí)際應(yīng)用的需要。識(shí)別算法和系統(tǒng)必須能夠正確判定這些細(xì)微的差異,否則就會(huì)發(fā)生錯(cuò)誤。預(yù)處理是在所有識(shí)別處理之前進(jìn)行的,它將從各種不同輸入方式獲得的漢字圖像中的干擾因素降到最低。行字切分是將大幅的圖像先切割為行,再從圖像行中分離出單個(gè)字符的過程。3 印刷體漢字識(shí)別技術(shù)的研究 預(yù)處理 由于用數(shù)碼相機(jī)或掃描儀作為輸入設(shè)備得到的數(shù)據(jù)不可避免地存在著各種外在的干擾,圖像質(zhì)量也有偏差,對(duì)識(shí)別效果有一定影響。若閾值取的過大,則保留的信息過多,其中許多雜點(diǎn)無用信息造成了對(duì)以后處理的干擾;若閾值取得過小,則丟失的信息過多,其中許多文字信息產(chǎn)生續(xù)斷或丟失,造成最終文字提取分割的信息丟失。 (4)行字切分漢字切分的目的是利用字與字之間、行與行之間的空隙,將單個(gè)漢字從整個(gè)圖像中分離出來。同理,當(dāng)出現(xiàn)連續(xù)一個(gè)漢字寬度的大累加和情況后突然出現(xiàn)一系列小累加和甚至零值時(shí),判定為該漢字的右邊界。根據(jù)輔助矩陣中各像素0、1的分布,使處于矩陣中心的被平滑的像素X從“0”變成“1”或者從“1”變成“O”。對(duì)細(xì)化的一般要求是保持原有筆畫的連續(xù)性,不能由于細(xì)化造成筆畫斷開;細(xì)化成為單層像素線;保持文字原有特征,既不要增加,也不要丟失,保持筆畫特征,最好細(xì)化掉筆鋒:細(xì)化結(jié)果是原曲線的中心線,保留曲線的端點(diǎn),交叉部分中心線不畸變。在漢字圖像滿足清晰、無筆畫連聯(lián)、無斷筆等細(xì)化要求時(shí),是能夠完全將漢字的各種特征點(diǎn)位置提取處理的;若漢字圖像本身模糊不清,預(yù)處理工作也無法達(dá)到要求,這樣再好的漢字特征點(diǎn)特征提取算法也無法提取正確的漢字特征點(diǎn)特征,已經(jīng)獲得的特征點(diǎn)特征一旦應(yīng)用到漢字識(shí)別系統(tǒng)中去,將會(huì)極大地影響整個(gè)系統(tǒng)的實(shí)用性。 ② 松弛匹配法松弛匹配法是一種基于全局特征的匹配方法,它對(duì)輸入漢字作多邊近似,抽取邊界線段,將這些邊界線段組成臨近線段表,然后用松弛匹配操作,完成邊與邊的匹配。 ② 筆段特征法漢字是由筆畫組成的,而筆畫又由筆段組成,筆段可近似為一定方向、長度和寬度的矩形段。選擇什么樣的特征使