【正文】
點(diǎn)等。 印刷體漢字識(shí)別研究的背景 印刷體漢字識(shí)別是漢字識(shí)別研究中的一個(gè)重要課題。一方面各學(xué)科的發(fā)展給它的研究提供了工具 ; 另一方面,它的研究與發(fā)展也必將促進(jìn)各學(xué)科的發(fā)展。漢字識(shí)別是模式識(shí)別的重要應(yīng)用領(lǐng)域,也是光學(xué)字符識(shí)別 OCR( Optical Character Recognition) 的重要組成部分 [2]。因此,漢字識(shí)別技術(shù)也越來(lái)越受到人們的重視。而且隨著勞動(dòng)力價(jià)格的升高,利用 人工方法進(jìn)行漢字輸入也將面臨經(jīng)濟(jì)效益的挑戰(zhàn)。但人工鍵入速度不僅慢而且勞動(dòng)強(qiáng)度大,一般的使用者每分鐘只能輸入 40— 50 個(gè)漢字?,F(xiàn)如今,漢字 3 印刷材料的數(shù)量大大增加,一些專(zhuān)業(yè)單位如新聞社、圖書(shū) 館、古籍出版社、檔案館等所接觸的印刷材料更是浩如煙海,信息量均是爆炸性增長(zhǎng),畢竟閱讀印刷材料更為符合人的自然閱讀習(xí)慣。 Matlab Simulation 第一章 緒論 漢字識(shí)別研究的意義 漢字已有數(shù)千年的歷史,是中華民族文化的重要結(jié)晶,閃爍著中國(guó)人民智慧的光芒。 Matching recognition。s what printed Chinese character recognition can do. Firstly, this thesis gives what is the significance of research and background of Chinese character recognition. In chapter 2, the basic procedure of Chinese character recognition and defects and difficulties of printed Chinese character recognition is introduced. Every step of recognition is elaborated in details. In chapter 3, we describe printed Chinese character recognition system in details, discussing the print character recognition technology, and looks forward to the development trend of Chinese character recognition technology. Discusses the principles and printed character recognition, feature extraction and analysis, the postprocessing process, Emphatically analyses the statistical pattern recognition method, structural pattern recognition method and matching recognition. In chapter 4, giving an simulation for the system. Expounded characters identification technology research directions of future development. Key words: Printed Chinese character recognition。第三章對(duì)印刷體 漢字識(shí)別作了詳細(xì)闡述,論述了印刷體漢字識(shí)別的原理和預(yù)處理、特征抽取與分析、后處理過(guò)程 ; 著重分析了統(tǒng)計(jì)模式識(shí)別方法、 結(jié)構(gòu)模式識(shí)別方法以及匹配識(shí)別 ; 第四章用 Matlab 對(duì)系統(tǒng)進(jìn)行了仿真 ;最后闡明了漢字識(shí)別技術(shù)研究今后發(fā)展的方向。本文首先就漢字識(shí)別研究的意義及背景作了綜述。 印刷體漢字識(shí)別方法的研究 作 者 姓 名 xx 專(zhuān) 業(yè) 電子信息工程 指導(dǎo)教師姓名 王導(dǎo) 專(zhuān)業(yè)技術(shù)職務(wù) 目 錄 摘 要 ............................................. 1 第一章 緒論 .................................... 2 ................................... 2 ............................. 3 第二章 漢字識(shí)別技術(shù) ............................ 4 ......................................... 4 ....................................... 4 ................................... 5 印刷體漢字識(shí)別問(wèn)題與困難 ............................. 5 第三章 印刷體漢字識(shí)別的研究 .................... 7 印刷體漢字識(shí)別技術(shù)的發(fā)展歷程 ......................... 7 印刷體漢字識(shí)別的原理分析及算法研究 ................... 8 預(yù)處理 ............................................ 9 漢字特征提取 ...................................... 11 漢字的分類(lèi)識(shí)別 .................................... 12 后處 理 ........................................... 15 印刷體漢字識(shí)別技術(shù)分析 .............................. 16 結(jié)構(gòu)模式識(shí)別方法 .................................. 16 統(tǒng)計(jì)模式識(shí)別方法 .................................. 17 印刷體漢字識(shí)別的分類(lèi) ................................ 18 第四章 系統(tǒng)的實(shí)現(xiàn)與仿真 ....................... 19 .......................................... 19 .......................................... 20 第五章 總結(jié)與展望 ............................. 23 總結(jié) ............................................... 23 展望 ............................................... 23 參考文獻(xiàn) .......................................... 25 附 錄 ............................................. 26 致 謝 ............................................ 33 1 摘 要 漢字識(shí)別技術(shù)是一種高速、自動(dòng)的信息錄入手段 ,成為未來(lái)計(jì)算機(jī)的重要職能接口,還可以作為辦公自動(dòng)化、新聞出版、機(jī)器翻譯等領(lǐng)域的理想輸入方式 ,有著廣泛的應(yīng)用前景。漢字識(shí)別的最終目的是使中文信息能更自然,更方便地輸入計(jì)算機(jī),以便于進(jìn)一步處理.實(shí)際生活中,大量的書(shū)信、報(bào)紙、雜志內(nèi)容需要輸入計(jì)算機(jī),這就是印刷體漢字識(shí)別要解決的問(wèn)題。第二章介紹了漢字識(shí)別的基本過(guò)程以及印刷體漢字識(shí)別研究存在的問(wèn)題與困難。 關(guān)鍵詞: 印刷體漢字識(shí)別 特征提取 匹配識(shí)別 統(tǒng)計(jì)模式識(shí)別 Matlab 仿真 ABSTRACT Chinese character recognition technology is a kind of automatic highspeed, information input method, bee the important functions of the puter interface, 2 still can as office automation, the press and publishing, machine translation, etc, the ideal input has wide application prospects. The aim of Chinese character recognition is to make the Chinese input more natural and convenient so that the puter could process Chinese information more easily. In practice, large volume of letters, newspaper, magazines need to be covered into a coded representation of the input characters. That39。 feature extraction。 Statistical pattern recognition。同時(shí)也是世界上使用人數(shù)最多和數(shù)量最多的文字之一。然而,漢字是非字母化、非拼音化的文字,因此,如何將漢字快速高效地輸入計(jì)算機(jī),是信息處理的一個(gè)關(guān)鍵問(wèn)題 [1],也是關(guān)系到計(jì)算機(jī)技術(shù)能否在我國(guó)真正普及的關(guān)鍵問(wèn)題,更是傳播與弘揚(yáng)中華民族悠久歷史文化的關(guān)鍵問(wèn)題。這種方法不適用于需要處理大量文字資料的辦公自動(dòng)化、文檔管理、圖書(shū)情報(bào)管理等場(chǎng)合。因此,對(duì)于大量已有的文檔資料,漢字自動(dòng)識(shí)別輸入就成為了最佳的選擇。漢字識(shí)別技術(shù)已經(jīng)呈現(xiàn)出了廣泛的應(yīng)用前景,它主要應(yīng)用在中文信息處理、辦公室自動(dòng)化、機(jī)器翻譯、人工智能等高技術(shù)領(lǐng)域。漢字識(shí)別是一門(mén)多學(xué)科綜合的研究課題,它不僅與人工智能的研究有關(guān),而且與數(shù)字信號(hào)處理、圖像處理、信息論、計(jì)算機(jī) 科學(xué)、幾何學(xué)、統(tǒng)計(jì)學(xué)、語(yǔ)言學(xué)、生物學(xué)、模糊數(shù)學(xué)、決策論等都有著千絲萬(wàn)縷的聯(lián)系。因而有著重要的實(shí)用價(jià)值和理論意義。在以往的研究中,均十分重視印刷體漢字特征點(diǎn)提取的工作。如圖 11所示漢字圖像“大”:漢字圖像“大”的特征點(diǎn)。當(dāng)前,印刷體漢字特征點(diǎn)的識(shí)別效率還有進(jìn)一步改進(jìn)的空間。 4 另一方面,隨著數(shù)字圖像處理技術(shù)的發(fā)展和實(shí)際應(yīng)用的需求,許多問(wèn)題不要求其輸 出 結(jié)果是一幅完整圖像本身,而是將經(jīng)過(guò)特定處理的圖像,再分割和描述,提取有效的特征,進(jìn)而加以判決分類(lèi)。隨著數(shù)字圖像處理和模式識(shí)別技術(shù)的不斷發(fā)展與廣泛應(yīng)用,圖像的編碼技術(shù)得到了飛速發(fā)展,并以其優(yōu)良的特性在圖像處理領(lǐng)域得到越來(lái)越多的運(yùn)用。漢字識(shí)別技術(shù)是計(jì)算機(jī)智能接口的一個(gè)重要組成部分。它涉及到模式識(shí)別和圖像處理、人工智能、形式語(yǔ)言 學(xué) 、模糊數(shù)學(xué)等眾多學(xué)科,是一 門(mén)綜合性的技術(shù)。 漢字識(shí)別可簡(jiǎn)單的分為兩個(gè)過(guò)程:學(xué)習(xí)( 訓(xùn)練 ) 過(guò)程和識(shí)別過(guò)程。識(shí)別過(guò)程中,計(jì)算機(jī)首先按學(xué)習(xí)過(guò)程中的特征提取方法提取出輸入模式的特征,然后再與標(biāo)準(zhǔn)特征庫(kù)中的特征進(jìn)行匹配,匹配程度最大的漢字即為識(shí)別結(jié)果。 抽取代表未知漢字模 式本質(zhì)的表達(dá)形式(如漢字的各種特征)和預(yù)先存儲(chǔ)在機(jī)器中的標(biāo)準(zhǔn)漢字模式表達(dá)形式的集合 ( 稱(chēng)為字典)逐一匹配,用一定的準(zhǔn)則進(jìn)行判別,在機(jī)器存儲(chǔ)的標(biāo)準(zhǔn)漢字模式表達(dá)形式的集合中,找出最接近輸入模式的表達(dá)形式,該表達(dá)模式對(duì)應(yīng)的字就是識(shí)別結(jié)果。預(yù)處理的內(nèi)容和要求取決于識(shí)別方法,一般包括行、字切分,二值化, 細(xì)化或抽取輪廓,平滑,規(guī)范化等等。對(duì)該二值化漢字點(diǎn)陣,抽取一定的表達(dá)形式后,和存儲(chǔ)在字典中的已知標(biāo)準(zhǔn)漢字表達(dá)形式匹配判別,就可以識(shí)別出輸入的未知漢字。每種特征又有不同的抽取方法。這些方法可以歸結(jié)為兩類(lèi)一般性處理方法 —— 統(tǒng)計(jì)決策的方法和句法結(jié)構(gòu)的方法 。字典的每類(lèi)標(biāo)準(zhǔn)模板也不是一個(gè),而是一批 ; 判別輸入文字屬于哪一類(lèi)時(shí),也不是只把它的特征向量和字典內(nèi)標(biāo)準(zhǔn)特征向量逐一簡(jiǎn)單比較從而得到完全相同的結(jié)果才能分類(lèi)識(shí)別,而是根據(jù)某種判別準(zhǔn)則,相似到一定程度而且彼此又能區(qū)分時(shí)就可以分類(lèi)識(shí)別。統(tǒng)計(jì)決策的方法分類(lèi)判別時(shí),常用的判別準(zhǔn)則是距離和類(lèi)似度,它們是 分類(lèi)識(shí)別的依據(jù)。例如把“ 葉 ”字先分解為部件“口”和部件“十”,并知道“十”在“口”的右面,再把這兩個(gè)部件分解為筆劃 “ |”、“ ”、“一”和“一”、“ |”,也知道部件內(nèi)這些筆劃之間相對(duì)位置和連接關(guān)系,這樣就可以把“葉”字表達(dá)成一維的符號(hào)串。漢字是一個(gè)模