【正文】
印刷體漢字識別方法的研究 作 者 姓 名 xx 專 業(yè) 電子信息工程 指導(dǎo)教師姓名 王導(dǎo) 專業(yè)技術(shù)職務(wù) 目 錄 摘 要 ............................................. 1 第一章 緒論 .................................... 2 ................................... 2 ............................. 3 第二章 漢字識別技術(shù) ............................ 4 ......................................... 4 ....................................... 4 ................................... 5 印刷體漢字識別問題與困難 ............................. 5 第三章 印刷體漢字識別的研究 .................... 7 印刷體漢字識別技術(shù)的發(fā)展歷程 ......................... 7 印刷體漢字識別的原理分析及算法研究 ................... 8 預(yù)處理 ............................................ 9 漢字特征提取 ...................................... 11 漢字的分類識別 .................................... 12 后處 理 ........................................... 15 印刷體漢字識別技術(shù)分析 .............................. 16 結(jié)構(gòu)模式識別方法 .................................. 16 統(tǒng)計模式識別方法 .................................. 17 印刷體漢字識別的分類 ................................ 18 第四章 系統(tǒng)的實現(xiàn)與仿真 ....................... 19 .......................................... 19 .......................................... 20 第五章 總結(jié)與展望 ............................. 23 總結(jié) ............................................... 23 展望 ............................................... 23 參考文獻(xiàn) .......................................... 25 附 錄 ............................................. 26 致 謝 ............................................ 33 1 摘 要 漢字識別技術(shù)是一種高速、自動的信息錄入手段 ,成為未來計算機的重要職能接口,還可以作為辦公自動化、新聞出版、機器翻譯等領(lǐng)域的理想輸入方式 ,有著廣泛的應(yīng)用前景。漢字識別的最終目的是使中文信息能更自然,更方便地輸入計算機,以便于進(jìn)一步處理.實際生活中,大量的書信、報紙、雜志內(nèi)容需要輸入計算機,這就是印刷體漢字識別要解決的問題。本文首先就漢字識別研究的意義及背景作了綜述。第二章介紹了漢字識別的基本過程以及印刷體漢字識別研究存在的問題與困難。第三章對印刷體 漢字識別作了詳細(xì)闡述,論述了印刷體漢字識別的原理和預(yù)處理、特征抽取與分析、后處理過程 ; 著重分析了統(tǒng)計模式識別方法、 結(jié)構(gòu)模式識別方法以及匹配識別 ; 第四章用 Matlab 對系統(tǒng)進(jìn)行了仿真 ;最后闡明了漢字識別技術(shù)研究今后發(fā)展的方向。 關(guān)鍵詞: 印刷體漢字識別 特征提取 匹配識別 統(tǒng)計模式識別 Matlab 仿真 ABSTRACT Chinese character recognition technology is a kind of automatic highspeed, information input method, bee the important functions of the puter interface, 2 still can as office automation, the press and publishing, machine translation, etc, the ideal input has wide application prospects. The aim of Chinese character recognition is to make the Chinese input more natural and convenient so that the puter could process Chinese information more easily. In practice, large volume of letters, newspaper, magazines need to be covered into a coded representation of the input characters. That39。s what printed Chinese character recognition can do. Firstly, this thesis gives what is the significance of research and background of Chinese character recognition. In chapter 2, the basic procedure of Chinese character recognition and defects and difficulties of printed Chinese character recognition is introduced. Every step of recognition is elaborated in details. In chapter 3, we describe printed Chinese character recognition system in details, discussing the print character recognition technology, and looks forward to the development trend of Chinese character recognition technology. Discusses the principles and printed character recognition, feature extraction and analysis, the postprocessing process, Emphatically analyses the statistical pattern recognition method, structural pattern recognition method and matching recognition. In chapter 4, giving an simulation for the system. Expounded characters identification technology research directions of future development. Key words: Printed Chinese character recognition。 feature extraction。 Matching recognition。 Statistical pattern recognition。 Matlab Simulation 第一章 緒論 漢字識別研究的意義 漢字已有數(shù)千年的歷史,是中華民族文化的重要結(jié)晶,閃爍著中國人民智慧的光芒。同時也是世界上使用人數(shù)最多和數(shù)量最多的文字之一?,F(xiàn)如今,漢字 3 印刷材料的數(shù)量大大增加,一些專業(yè)單位如新聞社、圖書 館、古籍出版社、檔案館等所接觸的印刷材料更是浩如煙海,信息量均是爆炸性增長,畢竟閱讀印刷材料更為符合人的自然閱讀習(xí)慣。然而,漢字是非字母化、非拼音化的文字,因此,如何將漢字快速高效地輸入計算機,是信息處理的一個關(guān)鍵問題 [1],也是關(guān)系到計算機技術(shù)能否在我國真正普及的關(guān)鍵問題,更是傳播與弘揚中華民族悠久歷史文化的關(guān)鍵問題。但人工鍵入速度不僅慢而且勞動強度大,一般的使用者每分鐘只能輸入 40— 50 個漢字。這種方法不適用于需要處理大量文字資料的辦公自動化、文檔管理、圖書情報管理等場合。而且隨著勞動力價格的升高,利用 人工方法進(jìn)行漢字輸入也將面臨經(jīng)濟效益的挑戰(zhàn)。因此,對于大量已有的文檔資料,漢字自動識別輸入就成為了最佳的選擇。因此,漢字識別技術(shù)也越來越受到人們的重視。漢字識別技術(shù)已經(jīng)呈現(xiàn)出了廣泛的應(yīng)用前景,它主要應(yīng)用在中文信息處理、辦公室自動化、機器翻譯、人工智能等高技術(shù)領(lǐng)域。漢字識別是模式識別的重要應(yīng)用領(lǐng)域,也是光學(xué)字符識別 OCR( Optical Character Recognition) 的重要組成部分 [2]。漢字識別是一門多學(xué)科綜合的研究課題,它不僅與人工智能的研究有關(guān),而且與數(shù)字信號處理、圖像處理、信息論、計算機 科學(xué)、幾何學(xué)、統(tǒng)計學(xué)、語言學(xué)、生物學(xué)、模糊數(shù)學(xué)、決策論等都有著千絲萬縷的聯(lián)系。一方面各學(xué)科的發(fā)展給它的研究提供了工具 ; 另一方面,它的研究與發(fā)展也必將促進(jìn)各學(xué)科的發(fā)展。因而有著重要的實用價值和理論意義。 印刷體漢字識別研究的背景 印刷體漢字識別是漢字識別研究中的一個重要課題。在以往的研究中,均十分重視印刷體漢字特征點提取的工作。所謂特征點,是指反映漢字形體特征整體分布狀況的關(guān)鍵點集,即構(gòu)成漢字筆劃骨架線的端點、折點、交點等。如圖 11所示漢字圖像“大”:漢字圖像“大”的特征點。圓圈標(biāo)出的點為特征點表示 圖 11 圖像“大”特征點 通常,對大多數(shù)結(jié)構(gòu)穩(wěn)定的漢字, 一旦 獲得了正確的特征點集,就可能順利地按照一定的策略和步驟 ( 比如漢字的連接筆劃、結(jié)構(gòu)匹配等 ) ,將漢字形體劃歸為正確的字類,印刷體漢字識別的正確性就能夠得到保證。當(dāng)前,印刷體漢字特征點的識別效率還有進(jìn)一步改進(jìn)的空間。特征點提取方法屬于句法結(jié)構(gòu)模式識別方法之一。 4 另一方面,隨著數(shù)字圖像處理技術(shù)的發(fā)展和實際應(yīng)用的需求,許多問題不要求其輸 出 結(jié)果是一幅完整圖像本身,而是將經(jīng)過特定處理的圖像,再分割和描述,提取有效的特征,進(jìn)而加以判決分類。這種技術(shù)就是圖 像的模式識別。隨著數(shù)字圖像處理和模式識別技術(shù)的不斷發(fā)展與廣泛應(yīng)用,圖像的編碼技術(shù)得到了飛速發(fā)展,并以其優(yōu)良的特性在圖像處理領(lǐng)域得到越來越多的運用。 第二章 漢字識別技術(shù) 漢字識別概述 漢字識別( CCR: Chinese Character Recognition)是用電子計算機自動辨識印刷在紙上和人寫在紙 ( 或者介質(zhì) ) 上的漢字。漢字識別技術(shù)是計算機智能接口的一個重要組成部分。從學(xué)科上劃分.漢字識別屬于模式識別和人工智能的范疇。它涉及到模式識別和圖像處理、人工智能、形式語言 學(xué) 、模糊數(shù)學(xué)等眾多學(xué)科,是一 門綜合性的技術(shù)。 漢字識別的原理 漢字識別的基本思想是匹配判別。 漢字識別可簡單的分為兩個過程:學(xué)習(xí)( 訓(xùn)練 ) 過程和識別過程。學(xué)習(xí)過程就是讓計算機通過樣本學(xué)習(xí)或訓(xùn)練提取出每個漢字的特征并存儲起來,作為標(biāo)準(zhǔn)特征庫,即模板庫。識別過程中,計算機首先按學(xué)習(xí)過程中的特征提取方法提取出輸入模式的特征,然后再與標(biāo)準(zhǔn)特征庫中的特征進(jìn)行匹配,匹配程度最大的漢字即為識別結(jié)果。因此,如何確定表達(dá)待識別漢字模式的最佳特征 ( 組合優(yōu)化特征 ) ,如何進(jìn)行特征匹配,從而進(jìn)行高效、快速的識別,是漢字識別技術(shù)的關(guān)鍵所在。 抽取代表未知漢字模 式本質(zhì)的表達(dá)形式(如漢字的各種特征)和預(yù)先存儲在機器中的標(biāo)準(zhǔn)漢字模式表達(dá)形式的集合 ( 稱為字典)逐一匹配,用一定