freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

印刷體漢字識別方法的研究畢業(yè)設(shè)計論文-全文預覽

2024-12-31 20:49 上一頁面

下一頁面
  

【正文】 同輸入方式獲得的漢字圖像中的干擾因素降到最低。目前漢字識別技術(shù)按照識別的漢字不同可以分為印刷體漢字識別和手寫體漢字識別。各個系統(tǒng)可以支持簡、繁體漢字的識別,解決了多體多字號混排文本的識別問題,對于簡單的版面可以進行有效的定量分析。而一個漢字識別系統(tǒng)能否通過這一嚴峻的考驗,并進一步發(fā)展,取決于三個重要因素:第一該系統(tǒng)能否根掘社會的發(fā)展,用戶需求的變化,靈活地改進或者增加系統(tǒng)功能,以適應市場需 求;第二該系統(tǒng)是否能在識別效率、識別速度和系統(tǒng)資源三者之間協(xié)調(diào)好關(guān)系;第三該系統(tǒng)是否具有足夠高的抗噪性能,以適應各種各樣的實際應用壞境。 這一階段是印刷漢字識別成果倍出的時期。這些系統(tǒng)在方法上,大都采用基于數(shù)字變換的匹配方案,使用了大量專用硬件,其設(shè)備有的相當于小型機甚至大型機,價格極其昂貴,沒有得到廣泛應用。 1966 年, IBM 公司的 Casey和 Nagy 發(fā)表了第一篇關(guān)于印刷體漢字識別的論文 [5]。加上人們對信息社會發(fā)展的要求越來越高,文字識別技術(shù)的快速發(fā)展可想而知。這些相似字不僅在形狀上、構(gòu)造上相似,而且在筆畫上也相近。對于手寫漢字,這種差別就更大。非字母化,不同于拼字母文字,與世界上常用的其它民族的文字相比,漢字的結(jié)構(gòu)是最為復雜的。 ( 2) 漢字結(jié)構(gòu)復雜 印刷體漢字識別系統(tǒng)的特征提取和匹配識別研究漢字是世界上結(jié)構(gòu)最為復雜的文字之一。顯然,漢字樣本數(shù)量眾多,這對一個系統(tǒng)來說是一種考驗。 ( 1) 漢字 量特別大,類別繁多 我國 1980 年公布的國家標準 GB2312. 80 中第一級常用漢字共有 3755 個,第二級有 3008 個,兩級共有 6763 個漢字。 漢字識別問題與困難 當今許多漢字識別技術(shù)研究者想提升漢字識別系統(tǒng)的識別效果都遇 到了一 6 些同樣的問題 [3]。組成一個模式的最簡單的而且不再分割的子模式叫做基元( Pattern primitive) 。 2. 句法結(jié)構(gòu)的方法( syntactic structure method) 在漢字模式中,代表字形本質(zhì)特征的結(jié)構(gòu)信息很重要,研究這類結(jié)構(gòu)信息豐富的模式時,可以用簡單的子模式 ( sub pattern)( 如筆劃 ) 構(gòu)成多級結(jié)構(gòu)來描述一個復雜模式 ( 如整個漢字 ) 。 1. 統(tǒng)計決策的方法 ( statistical decision method) 在漢字識別中,每個字的特征不是一維,而是一個 m 維的特征向量 。 漢字識別的一般方法 漢字的模式表達形式有多種,每種形式又可以選擇不同的特征。 圖 21 漢字識別原理框圖 5 漢字識別原理如圖 21 所示:光電掃描器掃描紙上的文字,產(chǎn)生模擬電信號,經(jīng)模數(shù)轉(zhuǎn)器轉(zhuǎn)換為由灰度值表達的數(shù)字信號,并送至預處理環(huán)節(jié)。學習過程就是讓計算機通過樣本學習或訓練提取出每個漢字的特征并存儲起來,作為標準特征庫,即模板庫。從學科上劃分.漢字識別屬于模式識別和人工智能的范疇。這種技術(shù)就是圖 像的模式識別。圓圈標出的點為特征點表示 圖 11 圖像“大”特征點 通常,對大多數(shù)結(jié)構(gòu)穩(wěn)定的漢字, 一旦 獲得了正確的特征點集,就可能順利地按照一定的策略和步驟 ( 比如漢字的連接筆劃、結(jié)構(gòu)匹配等 ) ,將漢字形體劃歸為正確的字類,印刷體漢字識別的正確性就能夠得到保證。 印刷體漢字識別研究的背景 印刷體漢字識別是漢字識別研究中的一個重要課題。漢字識別是模式識別的重要應用領(lǐng)域,也是光學字符識別 OCR( Optical Character Recognition) 的重要組成部分 [2]。而且隨著勞動力價格的升高,利用 人工方法進行漢字輸入也將面臨經(jīng)濟效益的挑戰(zhàn)。現(xiàn)如今,漢字 3 印刷材料的數(shù)量大大增加,一些專業(yè)單位如新聞社、圖書 館、古籍出版社、檔案館等所接觸的印刷材料更是浩如煙海,信息量均是爆炸性增長,畢竟閱讀印刷材料更為符合人的自然閱讀習慣。 Matching recognition。第三章對印刷體 漢字識別作了詳細闡述,論述了印刷體漢字識別的原理和預處理、特征抽取與分析、后處理過程 ; 著重分析了統(tǒng)計模式識別方法、 結(jié)構(gòu)模式識別方法以及匹配識別 ; 第四章用 Matlab 對系統(tǒng)進行了仿真 ;最后闡明了漢字識別技術(shù)研究今后發(fā)展的方向。 印刷體漢字識別方法的研究 作 者 姓 名 xx 專 業(yè) 電子信息工程 指導教師姓名 王導 專業(yè)技術(shù)職務 目 錄 摘 要 ............................................. 1 第一章 緒論 .................................... 2 ................................... 2 ............................. 3 第二章 漢字識別技術(shù) ............................ 4 ......................................... 4 ....................................... 4 ................................... 5 印刷體漢字識別問題與困難 ............................. 5 第三章 印刷體漢字識別的研究 .................... 7 印刷體漢字識別技術(shù)的發(fā)展歷程 ......................... 7 印刷體漢字識別的原理分析及算法研究 ................... 8 預處理 ............................................ 9 漢字特征提取 ...................................... 11 漢字的分類識別 .................................... 12 后處 理 ........................................... 15 印刷體漢字識別技術(shù)分析 .............................. 16 結(jié)構(gòu)模式識別方法 .................................. 16 統(tǒng)計模式識別方法 .................................. 17 印刷體漢字識別的分類 ................................ 18 第四章 系統(tǒng)的實現(xiàn)與仿真 ....................... 19 .......................................... 19 .......................................... 20 第五章 總結(jié)與展望 ............................. 23 總結(jié) ............................................... 23 展望 ............................................... 23 參考文獻 .......................................... 25 附 錄 ............................................. 26 致 謝 ............................................ 33 1 摘 要 漢字識別技術(shù)是一種高速、自動的信息錄入手段 ,成為未來計算機的重要職能接口,還可以作為辦公自動化、新聞出版、機器翻譯等領(lǐng)域的理想輸入方式 ,有著廣泛的應用前景。第二章介紹了漢字識別的基本過程以及印刷體漢字識別研究存在的問題與困難。 feature extraction。同時也是世界上使用人數(shù)最多和數(shù)量最多的文字之一。這種方法不適用于需要處理大量文字資料的辦公自動化、文檔管理、圖書情報管理等場合。漢字識別技術(shù)已經(jīng)呈現(xiàn)出了廣泛的應用前景,它主要應用在中文信息處理、辦公室自動化、機器翻譯、人工智能等高技術(shù)領(lǐng)域。因而有著重要的實用價值和理論意義。如圖 11所示漢字圖像“大”:漢字圖像“大”的特征點。 4 另一方面,隨著數(shù)字圖像處理技術(shù)的發(fā)展和實際應用的需求,許多問題不要求其輸 出 結(jié)果是一幅完整圖像本身,而是將經(jīng)過特定處理的圖像,再分割和描述,提取有效的特征,進而加以判決分類。漢字識別技術(shù)是計算機智能接口的一個重要組成部分。 漢字識別可簡單的分為兩個過程:學習( 訓練 ) 過程和識別過程。 抽取代表未知漢字模 式本質(zhì)的表達形式(如漢字的各種特征)和預先存儲在機器中的標準漢字模式表達形式的集合 ( 稱為字典)逐一匹配,用一定的準則進行判別,在機器存儲的標準漢字模式表達形式的集合中,找出最接近輸入模式的表達形式,該表達模式對應的字就是識別結(jié)果。對該二值化漢字點陣,抽取一定的表達形式后,和存儲在字典中的已知標準漢字表達形式匹配判別,就可以識別出輸入的未知漢字。這些方法可以歸結(jié)為兩類一般性處理方法 —— 統(tǒng)計決策的方法和句法結(jié)構(gòu)的方法 。統(tǒng)計決策的方法分類判別時,常用的判別準則是距離和類似度,它們是 分類識別的依據(jù)。漢字是一個模式,部件則是子模式,而筆劃是一種最簡單的子模式。 用層層更為簡單的子模式,最后用基元來描述的方法,就是結(jié)構(gòu)分析的方法。由于漢字自身的特殊性,研究者也無法借鑒其它語言特別是西方發(fā)達國家的已有的技術(shù)來識別漢字。一個漢字識別系統(tǒng)至少要識別這些常 用漢字才能滿足需求,才具有實際應用價值。這也導致了漢字識別系統(tǒng)不得不在識別率和識別速度之間有個妥協(xié)。筆畫和部首的不同排列組合,構(gòu)成了表達不同含義的結(jié)構(gòu)異常復雜的漢字字符。筆畫的粗細、長短、位置及姿態(tài),都有一定的差別,各個部件 ( 如偏旁、部首與主體 ) 的大小比例與位置, 也都有所變異。 ( 4) 相似字多 由于我國漢字種類繁多以及構(gòu)成方法的原因,漢字集中包含了大量的相似字。 7 第三章 印刷體漢字識別的研究 印刷體漢字識別技術(shù)的發(fā)展歷程 計算機技術(shù)的快速發(fā)展和普及,為文字識別技術(shù)應運而生提供了必備條件。 印刷體漢字的識別最早可以追溯到 60 年代。此外,日本的三洋、松下、理光和富士等公司也有其研制的印刷體漢字識別系統(tǒng)。研究人員提出了用于漢字識別的各種 方法和特征,如特征點方法、漢字周邊特征、漢字的結(jié)構(gòu)元特征等,并在此基礎(chǔ)上成功地研究出一批漢字識別系統(tǒng) 。在實際的漢字識別輸入應用條件下,檢驗和考查這些研究成果。從 80 年代開始,漢字ORC 的研究開發(fā)一直受到國家重視,經(jīng)過科研人員十多年的辛勤努力,印刷體漢字識別技術(shù)的發(fā)展和應用,有了長足進步,從簡單的單體識別發(fā)展到多種字體混排的多體識別,從中文印刷材料的識別發(fā)展到中英混排印刷 材料的雙語識別。 印刷體漢字識別的原理分析及算法研究 漢字識別實質(zhì)是解決文字的分類問題 ,一般通過特征辨別及特征匹配的方法來實現(xiàn)。 印刷體漢字識別技術(shù)主要包括預處理、特征提取、匹配識別和后處理等步驟。漢字的后處理是出于獲得最大化識別率考慮,它在前期已有識別水平上,通過調(diào)整參數(shù)或反饋處理獲得更高的識別率。 ( 1) 版面分析 印刷體文字識別常遇到的識別主體不是一個文字段,而是整個版面,所以版面分析是印刷體文字識別系統(tǒng)中的重要組成部分。通常的方 法為先確定像素的閾值,比較像素值和閾值的大小,從而確定為 1 或 0,這 個 二值化閾值的選取較為關(guān)鍵。研究一種適合各種文字圖像的二值化方法也是預處理環(huán)節(jié)的重點。靈活運用傾斜角度檢測算法將是傾斜校正環(huán)節(jié)的重要研究方向。典型的算法是,從上到下,對二值漢字點陣的每行像素值進行累加, 10 若從某行開始的若干累加和均大于一個試驗常數(shù),則可認為該行是一漢字文本行的開始,即行上界。從左邊開始垂直方向的行距內(nèi)像素單 列累加和均大于一個試驗常數(shù),則可認為是該漢字的左邊界。漢字圖像的歸一化往往會帶來兩個問題:一是字符圖像的縮放可能會引入一些干擾 。平滑在圖像處理中實質(zhì)是一幅文字圖像通過一個低通濾波器,去除高頻分量,保留低頻分量,在實際應用中,采用 WXW(一般采用 3x3) 的輔助矩陣對二值文字圖像進行掃描。細化處理結(jié)果的好壞,直接影響到識別的效果和質(zhì)量。對細化的一般要求是 保持原有筆畫的連續(xù)性,不能由于細化造成筆畫斷開;細化成為單層像素線;保持文字原有特征,既不要增加,也不要丟失,保持筆畫特征,最好細化掉筆鋒:細化結(jié)果是原曲線的中心線,保留曲線的端點,交叉部分中心 11 線不畸變。 漢字特征提取
點擊復制文檔內(nèi)容
公司管理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1