freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

印刷體漢字識(shí)別方法的研究畢業(yè)設(shè)計(jì)論文-全文預(yù)覽

  

【正文】 同輸入方式獲得的漢字圖像中的干擾因素降到最低。目前漢字識(shí)別技術(shù)按照識(shí)別的漢字不同可以分為印刷體漢字識(shí)別和手寫體漢字識(shí)別。各個(gè)系統(tǒng)可以支持簡(jiǎn)、繁體漢字的識(shí)別,解決了多體多字號(hào)混排文本的識(shí)別問(wèn)題,對(duì)于簡(jiǎn)單的版面可以進(jìn)行有效的定量分析。而一個(gè)漢字識(shí)別系統(tǒng)能否通過(guò)這一嚴(yán)峻的考驗(yàn),并進(jìn)一步發(fā)展,取決于三個(gè)重要因素:第一該系統(tǒng)能否根掘社會(huì)的發(fā)展,用戶需求的變化,靈活地改進(jìn)或者增加系統(tǒng)功能,以適應(yīng)市場(chǎng)需 求;第二該系統(tǒng)是否能在識(shí)別效率、識(shí)別速度和系統(tǒng)資源三者之間協(xié)調(diào)好關(guān)系;第三該系統(tǒng)是否具有足夠高的抗噪性能,以適應(yīng)各種各樣的實(shí)際應(yīng)用壞境。 這一階段是印刷漢字識(shí)別成果倍出的時(shí)期。這些系統(tǒng)在方法上,大都采用基于數(shù)字變換的匹配方案,使用了大量專用硬件,其設(shè)備有的相當(dāng)于小型機(jī)甚至大型機(jī),價(jià)格極其昂貴,沒(méi)有得到廣泛應(yīng)用。 1966 年, IBM 公司的 Casey和 Nagy 發(fā)表了第一篇關(guān)于印刷體漢字識(shí)別的論文 [5]。加上人們對(duì)信息社會(huì)發(fā)展的要求越來(lái)越高,文字識(shí)別技術(shù)的快速發(fā)展可想而知。這些相似字不僅在形狀上、構(gòu)造上相似,而且在筆畫上也相近。對(duì)于手寫漢字,這種差別就更大。非字母化,不同于拼字母文字,與世界上常用的其它民族的文字相比,漢字的結(jié)構(gòu)是最為復(fù)雜的。 ( 2) 漢字結(jié)構(gòu)復(fù)雜 印刷體漢字識(shí)別系統(tǒng)的特征提取和匹配識(shí)別研究漢字是世界上結(jié)構(gòu)最為復(fù)雜的文字之一。顯然,漢字樣本數(shù)量眾多,這對(duì)一個(gè)系統(tǒng)來(lái)說(shuō)是一種考驗(yàn)。 ( 1) 漢字 量特別大,類別繁多 我國(guó) 1980 年公布的國(guó)家標(biāo)準(zhǔn) GB2312. 80 中第一級(jí)常用漢字共有 3755 個(gè),第二級(jí)有 3008 個(gè),兩級(jí)共有 6763 個(gè)漢字。 漢字識(shí)別問(wèn)題與困難 當(dāng)今許多漢字識(shí)別技術(shù)研究者想提升漢字識(shí)別系統(tǒng)的識(shí)別效果都遇 到了一 6 些同樣的問(wèn)題 [3]。組成一個(gè)模式的最簡(jiǎn)單的而且不再分割的子模式叫做基元( Pattern primitive) 。 2. 句法結(jié)構(gòu)的方法( syntactic structure method) 在漢字模式中,代表字形本質(zhì)特征的結(jié)構(gòu)信息很重要,研究這類結(jié)構(gòu)信息豐富的模式時(shí),可以用簡(jiǎn)單的子模式 ( sub pattern)( 如筆劃 ) 構(gòu)成多級(jí)結(jié)構(gòu)來(lái)描述一個(gè)復(fù)雜模式 ( 如整個(gè)漢字 ) 。 1. 統(tǒng)計(jì)決策的方法 ( statistical decision method) 在漢字識(shí)別中,每個(gè)字的特征不是一維,而是一個(gè) m 維的特征向量 。 漢字識(shí)別的一般方法 漢字的模式表達(dá)形式有多種,每種形式又可以選擇不同的特征。 圖 21 漢字識(shí)別原理框圖 5 漢字識(shí)別原理如圖 21 所示:光電掃描器掃描紙上的文字,產(chǎn)生模擬電信號(hào),經(jīng)模數(shù)轉(zhuǎn)器轉(zhuǎn)換為由灰度值表達(dá)的數(shù)字信號(hào),并送至預(yù)處理環(huán)節(jié)。學(xué)習(xí)過(guò)程就是讓計(jì)算機(jī)通過(guò)樣本學(xué)習(xí)或訓(xùn)練提取出每個(gè)漢字的特征并存儲(chǔ)起來(lái),作為標(biāo)準(zhǔn)特征庫(kù),即模板庫(kù)。從學(xué)科上劃分.漢字識(shí)別屬于模式識(shí)別和人工智能的范疇。這種技術(shù)就是圖 像的模式識(shí)別。圓圈標(biāo)出的點(diǎn)為特征點(diǎn)表示 圖 11 圖像“大”特征點(diǎn) 通常,對(duì)大多數(shù)結(jié)構(gòu)穩(wěn)定的漢字, 一旦 獲得了正確的特征點(diǎn)集,就可能順利地按照一定的策略和步驟 ( 比如漢字的連接筆劃、結(jié)構(gòu)匹配等 ) ,將漢字形體劃歸為正確的字類,印刷體漢字識(shí)別的正確性就能夠得到保證。 印刷體漢字識(shí)別研究的背景 印刷體漢字識(shí)別是漢字識(shí)別研究中的一個(gè)重要課題。漢字識(shí)別是模式識(shí)別的重要應(yīng)用領(lǐng)域,也是光學(xué)字符識(shí)別 OCR( Optical Character Recognition) 的重要組成部分 [2]。而且隨著勞動(dòng)力價(jià)格的升高,利用 人工方法進(jìn)行漢字輸入也將面臨經(jīng)濟(jì)效益的挑戰(zhàn)?,F(xiàn)如今,漢字 3 印刷材料的數(shù)量大大增加,一些專業(yè)單位如新聞社、圖書 館、古籍出版社、檔案館等所接觸的印刷材料更是浩如煙海,信息量均是爆炸性增長(zhǎng),畢竟閱讀印刷材料更為符合人的自然閱讀習(xí)慣。 Matching recognition。第三章對(duì)印刷體 漢字識(shí)別作了詳細(xì)闡述,論述了印刷體漢字識(shí)別的原理和預(yù)處理、特征抽取與分析、后處理過(guò)程 ; 著重分析了統(tǒng)計(jì)模式識(shí)別方法、 結(jié)構(gòu)模式識(shí)別方法以及匹配識(shí)別 ; 第四章用 Matlab 對(duì)系統(tǒng)進(jìn)行了仿真 ;最后闡明了漢字識(shí)別技術(shù)研究今后發(fā)展的方向。 印刷體漢字識(shí)別方法的研究 作 者 姓 名 xx 專 業(yè) 電子信息工程 指導(dǎo)教師姓名 王導(dǎo) 專業(yè)技術(shù)職務(wù) 目 錄 摘 要 ............................................. 1 第一章 緒論 .................................... 2 ................................... 2 ............................. 3 第二章 漢字識(shí)別技術(shù) ............................ 4 ......................................... 4 ....................................... 4 ................................... 5 印刷體漢字識(shí)別問(wèn)題與困難 ............................. 5 第三章 印刷體漢字識(shí)別的研究 .................... 7 印刷體漢字識(shí)別技術(shù)的發(fā)展歷程 ......................... 7 印刷體漢字識(shí)別的原理分析及算法研究 ................... 8 預(yù)處理 ............................................ 9 漢字特征提取 ...................................... 11 漢字的分類識(shí)別 .................................... 12 后處 理 ........................................... 15 印刷體漢字識(shí)別技術(shù)分析 .............................. 16 結(jié)構(gòu)模式識(shí)別方法 .................................. 16 統(tǒng)計(jì)模式識(shí)別方法 .................................. 17 印刷體漢字識(shí)別的分類 ................................ 18 第四章 系統(tǒng)的實(shí)現(xiàn)與仿真 ....................... 19 .......................................... 19 .......................................... 20 第五章 總結(jié)與展望 ............................. 23 總結(jié) ............................................... 23 展望 ............................................... 23 參考文獻(xiàn) .......................................... 25 附 錄 ............................................. 26 致 謝 ............................................ 33 1 摘 要 漢字識(shí)別技術(shù)是一種高速、自動(dòng)的信息錄入手段 ,成為未來(lái)計(jì)算機(jī)的重要職能接口,還可以作為辦公自動(dòng)化、新聞出版、機(jī)器翻譯等領(lǐng)域的理想輸入方式 ,有著廣泛的應(yīng)用前景。第二章介紹了漢字識(shí)別的基本過(guò)程以及印刷體漢字識(shí)別研究存在的問(wèn)題與困難。 feature extraction。同時(shí)也是世界上使用人數(shù)最多和數(shù)量最多的文字之一。這種方法不適用于需要處理大量文字資料的辦公自動(dòng)化、文檔管理、圖書情報(bào)管理等場(chǎng)合。漢字識(shí)別技術(shù)已經(jīng)呈現(xiàn)出了廣泛的應(yīng)用前景,它主要應(yīng)用在中文信息處理、辦公室自動(dòng)化、機(jī)器翻譯、人工智能等高技術(shù)領(lǐng)域。因而有著重要的實(shí)用價(jià)值和理論意義。如圖 11所示漢字圖像“大”:漢字圖像“大”的特征點(diǎn)。 4 另一方面,隨著數(shù)字圖像處理技術(shù)的發(fā)展和實(shí)際應(yīng)用的需求,許多問(wèn)題不要求其輸 出 結(jié)果是一幅完整圖像本身,而是將經(jīng)過(guò)特定處理的圖像,再分割和描述,提取有效的特征,進(jìn)而加以判決分類。漢字識(shí)別技術(shù)是計(jì)算機(jī)智能接口的一個(gè)重要組成部分。 漢字識(shí)別可簡(jiǎn)單的分為兩個(gè)過(guò)程:學(xué)習(xí)( 訓(xùn)練 ) 過(guò)程和識(shí)別過(guò)程。 抽取代表未知漢字模 式本質(zhì)的表達(dá)形式(如漢字的各種特征)和預(yù)先存儲(chǔ)在機(jī)器中的標(biāo)準(zhǔn)漢字模式表達(dá)形式的集合 ( 稱為字典)逐一匹配,用一定的準(zhǔn)則進(jìn)行判別,在機(jī)器存儲(chǔ)的標(biāo)準(zhǔn)漢字模式表達(dá)形式的集合中,找出最接近輸入模式的表達(dá)形式,該表達(dá)模式對(duì)應(yīng)的字就是識(shí)別結(jié)果。對(duì)該二值化漢字點(diǎn)陣,抽取一定的表達(dá)形式后,和存儲(chǔ)在字典中的已知標(biāo)準(zhǔn)漢字表達(dá)形式匹配判別,就可以識(shí)別出輸入的未知漢字。這些方法可以歸結(jié)為兩類一般性處理方法 —— 統(tǒng)計(jì)決策的方法和句法結(jié)構(gòu)的方法 。統(tǒng)計(jì)決策的方法分類判別時(shí),常用的判別準(zhǔn)則是距離和類似度,它們是 分類識(shí)別的依據(jù)。漢字是一個(gè)模式,部件則是子模式,而筆劃是一種最簡(jiǎn)單的子模式。 用層層更為簡(jiǎn)單的子模式,最后用基元來(lái)描述的方法,就是結(jié)構(gòu)分析的方法。由于漢字自身的特殊性,研究者也無(wú)法借鑒其它語(yǔ)言特別是西方發(fā)達(dá)國(guó)家的已有的技術(shù)來(lái)識(shí)別漢字。一個(gè)漢字識(shí)別系統(tǒng)至少要識(shí)別這些常 用漢字才能滿足需求,才具有實(shí)際應(yīng)用價(jià)值。這也導(dǎo)致了漢字識(shí)別系統(tǒng)不得不在識(shí)別率和識(shí)別速度之間有個(gè)妥協(xié)。筆畫和部首的不同排列組合,構(gòu)成了表達(dá)不同含義的結(jié)構(gòu)異常復(fù)雜的漢字字符。筆畫的粗細(xì)、長(zhǎng)短、位置及姿態(tài),都有一定的差別,各個(gè)部件 ( 如偏旁、部首與主體 ) 的大小比例與位置, 也都有所變異。 ( 4) 相似字多 由于我國(guó)漢字種類繁多以及構(gòu)成方法的原因,漢字集中包含了大量的相似字。 7 第三章 印刷體漢字識(shí)別的研究 印刷體漢字識(shí)別技術(shù)的發(fā)展歷程 計(jì)算機(jī)技術(shù)的快速發(fā)展和普及,為文字識(shí)別技術(shù)應(yīng)運(yùn)而生提供了必備條件。 印刷體漢字的識(shí)別最早可以追溯到 60 年代。此外,日本的三洋、松下、理光和富士等公司也有其研制的印刷體漢字識(shí)別系統(tǒng)。研究人員提出了用于漢字識(shí)別的各種 方法和特征,如特征點(diǎn)方法、漢字周邊特征、漢字的結(jié)構(gòu)元特征等,并在此基礎(chǔ)上成功地研究出一批漢字識(shí)別系統(tǒng) 。在實(shí)際的漢字識(shí)別輸入應(yīng)用條件下,檢驗(yàn)和考查這些研究成果。從 80 年代開始,漢字ORC 的研究開發(fā)一直受到國(guó)家重視,經(jīng)過(guò)科研人員十多年的辛勤努力,印刷體漢字識(shí)別技術(shù)的發(fā)展和應(yīng)用,有了長(zhǎng)足進(jìn)步,從簡(jiǎn)單的單體識(shí)別發(fā)展到多種字體混排的多體識(shí)別,從中文印刷材料的識(shí)別發(fā)展到中英混排印刷 材料的雙語(yǔ)識(shí)別。 印刷體漢字識(shí)別的原理分析及算法研究 漢字識(shí)別實(shí)質(zhì)是解決文字的分類問(wèn)題 ,一般通過(guò)特征辨別及特征匹配的方法來(lái)實(shí)現(xiàn)。 印刷體漢字識(shí)別技術(shù)主要包括預(yù)處理、特征提取、匹配識(shí)別和后處理等步驟。漢字的后處理是出于獲得最大化識(shí)別率考慮,它在前期已有識(shí)別水平上,通過(guò)調(diào)整參數(shù)或反饋處理獲得更高的識(shí)別率。 ( 1) 版面分析 印刷體文字識(shí)別常遇到的識(shí)別主體不是一個(gè)文字段,而是整個(gè)版面,所以版面分析是印刷體文字識(shí)別系統(tǒng)中的重要組成部分。通常的方 法為先確定像素的閾值,比較像素值和閾值的大小,從而確定為 1 或 0,這 個(gè) 二值化閾值的選取較為關(guān)鍵。研究一種適合各種文字圖像的二值化方法也是預(yù)處理環(huán)節(jié)的重點(diǎn)。靈活運(yùn)用傾斜角度檢測(cè)算法將是傾斜校正環(huán)節(jié)的重要研究方向。典型的算法是,從上到下,對(duì)二值漢字點(diǎn)陣的每行像素值進(jìn)行累加, 10 若從某行開始的若干累加和均大于一個(gè)試驗(yàn)常數(shù),則可認(rèn)為該行是一漢字文本行的開始,即行上界。從左邊開始垂直方向的行距內(nèi)像素單 列累加和均大于一個(gè)試驗(yàn)常數(shù),則可認(rèn)為是該漢字的左邊界。漢字圖像的歸一化往往會(huì)帶來(lái)兩個(gè)問(wèn)題:一是字符圖像的縮放可能會(huì)引入一些干擾 。平滑在圖像處理中實(shí)質(zhì)是一幅文字圖像通過(guò)一個(gè)低通濾波器,去除高頻分量,保留低頻分量,在實(shí)際應(yīng)用中,采用 WXW(一般采用 3x3) 的輔助矩陣對(duì)二值文字圖像進(jìn)行掃描。細(xì)化處理結(jié)果的好壞,直接影響到識(shí)別的效果和質(zhì)量。對(duì)細(xì)化的一般要求是 保持原有筆畫的連續(xù)性,不能由于細(xì)化造成筆畫斷開;細(xì)化成為單層像素線;保持文字原有特征,既不要增加,也不要丟失,保持筆畫特征,最好細(xì)化掉筆鋒:細(xì)化結(jié)果是原曲線的中心線,保留曲線的端點(diǎn),交叉部分中心 11 線不畸變。 漢字特征提取
點(diǎn)擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1