freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

印刷體漢字識(shí)別技術(shù)的研究畢業(yè)設(shè)計(jì)-文庫(kù)吧

2025-06-07 17:17 本頁(yè)面


【正文】 信息量均是 呈 爆炸性增長(zhǎng),畢竟閱讀印刷材料更為符合人的自然閱讀習(xí)慣。然而, 隨著人們對(duì)電子化信息需求的日益增加 , 如何將漢字快速高效地輸入計(jì)算機(jī),是信息處理的一個(gè)關(guān)鍵問(wèn)題,也是關(guān)系到計(jì)算機(jī)技術(shù)能否在我國(guó)真正普及的 重要前提 ,更是 能否 傳播與弘揚(yáng)中華民族悠久歷史文化的關(guān)鍵 因素 。 傳統(tǒng)的 人工鍵入不僅 速度 慢而且勞動(dòng)強(qiáng)度大, 即使是專(zhuān)業(yè) 的 打字員 每分鐘 也 只能輸入 100120 個(gè)漢字。這種方法不適用于需要處理大量文字資料的辦公自動(dòng)化、文檔管理、圖書(shū)情報(bào)管理等場(chǎng)合。而且隨著勞動(dòng)力價(jià)格的升高,利用人工方法進(jìn)行漢字輸入也將面臨經(jīng)濟(jì)效益的挑戰(zhàn)。人們要求有一種能將文字信息高速、自動(dòng)輸入計(jì)算機(jī)的方法,于是印刷體漢字識(shí)別技術(shù) 便 應(yīng)運(yùn)而生。這種快速,準(zhǔn)確的 自動(dòng)處理方式將在很大程度上推動(dòng)我國(guó)信息化的發(fā)展進(jìn)程,對(duì)社會(huì)各方面的工作都有著相當(dāng)深遠(yuǎn)的意義。目前印刷體漢字識(shí)別技術(shù)已經(jīng)呈現(xiàn)出了廣泛的應(yīng)用前景,它主要應(yīng)用在中文信息處理、辦公室自動(dòng)化、機(jī)器翻譯、人工智能等高技術(shù)領(lǐng)域。 漢字識(shí)別是模式識(shí)別的重要應(yīng)用領(lǐng)域,也是光學(xué)字符識(shí)別 OCR( Optical Character Recognition) 的重要組成部分。漢字識(shí)別是一門(mén)多學(xué)科綜合 性 的研究課題,它不僅與人工智能的研究有關(guān),而且與數(shù)字信號(hào)處理、圖像處理、信息論、計(jì)算機(jī)科學(xué)、幾何學(xué)、統(tǒng)計(jì)學(xué)、語(yǔ)言學(xué)、生物學(xué)、模糊數(shù)學(xué)、決策 論等 技術(shù) 都有著千絲萬(wàn)縷的聯(lián)系。一方面各學(xué)科的發(fā)展給它的研究提供了工具;另一方面,它的研究與發(fā)展也必將促進(jìn)各學(xué)科的 相互進(jìn)步 。因而 該技術(shù) 有著重要的實(shí)用價(jià)值和理論意義。同時(shí),中國(guó)是使用漢字最久遠(yuǎn)和最廣泛的國(guó)家。因此,能否在漢字識(shí)別 技術(shù)的研究 方面占據(jù)領(lǐng)先的位置 也 是中國(guó)科技實(shí)力的一項(xiàng)至關(guān)重要的體現(xiàn) 。 印刷體漢字識(shí)別技術(shù)的研究狀況 印刷體漢字識(shí)別是文字識(shí)別技術(shù)的一種。利用機(jī)器識(shí)別文字符號(hào),可以說(shuō)從 1929年 奧地利科學(xué)家 陶舍克利用光學(xué)模板匹配識(shí)別開(kāi)始。當(dāng)時(shí),他使用了 10 塊模板對(duì)應(yīng) 10個(gè)數(shù)字,依次把待識(shí)別的數(shù) 字投影到這 10 塊模板上,當(dāng)模板透過(guò)的光達(dá)到最小時(shí)(數(shù)字遮擋了模板的透光部分),數(shù)字就被識(shí)別成這塊模板上的數(shù)字。大約在 50 年代末 60 年代初,就已經(jīng)出現(xiàn)了關(guān)于利用計(jì)算機(jī)識(shí)別數(shù)字及英文符號(hào)的研究論文。據(jù)文獻(xiàn)記載,印刷體漢字的識(shí)別最早可以追溯到 60 年代 中期 。 1966 年, IBM 公司發(fā)表了第一篇關(guān)于印刷印刷體漢字識(shí)別技術(shù)的研究 上海應(yīng)用技術(shù)學(xué)院 電氣與電子工程學(xué)院 畢業(yè)論文 2 體漢字識(shí)別的論文,在這篇論文中他們利用簡(jiǎn)單的模板匹配法識(shí)別了 1000 個(gè)印刷體漢字。隨后,日本 也 在 70 年代 開(kāi)始 對(duì)漢字識(shí)別進(jìn)行了研究。 1981 年 5月在日本第 56 屆商業(yè)展覽會(huì)上,富士通研究實(shí)驗(yàn)室進(jìn)行了手寫(xiě)印刷體漢字識(shí)別的公開(kāi)表 演。 1984 年日本武藏野電氣研究所研制成多體印刷漢字識(shí)別裝置,可以識(shí)別 2300 個(gè)多體漢字的印刷體漢字識(shí)別系統(tǒng) , 識(shí)別率為 %,識(shí)別速度大于 100 字 /秒,代表了當(dāng)時(shí)漢字識(shí)別的最高水平 [1]。此外,日本的三洋、松下、理光和富士等公司也有其研制的印刷漢字識(shí)別系統(tǒng) ,但因這些系統(tǒng)價(jià)格極其昂貴,沒(méi)有得到廣泛應(yīng)用 。 直到 80 年代中期以來(lái),以軟件為主并使用通用高檔微機(jī)的產(chǎn)品 才逐步 走向市場(chǎng)。 同國(guó)外相比,我國(guó)的印刷體漢字識(shí)別研究起步較晚 [2]。我國(guó)在 20 世紀(jì) 70 年代才開(kāi)始對(duì)數(shù)字、英文字母及符號(hào)的識(shí)別技術(shù)進(jìn)行研究 , 20 世紀(jì) 70 年代末僅有少數(shù)大學(xué)和研究所開(kāi)始進(jìn)行漢字識(shí)別的研究并發(fā)表了一些論文,研制了少量模擬識(shí)別軟件或系統(tǒng) 。但由于我國(guó)政府從 80 年代 中期 開(kāi)始對(duì)漢字自動(dòng)識(shí)別輸人的研究給予了充分的重視和支持 ,漢字識(shí)別技術(shù)進(jìn)入了研究的高潮。 經(jīng)過(guò)科研人員這些年的辛勤努力,印刷體漢字識(shí)別技術(shù)的發(fā)展和應(yīng)用有了長(zhǎng)足進(jìn)步,從簡(jiǎn)單的單體識(shí)別發(fā)展到多種字體混排的多體識(shí)別,從中文印刷材料的識(shí)別發(fā)展到中英文混排印刷材料的雙語(yǔ)識(shí)別。各個(gè)系統(tǒng)可以支持簡(jiǎn)、繁體漢字的識(shí)別,解決了多體多字號(hào)混排文本的識(shí)別問(wèn)題,對(duì)于簡(jiǎn)單的版面可以進(jìn)行有效的定量分析,同時(shí)漢 字識(shí)別率已達(dá)到了 98%以上。 進(jìn)入 90 年代以來(lái) ,印刷體漢字識(shí)別研究的主要目的是提高識(shí)別系統(tǒng)的品質(zhì)和效率,增強(qiáng)系統(tǒng)對(duì)不同文本的適應(yīng)性,擴(kuò)大使用面。在加強(qiáng)版面分析、識(shí)別結(jié)果上下文匹配后處理和各種實(shí)用化技術(shù)的研制的同時(shí),進(jìn)行對(duì)識(shí)別方法的進(jìn)一步研究,促使更實(shí)用的產(chǎn)品廣泛出現(xiàn)。 印刷體漢字識(shí)別 技術(shù) 存在的難點(diǎn) 由于漢字 具有 以下幾個(gè)方面的特點(diǎn),使?jié)h字 字符 在識(shí)別難度上遠(yuǎn)遠(yuǎn)大于字母化 字符 的識(shí)別。 ( 1) 類(lèi)別較大 目前我國(guó)常用漢字約 3000~4000 個(gè)。國(guó)標(biāo) GB2312 一 80 常用漢字字符集中共有, 6763個(gè)常用字 ,分為兩級(jí)。第一級(jí) 3, 755 個(gè)漢字,使用頻度為 %,第二級(jí)有 3, 008 個(gè)漢字,兩級(jí)漢字總使用頻度為 %,識(shí)別系統(tǒng)一般應(yīng)能正確識(shí)別這些常用字,才能滿足實(shí)際應(yīng)用的需要。目前的研究目標(biāo)一般都著眼于解決國(guó)標(biāo)一級(jí) 3755 個(gè)漢字,即使是這樣,漢字識(shí)別也屬于大類(lèi)別數(shù)的模式識(shí)別問(wèn)題。 可以說(shuō),字量大是造成漢字識(shí)別困難的主要原因之一。 ( 2) 結(jié)構(gòu)復(fù)雜 漢字是一種結(jié)構(gòu)性很強(qiáng)的文字,每個(gè)漢字都具有 獨(dú)一無(wú)二 特定分布的若干筆劃構(gòu)成,筆劃是漢字最基本的組成部分,漢字也可以看成是由部件組合而成的,部件是筆劃有意義的組合,一般 稱(chēng)之為偏旁、部首或字根。筆劃和部首的不同排列組合,構(gòu)成了 數(shù)以千印刷體漢字識(shí)別技術(shù)的研究 上海應(yīng)用技術(shù)學(xué)院 電氣與電子工程學(xué)院 畢業(yè)論文 3 計(jì) 表達(dá)不同含義的結(jié)構(gòu)異常復(fù)雜的漢字字符。 與世界上常用的其他民族的文字相比,漢字的結(jié)構(gòu)是最為復(fù)雜的。 ( 3) 相似字多 部分漢字字符之間只存在著很細(xì)小的差別,具有相同筆劃數(shù)目的漢字字符之間的差異有的表現(xiàn)為某一個(gè)筆劃位置或形態(tài)的微小變化,又比如“ 土 ”和“ 士 ” 這兩個(gè)字 僅在下部筆劃長(zhǎng)短 有細(xì)微的差別 而已 。即使由人來(lái)辨認(rèn)印刷體的這些漢字,在無(wú)上下文信息的幫助時(shí),也很容易 發(fā)生混淆 [3]。識(shí)別算法和系統(tǒng)必須能夠正確判定這些細(xì)微的差異,否則就會(huì)發(fā)生錯(cuò)誤。 漢字的以 上幾個(gè)特點(diǎn)就決定了沒(méi)有單一的一種特征就可以完成對(duì)漢字的識(shí)別,因此如何有效的選取各種特征,有效的進(jìn)行組合,使它們?cè)谄ヅ渌俣群妥R(shí)別率上都能滿足實(shí)際需求就成為整個(gè)系統(tǒng)的關(guān)鍵。 印刷體漢字識(shí)別技術(shù)的研究 上海應(yīng)用技術(shù)學(xué)院 電氣與電子工程學(xué)院 畢業(yè)論文 4 2 印刷體漢字識(shí)別的概述 印刷體漢字識(shí)別的原理簡(jiǎn)介 漢字識(shí)別( CCR: Chinese Character Recognition)是用電子計(jì)算機(jī)自動(dòng)辨識(shí)印刷在紙上 或者 人寫(xiě)在紙(或 其他 介質(zhì))上的漢字。漢字識(shí)別技術(shù)是計(jì)算機(jī)智能接口的一個(gè)重要組成部分。從學(xué)科上劃分 , 漢字識(shí)別屬于模式識(shí)別和人工智能的范疇。它涉及到 模式識(shí)別和圖像處理、人工智能、形式語(yǔ)言學(xué)、模糊數(shù)學(xué)等眾多學(xué)科,是一門(mén)綜合性的技術(shù)。該系統(tǒng)由輸入設(shè)備、漢字識(shí)別模塊和計(jì)算機(jī)硬、軟件三部分組成。核心部分是漢字識(shí)別模塊部分,印刷體漢字識(shí)別的過(guò)程主要過(guò)程包括預(yù)處理、特征提取、特征匹配、識(shí)別后處理。 預(yù)處理是在所有識(shí)別處理之前進(jìn)行的,它將從各種不同輸入方式獲得的漢字圖像中的干擾因素降到最低。隨著漢字識(shí)別技術(shù)的深入研究,漢字的特征提取的算法越來(lái)越多,如何選擇特征和如何組合優(yōu)化特征已經(jīng)成了研究的重要領(lǐng)域。 漢字識(shí)別的基本思想是匹配識(shí)別, 匹配識(shí)別技術(shù)涉及到分類(lèi)器的設(shè)計(jì)等重要問(wèn) 題,這也是非常重要的一個(gè)環(huán)節(jié)。漢字的后處理是出于獲得最大化識(shí)別率考慮,它在前期已有識(shí)別水平上,通過(guò)調(diào)整參數(shù)或反饋處理獲得更高的識(shí)別率。 在本文中,將二值化,平滑去噪,文本行字切分都?xì)w為預(yù)處理。漢字圖像通過(guò)光電掃描儀, CCD器件等工具掃描成為二維圖像信號(hào) (數(shù)碼圖像 ),該種信號(hào)在文本中以圖片 (jpg, bmp等格式 )形式顯現(xiàn) , 而后通過(guò)本文所介紹的預(yù)處理,特征提取與匹配及相關(guān)后處理等實(shí)現(xiàn)漢字識(shí)別的過(guò)程。 印刷體漢字識(shí)別的流程簡(jiǎn)介 印刷體漢字識(shí)別的過(guò)程主要過(guò)程包括預(yù)處理、版面分析理解、文本行字切分、特征提 取、漢字識(shí)別、識(shí)別后處理,在本文中,將版面分析理解、文本行字切分都?xì)w為預(yù)處理。系統(tǒng)框圖如 所示。 印刷體漢字識(shí)別技術(shù)的研究 上海應(yīng)用技術(shù)學(xué)院 電氣與電子工程學(xué)院 畢業(yè)論文 5 圖 印刷體漢字識(shí)別流程圖 版面分析主要是對(duì)文本圖像的總體進(jìn)行分析,區(qū)分出文本段落及排版順序,圖像、表格的區(qū)域;對(duì)于文本區(qū)域?qū)⑦M(jìn)行識(shí)別處理,對(duì)于表格區(qū)域進(jìn)行專(zhuān)用的表格分析及識(shí)別處理,對(duì)于圖像區(qū)域進(jìn)行壓縮或簡(jiǎn)單存儲(chǔ)。行字切分是將大幅的圖像先切割為行,再?gòu)膱D像行中分離出單個(gè)字符的過(guò)程。特征提取是整個(gè)環(huán)節(jié)中最重要的一環(huán),它是從單個(gè)字符圖 像上提取統(tǒng)計(jì)特征或結(jié)構(gòu)特征的過(guò)程,包括為此而做的細(xì)化 ( Thinning) 、規(guī)范化( Normalization) 等。提取特征的穩(wěn)定性及有效性,直接決定了識(shí)別的性能。文字識(shí)別,即從學(xué)習(xí)得到的特征庫(kù)中找到與待識(shí)別字符相似度最高的字符類(lèi)的過(guò)程。后處理則是利用詞義、詞頻、語(yǔ)法規(guī)則或語(yǔ)料庫(kù)等語(yǔ)言先驗(yàn)知識(shí)對(duì)識(shí)別結(jié)果進(jìn)行校正的過(guò)程。由此可見(jiàn),印刷漢字識(shí)別技術(shù)主要包括圖像處理模塊,圖像版面的分析與理解模塊,圖像的行切分與字切分模塊,單字圖像的特征提取與匹配模塊,特征庫(kù),識(shí)別結(jié)果的后處理模塊。其中單字圖像的特征提取與匹配模塊是 印刷漢字識(shí)別中最為核心的技術(shù)。近幾年來(lái),印刷漢字識(shí)別系統(tǒng)的單字識(shí)別正確率已經(jīng)超過(guò) 98%,為了進(jìn)一步提高系統(tǒng)的總體識(shí)別率,掃描圖像、圖像的預(yù)處理以及識(shí)別后處理等方面的技術(shù),也都得到了深入的研究,并取得了長(zhǎng)足的進(jìn)展,有效地提高了印刷漢字識(shí)別系統(tǒng)的總體性能。 輸入材料 掃描輸入圖像 圖像預(yù)處理 文本的行列切割 文字的特征提取 文字的識(shí)別處理 識(shí)別結(jié)果 識(shí)別結(jié)果的改編 印刷體漢字識(shí)別技術(shù)的研究 上海應(yīng)用技術(shù)學(xué)院 電氣與電子工程學(xué)院 畢業(yè)論文 6 3 印刷體漢字識(shí)別技術(shù)的研究 預(yù)處理 由于用數(shù)碼相機(jī)或掃描儀作為輸入設(shè)備得到的數(shù)據(jù)不可避免地存在著各種外在的干擾,圖像質(zhì)量也有偏差 ,對(duì)識(shí)別效果有一定影響。因此 ,在對(duì)原始圖像進(jìn)行識(shí)別處理之前,盡可能將干擾因素影響降低,是非常有必要的,也就是要先對(duì)原始 采樣信號(hào)進(jìn)行預(yù)處理。預(yù)處理通常包括去除噪聲、版面分析、二值化、傾斜校正、行列切分、平滑、歸一化、細(xì)化等 [3][4]。 ( 1) 版面分析 印刷體文字識(shí)別常遇到的識(shí)別主體不是一個(gè)文字段,而是整個(gè)版面,所以版面分析是印刷體文字識(shí)別系統(tǒng)中的重要組成部分。它是指對(duì)印刷體文檔圖像進(jìn)行分析,提取出文本、圖像圖形、表格等區(qū)域,并確定其邏輯關(guān)系,并將相應(yīng)的文本塊連接在一起。這一過(guò)程的自動(dòng)完成算法還不是很完善,有些部分常由手工完成,最終的系統(tǒng)能夠自動(dòng)完成所有的版面分析。 ( 2) 二值化 將一幅具有多種灰度值的圖像變 成白黑分布的二值圖像的工作稱(chēng)為二值化處理 [5],二值化的主要目的是將漢字從圖像中分離出來(lái)。通常的方法為先確定像素的閾值,比較像素值和閾值的大小,從而確定為 1 或 0,這個(gè)二值化閾值的選取較為關(guān)鍵。若閾值取的過(guò)大,則保留的信息過(guò)多,其中許多雜點(diǎn)無(wú)用信息造成了對(duì)以后處理的干擾;若閾值取得過(guò)小,則丟失的信息過(guò)多,其中許多文字信息產(chǎn)生續(xù)斷或丟失,造成最終文字提取分割的信息丟失。如何確定此閾值的過(guò)程也就成了研究二值化算法的重點(diǎn)。現(xiàn)如今,漢字圖像二值化方法多種多樣,但大多都有應(yīng)用限制。研究一種適合各種文字圖像的二值化方法也 是預(yù)處理環(huán)節(jié)的重點(diǎn)。 ( 3) 傾斜校正 通過(guò)輸入設(shè)備獲得的圖像不可避免地會(huì)發(fā)生傾斜,這會(huì)給后面的行字分割、文字識(shí)別等圖像處理與分析帶來(lái)困難,因此,在漢字識(shí)別系統(tǒng)中,傾斜校正是圖像預(yù)處理的重要部分。傾斜校正的核心在于如何檢測(cè)出圖像的傾斜角。目前,傾斜角檢測(cè)的方法有許多種,主要可分為 5 類(lèi):基于 Hough 變換的方法;基于交叉相關(guān)性的方法;基于投影的方法;基于 Fourier 變換的方法和最近鄰簇方法。靈活運(yùn)用傾斜角度檢測(cè)算法將是傾斜校正環(huán)節(jié)的重要研究方向。 ( 4) 行字切分 漢字切分的目的是利用字與字之間 、行與行之間的空隙,將單個(gè)漢字從整個(gè)圖像中分離出來(lái)。漢字的切分分為行切分和字切分。 行切分是利用行與行之間的直線型空隙來(lái)分辨行,將各行的行上界和行下界記錄下印刷體漢字識(shí)別技術(shù)的研究 上海應(yīng)用技術(shù)學(xué)院 電氣與電子工程學(xué)院 畢業(yè)論文 7 來(lái) [6]。典型的算法是,從上到下,對(duì)二值漢字點(diǎn)陣的每行像素值進(jìn)行累加,若從某行開(kāi)始的若干累加和均大于一個(gè)試驗(yàn)常數(shù),則可認(rèn)為該行是一漢字文本行的開(kāi)始,即行上界。同理,當(dāng)出現(xiàn)連續(xù)大約一個(gè)漢字高度的大累加和情況后突然出現(xiàn)一系列小累加和甚至零值時(shí),判定為行下界。 字切分是利用字與字之間的直線型空隙來(lái)分辨字,將各字的左邊界和右邊界記錄下來(lái)。典型的算法是,在確定這一 行的行上界和行下界之后,從左到右搜索一行文字的左右邊界,切分出單字或標(biāo)點(diǎn)符號(hào)。從左邊開(kāi)始垂直方向的行距內(nèi)像素單列累加和均大于一個(gè)試驗(yàn)常數(shù),則可認(rèn)為是該漢字的左邊界。同理,當(dāng)出現(xiàn)連續(xù)一個(gè)漢字寬度的大累加和情況后突然出現(xiàn)一系列小累加和甚至零值時(shí),判定為該漢字的右邊界。對(duì)文本漢字行來(lái)說(shuō),由于存在左右分離字,寬窄字,字間交連等,加上行間混有英文、數(shù)字、符號(hào)、和字間污點(diǎn)干擾,
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報(bào)告相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1