freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

印刷體漢字識(shí)別技術(shù)的研究畢業(yè)設(shè)計(jì)(留存版)

2025-08-12 03:39上一頁面

下一頁面
  

【正文】 ,IBM公司發(fā)表了第一篇關(guān)于印刷體漢字識(shí)別的論文,在這篇論文中他們利用簡(jiǎn)單的模板匹配法識(shí)別了1000個(gè)印刷體漢字。這種方法不適用于需要處理大量文字資料的辦公自動(dòng)化、文檔管理、圖書情報(bào)管理等場(chǎng)合。 學(xué)校代碼:10259 上海應(yīng)用技術(shù)學(xué)院學(xué)士學(xué)位論文 題 目: 硬刷題漢字識(shí)別技術(shù)的研究 專 業(yè): 電氣工程及其自動(dòng)化 班 級(jí): 09103212 姓 名: 沈佳駿 學(xué) 號(hào): 0910321220 指導(dǎo)教師: 陳嵐 二O一三年 六月六日v印刷體漢字識(shí)別技術(shù)的研究摘要:印刷體漢字識(shí)別技術(shù)是一種高速、自動(dòng)的信息錄入手段,成為未來計(jì)算機(jī)的重要職能接口,還可以作為辦公自動(dòng)化、新聞出版、機(jī)器翻譯等領(lǐng)域的理想輸入方式,有著廣泛的應(yīng)用前景。傳統(tǒng)的人工鍵入不僅速度慢而且勞動(dòng)強(qiáng)度大,即使是專業(yè)的打字員每分鐘也只能輸入100120個(gè)漢字。據(jù)文獻(xiàn)記載,印刷體漢字的識(shí)別最早可以追溯到60年代中期。國(guó)標(biāo)GB2312一80常用漢字字符集中共有,6763個(gè)常用字,分為兩級(jí)。核心部分是漢字識(shí)別模塊部分,印刷體漢字識(shí)別的過程主要過程包括預(yù)處理、特征提取、特征匹配、識(shí)別后處理。近幾年來,印刷漢字識(shí)別系統(tǒng)的單字識(shí)別正確率已經(jīng)超過98%,為了進(jìn)一步提高系統(tǒng)的總體識(shí)別率,掃描圖像、圖像的預(yù)處理以及識(shí)別后處理等方面的技術(shù),也都得到了深入的研究,并取得了長(zhǎng)足的進(jìn)展,有效地提高了印刷漢字識(shí)別系統(tǒng)的總體性能。靈活運(yùn)用傾斜角度檢測(cè)算法將是傾斜校正環(huán)節(jié)的重要研究方向。平滑在圖像處理中實(shí)質(zhì)是一幅文字圖像通過一個(gè)低通濾波器,去除高頻分量,保留低頻分量,在實(shí)際應(yīng)用中,采用WXW(一般采用3x3)的輔助矩陣對(duì)二值文字圖像進(jìn)行掃描。例如,漢字特征點(diǎn)特征算法本身是一種比較簡(jiǎn)單、完善的特征提取算法。其特點(diǎn)是能夠大大壓縮特征庫的容量,對(duì)于內(nèi)部筆畫粘連字符,其識(shí)別的適應(yīng)性較強(qiáng)、直觀性好,但不易表示為矢量形式,匹配難度大,不適合作為粗分類的特征。諸多分類方法各自有其優(yōu)缺點(diǎn)。 (4)人工神經(jīng)網(wǎng)絡(luò)漢字識(shí)別是一個(gè)非?;钴S的分支,不斷有新的方法涌現(xiàn)出來,為漢字識(shí)別的研究注入新的活力,其中基于人工神經(jīng)網(wǎng)絡(luò)的識(shí)別方法是非常引人注目的方向。語素是最小的語言單位。從筆畫上講,漢字有包括橫、豎、撇、捺、點(diǎn)、折、勾等七種基本筆畫,還有提挑、撇點(diǎn)、橫捺等七種變形筆畫。常用的漢字統(tǒng)計(jì)模式識(shí)別方法包括[10]:(1)模板匹配模板匹配是將漢字的圖像直接作為特征,將之與特征庫中的漢字圖像逐一比較,相似度最高的漢字即為待選漢字。當(dāng)然還有許多種不同的統(tǒng)計(jì)特征,諸如圖描述法、包含配選法、脫殼透視法、差筆劃法等,這里就不一一介紹了。目前,在對(duì)于像漢字識(shí)別這樣超多類的分類問題,ANN的規(guī)模會(huì)很大,結(jié)構(gòu)也很復(fù)雜,實(shí)用性較差。它的學(xué)習(xí)規(guī)則是使用最速下降法,通過反向傳播來不斷調(diào)整網(wǎng)絡(luò)的權(quán)值和閾值,使網(wǎng)絡(luò)的誤差平方和最小[12]。支持向量機(jī)可以看作一種新的訓(xùn)練多項(xiàng)式、徑向基機(jī)分類器或神經(jīng)網(wǎng)絡(luò)分類器的方法。由于字庫容量較小,因此本設(shè)計(jì)對(duì)系統(tǒng)的預(yù)期識(shí)別率指標(biāo)定為100%。再畫4道線,統(tǒng)計(jì)穿過的黑色像素的數(shù)目,可以得到4個(gè)特征。)。 %設(shè)置性能函數(shù)(訓(xùn)練要求精度) net=train(net,P,T)。運(yùn)行程序后首先載入相似字亂序的圖片(),然后依次得到轉(zhuǎn)灰度圖片(),均值濾波圖片(),二值化圖片(),經(jīng)行列切分后得到處理結(jié)果()及命令窗口輸出的識(shí)別結(jié)果()。此外本章還提出如何提高程序識(shí)別的自動(dòng)適應(yīng)能力,仍是漢字識(shí)別領(lǐng)域的難點(diǎn)問題,要想進(jìn)一步完善系統(tǒng)的功能,還需更多的科研人員致力于完善和發(fā)展這門技術(shù)。(5)Intrnet/Intranet上的網(wǎng)絡(luò)版版。從論文的選題、論證、研究到最后完成,自始至終無不凝聚著導(dǎo)師的心血。k2=1。k2=1。 y = sim(net,P_test39。 y = sim(net,P_test39。 y = sim(net,P_test39。 y = sim(net,P_test39。 y = sim(net,P_test39。 y = sim(net,P_test39。39。39。39。39。39。39。39。endk2=j1。average39。在今后學(xué)習(xí)工作中,我將敢于向新的領(lǐng)域發(fā)起沖擊,腳踏實(shí)地的提高自身素質(zhì),為我國(guó)全面建成小康社會(huì)做出自己的努力與貢獻(xiàn)。 (2)版面的自動(dòng)分析,無需人工干預(yù),可以將印刷文本材料,如報(bào)紙、雜志等,上面有各種插圖、表格、花邊,且同時(shí)存在橫、豎版面等加以區(qū)分和作相應(yīng)的標(biāo)記,以便分別處理。 本章小結(jié) 本章主要以系統(tǒng)仿真的形式實(shí)現(xiàn)了印刷體漢字識(shí)別的過程,在實(shí)驗(yàn)過程中充分的將理論知識(shí)與編程軟件相結(jié)合,成功的做出了一個(gè)系統(tǒng)模型,并且此系統(tǒng)擁有相當(dāng)高的識(shí)別精度,達(dá)到了我們?yōu)槠渲贫ǖ募夹g(shù)指標(biāo)。然后我們對(duì)相似字標(biāo)準(zhǔn)圖像進(jìn)行識(shí)別。訓(xùn)練程序及訓(xùn)練參數(shù)如下:=100。,39。. 系統(tǒng)的實(shí)現(xiàn) 此次采用MATLAB進(jìn)行系統(tǒng)仿真(Matlab仿真程序見參考附錄1),其中學(xué)習(xí)功能使用sim函數(shù)實(shí)現(xiàn),特征提取用十三點(diǎn)特征提取法。近年來,人工神經(jīng)網(wǎng)絡(luò)發(fā)展迅猛,它模擬人腦的活動(dòng)方式,更符合人們的思維習(xí)慣。(4)自學(xué)習(xí)模型神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過程,即連接下層節(jié)點(diǎn)和上層節(jié)點(diǎn)之間的權(quán)重拒陣Wij的設(shè)定和誤差修正過程。由于上述優(yōu)點(diǎn),神經(jīng)網(wǎng)絡(luò)的識(shí)別方法正在越來越多地得到關(guān)注,也因而成為近來的研究熱點(diǎn)。在英文字母與數(shù)字的識(shí)別等類別數(shù)目較少的分類問題中,常常將字符的圖像點(diǎn)陣直接作為神經(jīng)網(wǎng)絡(luò)的輸入。一旦確定這些筆畫特征點(diǎn),漢字筆畫以及結(jié)構(gòu)形狀就可以確定。其要點(diǎn)是提取待識(shí)別模式的的一組統(tǒng)計(jì)特征,然后按照一定準(zhǔn)則所確定的決策函數(shù)進(jìn)行分類判決。一種是把識(shí)別過程和后處理過程分開,網(wǎng)絡(luò)的輸入是初級(jí)識(shí)別結(jié)果的短語或者句子,其中包含不確定的漢字(或拒識(shí)的漢字),通過網(wǎng)絡(luò)的運(yùn)行,最終確定這些字。這是因?yàn)樵趯ふ易值纳舷挛钠ヅ潢P(guān)系時(shí),利用初級(jí)識(shí)別結(jié)果的待選集,可以大大縮小搜索范圍,避免了在整個(gè)詞條庫中查詢。由于它是根據(jù)總體的匹配程度來決定識(shí)別結(jié)果的,所以這一點(diǎn)它類似于統(tǒng)計(jì)方法,同時(shí)它在迭代中還把基元間位置關(guān)系等結(jié)構(gòu)信息考慮在內(nèi),這一點(diǎn)又很像結(jié)構(gòu)方法。 漢字識(shí)別算法分類 識(shí)別算法是整個(gè)識(shí)別過程的核心部分。③非線性匹配法非線性匹配法是由Tsukumo等提出的,用以解決字形的位移、筆畫的變形等現(xiàn)象??梢哉f,這些問題依賴細(xì)化算法本身是無法克服的,需要在后續(xù)的處理中盡量消除這些畸變的干擾。漢字圖像的歸一化往往會(huì)帶來兩個(gè)問題:一是字符圖像的縮放可能會(huì)引入一些干擾。研究一種適合各種文字圖像的二值化方法也是預(yù)處理環(huán)節(jié)的重點(diǎn)。文字識(shí)別,即從學(xué)習(xí)得到的特征庫中找到與待識(shí)別字符相似度最高的字符類的過程。漢字識(shí)別技術(shù)是計(jì)算機(jī)智能接口的一個(gè)重要組成部分。進(jìn)入90年代以來,印刷體漢字識(shí)別研究的主要目的是提高識(shí)別系統(tǒng)的品質(zhì)和效率,增強(qiáng)系統(tǒng)對(duì)不同文本的適應(yīng)性,擴(kuò)大使用面。 印刷體漢字識(shí)別是文字識(shí)別技術(shù)的一種。s what printed Chinese character recognition can do. Firstly, in chapter 1,this thesis gives what is the significance of research and background of Chinese character recognition and introduce the problems we encountered now. The chapter 2,it is a basic overview of the recognition process of printed Chinese characters. In chapter 3, we discusses the principles and printed character recognition, feature extraction and analysis, the postprocessing process, Emphatically analyses the statistical pattern recognition method, structural pattern recognition method and Artificial neural network pattern recognition method. In chapter 4, giving an Matlab simulation concludes the whole article and forecast characters identification technology research directions of future development.KeyWords:Chinese characters recognition;feature extraction;Matching recognition;Artificial neural network;Matlab simulation目 錄摘要 iABSTRACT. i目錄 iii1 緒論 1 印刷體漢字識(shí)別技術(shù)的研究意義 1 印刷體漢字識(shí)別技術(shù)的研究狀況 1 印刷體漢字識(shí)別技術(shù)存在的難點(diǎn) 22 印刷體漢字識(shí)別的概述 4 印刷體漢字識(shí)別的原理簡(jiǎn)介 4 印刷體漢字識(shí)別的流程簡(jiǎn)介 43 印刷體漢字識(shí)別技術(shù)的研究 6 預(yù)處理 6 漢字特征提取 8 漢字識(shí)別算法分類 9 后處理 11 印刷體漢字識(shí)別方法分析 12 結(jié)構(gòu)模式識(shí)別方法 12 統(tǒng)計(jì)模式識(shí)別方法 12 人工神經(jīng)網(wǎng)絡(luò) 14 BP神經(jīng)網(wǎng)絡(luò) 15 支持向量機(jī) 17 本章小結(jié) 184 系統(tǒng)的Matlab仿真 19 系統(tǒng)的分析 19 系統(tǒng)的實(shí)現(xiàn) 20 特征提取 20 BP神經(jīng)網(wǎng)絡(luò)的建立 21 BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練 21 系統(tǒng)的仿真 23 系統(tǒng)性能的進(jìn)一步驗(yàn)證 27 仿真結(jié)果分析 31 本章小結(jié) 325 未來展望與全文總結(jié) 33 未來展望 33 全文總結(jié) 33參考文獻(xiàn) 35致謝 36參考附錄 37參考附錄1 37參考附錄2 4848印刷體漢字識(shí)別技術(shù)的研究1 緒論 印刷體漢字識(shí)別技術(shù)的研究意義 漢字已有數(shù)千年的歷史,是中華民族文化的重要結(jié)晶,閃爍著中華人民智慧的光芒。第二章對(duì)印刷體漢字的識(shí)別過程進(jìn)行基本概述。目前印刷體漢字識(shí)別技術(shù)已經(jīng)呈現(xiàn)出了廣泛的應(yīng)用前景,它主要應(yīng)用在中文信息處理、辦公室自動(dòng)化、機(jī)器翻譯、人工智能等高技術(shù)領(lǐng)域。此外,日本的三洋、松下、理光和富士等公司也有其研制的印刷漢字識(shí)別系統(tǒng),但因這些系統(tǒng)價(jià)格極其昂貴,沒有得到廣泛應(yīng)用。筆劃和部首的不同排列組合,構(gòu)成了數(shù)以千計(jì)表達(dá)不同含義的結(jié)構(gòu)異常復(fù)雜的漢字字符。在本文中,將二值化,平滑去噪,文本行字切分都?xì)w為預(yù)處理。它是指對(duì)印刷體文檔圖像進(jìn)行分析,提取出文本、圖像圖形、表格等區(qū)域,并確定其邏輯關(guān)系,并將相應(yīng)的文本塊連接在一起。同理,當(dāng)出現(xiàn)連續(xù)大約一個(gè)漢字高度的大累加和情況后突然出現(xiàn)一系列小累加和甚至零值時(shí),判定為行下界。細(xì)化處理結(jié)果的好壞,直接影響到識(shí)別的效果和質(zhì)量。識(shí)別系統(tǒng)只利用其中部分子空間的信息。選擇什么樣的特征使得此單分類環(huán)節(jié)的識(shí)別效果達(dá)到最佳,選擇哪些特征來優(yōu)化組合來達(dá)到整個(gè)系統(tǒng)的識(shí)別效果達(dá)到最佳,這也是設(shè)計(jì)者需要考慮的因素。文法分析是典型的結(jié)構(gòu)識(shí)別方法,由于其側(cè)重點(diǎn)是在筆段形狀、位置以及筆段之間相互關(guān)系的分析上,所以它的優(yōu)點(diǎn)是分辨相似字的能力較強(qiáng),對(duì)書寫風(fēng)格的變化不敏感:缺點(diǎn)是對(duì)局部噪聲敏感,特征提取比較復(fù)雜。以下對(duì)各種常用的后處理方法做簡(jiǎn)單的介紹。該數(shù)據(jù)庫中的每一個(gè)詞條項(xiàng)都要包括本詞條的詞性、詞頻、連接屬性、語義信息等。其思想是直接從字符的輪廓或骨架上提取的字符像素分布特征,如筆畫、圈、端點(diǎn)、節(jié)點(diǎn)、弧、突起、凹陷等多個(gè)基元組合,再用結(jié)構(gòu)方法描述基元組合所代表的結(jié)構(gòu)和關(guān)系。有的抗噪性能差,有的代碼復(fù)雜度高。因此,現(xiàn)在人們已注意到將兩種方法結(jié)合起來使用,加強(qiáng)識(shí)別技術(shù)的穩(wěn)定性與泛化能力使之可處理更多類型、更加復(fù)雜的模式。在一些情況下,統(tǒng)計(jì)方法和神經(jīng)網(wǎng)絡(luò)方法是可互相替代的,實(shí)際上神經(jīng)網(wǎng)絡(luò)的方法有時(shí)被認(rèn)為是統(tǒng)計(jì)方法的子集。輸入層各神經(jīng)元負(fù)責(zé)接收來自外界的輸入信息,并傳遞給中間層各神經(jīng)元;中間層是內(nèi)部信息處理層,負(fù)責(zé)信息變換,根據(jù)信息變化能力的需求,中間層可以設(shè)計(jì)為單隱層或者多隱層結(jié)構(gòu);最后一個(gè)隱層傳遞到輸出層各神經(jīng)元的信息,經(jīng)進(jìn)一步處理后,完成一次學(xué)習(xí)的正向傳播處理過程,由輸出層向外界輸出信息處理結(jié)果。 (4)支持向量機(jī)是以統(tǒng)計(jì)學(xué)理論為基礎(chǔ)的,與傳統(tǒng)統(tǒng)計(jì)學(xué)習(xí)理論不同。取
點(diǎn)擊復(fù)制文檔內(nèi)容
電大資料相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1