freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

印刷體漢字識(shí)別方法的研究畢業(yè)設(shè)計(jì)論文(存儲(chǔ)版)

  

【正文】 1( , ) | || |ni i jis x sxsw x s?? ? ( 39) 其中, Wi為權(quán)值,且1 1njj w? ??, 當(dāng)一個(gè)類別有多個(gè)模板時(shí),還可以使用多重相似度: 14 ( , ) ( ) | || |iiis x s i xsxsp? ? ( 310) 其中, Si是 S 類中的一個(gè)模板。迭代開(kāi)始之前,首先根據(jù)輸入向量各分量與模板向量各分量之間的相似度構(gòu)成一個(gè)初始權(quán)值矩陣。 ( 4)人工神經(jīng)網(wǎng)絡(luò) 漢字識(shí)別是一個(gè)非?;钴S的分支,不斷有新的方法涌現(xiàn)出來(lái),為漢字識(shí)別的研究注入新的活力,其中基于人工神經(jīng)網(wǎng)絡(luò)的識(shí)別方法是非常引人注目的方向。這種方法實(shí)際上己把識(shí)別過(guò)程和后處理過(guò)程融為一體了。無(wú)論是詞還是短語(yǔ),都有其構(gòu)成規(guī)則 , 利用這些規(guī)則,將它們分類。這時(shí)詞條庫(kù)中的每一個(gè)詞條項(xiàng),還要包括該詞的句法信息和語(yǔ)義信息。從部件上講,部件是有特殊的筆畫組合而成,故部件也是一定的。也有些學(xué)者采用抽取漢字圖像中關(guān)鍵特征點(diǎn)來(lái)描述漢字 ,但是特征點(diǎn)的抽取易受噪聲點(diǎn)、筆畫的粘連與斷裂等影響。其中 kix 的角標(biāo) i 表示 ωi類, k 表示 ωi 類 Ni 個(gè)樣本中的第 k 個(gè)。但這些變換如果沒(méi)有合適的處理,都多少存在缺陷。一 旦確定這些筆畫特征點(diǎn),漢字筆畫以及結(jié)構(gòu)形狀就可以確定。所以,漢字識(shí)別 一 般都采用一級(jí)或多級(jí)粗分類 ( Gross classification) 再細(xì)分判別 ( Fine classification) ,從而人人提高識(shí)別速度。 第四章 系統(tǒng)的實(shí)現(xiàn)與仿真 系統(tǒng)的實(shí)現(xiàn) 印刷品上的漢字輸入,經(jīng)過(guò)預(yù)處理后,對(duì)照標(biāo)準(zhǔn)漢字修補(bǔ)缺損部分,用修補(bǔ)后的漢字進(jìn)行學(xué)習(xí),形成初始的特征庫(kù)后再進(jìn)行 大量樣本的學(xué)習(xí),建立實(shí)用的特征庫(kù)。送人圖像處理模塊,經(jīng)二值化轉(zhuǎn)灰度,均值濾波,二值化,行字切分等圖像預(yù)處理操作后。十三點(diǎn)特征提取法有著極好的適應(yīng)性,但是由于特征點(diǎn)的數(shù)目太少所以在樣本訓(xùn)練的時(shí)候比較難收斂。本文 介紹了印刷體漢字識(shí)別的目的、意義、背景;對(duì)其基本原理做了描述;并對(duì)印刷體漢字識(shí)別過(guò)程中預(yù)處理、 特征提取、匹配識(shí)別和后處理的常用方法進(jìn)行了介紹;最后利用 Matlab軟件對(duì)其進(jìn)行了仿真。依據(jù)對(duì)語(yǔ)言文字的統(tǒng)計(jì)信息。版面復(fù)雜的印刷文本的自動(dòng)理解需要進(jìn)一步提高。 %轉(zhuǎn)灰度圖象 B1=filter2(fspecial(39。j=2。 j=n1 j=j+1。a=1。 imwrite(b1,39。 imwrite(b2,39。 imwrite(b3,39。 imwrite(b4,39。 imwrite(b5,39。 imwrite(b6,39。 imwrite(b7,39。 imwrite(b8,39。 imwrite(b9,39。 imwrite(b10,39。 imwrite(b11,39。 imwrite(b12,39。 imwrite(b13,39。 imwrite(b14,39。 imwrite(b15,39。 imwrite(b16,39。)。)。)。)。)。)。)。)。)。)。)。)。)。)。 y = sim(,P_test)。 end k2=j1。s=sum(d)。 while s(j)~=m amp。s=sum(d39。)。在印刷質(zhì)量差的情況下 ,系統(tǒng)誤識(shí)率較高 ?,F(xiàn)在的識(shí)別方法也開(kāi)始在識(shí)別后處理上進(jìn)行研究,結(jié)合語(yǔ)義理解的后處理技術(shù)與識(shí)別前的預(yù)處理相對(duì),可以對(duì)識(shí)別的結(jié)果進(jìn)行后期處理,提高識(shí)別的正確率。但由于系統(tǒng)比較簡(jiǎn)單,實(shí)現(xiàn)的功能也比較單一,要想實(shí)現(xiàn)較完備功能還需進(jìn)一步完善。可以得到 4 個(gè)特征。系統(tǒng)共包括 5個(gè)子功能模塊(見(jiàn)圖 41)。 4.粗分類特征要簡(jiǎn)單,使分類字典容量小。 如表 11 所示為統(tǒng)計(jì)方法和結(jié)構(gòu)方法特征比較: 表 11 統(tǒng)計(jì)方法和結(jié)構(gòu)方法特征比較 項(xiàng)目 方法 識(shí)別策略 判別 方法 文字變形 變體 特征 提取 相似文 字區(qū)分 統(tǒng)計(jì)方法 向量維數(shù) 距離、 類似度 適應(yīng)性差 容易 不易區(qū)分 結(jié)構(gòu)方法 分而治之 串行判決 適應(yīng)性好 不容易 容易區(qū)分 印刷體漢字識(shí)別的分類 在進(jìn)行漢字識(shí)別時(shí),考慮到漢字?jǐn)?shù)目的龐大。漢字輪廓具有豐富的特征,即使在稍微傾斜或者筆畫粘連的情況,也能提取較為完全的輪廓信息。另外,其對(duì)于傾斜、筆畫變粗變細(xì)均無(wú)良好的適應(yīng)能力。 圖 32 最小距離分類 器系統(tǒng)圖 b. 最鄰近分類 最鄰近法的思想是對(duì)于 C 個(gè)類別 ωi ( i = 1 , 2 ?, C) ,每類有標(biāo)明類別的樣本 Ni 個(gè) ( i = 1 , 2 , ?,C) 。結(jié)構(gòu)模式識(shí)別方法的 主要優(yōu)點(diǎn)在于對(duì)字體變化的適應(yīng)性強(qiáng) ,區(qū)分相似字能力強(qiáng) ; 缺點(diǎn)是抗干擾能力差 ,從漢字圖像中精確的抽取基元、輪廓、特征點(diǎn)比較困難 ,匹配過(guò)程復(fù)雜。 印刷體漢字識(shí)別技術(shù)分析 結(jié)構(gòu)模式識(shí)別方法 漢字的數(shù)量巨大,結(jié)構(gòu)復(fù)雜,但其特殊的組成結(jié)構(gòu)中蘊(yùn)藏著相當(dāng)嚴(yán)的規(guī)律 [14]。所以利用語(yǔ)義句法的方法,在初級(jí)識(shí)別結(jié)果的基礎(chǔ)上,在利用詞法分析進(jìn)行匹配之后或匹配 的同時(shí),再進(jìn)行句法分析和語(yǔ)義分析,從而確定要識(shí)別的漢字。 ( 3) 詞法分析 語(yǔ)言是語(yǔ)音和意義的結(jié)合體。該數(shù)據(jù)庫(kù)應(yīng)具印刷體漢字識(shí)別系統(tǒng)的特征提取和匹配識(shí)別研究有完善的詞條存儲(chǔ)、維修功能,應(yīng)該能 夠反映不同詞的使用頻度,應(yīng)盡可能的提高詞條的檢索速度,只有這樣 才能方便漢字后處理程序的使用。其主要缺點(diǎn)是運(yùn)算量較大,識(shí)別中往往需要增加預(yù)分類環(huán)節(jié)以減小運(yùn)算量。 ( 3) 松弛匹配 無(wú)論是相關(guān)匹配還是文法分析,都要求輸入特征向量和模板特征向量的各分量之間具有確切的對(duì)應(yīng)關(guān)系,然而在結(jié)構(gòu)分析中,往往事先難以確定兩者各分量間的對(duì)應(yīng)關(guān)系,此時(shí)可以采用松弛匹配法。即: ( , ) 1[ | |]nd x s jjj xs? ? ?? ( 35) ②歐氏距離 S階 Minkowski 度量中,令 s=2,得到歐氏距離。 漢字的分類識(shí)別 識(shí)別算法是整個(gè)識(shí)別過(guò)程的核心部分。 ③特征點(diǎn) 特征點(diǎn)提取算法的主要思想是利用字符點(diǎn)陣中一些有代表性的 黑點(diǎn) ( 筆畫 ) 、白點(diǎn) ( 背景 ) 作為特征來(lái)區(qū)分不同的字符。這種方法利用彈性吸收漢字的變形,一個(gè)字只用一個(gè)樣本。例如,漢字特征點(diǎn)特征算法本身是一種比較簡(jiǎn)單、完善的特征提取算法。 針對(duì)文字圖像的細(xì)化算法已有很多,它的優(yōu)劣對(duì)系統(tǒng)的識(shí)別效果影響很大。 ( 6) 平滑 對(duì)數(shù)字圖像進(jìn)行平滑,目的是去處孤立的噪聲干擾,以平滑筆畫邊緣。典型的算法是,在確定這一行的行上界和行下界之后,從左到右搜索一行文字的左右邊界,切分出單字或標(biāo)點(diǎn)符號(hào)。目前,傾斜角檢測(cè)的方法有許多種,主要可分為 5 類:基于 Hough 變換的方法;基于交叉相關(guān)性的方法;基于投影的方法 ; 基于 Fourier 變換的方法和 K最近鄰簇方法。 ( 2) 二值化 將一幅具有多種灰度值的圖像變成白黑分布的二值圖像的工作稱為二值化處理,二值化的主要目的是將漢字從圖像中分離出來(lái)。匹配識(shí)別技術(shù)涉及到分類器的設(shè)計(jì)等重要問(wèn)題,這也是非常 9 重要的一個(gè)環(huán)節(jié)。但印刷體漢字識(shí)別系統(tǒng)的研究還要解決好實(shí)用漢字識(shí)別系統(tǒng)所必須解決的一些問(wèn)題,如版面的自動(dòng)分析、行字切分、人機(jī)界面和良好的應(yīng)用環(huán)境等等。 ( 2) 第二階段是 90 年代初期,中文 OCR 由實(shí)驗(yàn)室走向市場(chǎng),初步實(shí)用。 70 年代以來(lái),日本學(xué)者做了許多工作,其中有代表性的系統(tǒng)有 1977 年?yáng)|芝綜合研究所研制的可以識(shí)別 2020 個(gè)漢字的單體印刷漢字識(shí)別系 統(tǒng); 80 年代初期,日本武藏野電氣研究所研制的可以識(shí)別 2300 個(gè)多體漢字的印刷體漢字識(shí)別系統(tǒng) , 代表了當(dāng)時(shí)漢字識(shí)別的最高水平。這個(gè)相似字區(qū)分的問(wèn)題往往出現(xiàn)在漢字識(shí)別系 統(tǒng)的最后一級(jí),也是至關(guān)重要的一級(jí)。另外,印刷體漢字同一個(gè)字的不同字體即使拓?fù)浣Y(jié)構(gòu)大致相同,但字形點(diǎn)陣還是有很大差別。為了提高識(shí)別速度而采取一些措施之后,又可能會(huì)導(dǎo)致識(shí)別率的降低。這也使得漢字識(shí)別難度遠(yuǎn)遠(yuǎn)大于其它語(yǔ)言文字識(shí)別。若用 ( 、 ) 表示 部件的界符, 用↓ 、→、分別表示部件筆劃間的上下、左右、交叉關(guān)系,則可以把“葉”字表示為符號(hào)串 ( |→ ↓ 一 ) → ( 一 |) 。這些就使得判別方法和準(zhǔn)則有不同,乃至形成多種不同形式的漢字識(shí)別方法。因此,如何確定表達(dá)待識(shí)別漢字模式的最佳特征 ( 組合優(yōu)化特征 ) ,如何進(jìn)行特征匹配,從而進(jìn)行高效、快速的識(shí)別,是漢字識(shí)別技術(shù)的關(guān)鍵所在。 第二章 漢字識(shí)別技術(shù) 漢字識(shí)別概述 漢字識(shí)別( CCR: Chinese Character Recognition)是用電子計(jì)算機(jī)自動(dòng)辨識(shí)印刷在紙上和人寫在紙 ( 或者介質(zhì) ) 上的漢字。所謂特征點(diǎn),是指反映漢字形體特征整體分布狀況的關(guān)鍵點(diǎn)集,即構(gòu)成漢字筆劃骨架線的端點(diǎn)、折點(diǎn)、交點(diǎn)等。因此,漢字識(shí)別技術(shù)也越來(lái)越受到人們的重視。 Matlab Simulation 第一章 緒論 漢字識(shí)別研究的意義 漢字已有數(shù)千年的歷史,是中華民族文化的重要結(jié)晶,閃爍著中國(guó)人民智慧的光芒。本文首先就漢字識(shí)別研究的意義及背景作了綜述。 關(guān)鍵詞: 印刷體漢字識(shí)別 特征提取 匹配識(shí)別 統(tǒng)計(jì)模式識(shí)別 Matlab 仿真 ABSTRACT Chinese character recognition technology is a kind of automatic highspeed, information input method, bee the important functions of the puter interface, 2 still can as office automation, the press and publishing, machine translation, etc, the ideal input has wide application prospects. The aim of Chinese character recognition is to make the Chinese input more natural and convenient so that the puter could process Chinese information more easily. In practice, large volume of letters, newspaper, magazines need to be covered into a coded representation of the input characters. That39。然而,漢字是非字母化、非拼音化的文字,因此,如何將漢字快速高效地輸入計(jì)算機(jī),是信息處理的一個(gè)關(guān)鍵問(wèn)題 [1],也是關(guān)系到計(jì)算機(jī)技術(shù)能否在我國(guó)真正普及的關(guān)鍵問(wèn)題,更是傳播與弘揚(yáng)中華民族悠久歷史文化的關(guān)鍵問(wèn)題。漢字識(shí)別是一門多學(xué)科綜合的研究課題,它不僅與人工智能的研究有關(guān),而且與數(shù)字信號(hào)處理、圖像處理、信息論、計(jì)算機(jī) 科學(xué)、幾何學(xué)、統(tǒng)計(jì)學(xué)、語(yǔ)言學(xué)、生物學(xué)、模糊數(shù)學(xué)、決策論等都有著千絲萬(wàn)縷的聯(lián)系。當(dāng)前,印刷體漢字特征點(diǎn)的識(shí)別效率還有進(jìn)一步改進(jìn)的空間。它涉及到模式識(shí)別和圖像處理、人工智能、形式語(yǔ)言 學(xué) 、模糊數(shù)學(xué)等眾多學(xué)科,是一 門綜合性的技術(shù)。預(yù)處理的內(nèi)容和要求取決于識(shí)別方法,一般包括行、字切分,二值化, 細(xì)化或抽取輪廓,平滑,規(guī)范化等等。字典的每類標(biāo)準(zhǔn)模板也不是一個(gè),而是一批 ; 判別輸入文字屬于哪一類時(shí),也不是只把它的特征向量和字典內(nèi)標(biāo)準(zhǔn)特征向量逐一簡(jiǎn)單比較從而得到完全相同的結(jié)果才能分類識(shí)別,而是根據(jù)某種判別準(zhǔn)則,相似到一定程度而且彼此又能區(qū)分時(shí)就可以分類識(shí)別。上例中,各筆劃以及↓、→、都是基元,基元根據(jù)一定規(guī)律組合成模式。其中常用漢字有 3000 至 4000 個(gè)之多。它的構(gòu)成方法主要有三種:象形法、會(huì)意法和形聲法。手寫體有楷體、行書(shū)和草書(shū)三類,但其自由發(fā)揮度很大,以致識(shí)別難度更大。印刷體文字的識(shí)別可以說(shuō)很早就成為人們的夢(mèng)想,早在 1929 年, Taushek 就在德國(guó)獲得了一項(xiàng)有關(guān) OCR 的專利 [4]。 我國(guó)對(duì)印刷體漢字識(shí)別的研究始于 70 年代末 80 年代初。 ( 3) 第三階段也就是目前,主要是印刷體漢字識(shí) 別 技術(shù)和系統(tǒng)性能的提高,包括漢英雙語(yǔ)混排識(shí)別率的提高和穩(wěn)定性的增強(qiáng)。印刷體漢字識(shí)別從識(shí)別字體上 可分為單體印刷體漢字識(shí)別 ( printed character recognition) 與多體印刷體漢字識(shí)別 ( multiple printed character recognition) ;手寫體漢字識(shí)別根據(jù)實(shí)時(shí)性又可以分為聯(lián)機(jī)手寫體識(shí)別 ( on line handwritten character recognition) 和脫機(jī)手寫體識(shí)別 ( off line handwritten character recognit
點(diǎn)擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1