freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

畢業(yè)論文-印刷體漢字識(shí)別方法的研究(參考版)

2025-01-19 21:58本頁(yè)面
  

【正文】 P_test = [t15]。)。 imwrite(b15,39。)。 P_test = [t14]。)。 imwrite(b14,39。)。 P_test = [t13]。)。 imwrite(b13,39。)。 P_test = [t12]。)。 imwrite(b12,39。)。 P_test = [t11]。)。 imwrite(b11,39。)。 P_test = [t10]。)。 imwrite(b10,39。)。 P_test = [t9]。)。 imwrite(b9,39。)。 P_test = [t8]。)。 imwrite(b8,39。)。 P_test = [t7]。)。 imwrite(b7,39。)。 P_test = [t6]。)。 imwrite(b6,39。)。 P_test = [t5]。)。 imwrite(b5,39。)。 P_test = [t4]。)。 imwrite(b4,39。)。 P_test = [t3]。)。 imwrite(b3,39。)。 %用十三點(diǎn)特征提取法提取特征 P_test = [t2]。)。 imwrite(b2,39。 y = sim(,P_test)。 P_test = [t139。)。 imwrite(b1,39。 end k2=j1。amp。 end k1=j。a=1。s=sum(d)。 k1=1。 d=d((k1:k2),:)。 j=n1 j=j+1。 while s(j)~=m amp。 while s(j)==m j=j+1。c=1 [m, n]=size(d39。j=2。s=sum(d39。 %二值 k1=1。,3),I)/255。 %轉(zhuǎn)灰度圖象 B1=filter2(fspecial(39。)。 G=imread(39。 25 參考文獻(xiàn) [1] 吳佑壽,丁曉青.漢字識(shí)別 [M].北京:高等教育山版社, 1992. [2] 邊肇琪,張學(xué)工.模式識(shí)別 [M].北京:清華大學(xué)出版社, 2022. [3] 梁涌.印刷體漢字識(shí)別系統(tǒng)的研究與實(shí)現(xiàn):(碩士學(xué)位論文).西安:西北工業(yè)大學(xué), 2022. [4] Mori K, LMasuda. Advances in Recognition of Chinese characters[J], Proc. Of 5th Inten. conf. on Pattern Recognition, 1980: 692— 720. [5] Whilchello A P, Yan H. Linking broken character borders with variable sized marks to improve recognition[M]. Pattern Recognition, 1996, 29( 8) : 1429— 1433. [6] 張忻中.中國(guó)漢字識(shí)別技術(shù)綜述 [M], Intern. Con. on puter processing of Chinese and oriental Language, April 25— 28, 1990。版面復(fù)雜的印刷文本的自動(dòng)理解需要進(jìn)一步提高。在印刷質(zhì)量差的情況下 ,系統(tǒng)誤識(shí)率較高 。從簡(jiǎn)單的單體識(shí)別發(fā)展到多種字體多字號(hào)的混排識(shí)別 ,從中文印刷材料的識(shí)別發(fā)展到中英混排印刷材料的雙語(yǔ)識(shí)別。隨著識(shí)別方法的不斷優(yōu)化和后處理技術(shù)的不斷成熟,將兩者結(jié)合起來(lái)會(huì)成為將來(lái)識(shí)別的方向。依據(jù)對(duì)語(yǔ)言文字的統(tǒng)計(jì)信息?,F(xiàn)在的識(shí)別方法也開(kāi)始在識(shí)別后處理上進(jìn)行研究,結(jié)合語(yǔ)義理解的后處理技術(shù)與識(shí)別前的預(yù)處理相對(duì),可以對(duì)識(shí)別的結(jié)果進(jìn)行后期處理,提高識(shí)別的正確率。 展望 近幾年來(lái)國(guó)內(nèi)對(duì)印刷體文字識(shí)別的研究還是相當(dāng)深人地,也取得了很大成 24 績(jī),使系統(tǒng)的識(shí)別率不斷上升。印刷體漢字識(shí)別是以前未接觸過(guò)的領(lǐng)域,但通過(guò)學(xué)習(xí)有了新的認(rèn)識(shí),并能初步實(shí)現(xiàn)簡(jiǎn)單的漢字識(shí)別,從中受益匪 淺。本文 介紹了印刷體漢字識(shí)別的目的、意義、背景;對(duì)其基本原理做了描述;并對(duì)印刷體漢字識(shí)別過(guò)程中預(yù)處理、 特征提取、匹配識(shí)別和后處理的常用方法進(jìn)行了介紹;最后利用 Matlab軟件對(duì)其進(jìn)行了仿真。但由于系統(tǒng)比較簡(jiǎn)單,實(shí)現(xiàn)的功能也比較單一,要想實(shí)現(xiàn)較完備功能還需進(jìn)一步完善。然后,輸入亂序圖像在經(jīng)過(guò)轉(zhuǎn)灰度,均值濾波,二值化,特征提取,匹配識(shí)別后,系統(tǒng)能夠?qū)y序圖像中的圖像識(shí)別輸出。 圖 43 標(biāo)準(zhǔn)圖像 21 圖 44 標(biāo)準(zhǔn)圖像轉(zhuǎn)灰度圖像 圖 45 標(biāo)準(zhǔn)圖像均值濾波圖像 圖 46 標(biāo)準(zhǔn)圖像二值化圖像 圖 47 標(biāo)準(zhǔn)圖像識(shí)別結(jié)果 通過(guò)對(duì)標(biāo)準(zhǔn)圖像識(shí)別學(xué)習(xí)訓(xùn)練,然后對(duì)輸入亂序圖像(見(jiàn)圖 48)進(jìn)行識(shí)別,過(guò)程中轉(zhuǎn)灰度 (見(jiàn)圖 49),均值濾波 (見(jiàn)圖 410),二值化 (見(jiàn)圖 411),識(shí)別結(jié)果(見(jiàn)圖 412)。十三點(diǎn)特征提取法有著極好的適應(yīng)性,但是由于特征點(diǎn)的數(shù)目太少所以在樣本訓(xùn)練的時(shí)候比較難收斂??梢缘玫?4個(gè)特征。 十三點(diǎn)特征提取法: 首先把字符平均分成 8 份,統(tǒng)計(jì)每一份內(nèi)黑色像素點(diǎn) 的個(gè)數(shù)作為 8 個(gè)特征,然后統(tǒng)計(jì)水平方向中間兩列和豎直方向中間兩列的黑色像素點(diǎn)的個(gè)數(shù)作為 4 個(gè)特征,最后統(tǒng)計(jì)所 有 黑色像素點(diǎn)的個(gè)數(shù)作為第 13個(gè)特征。 系統(tǒng)的仿真 此次采用 MATLAB 進(jìn)行系統(tǒng)仿真( Matlab 仿真程序見(jiàn)附錄 1),其中學(xué)習(xí)功能使用 sim 函數(shù)實(shí)現(xiàn),特征提取用十三點(diǎn)特征提取法。送人圖像處理模塊,經(jīng)二值化轉(zhuǎn)灰度,均值濾波,二值化,行字切分等圖像預(yù)處理操作后。系統(tǒng)共包括 5個(gè)子功能模塊(見(jiàn)圖 41)。對(duì)神經(jīng)網(wǎng)絡(luò)設(shè)置其初始權(quán)值,選取大量標(biāo)準(zhǔn)漢字訓(xùn)練網(wǎng)絡(luò),反復(fù)修改權(quán)值,直至與面積序號(hào)對(duì)應(yīng)的輸出為有效,并建立每一輸出與面積特征庫(kù)之間的連接關(guān)系。取標(biāo)準(zhǔn)漢字,對(duì)每一個(gè)漢字計(jì)算面積。 第四章 系統(tǒng)的實(shí)現(xiàn)與仿真 系統(tǒng)的實(shí)現(xiàn) 印刷品上的漢字輸入,經(jīng)過(guò)預(yù)處理后,對(duì)照標(biāo)準(zhǔn)漢字修補(bǔ)缺損部分,用修補(bǔ)后的漢字進(jìn)行學(xué)習(xí),形成初始的特征庫(kù)后再進(jìn)行大量樣本的學(xué)習(xí),建立實(shí)用的特征庫(kù)。 4.粗分類(lèi)特征要簡(jiǎn)單,使分類(lèi)字典容量小。 2.粗分類(lèi)的速度要快。 一般認(rèn)為,多級(jí)分類(lèi)漢字識(shí)別中,把各級(jí)粗分、細(xì)分、判別、包括預(yù)處理合在一起成為識(shí)別,把多級(jí)分類(lèi)中的前 n級(jí)稱(chēng)為粗分類(lèi) ,把最后一級(jí)粗分類(lèi)后類(lèi)中 19 文字的區(qū)分稱(chēng)為細(xì)分類(lèi)。所以,漢字識(shí)別 一 般都采用一級(jí)或多級(jí)粗分類(lèi) ( Gross classification) 再細(xì)分判別 ( Fine classification) ,從而人人提高識(shí)別速度。 如表 11所示為統(tǒng)計(jì)方法和結(jié)構(gòu)方法特征比較: 表 11 統(tǒng)計(jì)方法和結(jié)構(gòu)方法特征比較 項(xiàng)目 方法 識(shí)別策略 判別方法 文字變形 變體 特征 提取 相似文 字區(qū)分 統(tǒng)計(jì)方法 向量維數(shù) 距離、 類(lèi)似度 適應(yīng)性差 容易 不易區(qū)分 結(jié)構(gòu)方法 分而治之 串行判決 適應(yīng)性好 不容易 容易區(qū)分 印刷體漢字識(shí)別的分類(lèi) 在進(jìn)行漢字識(shí)別時(shí),考慮到漢字?jǐn)?shù)目的龐大。 隨著漢字識(shí)別技術(shù)的發(fā)展,已經(jīng)有越來(lái)越多的統(tǒng)計(jì)特征出現(xiàn)。漢字特征點(diǎn)的提 取一般是基于漢字細(xì)化后的單像素圖像,而往往細(xì)化算法不能達(dá)到算法的要求,經(jīng)常有斷筆、非單層像素等情況,一點(diǎn)點(diǎn)變形或噪聲都會(huì)影響漢字特征點(diǎn)的提取。一旦確定這些筆畫(huà)特征點(diǎn),漢字筆畫(huà)以及結(jié)構(gòu)形狀就可以確定。漢字輪廓具有豐富的特征,即使在稍微傾斜或者筆畫(huà)粘連的情況,也能提取較為完全的輪廓信息。這些特征都是以筆畫(huà)方向貢獻(xiàn) ( Direction Contribution) 為基礎(chǔ)。 ( 3) 筆畫(huà)方向特征 筆畫(huà)方向的統(tǒng)計(jì)特征總共有 3 種:全局筆畫(huà)方向密度 GDCD,局部筆畫(huà)方向密度 LDCD 和周邊筆畫(huà)方向 PDC。但這些變換如果沒(méi)有合適的處理,都多少存在缺陷。另外,其對(duì)于傾斜、筆畫(huà)變粗變細(xì)均無(wú)良好的適應(yīng)能力。 常用的漢字統(tǒng)計(jì)模式識(shí)別方法包括 [15]: ( 1) 模板匹配 模板匹配是將漢字的圖像直接作為特征,將之與特征庫(kù)中的漢字圖像逐一比較,相似度最高的漢字即為 待選漢字。即對(duì)未知樣本 x,比較 x 與 N 個(gè)已知類(lèi)別的樣本之間的歐式距離并決策 x 與離它最近的樣本同類(lèi)。其中 kix 的角標(biāo) i 表示 ωi類(lèi), k 表示 ωi 類(lèi) Ni 個(gè)樣本中的第 k 個(gè)。 圖 32 最小距離分類(lèi)器系統(tǒng)圖 b. 最鄰近分類(lèi) 最鄰近法的思想是對(duì)于 C 個(gè)類(lèi)別 ωi ( i = 1 , 2 ?, C) ,每類(lèi)有標(biāo)明類(lèi)別的樣本 Ni 個(gè) ( i = 1 , 2 , ?,C) 。 a. 最小距離分類(lèi) 最小距離分類(lèi)器 ( Minimum Distance Classifier) 是以漢字與特征空間模型點(diǎn)之間的距離作為分類(lèi)準(zhǔn)則,它有著圖 32 所描述的結(jié)構(gòu)。 17 統(tǒng)計(jì)模式識(shí)別方法 統(tǒng)計(jì)模式識(shí)別方法是用概率統(tǒng)計(jì)模型提取待識(shí)別漢字的特征向量 ,然后根據(jù)決策函數(shù)進(jìn)行分類(lèi) ,識(shí)別就是判別待識(shí)漢字的特征向量屬于哪一類(lèi)。也有些學(xué)者采用抽取漢字圖像中關(guān)鍵特征點(diǎn)來(lái)描述漢字 ,但是特征點(diǎn)的抽取易受噪聲點(diǎn)、筆畫(huà)的粘連與斷裂等影響。結(jié)構(gòu)模式識(shí)別方法的主要優(yōu)點(diǎn)在于對(duì)字體變化的適應(yīng)性強(qiáng) ,區(qū)分相似字能力強(qiáng) ; 缺點(diǎn)是抗干擾能力差 ,從漢字圖像中精確的抽 取基元、輪廓、特征點(diǎn)比較困難 ,匹配過(guò)程復(fù)雜。其思想是直接從字符的輪廓或骨架上提取的字符像素分布特征,如筆畫(huà)、圈、端點(diǎn)、節(jié)點(diǎn)、弧、突起、凹陷等多個(gè)基元組合,再用結(jié)構(gòu)方法描述基元組合所代表的結(jié)構(gòu)和關(guān)系。這就是結(jié)構(gòu)模式識(shí)別。從部件上講,部件是有特殊的筆畫(huà)組合而成,故部件也是一定的。 印刷體漢字識(shí)別技術(shù)分析 結(jié)構(gòu)模式識(shí)別方法 漢字的數(shù)量巨大,結(jié)構(gòu)復(fù)雜,但其特殊的組成結(jié)構(gòu)中蘊(yùn)藏著相當(dāng)嚴(yán)的規(guī)律 [14]。另一種方法是把識(shí)別過(guò)程和后處理過(guò)程綜合在一起,初級(jí)識(shí)別給出的結(jié)果是每一個(gè)待識(shí)漢字的前幾個(gè)候選字和每一候選字與待識(shí)字之間的相似度。 ( 5) 人工神經(jīng)元網(wǎng)絡(luò) 利用人工神經(jīng)元網(wǎng)絡(luò)的漢字識(shí)別后處理可以采取兩種方式。這時(shí)詞條庫(kù)中的每一個(gè)詞條項(xiàng),還要包括該詞的句法信息和語(yǔ)義信息。所以利用語(yǔ)義句法的方法,在初級(jí)識(shí)別結(jié)果的基礎(chǔ)上,在利用詞法分析進(jìn)行匹配之后或匹配的同時(shí),再進(jìn)行句法分析和語(yǔ)義分析,從而確定要識(shí)別的漢字。該數(shù)據(jù)庫(kù)中的每一個(gè)詞條項(xiàng)都要包括本詞條的詞性、詞頻、連接屬性、語(yǔ)義信息等。 漢字識(shí)別后處理的詞法分析方法,就是在詞匹配的基礎(chǔ)上,對(duì)仍難以確定的漢字,找出這些漢字與前后漢字所能組成 的詞,然后通過(guò)詞法分析,確定一個(gè)能和該詞的前后詞組成“最佳”匹配的詞,從而確定要識(shí)別的漢字。無(wú)論是詞還是短語(yǔ),都有其構(gòu)成規(guī)則 , 利用這些規(guī)則,將它們分類(lèi)。 ( 3) 詞法分析 語(yǔ)言是語(yǔ)音和意義的結(jié)合體。 在不利用待選集時(shí),對(duì)于有 可能識(shí)別出錯(cuò)的地方,只能采用拒識(shí),而拒識(shí)不提供任何未知漢字與已知漢字字符集中漢字相似度的信息,所以尋找詞條時(shí)的搜索空間只能是整個(gè)詞條庫(kù)。綜合詞匹配法可以減少搜索詞條關(guān)系時(shí)的搜索空間,從而提高糾錯(cuò)速度。這種方法實(shí)際上己把識(shí)別過(guò)程和后處理過(guò)程融為一體了。該數(shù)據(jù)庫(kù)應(yīng)具印刷體漢字識(shí)別系統(tǒng)的特征提取和匹配識(shí)別研究有完善的詞條存儲(chǔ)、維修功能,應(yīng)該能 夠反 映不同詞的使用頻度,應(yīng)盡可能的提高詞條的檢索速度,只有這樣 才能方便漢字后處理程序的使用。以下對(duì)各種常用的后處理方法做簡(jiǎn)單的介紹。 后處理 后處理就 是利用相關(guān)算法對(duì)識(shí)別后的漢字文本或者初級(jí)識(shí)別結(jié)果做進(jìn)一步的處理,糾正誤識(shí)的漢字,給出拒識(shí)的漢字,確定模棱兩可的漢字。 ( 4)人工神經(jīng)網(wǎng)絡(luò) 漢字識(shí)別是一個(gè)非?;钴S的分支,不斷有新的方法涌現(xiàn)出來(lái),為漢字識(shí)別的研究注入新的活力,其中基于人工神經(jīng)網(wǎng)絡(luò)的識(shí)別方法是非常引人注目的方向。其主要缺點(diǎn)是運(yùn)算量較大,識(shí)別中往往需要增加預(yù)分類(lèi)環(huán)節(jié)以減小運(yùn)算量。由于它是根據(jù)總體的匹配程度來(lái)決定識(shí)別結(jié)果的,所以這一點(diǎn)它類(lèi)似于統(tǒng)計(jì)方法,同時(shí)它在迭代中還把基元間位置關(guān)系等結(jié)構(gòu)信息考慮在內(nèi),這一點(diǎn)又很像結(jié)構(gòu)方法。求出輸入量與每個(gè)模板間的距離,取其中距離最小的模板所代表的類(lèi)別為識(shí)別結(jié)果。迭代開(kāi)始之前,首先根據(jù)輸入向量各分量與模板向量各分量之間的相似度構(gòu)成一個(gè)初始權(quán)值矩陣。 ( 3) 松弛匹配 無(wú)論是相關(guān)匹配還是文法分析,都要求輸入特征向量和模板特征向量的各分量之間具有確切的對(duì)應(yīng)關(guān)系,然而在結(jié)構(gòu)分析中,往往事先難以確定兩者各分量間的對(duì)應(yīng)關(guān)系,此時(shí)可以采用松弛匹配法。 ( 2) 文法分析 文法分析的基本思想是將輸入的漢字看作是一個(gè)語(yǔ)句或符號(hào)串,將識(shí)別問(wèn)題轉(zhuǎn)化為判斷輸入的語(yǔ)句是否屬于某種語(yǔ)言,即句子是否符合某種語(yǔ)言的語(yǔ)法約束條件,這種方法在漢字識(shí)別中也得到了應(yīng)用。 相關(guān)匹配 是一種統(tǒng)計(jì)識(shí)別方法。 另一個(gè)描述輸入向量與模板間關(guān)系的度量是相似度,最簡(jiǎn)單的相似度定義為二者方向夾角的余弦 S,即: ( , ) xsS x s xs?
點(diǎn)擊復(fù)制文檔內(nèi)容
試題試卷相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1