freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

印刷體漢字識(shí)別方法的研究畢業(yè)設(shè)計(jì)論文(文件)

2024-12-27 20:49 上一頁面

下一頁面
 

【正文】 、細(xì)分、判別、包括預(yù)處理合在一起成為識(shí)別,把多級(jí)分類中的前 n級(jí)稱為粗分類,把最后一級(jí)粗分類后類中 19 文字的區(qū)分稱為細(xì)分類。 4.粗分類特征要簡(jiǎn)單,使分類字典容量小。取標(biāo)準(zhǔn)漢字,對(duì)每一個(gè)漢字計(jì)算面積。系統(tǒng)共包括 5個(gè)子功能模塊(見圖 41)。 系統(tǒng)的仿真 此次采用 MATLAB 進(jìn)行系統(tǒng)仿真( Matlab 仿真程序見附錄 1),其中學(xué)習(xí)功能使用 sim函數(shù)實(shí)現(xiàn),特征提取用十三點(diǎn)特征提取法??梢缘玫?4 個(gè)特征。 圖 43 標(biāo)準(zhǔn)圖像 21 圖 44 標(biāo)準(zhǔn)圖像轉(zhuǎn)灰度圖像 圖 45 標(biāo)準(zhǔn)圖像均值濾波圖像 圖 46 標(biāo)準(zhǔn)圖像二值化圖像 圖 47 標(biāo)準(zhǔn)圖像識(shí)別結(jié)果 通過對(duì)標(biāo)準(zhǔn)圖像識(shí)別學(xué)習(xí)訓(xùn)練,然后對(duì)輸入亂序圖像(見圖 48)進(jìn)行識(shí)別,過程中轉(zhuǎn)灰度 (見圖 49),均值濾波 (見圖 410),二值化 (見圖 411),識(shí)別結(jié)果(見圖 412)。但由于系統(tǒng)比較簡(jiǎn)單,實(shí)現(xiàn)的功能也比較單一,要想實(shí)現(xiàn)較完備功能還需進(jìn)一步完善。印刷體漢字識(shí)別是以前未接觸過的領(lǐng)域,但通過學(xué)習(xí)有了新的認(rèn)識(shí),并能初步實(shí)現(xiàn)簡(jiǎn)單的漢字識(shí)別,從中受益匪淺?,F(xiàn)在的識(shí)別方法也開始在識(shí)別后處理上進(jìn)行研究,結(jié)合語義理解的后處理技術(shù)與識(shí)別前的預(yù)處理相對(duì),可以對(duì)識(shí)別的結(jié)果進(jìn)行后期處理,提高識(shí)別的正確率。隨著識(shí)別方法的不斷優(yōu)化和后處理技術(shù)的不斷成熟,將兩者結(jié)合起來會(huì)成為將來識(shí)別的方向。在印刷質(zhì)量差的情況下 ,系統(tǒng)誤識(shí)率較高 。 25 參考文獻(xiàn) [1] 吳佑壽,丁曉青.漢字識(shí)別 [M].北京:高等教育山版社, 1992. [2] 邊肇琪,張學(xué)工.模式識(shí)別 [M].北京:清華大學(xué)出版社, 2020. [3] 梁涌.印刷體漢字識(shí)別系統(tǒng)的研究與實(shí)現(xiàn): (碩士學(xué)位論文).西安:西北工業(yè)大學(xué), 2020. [4] Mori K, LMasuda. Advances in Recognition of Chinese characters[J], Proc. Of 5th Inten. conf. on Pattern Recognition, 1980: 692— 720. [5] Whilchello A P, Yan H. Linking broken character borders with variable sized marks to improve recognition[M]. Pattern Recognition, 1996, 29( 8) : 1429— 1433. [6] 張忻中.中國(guó)漢字識(shí)別技術(shù)綜述 [M], Intern. Con. on puter processing of Chinese and oriental Language, April 25— 28, 1990。)。,3),I)/255。s=sum(d39。c=1 [m, n]=size(d39。 while s(j)~=m amp。 d=d((k1:k2),:)。s=sum(d)。 end k1=j。 end k2=j1。)。 y = sim(,P_test)。)。)。)。)。)。)。)。)。)。)。)。)。)。)。)。)。)。)。)。)。)。)。)。)。)。)。)。)。)。 imwrite(b16,39。 P_test = [t15]。 imwrite(b15,39。 P_test = [t14]。 imwrite(b14,39。 P_test = [t13]。 imwrite(b13,39。 P_test = [t12]。 imwrite(b12,39。 P_test = [t11]。 imwrite(b11,39。 P_test = [t10]。 imwrite(b10,39。 P_test = [t9]。 imwrite(b9,39。 P_test = [t8]。 imwrite(b8,39。 P_test = [t7]。 imwrite(b7,39。 P_test = [t6]。 imwrite(b6,39。 P_test = [t5]。 imwrite(b5,39。 P_test = [t4]。 imwrite(b4,39。 P_test = [t3]。 imwrite(b3,39。 %用十三點(diǎn)特征提取法提取特征 P_test = [t2]。 imwrite(b2,39。 P_test = [t139。 imwrite(b1,39。amp。a=1。 k1=1。 j=n1 j=j+1。 while s(j)==m j=j+1。j=2。 %二值 k1=1。 %轉(zhuǎn)灰度圖象 B1=filter2(fspecial(39。 G=imread(39。版面復(fù)雜的印刷文本的自動(dòng)理解需要進(jìn)一步提高。從簡(jiǎn)單的單體識(shí)別發(fā)展到多種字體多字號(hào)的混排識(shí)別 ,從中文印刷材料的識(shí)別發(fā)展到中英混排印刷材料的雙語識(shí)別。依據(jù)對(duì)語言文字的統(tǒng)計(jì)信息。 展望 近幾年來國(guó)內(nèi)對(duì)印刷體文字識(shí)別的研究還是相當(dāng)深人地,也取得了很大成 24 績(jī),使系統(tǒng)的識(shí)別率不斷上升。本文 介紹了印刷體漢字識(shí)別的目的、意義、背景;對(duì)其基本原理做了描述;并對(duì)印刷體漢字識(shí)別過程中預(yù)處理、 特征提取、匹配識(shí)別和后處理的常用方法進(jìn)行了介紹;最后利用 Matlab軟件對(duì)其進(jìn)行了仿真。然后,輸入亂序圖像在經(jīng)過轉(zhuǎn)灰度,均值濾波,二值化,特征提取,匹配識(shí)別后,系統(tǒng)能夠?qū)y序圖像中的圖像識(shí)別輸出。十三點(diǎn)特征提取法有著極好的適應(yīng)性,但是由于特征點(diǎn)的數(shù)目太少所以在樣本訓(xùn)練的時(shí)候比較難收斂。 十三點(diǎn)特征提取法: 首先把字符平均分成 8 份,統(tǒng)計(jì)每一份內(nèi)黑色像素點(diǎn)的個(gè)數(shù)作為 8 個(gè)特征,然后統(tǒng)計(jì)水平方向中間兩列和豎直方向中間兩列的黑色像素點(diǎn)的個(gè)數(shù)作為 4 個(gè)特征,最后統(tǒng)計(jì)所 有 黑色像素點(diǎn)的個(gè)數(shù)作為第 13個(gè)特征。送人圖像處理模塊,經(jīng)二值化轉(zhuǎn)灰度,均值濾波,二值化,行字切分等圖像預(yù)處理操作后。對(duì)神經(jīng)網(wǎng)絡(luò)設(shè)置其初始權(quán)值,選取大量標(biāo)準(zhǔn)漢字訓(xùn)練網(wǎng)絡(luò),反復(fù)修改權(quán)值,直至與面積序號(hào)對(duì)應(yīng)的輸出為有效,并建立每一輸出與面積特征庫(kù)之間的連接關(guān)系。 第四章 系統(tǒng)的實(shí)現(xiàn)與仿真 系統(tǒng)的實(shí)現(xiàn) 印刷品上的漢字輸入,經(jīng)過預(yù)處理后,對(duì)照標(biāo)準(zhǔn)漢字修補(bǔ)缺損部分,用修補(bǔ)后的漢字進(jìn)行學(xué)習(xí),形成初始的特征庫(kù)后再進(jìn)行 大量樣本的學(xué)習(xí),建立實(shí)用的特征庫(kù)。 2.粗分類的速度要快。所以,漢字識(shí)別 一 般都采用一級(jí)或多級(jí)粗分類 ( Gross classification) 再細(xì)分判別 ( Fine classification) ,從而人人提高識(shí)別速度。 隨著漢字識(shí)別技術(shù)的發(fā)展,已經(jīng)有越來越多的統(tǒng)計(jì)特征出現(xiàn)。一 旦確定這些筆畫特征點(diǎn),漢字筆畫以及結(jié)構(gòu)形狀就可以確定。這些特征都是以筆畫方向貢獻(xiàn) ( Direction Contribution) 為基礎(chǔ)。但這些變換如果沒有合適的處理,都多少存在缺陷。 常用的漢字統(tǒng)計(jì)模式識(shí)別方法包括 [15]: ( 1) 模板匹配 模板匹配是將漢字的圖像直接作為特征,將之與特征庫(kù)中的漢字圖像逐一比較,相似度最高的漢字即為待選漢字。其中 kix 的角標(biāo) i 表示 ωi類, k 表示 ωi 類 Ni 個(gè)樣本中的第 k 個(gè)。 a. 最小距離分類 最小距離分類器 ( Minimum Distance Classifier) 是以漢字與特征空間模型點(diǎn)之間的距離作為分類準(zhǔn)則,它有著圖 32所描述的結(jié)構(gòu)。也有些學(xué)者采用抽取漢字圖像中關(guān)鍵特征點(diǎn)來描述漢字 ,但是特征點(diǎn)的抽取易受噪聲點(diǎn)、筆畫的粘連與斷裂等影響。其思想是直接從字符的輪廓或骨架上提取的字符像素分布特征,如筆畫、圈、端點(diǎn)、節(jié)點(diǎn)、弧、突起、凹陷等多個(gè)基元組合,再用結(jié)構(gòu)方法描述基元組合所代表的結(jié)構(gòu)和關(guān)系。從部件上講,部件是有特殊的筆畫組合而成,故部件也是一定的。另一種方法是把識(shí)別過程和后處理過程綜合在一起,初級(jí)識(shí)別給出的結(jié)果是每 一個(gè)待識(shí)漢字的前幾個(gè)候選字和每一候選字與待識(shí)字之間的相似度。這時(shí)詞條庫(kù)中的每一個(gè)詞條項(xiàng),還要包括該詞的句法信息和語義信息。該數(shù)據(jù)庫(kù)中的每一個(gè)詞條項(xiàng)都要包括本詞條的詞性、詞頻、連接屬性、語義信息等。無論是詞還是短語,都有其構(gòu)成規(guī)則 , 利用這些規(guī)則,將它們分類。 在不利用待選集時(shí),對(duì)于有可能識(shí)別出錯(cuò)的地方,只能采用拒識(shí),而拒識(shí)不提供任何未知漢字與已知漢字字符集中漢字相似度的信息,所以尋找詞條時(shí)的搜索空間只能是整個(gè)詞條庫(kù)。這種方法實(shí)際上己把識(shí)別過程和后處理過程融為一體了。以下對(duì)各種常用的后處理方法做簡(jiǎn)單的介紹。 ( 4)人工神經(jīng)網(wǎng)絡(luò) 漢字識(shí)別是一個(gè)非?;钴S的分支,不斷有新的方法涌現(xiàn)出來,為漢字識(shí)別的研究注入新的活力,其中基于人工神經(jīng)網(wǎng)絡(luò)的識(shí)別方法是非常引人注目的方向。由于它是根據(jù)總體的匹配程度來決定識(shí)別結(jié)果的,所以這一點(diǎn)它類似于統(tǒng)計(jì)方法,同時(shí)它在迭代中還把基元間位置關(guān)系等結(jié)構(gòu)信息考慮在內(nèi),這一點(diǎn)又很像結(jié)構(gòu)方法。迭代開始之前,首先根據(jù)輸入向量各分量與模板向量各分量之間的相似度構(gòu)成一個(gè)初始權(quán)值矩陣。 ( 2) 文法分析 文法分析的基本思想是將輸入的漢字看作是一個(gè)語句或符號(hào)串,將識(shí)別問題轉(zhuǎn)化為判斷輸入的語句是否屬于某種語言,即句子是否符合某種語言的語法約束條件,這種方法在漢字識(shí)別中也得到了應(yīng)用。 另一個(gè)描述輸入向量與模板間關(guān) 系的度量是相似度,最簡(jiǎn)單的相似度定義為二者方向夾角的余弦 S,即: ( , ) xsS x s xs? ( 38) 與距離一樣,相似度也可以加權(quán),得到加權(quán)相似度: 1( , ) | || |ni i jis x sxsw x s?? ? ( 39) 其中, Wi為權(quán)值,且1 1njj w? ??, 當(dāng)一個(gè)類別有多個(gè)模板時(shí),還可以使用多重相似度: 14 ( , ) ( ) | || |iiis x s i xsxsp? ? ( 310) 其中, Si是 S 類中的一個(gè)模板。距離度量的定義: 設(shè) X, S 分別為輸入特征向量和模板特征向量, n為特征維數(shù)。識(shí)別的過程 13 包括根據(jù)識(shí)別算法選擇和提取漢字的特征、與標(biāo)準(zhǔn) 文字的特征進(jìn)行匹配判別。 當(dāng)然,漢字的特征多種多樣,各有各的優(yōu)點(diǎn)、短處和不同的適用范圍。其特點(diǎn)是能夠大大壓縮特征庫(kù)的容量,對(duì)于內(nèi)部筆畫粘連字符,其識(shí)別的適應(yīng)性較強(qiáng)、直觀性好,但不易表示為矢量形式,匹配難度大,不適合作為粗分類的特征。 ②四邊碼 ( Fourside Code) 四邊碼是在漢字點(diǎn)陣圖的四周各取一條帶,計(jì)算其中的文字圖像素點(diǎn)數(shù),并將它分成四級(jí),構(gòu)成一個(gè)四元組。 ③非線性匹配法 非線性匹配法是由 Tsukumo 等提出的,用以解決字形的位移、筆畫的變形等現(xiàn)象。 ( 1) 結(jié)構(gòu)特征 ①抽取筆畫法 抽取筆畫法是利用漢字由筆畫所構(gòu)成的特點(diǎn)進(jìn)行識(shí)別,它利用漢字的結(jié)構(gòu)信息來進(jìn)行漢字的聯(lián)機(jī)識(shí)別,在印刷體和脫機(jī)手寫識(shí)別中,由于筆畫提取的困難,結(jié)果不是很理想。針對(duì)不同的系統(tǒng)需求,應(yīng)該選擇不同的漢字特征,進(jìn)行優(yōu)化特征組合,這樣才能達(dá)到系統(tǒng)最佳識(shí)別效果。對(duì)于漢字,其特征大致分為兩類,包括結(jié)構(gòu)特征和統(tǒng)計(jì)特征,至今總數(shù)已經(jīng)不下百種。針對(duì)各種不同的應(yīng)用,國(guó)內(nèi)外已發(fā)表了許多細(xì)化算法,如 Hilditch 經(jīng)典細(xì)化算法 [10]、 Deutsch 算法 [11]等。在細(xì)化處理過程中,一方面,去除的像素太少,則不能充分有效地減少圖像的信息量 ; 另一方面,去除的像素太多,特別是某些關(guān)鍵像素若被去除,則改變了原始圖像的主要特征。根據(jù)輔助矩陣中各像素 0、 1 的分布,使處于矩陣中心的被平滑的像素 X0 從“ 0”變成“ 1”或者從“ 1”變成“ O”。二是圖像縮放本身的運(yùn)算量較大。同理,當(dāng)出現(xiàn)連續(xù)一個(gè)漢字寬度的大累加和情況后突然出現(xiàn)一系列小累加和甚至零值時(shí),判定為該漢字的右邊界。同理,當(dāng)出現(xiàn)連續(xù)大約一個(gè)漢字高度的大累加和情況后突然出現(xiàn)一系列小累加和甚至零值時(shí),判定為行下界。 ( 4) 行字切分 漢字切分的目的是利用字與字之間、行與行之間的空隙,將單個(gè)漢字從整個(gè)圖像中分離出來。 ( 3) 傾斜校正 通過輸入設(shè)備獲得的圖像不可避免地會(huì)發(fā)生傾斜,這會(huì)給后面的行字 分割、文字識(shí)別等圖像處理與分析帶來困難,因此,在漢字識(shí)別系統(tǒng)中,傾斜校正是圖像預(yù)處理的重要部分。若閾值取的過大 , 則保留的信息過多,其中許多雜點(diǎn)無用信息造成了對(duì)以后處理的干擾;若閾值取得過小,則丟失的信息過多,其中許多文字信息產(chǎn)生續(xù)斷或丟失,造成最終文字提取分割的信息丟失。它是指對(duì)印刷體文檔圖像進(jìn)行分析,提取出文本、圖像圖形、表格等區(qū)域,并確定其邏輯關(guān)系,并將相應(yīng)的文本塊連接在一起。 預(yù)處理 由于用數(shù)碼相機(jī)或掃描儀作為輸入設(shè)備得到的數(shù)據(jù)不可避免地存在著各種外在的干擾,圖像質(zhì)量也有偏差 ,對(duì)識(shí)別效果有一定影響。預(yù)處理是在所有識(shí)別處理之前進(jìn)行的,它將從各種不
點(diǎn)擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1