freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

畢業(yè)論文-印刷體漢字識別方法的研究-文庫吧資料

2025-01-22 21:58本頁面
  

【正文】 ( 38) 與距離一樣,相似度也可以加權(quán),得到加權(quán)相似度: 1( , ) | || |ni i jis x sxsw x s?? ? ( 39) 其中, Wi為權(quán)值,且1 1njj w? ??, 當(dāng)一個(gè)類別有多個(gè)模板時(shí),還可以使用多重相似度: 14 ( , ) ( ) | || |iiis x s i xsxsp? ? ( 310) 其中, Si是 S類中的一個(gè)模板。即: ( , ) 1[ | |]nd x s jjj xs? ? ?? ( 35) ②歐氏距離 S階 Minkowski 度量中,令 s=2,得到歐氏距離。距離度量的定義: 設(shè) X, S分別為輸入特征向量和模板特征向量, n為特征維數(shù)。諸多分類方法各自有其優(yōu)缺點(diǎn)。識別的過程 13 包括根據(jù)識別算法選擇和提取漢字的特征、與標(biāo)準(zhǔn)文字的特征進(jìn)行匹配判別。 漢字的分類識別 識別算法是整個(gè)識別過程的核心部分。 當(dāng)然,漢字的特征多種多樣,各有各的優(yōu)點(diǎn)、短處和不同的適用范圍。利用筆段與筆段之間的關(guān)系組成特征對漢字進(jìn)行識別,受字體和字號的影響小,對于多體漢字的識別獲得了良好效果。其特點(diǎn)是能夠大大壓縮特征庫的容量,對于內(nèi)部筆畫粘連字符,其識別的適應(yīng)性較強(qiáng)、直觀性好,但不易表示為矢量形式,匹配難度大,不適合作為粗分類的特征。 ③特征點(diǎn) 特征點(diǎn)提取算法的主要思想是利用字符點(diǎn)陣中一些有代表性的黑點(diǎn) ( 筆畫 ) 、白點(diǎn) ( 背景 ) 作為特征來區(qū)分不同的字符。 ②四邊碼 ( Fourside Code) 四邊碼是在漢字點(diǎn)陣圖的四周各取一條帶,計(jì)算其中的文字圖像素點(diǎn)數(shù),并將它分成四級,構(gòu)成一個(gè)四元組。 ( 2) 統(tǒng)計(jì)特征 12 ①筆畫復(fù)雜性 ( Complexity Index) 筆畫復(fù)雜性指數(shù)是指文字筆畫的線段密度,其定義如下: yxxc L ?? ( 31) xyyc L ?? ( 32) 式 ( 31) 和 ( 32) 中 yc、yc一橫向和縱向的筆畫復(fù)雜性指數(shù); xL 、 yL 一橫向和縱向的文字線段總長度; x? 、 y? 一橫向和縱向質(zhì)心二次矩的平方根; xc 、 yc 分別反應(yīng)了橫向和縱向的筆畫復(fù)雜性,橫多的 xc 大,豎多的 yc 大。 ③非線性匹配法 非線性匹配法是由 Tsukumo 等提出的,用以解決字形的位移、筆畫的變形等現(xiàn)象。這種方法利用彈性吸收漢字的變形,一個(gè)字只用一個(gè)樣本。 ( 1) 結(jié)構(gòu)特征 ①抽取筆畫法 抽取筆畫法是利用漢字由筆畫所構(gòu)成的特 點(diǎn)進(jìn)行識別,它利用漢字的結(jié)構(gòu)信息來進(jìn)行漢字的聯(lián)機(jī)識別,在印刷體和脫機(jī)手寫識別中,由于筆畫提取的困難,結(jié)果不是很理想。 要做到有的放矢,就需要研究已有的獲得良好效果的各種漢字特征,分析它們的優(yōu)點(diǎn)、缺點(diǎn)和適用環(huán)境。針對不同的系統(tǒng)需求,應(yīng)該選擇不同的漢字特征,進(jìn)行優(yōu)化特征組合,這樣才能達(dá)到系統(tǒng)最佳識別效果。例如,漢字特征點(diǎn)特征算法本身是一種比較簡單、完善的特征提取算法。對于漢字,其特征大致分為兩類,包括結(jié)構(gòu)特征和統(tǒng)計(jì)特征,至今總數(shù)已經(jīng)不下百種??梢哉f,這些問題依賴細(xì)化算法本身是無法克服的,需要在后續(xù)的處理中盡量消除這些畸變的干擾。針對各種不同的應(yīng)用,國內(nèi)外已發(fā)表了許多細(xì)化算法,如 Hilditch 經(jīng)典細(xì)化算法 [10]、 Deutsch 算法 [11]等。 針對文字圖像的細(xì)化算法已有很多,它的優(yōu)劣對系統(tǒng)的識別效果影響很大。在細(xì)化處理過程中,一方面,去除的像素太少,則不能充分有效地減少圖像的信息量 ; 另一方面,去除的像素太多,特別是某些關(guān)鍵像素若被去除,則改變了原始圖像的主要特征。細(xì)化處理的目的是搜索圖像的骨架,去除圖像上多余的像素,從而在不改變圖像主要特征的前提下,減少圖像的信息量。根據(jù)輔助矩陣中各像素 0、 1 的分布,使處于矩陣中心的被平滑的像素 X0 從“ 0”變成“ 1”或者從“ 1”變成“ O”。 ( 6) 平滑 對數(shù)字圖像進(jìn)行平滑,目的是去處孤立的噪聲干擾,以平滑筆畫邊緣。二是圖像縮放本身的運(yùn)算量較大。 ( 5) 歸一化 歸一化也稱規(guī)格化,它是把文字尺寸變換成統(tǒng)一大小,糾正文字位置 ( 平移 ) ,文字筆畫粗細(xì)變換等文字圖像的規(guī)格化處理,并只對文字圖像進(jìn)行投影。同理,當(dāng)出現(xiàn)連續(xù)一個(gè)漢字寬度的大累加和情況后突然出現(xiàn)一系列小累加和甚至零值時(shí),判定為該漢字的右邊界。典型的算法是,在確定這一行的行上界和行下界之后,從左到右搜索一行文字的左右邊界,切分出單字或標(biāo)點(diǎn)符號。同理,當(dāng)出現(xiàn)連續(xù)大約一個(gè)漢字高度的大累加和情況后突然出現(xiàn)一系列小累加和甚至零值時(shí),判定為行下界。 行切分是利用行與行之間的直線型空隙來分辨行,將各行的行上界和行下界記錄 下來。 ( 4) 行字切分 漢字切分的目的是利用字與字之間、行與行之間的空隙,將單個(gè)漢字從整個(gè)圖像中分離出來。目前,傾斜角檢測的方法有許多種,主要可分為 5 類:基于 Hough 變換的方法;基于交叉相關(guān)性的方法;基于投影的方法 ; 基于 Fourier 變換的方法和 K最近鄰簇方法。 ( 3) 傾斜校正 通過輸入設(shè)備獲得的圖像不可避免地會(huì)發(fā)生傾斜,這會(huì)給后面的行字分割、文字識別等圖像處理與分析帶來困難,因此,在漢 字識別系統(tǒng)中,傾斜校正是圖像預(yù)處理的重要部分?,F(xiàn)如今,漢字圖像二值化方法多種多樣,但大多都有應(yīng)用限制。若閾值取的過大 , 則保留的信息過多,其中許多雜點(diǎn)無用信息造成了對以后處理的干擾;若閾值取得過小,則丟失的信息過多,其中許多文字信息產(chǎn)生續(xù)斷或丟失,造成最終文字提取分割的信息丟失。 ( 2) 二值化 將一幅具有多種灰度值的圖像變成白黑分布的二值圖像的工作稱為二值化處理,二值化的主要目的是將漢字從圖像中分離出來。它是指對印刷體文檔圖像進(jìn)行分析,提取出文本、圖像圖形、表格等區(qū)域,并確定其邏輯關(guān)系,并將相應(yīng)的文本塊連接在一起。預(yù)處理 [8]通常包括去除噪聲、版面分析、二值化、傾斜校正、行列切分、平滑、歸一化、細(xì)化等。 預(yù)處理 由于用數(shù)碼相機(jī)或掃描儀作為輸入設(shè)備得到的數(shù)據(jù)不可避免地存在著各種外在的干擾,圖像質(zhì)量也有偏差 ,對識別效果有一定影響。匹配識別技術(shù)涉 及到分類器的設(shè)計(jì)等重要問題,這也是非常 9 重要的一個(gè)環(huán)節(jié)。預(yù)處理是在所有識別處理之前進(jìn)行的,它將從各種不同輸入方式獲得的漢字圖像中的干擾因素降到最低。 印刷體漢字識別的流程 [7]如圖 31所示: 圖 31 漢字識別流程框圖 印刷在紙張上的漢字 ,通過用掃描儀掃描或 者數(shù)碼相機(jī)拍攝等光學(xué)方式輸入后得到灰度圖像 ( Grayscale image) 或者二值圖像 ( Binary image) ,然后利用各種模式識別算法對漢字圖像進(jìn)行分析 ,提取漢字的特征 , 與標(biāo)準(zhǔn)漢字進(jìn)行匹配判別 ,從而達(dá)到識別漢字的目的。目前漢字識別技術(shù)按照識別的漢字不同可以分為印刷體漢字識別和手寫體漢字識別。但印刷體漢字識別系統(tǒng)的研究還要解決好實(shí)用漢字識別系統(tǒng)所必須解決的一些問題,如版面的自動(dòng)分析、行字切分、人機(jī)界面和良好的應(yīng)用環(huán)境等等。各個(gè)系統(tǒng)可以支持簡、繁體漢字的識別 ,解決了多體多字號混排文本的識別問題,對于簡單的版面可以進(jìn)行有效的定量分析。 8 同國外相比,我國的印刷體漢字識別研究起步較晚。而一個(gè)漢字識別系統(tǒng)能否通過這一嚴(yán)峻的考驗(yàn),并進(jìn)一步發(fā)展,取決于三個(gè)重要因素:第一該系統(tǒng)能否根掘社會(huì)的發(fā)展,用戶需求的變化,靈活地改進(jìn)或者增加系統(tǒng)功能,以適應(yīng)市場需求;第二該系統(tǒng)是否能在識別效率、識別速度和系統(tǒng)資源 三者之間協(xié)調(diào)好關(guān)系;第三該系統(tǒng)是否具有足夠高的抗噪性能,以適應(yīng)各種各樣的實(shí)際應(yīng)用壞境。 ( 2) 第二階段是 90 年代初期,中文 OCR 由實(shí)驗(yàn)室走向市場,初步實(shí)用。 這一階段是印刷漢字識別成果倍出的時(shí)期。大致可以分為三大階段 [6]: ( 1) 第一階段從 70年代末期到 80年代末期,主要是算法和方案探索。這些系統(tǒng)在方法上,大都采用基于數(shù)字變換的匹配方案,使用了大量專用硬件,其設(shè)備有的相當(dāng)于小型機(jī)甚至大型機(jī),價(jià)格極其昂貴,沒有得到廣泛應(yīng)用。 70 年代以來,日本學(xué)者做了許多工作,其中有代表性的系統(tǒng)有 1977年東芝綜合研究所研制的可以識別 2022個(gè)漢字的單體印刷漢字識別系統(tǒng); 80 年代初期,日本武藏野電氣研究所研制的可以識 別 2300個(gè)多體漢字的印刷體漢字識別系統(tǒng) , 代表了當(dāng)時(shí)漢字識別的最高水平。 1966 年, IBM 公司的 Casey和 Nagy 發(fā)表了第一篇關(guān)于印刷體漢字識別的論文 [5]。為了將多年以來印刷在紙上的浩如煙海、與日俱增的報(bào)刊雜志、文獻(xiàn)資料和單據(jù)報(bào)表等文字材料輸入計(jì)算機(jī)進(jìn)行信息處理,單靠人工擊鍵輸入,其速度利效率已遠(yuǎn)遠(yuǎn)不能滿足要求,這就迫切需要研制以印刷體漢字識別為核心的光 學(xué)漢字字符閱讀器 ( Optical Chinese Character Reader,簡稱 OCCR) ,使印刷體漢字可以高速自動(dòng)地輸入計(jì)算機(jī)。加上人們對信息社會(huì)發(fā)展的要求越來越高,文字識別技術(shù)的快速發(fā)展可想而知。這個(gè)相似字區(qū)分的問題往往出現(xiàn)在漢字識別系統(tǒng)的最后一級,也是至關(guān)重要的一級。這些相似字不僅在形狀上、構(gòu)造上相似,而且在筆畫上也相近。印刷體漢字的字號更是繁多,這給漢字歸一化帶來了一定的計(jì)算量,歸一化后也有可能使得漢字信息損失一部分,這給漢字識別也帶來了困難。對于手寫漢字,這種差別就更大。另外,印刷體漢字同一個(gè)字的不同字體即使拓?fù)浣Y(jié)構(gòu)大致相同,但字形點(diǎn)陣還是有很大差別。非字母化,不同于拼字母文字,與世界上常用的其它民族的文字相比,漢字的結(jié)構(gòu)是最為復(fù)雜的。不同的構(gòu)成方法,具備不同的構(gòu)字規(guī)律,這對采用統(tǒng)一標(biāo)準(zhǔn)處理如此大樣本的漢字集來既是一大困 難。 ( 2) 漢字結(jié)構(gòu)復(fù)雜 印刷體漢字識別系統(tǒng)的特征提取和匹配識別研究漢字是世界上結(jié)構(gòu)最為復(fù)雜的文字之一。為了提高識別速度而采取一些措施之后,又可能會(huì)導(dǎo)致識別率的降低。顯然,漢字 樣本數(shù)量眾多,這對一個(gè)系統(tǒng)來說是一種考驗(yàn)。第一級漢字使用頻度為 99. 7%,兩級漢字總使用頻度為 99. 99%。 ( 1) 漢字 量特別大,類別繁多 我國 1980年公布的國家標(biāo)準(zhǔn) GB2312. 80中第一級常用漢字共有 3755個(gè),第二級有 3008個(gè),兩級共有 6763個(gè)漢字。這也使得漢字識別難度遠(yuǎn)遠(yuǎn)大于其它語言文字識別。 漢字識別問題與困難 當(dāng)今許多漢字識別技術(shù)研究者想提升漢字識別系統(tǒng)的識別效果都遇到了一 6 些同樣的問題 [3]。這種對于一個(gè)模式 。組成一個(gè)模式的最簡單的而且不再分割的子模式叫做基元( Pattern primitive) 。若用 ( 、 ) 表示部件的界符, 用↓ 、→、分別表示部件筆劃間的上下、 左右、交叉關(guān)系,則可以把“葉”字表示為符號串 ( |→ ↓ 一 ) → ( 一 |) 。 2. 句法結(jié)構(gòu)的方法( syntactic structure method) 在漢字模式中,代表字形本質(zhì)特征的結(jié)構(gòu)信息很重要,研究這類結(jié)構(gòu)信息豐富的模式時(shí),可以用簡單的子模式 ( sub pattern)( 如筆劃 ) 構(gòu)成多級結(jié)構(gòu)來描述一個(gè)復(fù)雜模式 ( 如整個(gè)漢字 ) 。這些就需要用統(tǒng)計(jì)決策的概念、理論、方法來指導(dǎo),這就產(chǎn)生了漢字識別的統(tǒng)計(jì)決策方法。 1. 統(tǒng)計(jì)決策的方法 ( statistical decision method) 在漢字識別中,每個(gè)字的特征不是一維,而是一個(gè) m 維的特征向量 。這些就使得判別方法和準(zhǔn)則有不同,乃至形成多種不同形式的漢字識別方法。 漢字識別的一般方法 漢字的模式表達(dá)形式有多種,每種形式又可以選擇不同的特征。經(jīng)過預(yù)處理,漢字 模式成為規(guī)范化的二值數(shù)字點(diǎn)陣信息,其中“ l”部分反映了漢字筆劃部分,“ 0”部分是文字的空白背景。 圖 21 漢字識別原理框圖 5 漢字識別原理如圖 21所示:光電掃描器掃描紙上的文字,產(chǎn)生模擬電信號,經(jīng)模數(shù)轉(zhuǎn)器轉(zhuǎn)換為由灰度值表達(dá)的數(shù)字信號,并送至預(yù)處理環(huán)節(jié)。因此,如何確定表達(dá)待識別漢字模式的最佳特征 ( 組合優(yōu)化特征 ) ,如何進(jìn)行特征匹配,從而進(jìn)行高效、快速的識別,是漢字識別技術(shù)的關(guān)鍵所在。學(xué)習(xí)過程就是讓計(jì)算機(jī)通過樣本學(xué)習(xí)或訓(xùn)練提取出每個(gè)漢字的特征并存儲(chǔ)起來,作為標(biāo)準(zhǔn)特征庫,即模板庫。 漢字識別的原理 漢字識別的 基本思想是匹配判別。從學(xué)科上劃分.漢字識別屬于模式識別和人工智能的范疇。 第二章 漢字識別技術(shù) 漢字識別概述 漢字識別( CCR: Chinese Character Recognition)是用電子計(jì)算機(jī)自動(dòng)辨識印刷在紙上和人寫在紙 ( 或者介質(zhì) ) 上的漢字。這種技術(shù)就是圖像的模式識別。特征點(diǎn)提取方法屬于句法結(jié)構(gòu)模式識別方法之一。圓圈標(biāo)出的點(diǎn)為特征點(diǎn)表示 圖 11 圖像“大”特征點(diǎn) 通常,對大多數(shù) 結(jié)構(gòu)穩(wěn)定的漢字, 一旦 獲得了正確的特征點(diǎn)集,就可能順利地按照一定的策略和步驟 ( 比如漢字的連接筆劃、結(jié)構(gòu)匹配等 ) ,將漢字形體劃歸為正確的字類,印刷體漢字識別的正確性就能夠得到保證。所謂特征點(diǎn),是指反映漢字形體特征整體分布狀況的關(guān)鍵點(diǎn)集,即構(gòu)成漢字筆劃骨架線的端點(diǎn)、折點(diǎn)、交點(diǎn)等。 印刷體漢字識別研究的背景 印刷體漢字識別是漢字識別研究中的一個(gè)重要課題。一方面各學(xué)科的發(fā)展給它的研究提供
點(diǎn)擊復(fù)制文檔內(nèi)容
試題試卷相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1