freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

印刷體漢字識別方法的研究畢業(yè)設計論文(存儲版)

2025-01-12 20:49上一頁面

下一頁面
  

【正文】 1( , ) | || |ni i jis x sxsw x s?? ? ( 39) 其中, Wi為權值,且1 1njj w? ??, 當一個類別有多個模板時,還可以使用多重相似度: 14 ( , ) ( ) | || |iiis x s i xsxsp? ? ( 310) 其中, Si是 S 類中的一個模板。迭代開始之前,首先根據(jù)輸入向量各分量與模板向量各分量之間的相似度構成一個初始權值矩陣。 ( 4)人工神經(jīng)網(wǎng)絡 漢字識別是一個非?;钴S的分支,不斷有新的方法涌現(xiàn)出來,為漢字識別的研究注入新的活力,其中基于人工神經(jīng)網(wǎng)絡的識別方法是非常引人注目的方向。這種方法實際上己把識別過程和后處理過程融為一體了。無論是詞還是短語,都有其構成規(guī)則 , 利用這些規(guī)則,將它們分類。這時詞條庫中的每一個詞條項,還要包括該詞的句法信息和語義信息。從部件上講,部件是有特殊的筆畫組合而成,故部件也是一定的。也有些學者采用抽取漢字圖像中關鍵特征點來描述漢字 ,但是特征點的抽取易受噪聲點、筆畫的粘連與斷裂等影響。其中 kix 的角標 i 表示 ωi類, k 表示 ωi 類 Ni 個樣本中的第 k 個。但這些變換如果沒有合適的處理,都多少存在缺陷。一 旦確定這些筆畫特征點,漢字筆畫以及結構形狀就可以確定。所以,漢字識別 一 般都采用一級或多級粗分類 ( Gross classification) 再細分判別 ( Fine classification) ,從而人人提高識別速度。 第四章 系統(tǒng)的實現(xiàn)與仿真 系統(tǒng)的實現(xiàn) 印刷品上的漢字輸入,經(jīng)過預處理后,對照標準漢字修補缺損部分,用修補后的漢字進行學習,形成初始的特征庫后再進行 大量樣本的學習,建立實用的特征庫。送人圖像處理模塊,經(jīng)二值化轉灰度,均值濾波,二值化,行字切分等圖像預處理操作后。十三點特征提取法有著極好的適應性,但是由于特征點的數(shù)目太少所以在樣本訓練的時候比較難收斂。本文 介紹了印刷體漢字識別的目的、意義、背景;對其基本原理做了描述;并對印刷體漢字識別過程中預處理、 特征提取、匹配識別和后處理的常用方法進行了介紹;最后利用 Matlab軟件對其進行了仿真。依據(jù)對語言文字的統(tǒng)計信息。版面復雜的印刷文本的自動理解需要進一步提高。 %轉灰度圖象 B1=filter2(fspecial(39。j=2。 j=n1 j=j+1。a=1。 imwrite(b1,39。 imwrite(b2,39。 imwrite(b3,39。 imwrite(b4,39。 imwrite(b5,39。 imwrite(b6,39。 imwrite(b7,39。 imwrite(b8,39。 imwrite(b9,39。 imwrite(b10,39。 imwrite(b11,39。 imwrite(b12,39。 imwrite(b13,39。 imwrite(b14,39。 imwrite(b15,39。 imwrite(b16,39。)。)。)。)。)。)。)。)。)。)。)。)。)。)。 y = sim(,P_test)。 end k2=j1。s=sum(d)。 while s(j)~=m amp。s=sum(d39。)。在印刷質量差的情況下 ,系統(tǒng)誤識率較高 ?,F(xiàn)在的識別方法也開始在識別后處理上進行研究,結合語義理解的后處理技術與識別前的預處理相對,可以對識別的結果進行后期處理,提高識別的正確率。但由于系統(tǒng)比較簡單,實現(xiàn)的功能也比較單一,要想實現(xiàn)較完備功能還需進一步完善??梢缘玫?4 個特征。系統(tǒng)共包括 5個子功能模塊(見圖 41)。 4.粗分類特征要簡單,使分類字典容量小。 如表 11 所示為統(tǒng)計方法和結構方法特征比較: 表 11 統(tǒng)計方法和結構方法特征比較 項目 方法 識別策略 判別 方法 文字變形 變體 特征 提取 相似文 字區(qū)分 統(tǒng)計方法 向量維數(shù) 距離、 類似度 適應性差 容易 不易區(qū)分 結構方法 分而治之 串行判決 適應性好 不容易 容易區(qū)分 印刷體漢字識別的分類 在進行漢字識別時,考慮到漢字數(shù)目的龐大。漢字輪廓具有豐富的特征,即使在稍微傾斜或者筆畫粘連的情況,也能提取較為完全的輪廓信息。另外,其對于傾斜、筆畫變粗變細均無良好的適應能力。 圖 32 最小距離分類 器系統(tǒng)圖 b. 最鄰近分類 最鄰近法的思想是對于 C 個類別 ωi ( i = 1 , 2 ?, C) ,每類有標明類別的樣本 Ni 個 ( i = 1 , 2 , ?,C) 。結構模式識別方法的 主要優(yōu)點在于對字體變化的適應性強 ,區(qū)分相似字能力強 ; 缺點是抗干擾能力差 ,從漢字圖像中精確的抽取基元、輪廓、特征點比較困難 ,匹配過程復雜。 印刷體漢字識別技術分析 結構模式識別方法 漢字的數(shù)量巨大,結構復雜,但其特殊的組成結構中蘊藏著相當嚴的規(guī)律 [14]。所以利用語義句法的方法,在初級識別結果的基礎上,在利用詞法分析進行匹配之后或匹配 的同時,再進行句法分析和語義分析,從而確定要識別的漢字。 ( 3) 詞法分析 語言是語音和意義的結合體。該數(shù)據(jù)庫應具印刷體漢字識別系統(tǒng)的特征提取和匹配識別研究有完善的詞條存儲、維修功能,應該能 夠反映不同詞的使用頻度,應盡可能的提高詞條的檢索速度,只有這樣 才能方便漢字后處理程序的使用。其主要缺點是運算量較大,識別中往往需要增加預分類環(huán)節(jié)以減小運算量。 ( 3) 松弛匹配 無論是相關匹配還是文法分析,都要求輸入特征向量和模板特征向量的各分量之間具有確切的對應關系,然而在結構分析中,往往事先難以確定兩者各分量間的對應關系,此時可以采用松弛匹配法。即: ( , ) 1[ | |]nd x s jjj xs? ? ?? ( 35) ②歐氏距離 S階 Minkowski 度量中,令 s=2,得到歐氏距離。 漢字的分類識別 識別算法是整個識別過程的核心部分。 ③特征點 特征點提取算法的主要思想是利用字符點陣中一些有代表性的 黑點 ( 筆畫 ) 、白點 ( 背景 ) 作為特征來區(qū)分不同的字符。這種方法利用彈性吸收漢字的變形,一個字只用一個樣本。例如,漢字特征點特征算法本身是一種比較簡單、完善的特征提取算法。 針對文字圖像的細化算法已有很多,它的優(yōu)劣對系統(tǒng)的識別效果影響很大。 ( 6) 平滑 對數(shù)字圖像進行平滑,目的是去處孤立的噪聲干擾,以平滑筆畫邊緣。典型的算法是,在確定這一行的行上界和行下界之后,從左到右搜索一行文字的左右邊界,切分出單字或標點符號。目前,傾斜角檢測的方法有許多種,主要可分為 5 類:基于 Hough 變換的方法;基于交叉相關性的方法;基于投影的方法 ; 基于 Fourier 變換的方法和 K最近鄰簇方法。 ( 2) 二值化 將一幅具有多種灰度值的圖像變成白黑分布的二值圖像的工作稱為二值化處理,二值化的主要目的是將漢字從圖像中分離出來。匹配識別技術涉及到分類器的設計等重要問題,這也是非常 9 重要的一個環(huán)節(jié)。但印刷體漢字識別系統(tǒng)的研究還要解決好實用漢字識別系統(tǒng)所必須解決的一些問題,如版面的自動分析、行字切分、人機界面和良好的應用環(huán)境等等。 ( 2) 第二階段是 90 年代初期,中文 OCR 由實驗室走向市場,初步實用。 70 年代以來,日本學者做了許多工作,其中有代表性的系統(tǒng)有 1977 年東芝綜合研究所研制的可以識別 2020 個漢字的單體印刷漢字識別系 統(tǒng); 80 年代初期,日本武藏野電氣研究所研制的可以識別 2300 個多體漢字的印刷體漢字識別系統(tǒng) , 代表了當時漢字識別的最高水平。這個相似字區(qū)分的問題往往出現(xiàn)在漢字識別系 統(tǒng)的最后一級,也是至關重要的一級。另外,印刷體漢字同一個字的不同字體即使拓撲結構大致相同,但字形點陣還是有很大差別。為了提高識別速度而采取一些措施之后,又可能會導致識別率的降低。這也使得漢字識別難度遠遠大于其它語言文字識別。若用 ( 、 ) 表示 部件的界符, 用↓ 、→、分別表示部件筆劃間的上下、左右、交叉關系,則可以把“葉”字表示為符號串 ( |→ ↓ 一 ) → ( 一 |) 。這些就使得判別方法和準則有不同,乃至形成多種不同形式的漢字識別方法。因此,如何確定表達待識別漢字模式的最佳特征 ( 組合優(yōu)化特征 ) ,如何進行特征匹配,從而進行高效、快速的識別,是漢字識別技術的關鍵所在。 第二章 漢字識別技術 漢字識別概述 漢字識別( CCR: Chinese Character Recognition)是用電子計算機自動辨識印刷在紙上和人寫在紙 ( 或者介質 ) 上的漢字。所謂特征點,是指反映漢字形體特征整體分布狀況的關鍵點集,即構成漢字筆劃骨架線的端點、折點、交點等。因此,漢字識別技術也越來越受到人們的重視。 Matlab Simulation 第一章 緒論 漢字識別研究的意義 漢字已有數(shù)千年的歷史,是中華民族文化的重要結晶,閃爍著中國人民智慧的光芒。本文首先就漢字識別研究的意義及背景作了綜述。 關鍵詞: 印刷體漢字識別 特征提取 匹配識別 統(tǒng)計模式識別 Matlab 仿真 ABSTRACT Chinese character recognition technology is a kind of automatic highspeed, information input method, bee the important functions of the puter interface, 2 still can as office automation, the press and publishing, machine translation, etc, the ideal input has wide application prospects. The aim of Chinese character recognition is to make the Chinese input more natural and convenient so that the puter could process Chinese information more easily. In practice, large volume of letters, newspaper, magazines need to be covered into a coded representation of the input characters. That39。然而,漢字是非字母化、非拼音化的文字,因此,如何將漢字快速高效地輸入計算機,是信息處理的一個關鍵問題 [1],也是關系到計算機技術能否在我國真正普及的關鍵問題,更是傳播與弘揚中華民族悠久歷史文化的關鍵問題。漢字識別是一門多學科綜合的研究課題,它不僅與人工智能的研究有關,而且與數(shù)字信號處理、圖像處理、信息論、計算機 科學、幾何學、統(tǒng)計學、語言學、生物學、模糊數(shù)學、決策論等都有著千絲萬縷的聯(lián)系。當前,印刷體漢字特征點的識別效率還有進一步改進的空間。它涉及到模式識別和圖像處理、人工智能、形式語言 學 、模糊數(shù)學等眾多學科,是一 門綜合性的技術。預處理的內容和要求取決于識別方法,一般包括行、字切分,二值化, 細化或抽取輪廓,平滑,規(guī)范化等等。字典的每類標準模板也不是一個,而是一批 ; 判別輸入文字屬于哪一類時,也不是只把它的特征向量和字典內標準特征向量逐一簡單比較從而得到完全相同的結果才能分類識別,而是根據(jù)某種判別準則,相似到一定程度而且彼此又能區(qū)分時就可以分類識別。上例中,各筆劃以及↓、→、都是基元,基元根據(jù)一定規(guī)律組合成模式。其中常用漢字有 3000 至 4000 個之多。它的構成方法主要有三種:象形法、會意法和形聲法。手寫體有楷體、行書和草書三類,但其自由發(fā)揮度很大,以致識別難度更大。印刷體文字的識別可以說很早就成為人們的夢想,早在 1929 年, Taushek 就在德國獲得了一項有關 OCR 的專利 [4]。 我國對印刷體漢字識別的研究始于 70 年代末 80 年代初。 ( 3) 第三階段也就是目前,主要是印刷體漢字識 別 技術和系統(tǒng)性能的提高,包括漢英雙語混排識別率的提高和穩(wěn)定性的增強。印刷體漢字識別從識別字體上 可分為單體印刷體漢字識別 ( printed character recognition) 與多體印刷體漢字識別 ( multiple printed character recognition) ;手寫體漢字識別根據(jù)實時性又可以分為聯(lián)機手寫體識別 ( on line handwritten character recognition) 和脫機手寫體識別 ( off line handwritten character recognit
點擊復制文檔內容
公司管理相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1