freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

畢業(yè)論文-印刷體漢字識(shí)別方法的研究(編輯修改稿)

2025-07-09 22:23 本頁面
 

【文章內(nèi)容簡(jiǎn)介】 像預(yù)處理的重要部分。傾斜校正的核心在于如何檢測(cè)出圖像的傾斜角。目前,傾斜角檢測(cè)的方法有許多種,主要可分為 5 類:基于 Hough 變換的方法;基于交叉相關(guān)性的方法;基于投影的方法 ; 基于 Fourier 變換的方法和 K最近鄰簇方法。靈活運(yùn)用傾斜角度檢測(cè)算法將是傾斜校正環(huán)節(jié)的重要研究方向。 ( 4) 行字切分 漢字切分的目的是利用字與字之間、行與行之間的空隙,將單個(gè)漢字從整個(gè)圖像中分離出來。漢字的切分分為行切分和字切分 [9]。 行切分是利用 行與行之間的直線型空隙來分辨行,將各行的行上界和行下界記錄下來。典型的算法是,從上到下,對(duì)二值漢字點(diǎn)陣的每行像素值進(jìn)行累加, 10 若從某行開始的若干累加和均大于一個(gè)試驗(yàn)常數(shù),則可認(rèn)為該行是一漢字文本行的開始,即行上界。同理,當(dāng)出現(xiàn)連續(xù)大約一個(gè)漢字高度的大累加和情況后突然出現(xiàn)一系列小累加和甚至零值時(shí),判定為行下界。 字切分是利用字與字之間的直線型空隙來分辨字,將各字的左邊界和右邊界記錄下來。典型的算法是,在確定這一行的行上界和行下界之后,從左到右搜索一行文字的左右邊界,切分出單字或標(biāo)點(diǎn)符號(hào)。從左邊開始垂直方向的行距 內(nèi)像素單列累加和均大于一個(gè)試驗(yàn)常數(shù),則可認(rèn)為是該漢字的左邊界。同理,當(dāng)出現(xiàn)連續(xù)一個(gè)漢字寬度的大累加和情況后突然出現(xiàn)一系列小累加和甚至零值時(shí),判定為該漢字的右邊界。對(duì)文本漢字行來說,由于存在左右分離字,寬窄字,字間交連等,加上行間混有英文、數(shù)字、符號(hào)、和字間污點(diǎn)干擾,使得字切分比行切分困難得多。 ( 5) 歸一化 歸一化也稱規(guī)格化,它是把文字尺寸變換成統(tǒng)一大小,糾正文字位置 ( 平移 ) ,文字筆畫粗細(xì)變換等文字圖像的規(guī)格化處理,并只對(duì)文字圖像進(jìn)行投影。漢字圖像的歸一化往往會(huì)帶來兩個(gè)問題:一是字符圖像的縮放可能會(huì)引入一些 干擾 。二是圖像縮放本身的運(yùn)算量較大。所以,必須采用恰當(dāng)?shù)臍w一化方法來消除尺度變化對(duì)特征值的影響。 ( 6) 平滑 對(duì)數(shù)字圖像進(jìn)行平滑,目的是去處孤立的噪聲干擾,以平滑筆畫邊緣。平滑在圖像處理中實(shí)質(zhì)是一幅文字圖像通過一個(gè)低通濾波器,去除高頻分量,保留低頻分量,在實(shí)際應(yīng)用中,采用 WXW(一般采用 3x3) 的輔助矩陣對(duì)二值文字圖像進(jìn)行掃描。根據(jù)輔助矩陣中各像素 0、 1 的分布,使處于矩陣中心的被平滑的像素 X0 從“ 0”變成“ 1”或者從“ 1”變成“ O”。 ( 7)細(xì)化 細(xì)化處理是在圖像處理中相當(dāng)重要和關(guān)鍵的一環(huán),它是將二值化文字 點(diǎn)陣逐層剝?nèi)ポ喞吘壣系狞c(diǎn),變成筆畫寬度只有一個(gè)比特的文字骨架圖形。細(xì)化處理的目的是搜索圖像的骨架,去除圖像上多余的像素,從而在不改變圖像主要特征的前提下,減少圖像的信息量。細(xì)化處理結(jié)果的好壞,直接影響到識(shí)別的效果和質(zhì)量。在細(xì)化處理過程中,一方面,去除的像素太少,則不能充分有效地減少圖像的信息量 ; 另一方面,去除的像素太多,特別是某些關(guān)鍵像素若被去除,則改變了原始圖像的主要特征。因此,高質(zhì)量的細(xì)化算法程序?qū)D像識(shí)別有很大的實(shí)用價(jià)值。 針對(duì)文字圖像的細(xì)化算法已有很多,它的優(yōu)劣對(duì)系統(tǒng)的識(shí)別效果影響很大。對(duì)細(xì)化的一 般要求是保持原有筆畫的連續(xù)性,不能由于細(xì)化造成筆畫斷開;細(xì)化成為單層像素線;保持文字原有特征,既不要增加,也不要丟失,保持筆畫特征,最好細(xì)化掉筆鋒:細(xì)化結(jié)果是原曲線的中心線,保留曲線的端點(diǎn),交叉部分中心 11 線不畸變。針對(duì)各種不同的應(yīng)用,國(guó)內(nèi)外已發(fā)表了許多細(xì)化算法,如 Hilditch 經(jīng)典細(xì)化算法 [10]、 Deutsch 算法 [11]等。然而,細(xì)化過程本身固有的弱點(diǎn)總是造成筆畫骨架線的畸變,增加對(duì)識(shí)別的干擾,主要的畸變包括:交叉筆畫畸變、轉(zhuǎn)折處出現(xiàn)分叉筆畫、失去短筆畫和筆畫合并等??梢哉f,這些問題依賴細(xì)化算法本身是無 法克服的,需要在后續(xù)的處理中盡量消除這些畸變的干擾。 漢字特征提取 預(yù)處理的最終目的是為了更加方便、準(zhǔn)確地進(jìn)行漢字的特征提取,從而提高漢字識(shí)別率。對(duì)于漢字,其特征大致分為兩類,包括結(jié)構(gòu)特征和統(tǒng)計(jì)特征,至今總數(shù)已經(jīng)不下百種。但每種漢字特征的適用環(huán)境都有所不同,有的特征在一些情況下有很強(qiáng)的魯棒性,但在另外一些情況下卻完全失去了效用。例如,漢字特征點(diǎn)特征算法本身是一種比較簡(jiǎn)單、完善的特征提取算法。在漢字圖像滿足清晰、無筆畫連聯(lián)、無斷筆等細(xì)化要求時(shí),是能夠完全將漢字的各種特征點(diǎn)位置提取處理的;若漢字 圖像本身模糊不清,預(yù)處理工作也無法達(dá)到要求,這樣再好的漢字特征點(diǎn)特征提取算法也無法提取正確的漢字特征點(diǎn)特征,已經(jīng)獲得的特征點(diǎn)特征一旦應(yīng)用到漢字識(shí)別系統(tǒng)中去,將會(huì)極大地影響整個(gè)系統(tǒng)的實(shí)用性。針對(duì)不同的系統(tǒng)需求,應(yīng)該選擇不同的漢字特征,進(jìn)行優(yōu)化特征組合,這樣才能達(dá)到系統(tǒng)最佳識(shí)別效果。所以選擇哪種特征,如何組合特征將是漢字特征提取這一部分的重點(diǎn)研究領(lǐng)域。 要做到有的放矢,就需要研究已有的獲得良好效果的各種漢字特征,分析它們的優(yōu)點(diǎn)、缺點(diǎn)和適用環(huán)境。如下介紹并分析一下常用的一些的漢字結(jié)構(gòu)特征和漢字統(tǒng)計(jì)特征。 ( 1) 結(jié) 構(gòu)特征 ①抽取筆畫法 抽取筆畫法是利用漢字由筆畫所構(gòu)成的特點(diǎn)進(jìn)行識(shí)別,它利用漢字的結(jié)構(gòu)信息來進(jìn)行漢字的聯(lián)機(jī)識(shí)別,在印刷體和脫機(jī)手寫識(shí)別中,由于筆畫提取的困難,結(jié)果不是很理想。 ②松弛匹配法 松弛匹配法是一種基于全局特征的匹配方法,它對(duì)輸入漢字作多邊近似,抽取邊界線段,將這些邊界線段組成臨近線段表,然后用松弛匹配操作,完成邊與邊的匹配。這種方法利用彈性吸收漢字的變形,一個(gè)字只用一個(gè)樣本。其缺點(diǎn)是操作速度較慢,計(jì)算量大。 ③非線性匹配法 非線性匹配法是由 Tsukumo 等提出的,用以解決字形的位移、筆畫的變形等現(xiàn) 象。此方法試圖克服從圖形中正確抽取筆畫的困難,以提高正確判別的能力。 ( 2) 統(tǒng)計(jì)特征 12 ①筆畫復(fù)雜性 ( Complexity Index) 筆畫復(fù)雜性指數(shù)是指文字筆畫的線段密度,其定義如下: yxxc L ?? ( 31) xyyc L ?? ( 32) 式 ( 31) 和 ( 32) 中 yc、yc一橫向和縱向的筆畫復(fù)雜性指數(shù); xL、yL一橫向和縱向的文字線段總長(zhǎng)度; x?、y?一橫向和縱向質(zhì)心二次矩的平方根; xc、yc分別反應(yīng)了橫向和縱向的筆畫復(fù)雜性,橫多的xc大,豎多的yc大。筆畫復(fù)雜性指數(shù)與漢字的位移無關(guān),受字體和字號(hào)的影響較小,但易受筆畫斷裂和粘連的影響,且其分類能力較差,常與另一種粗分類方法“四邊碼”連用。 ②四邊碼 ( Fourside Code) 四邊碼是在漢字點(diǎn)陣圖的四周各取一條帶,計(jì)算其中的文字圖像素點(diǎn)數(shù),并將它分成四級(jí),構(gòu)成一個(gè)四元組。由于漢字邊框不但含有豐富的結(jié)構(gòu)信息,而且邊框部分筆畫一般較少,不易粘連,抗干擾能力強(qiáng),但對(duì)漢字的位移和旋轉(zhuǎn)比較敏感,與筆畫復(fù)雜性指數(shù)正好形成互補(bǔ)。 ③特征點(diǎn) 特征點(diǎn)提取算法的主要思想是利用字符點(diǎn)陣中一些有 代表性的黑點(diǎn) ( 筆畫 ) 、白點(diǎn) ( 背景 ) 作為特征來區(qū)分不同的字符。特征點(diǎn)包括筆畫骨架線的端點(diǎn)、折點(diǎn)、歧點(diǎn)和交點(diǎn),漢字的背景也含有一定的區(qū)別于其它漢字的信息,選擇若干背景點(diǎn)作為特征點(diǎn),有利于提高系統(tǒng)的抗干擾能力。其特點(diǎn)是能夠大大壓縮特征庫的容量,對(duì)于內(nèi)部筆畫粘連字符,其識(shí)別的適應(yīng)性較強(qiáng)、直觀性好,但不易表示為矢量形式,匹配難度大,不適合作為粗分類的特征。 ④筆段特征 漢字是由筆畫組成的,而筆畫又由筆段組成,筆段可近似為一定方向、長(zhǎng)度和寬度的矩形段。利用筆段與筆段之間的關(guān)系組成特征對(duì)漢字進(jìn)行識(shí)別,受字體和字號(hào)的影響小 ,對(duì)于多體漢字的識(shí)別獲得了良好效果。其缺點(diǎn)是筆段的提取會(huì)較為困難,匹配的難度大,抗內(nèi)部筆畫斷裂或者粘連能力差。 當(dāng)然,漢字的特征多種多樣,各有各的優(yōu)點(diǎn)、短處和不同的適用范圍。選擇什么樣的特征使得此單分類環(huán)節(jié)的識(shí)別效果達(dá)到最佳,選擇哪些特征來優(yōu)化組合來達(dá)到整個(gè)系統(tǒng)的識(shí)別效果達(dá)到最佳,這就是本文需要研究的問題。 漢字的分類識(shí)別 識(shí)別算法是整個(gè)識(shí)別過程的核心部分。原始圖像經(jīng)過預(yù)處理后 ,得到一個(gè)較為理想的二值圖像 ,然后就可以對(duì)這個(gè)處理后的二值圖像進(jìn)行識(shí)別。識(shí)別的過程 13 包括根據(jù)識(shí)別算法選擇和提取漢字的特征 、與標(biāo)準(zhǔn)文字的特征進(jìn)行匹配判別。 漢字的分類識(shí)別方法也是漢字識(shí)別系統(tǒng)的重要環(huán)節(jié)之一。諸多分類方法各自有其優(yōu)缺點(diǎn)。 ( 1) 相關(guān)匹配 這是一種統(tǒng)計(jì)識(shí)別方法,它通過在特征空 間 中計(jì)算輸入特征向量與各模板向量之間的距離進(jìn)行分類判決。距離度量的定義: 設(shè) X, S 分別為輸入特征向量和模板特征向量, n為特征維數(shù)。 ① S 階 Minkowski 度量 ( , ) | ( ) |j j jx s xd w s?? ( 33) ( , ) ( ) | || |iiis x s i xsxsp? ? ( 34) 其中最為常用的是一階度量,又稱為絕對(duì)距離。即: ( , ) 1[ | |]nd x s jjj xs? ? ?? ( 35) ②歐氏距離 S階 Minkowski 度量中,令 s=2,得到歐氏距離。 1 22( , ) 1[ | | ]nd x s jjj xs? ? ?? ( 36) ③加權(quán)距離 考慮到輸入分量對(duì)模板的作用大小不同,故采用加權(quán)值來表示 ( , ) | ( ) |j j jx s xd w s?? ( 37) 下標(biāo) j表示不同的模板可以有不同的加權(quán)值。 另一個(gè)描述輸入向量與 模板間關(guān)系的度量是相似度,最簡(jiǎn)單的相似度定義為二者方向夾角的余弦 S,即: ( , ) xsS x s xs? ( 38) 與距離一樣,相似度也可以加權(quán),得到加權(quán)相似度: 1( , ) | || |ni i jis x sxsw x s?? ? ( 39) 其中, Wi為權(quán)值,且1 1njj w? ??, 當(dāng)一個(gè)類別有多個(gè)模板時(shí),還可以使用多重相似度: 14 ( , ) ( ) | || |iiis x s i xsxsp? ? ( 310) 其中, Si是 S 類中的一個(gè)模板。 P(i)是該模板的概率。 相關(guān)匹配是一種統(tǒng)計(jì)識(shí)別方法。統(tǒng)計(jì)方法的優(yōu)點(diǎn)是特征提取和模板的建立都比較容易,抗干擾能力強(qiáng),使局部噪聲不敏感:缺點(diǎn)是分辨相似字的能力較弱,對(duì)書寫風(fēng)格的變化比較敏感。 ( 2) 文法分析 文法分析的基本思想是將輸入的漢字看作是一個(gè)語句或符號(hào)串,將識(shí)別問題轉(zhuǎn)化為判斷輸入的語句是否屬于某種語言,即句子是否符合某種語言的語法約束條件,這種方法在漢字識(shí)別中也得到了應(yīng)用。 文法分析是典型的結(jié)構(gòu)識(shí)別方法,由于其側(cè)重點(diǎn)是在筆段形狀、位置以 及筆段之間相互關(guān)系的分析上,所以它的優(yōu)點(diǎn)是分辨相似字的能力較強(qiáng),對(duì)書寫風(fēng)格的變化不敏感:缺點(diǎn)是對(duì)局部噪聲敏感,特征提取比較復(fù)雜。 ( 3) 松弛匹配 無論是相關(guān)匹配還是文法分析,都要求輸入特征向量和模板特征向量的各分量之間具有確切的對(duì)應(yīng)關(guān)系,然而在結(jié)構(gòu)分析中,往往事先難以確定兩者各分量間的對(duì)應(yīng)關(guān)系,此時(shí)可以采用松弛匹配法。 松弛匹配法首先通過迭代運(yùn)算,找出輸入向量與模板向量各分量間的對(duì)應(yīng)關(guān)系,然后再根據(jù)這一對(duì)應(yīng)關(guān)系進(jìn)行匹配。迭代開始之前,首先根據(jù)輸入向量各分量與模板向量各分量之間的相似度構(gòu)成一個(gè)初始權(quán)值矩陣。矩 陣中各元素的值為相應(yīng)分量之間的初始匹配概率,然后通過迭代運(yùn)算對(duì)各個(gè)權(quán)值進(jìn)行修正,并將其中趨近于零的值置為零,直至權(quán)值的變化趨于穩(wěn)定,此時(shí),可以認(rèn)為權(quán)值矩陣中非零元素所對(duì)應(yīng)的分量之間只有對(duì)應(yīng)關(guān)系,然后根據(jù)這一對(duì)應(yīng)關(guān)系計(jì)算輸入量與該模板問的距離,重復(fù)上述過程。求出輸入量與每個(gè)模板間的距離,取其中距離最小的模板所代表的類別為識(shí)別結(jié)果。 松弛匹配法兼具統(tǒng)計(jì)方法和結(jié)構(gòu)方法的特長(zhǎng)。由于它是根據(jù)總體的匹配程度來決定識(shí)別結(jié)果的,所以這一點(diǎn)它類似于統(tǒng)計(jì)方法,同時(shí)它在迭代中還把基元間位置關(guān)系等結(jié)構(gòu)信息考慮在內(nèi),這一點(diǎn)又很像結(jié)構(gòu) 方法。因此松弛匹配法在漢字識(shí)別中取得了很好的效果,它不僅可以用于特征點(diǎn)的匹配,而且還可以用于筆段、筆畫和部件的匹配。其主要缺點(diǎn)是運(yùn)算量較大,識(shí)別中往往需要增加預(yù)分類環(huán)節(jié)以減小運(yùn)算量。另外,它吸收畸變的能力仍有不足。 ( 4)人工神經(jīng)網(wǎng)絡(luò) 漢字識(shí)別是一個(gè)非?;钴S的分支,不斷有新的方法涌現(xiàn)出來,為漢字識(shí)別的研究注入新的活力,其中基于人工神經(jīng)網(wǎng)絡(luò)的識(shí)別方法是非常引人注目的方向。目前神經(jīng)網(wǎng)絡(luò)理論的應(yīng)用己經(jīng)滲透到各個(gè)領(lǐng)域,并在模式識(shí)別、智能控制、計(jì)算機(jī)視覺、自適應(yīng)濾波和信號(hào)處理、非線性優(yōu)化、自動(dòng)目標(biāo)識(shí)別,連續(xù)語音識(shí)別、 15 聲納信號(hào)的處理、知識(shí)處理、傳感技術(shù)與機(jī)器人、生物等領(lǐng)域都有廣泛地應(yīng)用。 后處理 后處理就是利用相關(guān)算法對(duì)識(shí)別后的漢字文本或者初級(jí)識(shí)別結(jié)果做進(jìn)一步的處理,糾正誤識(shí)的漢字,給出拒識(shí)的漢字,確定模棱兩可的漢字。漢字識(shí)別的后處理方法 [12, 13]從用戶的參與程度來說,可分為三類:手工處理,交互式處理和計(jì)算機(jī)自動(dòng)處理。以下對(duì)各種常用的后處理方法做簡(jiǎn)單的介紹。 ( 1) 簡(jiǎn)單的詞匹配 簡(jiǎn)單的詞匹配就是利用文本中字的上下文匹配關(guān)系和詞的使用頻度,給識(shí)別后文本中的拒識(shí)字提供一個(gè)“最佳”的候選字 , 其關(guān)鍵是建立漢語詞條 數(shù)據(jù)庫。該數(shù)據(jù)庫應(yīng)具印刷體漢字識(shí)別系統(tǒng)的
點(diǎn)擊復(fù)制文檔內(nèi)容
畢業(yè)設(shè)計(jì)相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1