freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

印刷體漢字識別方法的研究畢業(yè)設(shè)計論文(編輯修改稿)

2025-01-08 20:49 本頁面
 

【文章內(nèi)容簡介】 干累加和均大于一個試驗常數(shù),則可認為該行是一漢字文本行的開始,即行上界。同理,當(dāng)出現(xiàn)連續(xù)大約一個漢字高度的大累加和情況后突然出現(xiàn)一系列小累加和甚至零值時,判定為行下界。 字切分是利用字與字之間的直線型空隙來分辨字,將各字的左邊界和右邊界記錄下來。典型的算法是,在確定這一行的行上界和行下界之后,從左到右搜索一行文字的左右邊界,切分出單字或標點符號。從左邊開始垂直方向的行距內(nèi)像素單 列累加和均大于一個試驗常數(shù),則可認為是該漢字的左邊界。同理,當(dāng)出現(xiàn)連續(xù)一個漢字寬度的大累加和情況后突然出現(xiàn)一系列小累加和甚至零值時,判定為該漢字的右邊界。對文本漢字行來說,由于存在左右分離字,寬窄字,字間交連等,加上行間混有英文、數(shù)字、符號、和字間污點干擾,使得字切分比行切分困難得多。 ( 5) 歸一化 歸一化也稱規(guī)格化,它是把文字尺寸變換成統(tǒng)一大小,糾正文字位置 ( 平移 ) ,文字筆畫粗細變換等文字圖像的規(guī)格化處理,并只對文字圖像進行投影。漢字圖像的歸一化往往會帶來兩個問題:一是字符圖像的縮放可能會引入一些干擾 。二是圖像縮放本身的運算量較大。所以,必須采用恰當(dāng)?shù)臍w一化方法來消除尺度變化對特征值的影響。 ( 6) 平滑 對數(shù)字圖像進行平滑,目的是去處孤立的噪聲干擾,以平滑筆畫邊緣。平滑在圖像處理中實質(zhì)是一幅文字圖像通過一個低通濾波器,去除高頻分量,保留低頻分量,在實際應(yīng)用中,采用 WXW(一般采用 3x3) 的輔助矩陣對二值文字圖像進行掃描。根據(jù)輔助矩陣中各像素 0、 1 的分布,使處于矩陣中心的被平滑的像素 X0 從“ 0”變成“ 1”或者從“ 1”變成“ O”。 ( 7)細化 細化處理是在圖像處理中相當(dāng)重要和關(guān)鍵的一環(huán),它是將二值化文字點陣逐層 剝?nèi)ポ喞吘壣系狞c,變成筆畫寬度只有一個比特的文字骨架圖形。細化處理的目的是搜索圖像的骨架,去除圖像上多余的像素,從而在不改變圖像主要特征的前提下,減少圖像的信息量。細化處理結(jié)果的好壞,直接影響到識別的效果和質(zhì)量。在細化處理過程中,一方面,去除的像素太少,則不能充分有效地減少圖像的信息量 ; 另一方面,去除的像素太多,特別是某些關(guān)鍵像素若被去除,則改變了原始圖像的主要特征。因此,高質(zhì)量的細化算法程序?qū)D像識別有很大的實用價值。 針對文字圖像的細化算法已有很多,它的優(yōu)劣對系統(tǒng)的識別效果影響很大。對細化的一般要求是 保持原有筆畫的連續(xù)性,不能由于細化造成筆畫斷開;細化成為單層像素線;保持文字原有特征,既不要增加,也不要丟失,保持筆畫特征,最好細化掉筆鋒:細化結(jié)果是原曲線的中心線,保留曲線的端點,交叉部分中心 11 線不畸變。針對各種不同的應(yīng)用,國內(nèi)外已發(fā)表了許多細化算法,如 Hilditch 經(jīng)典細化算法 [10]、 Deutsch 算法 [11]等。然而,細化過程本身固有的弱點總是造成筆畫骨架線的畸變,增加對識別的干擾,主要的畸變包括:交叉筆畫畸變、轉(zhuǎn)折處出現(xiàn)分叉筆畫、失去短筆畫和筆畫合并等??梢哉f,這些問題依賴細化算法本身是無法克服的 ,需要在后續(xù)的處理中盡量消除這些畸變的干擾。 漢字特征提取 預(yù)處理的最終目的是為了更加方便、準確地進行漢字的特征提取,從而提高漢字識別率。對于漢字,其特征大致分為兩類,包括結(jié)構(gòu)特征和統(tǒng)計特征,至今總數(shù)已經(jīng)不下百種。但每種漢字特征的適用環(huán)境都有所不同,有的特征在一些情況下有很強的魯棒性,但在另外一些情況下卻完全失去了效用。例如,漢字特征點特征算法本身是一種比較簡單、完善的特征提取算法。在漢字圖像滿足清晰、無筆畫連聯(lián)、無斷筆等細化要求時,是能夠完全將漢字的各種特征點位置提取處理的;若漢字圖像本身 模糊不清,預(yù)處理工作也無法達到要求,這樣再好的漢字特征點特征提取算法也無法提取正確的漢字特征點特征,已經(jīng)獲得的特征點特征一旦應(yīng)用到漢字識別系統(tǒng)中去,將會極大地影響整個系統(tǒng)的實用性。針對不同的系統(tǒng)需求,應(yīng)該選擇不同的漢字特征,進行優(yōu)化特征組合,這樣才能達到系統(tǒng)最佳識別效果。所以選擇哪種特征,如何組合特征將是漢字特征提取這一部分的重點研究領(lǐng)域。 要做到有的放矢,就需要研究已有的獲得良好效果的各種漢字特征,分析它們的優(yōu)點、缺點和適用環(huán)境。如下介紹并分析一下常用的一些的漢字結(jié)構(gòu)特征和漢字統(tǒng)計特征。 ( 1) 結(jié)構(gòu)特征 ①抽取筆畫法 抽取筆畫法是利用漢字由筆畫所構(gòu)成的特點進行識別,它利用漢字的結(jié)構(gòu)信息來進行漢字的聯(lián)機識別,在印刷體和脫機手寫識別中,由于筆畫提取的困難,結(jié)果不是很理想。 ②松弛匹配法 松弛匹配法是一種基于全局特征的匹配方法,它對輸入漢字作多邊近似,抽取邊界線段,將這些邊界線段組成臨近線段表,然后用松弛匹配操作,完成邊與邊的匹配。這種方法利用彈性吸收漢字的變形,一個字只用一個樣本。其缺點是操作速度較慢,計算量大。 ③非線性匹配法 非線性匹配法是由 Tsukumo 等提出的,用以解決字形的位移、筆畫的變形等現(xiàn)象。此方 法試圖克服從圖形中正確抽取筆畫的困難,以提高正確判別的能力。 ( 2) 統(tǒng)計特征 12 ①筆畫復(fù)雜性 ( Complexity Index) 筆畫復(fù)雜性指數(shù)是指文字筆畫的線段密度,其定義如下: yxxc L ?? ( 31) xyyc L ?? ( 32) 式 ( 31) 和 ( 32) 中 yc、yc一橫向和縱向的筆畫復(fù)雜性指數(shù); xL、yL一橫向和縱向的文字線段總長度; x?、y?一橫向和縱向質(zhì)心二次矩的平方根; xc、yc分別反應(yīng)了橫向和縱向的筆畫復(fù)雜性,橫多的xc大,豎多的yc大。筆畫復(fù)雜性指數(shù)與漢字的位移無關(guān),受字體和字號的影響較小,但易受筆畫斷裂和粘連的影響,且其分類能力較差,常與另一種粗分類方法“四邊碼”連用。 ②四邊碼 ( Fourside Code) 四邊碼是在漢字點陣圖的四周各取一條帶,計算其中的文字圖像素點數(shù),并將它分成四級,構(gòu)成一個四元組。由于漢字邊框不但含有豐富的結(jié)構(gòu)信息,而且邊框部分筆畫一般較少,不易粘連,抗干擾能力強,但對漢字的位移和旋轉(zhuǎn)比較敏感,與筆畫復(fù)雜性指數(shù)正好形成互補。 ③特征點 特征點提取算法的主要思想是利用字符點陣中一些有代表性的 黑點 ( 筆畫 ) 、白點 ( 背景 ) 作為特征來區(qū)分不同的字符。特征點包括筆畫骨架線的端點、折點、歧點和交點,漢字的背景也含有一定的區(qū)別于其它漢字的信息,選擇若干背景點作為特征點,有利于提高系統(tǒng)的抗干擾能力。其特點是能夠大大壓縮特征庫的容量,對于內(nèi)部筆畫粘連字符,其識別的適應(yīng)性較強、直觀性好,但不易表示為矢量形式,匹配難度大,不適合作為粗分類的特征。 ④筆段特征 漢字是由筆畫組成的,而筆畫又由筆段組成,筆段可近似為一定方向、長度和寬度的矩形段。利用筆段與筆段之間的關(guān)系組成特征對漢字進行識別,受字體和字號的影響小,對于多 體漢字的識別獲得了良好效果。其缺點是筆段的提取會較為困難,匹配的難度大,抗內(nèi)部筆畫斷裂或者粘連能力差。 當(dāng)然,漢字的特征多種多樣,各有各的優(yōu)點、短處和不同的適用范圍。選擇什么樣的特征使得此單分類環(huán)節(jié)的識別效果達到最佳,選擇哪些特征來優(yōu)化組合來達到整個系統(tǒng)的識別效果達到最佳,這就是本文需要研究的問題。 漢字的分類識別 識別算法是整個識別過程的核心部分。原始圖像經(jīng)過預(yù)處理后 ,得到一個較為理想的二值圖像 ,然后就可以對這個處理后的二值圖像進行識別。識別的過程 13 包括根據(jù)識別算法選擇和提取漢字的特征、與標準 文字的特征進行匹配判別。 漢字的分類識別方法也是漢字識別系統(tǒng)的重要環(huán)節(jié)之一。諸多分類方法各自有其優(yōu)缺點。 ( 1) 相關(guān)匹配 這是一種統(tǒng)計識別方法,它通過在特征空 間 中計算輸入特征向量與各模板向量之間的距離進行分類判決。距離度量的定義: 設(shè) X, S 分別為輸入特征向量和模板特征向量, n為特征維數(shù)。 ① S 階 Minkowski 度量 ( , ) | ( ) |j j jx s xd w s?? ( 33) ( , ) ( ) | || |iiis x s i xsxsp? ? ( 34) 其中最 為常用的是一階度量,又稱為絕對距離。即: ( , ) 1[ | |]nd x s jjj xs? ? ?? ( 35) ②歐氏距離 S階 Minkowski 度量中,令 s=2,得到歐氏距離。 1 22( , ) 1[ | | ]nd x s jjj xs? ? ?? ( 36) ③加權(quán)距離 考慮到輸入分量對模板的作用大小不同,故采用加權(quán)值來表示 ( , ) | ( ) |j j jx s xd w s?? ( 37) 下標 j表示不同的模板可以有不同的加權(quán)值。 另一個描述輸入向量與模板間關(guān) 系的度量是相似度,最簡單的相似度定義為二者方向夾角的余弦 S,即: ( , ) xsS x s xs? ( 38) 與距離一樣,相似度也可以加權(quán),得到加權(quán)相似度: 1( , ) | || |ni i jis x sxsw x s?? ? ( 39) 其中, Wi為權(quán)值,且1 1njj w? ??, 當(dāng)一個類別有多個模板時,還可以使用多重相似度: 14 ( , ) ( ) | || |iiis x s i xsxsp? ? ( 310) 其中, Si是 S 類中的一個模板。 P(i)是該模板的概率。 相關(guān)匹配是一種統(tǒng)計識別方法。統(tǒng)計方法的優(yōu)點是特征提取和模板的建立都比較容易,抗干擾能力強,使局部噪聲不敏感:缺點是分辨相似字的能力較弱,對書寫風(fēng)格的變化比較敏感。 ( 2) 文法分析 文法分析的基本思想是將輸入的漢字看作是一個語句或符號串,將識別問題轉(zhuǎn)化為判斷輸入的語句是否屬于某種語言,即句子是否符合某種語言的語法約束條件,這種方法在漢字識別中也得到了應(yīng)用。 文法分析是典型的結(jié)構(gòu)識別方法,由于其側(cè)重點是在筆段形狀、位置以及筆段之 間相互關(guān)系的分析上,所以它的優(yōu)點是分辨相似字的能力較強,對書寫風(fēng)格的變化不敏感:缺點是對局部噪聲敏感,特征提取比較復(fù)雜。 ( 3) 松弛匹配 無論是相關(guān)匹配還是文法分析,都要求輸入特征向量和模板特征向量的各分量之間具有確切的對應(yīng)關(guān)系,然而在結(jié)構(gòu)分析中,往往事先難以確定兩者各分量間的對應(yīng)關(guān)系,此時可以采用松弛匹配法。 松弛匹配法首先通過迭代運算,找出輸入向量與模板向量各分量間的對應(yīng)關(guān)系,然后再根據(jù)這一對應(yīng)關(guān)系進行匹配。迭代開始之前,首先根據(jù)輸入向量各分量與模板向量各分量之間的相似度構(gòu)成一個初始權(quán)值矩陣。矩陣中各元 素的值為相應(yīng)分量之間的初始匹配概率,然后通過迭代運算對各個權(quán)值進行修正,并將其中趨近于零的值置為零,直至權(quán)值的變化趨于穩(wěn)定,此時,可以認為權(quán)值矩陣中非零元素所對應(yīng)的分量之間只有對應(yīng)關(guān)系,然后根據(jù)這一對應(yīng)關(guān)系計算輸入量與該模板問的距離,重復(fù)上述過程。求出輸入量與每個模板間的距離,取其中距離最小的模板所代表的類別為識別結(jié)果。 松弛匹配法兼具統(tǒng)計方法和結(jié)構(gòu)方法的特長。由于它是根據(jù)總體的匹配程度來決定識別結(jié)果的,所以這一點它類似于統(tǒng)計方法,同時它在迭代中還把基元間位置關(guān)系等結(jié)構(gòu)信息考慮在內(nèi),這一點又很像結(jié)構(gòu)方法。因 此松弛匹配法在漢字識別中取得了很好的效果,它不僅可以用于特征點的匹配,而且還可以用于筆段、筆畫和部件的匹配。其主要缺點是運算量較大,識別中往往需要增加預(yù)分類環(huán)節(jié)以減小運算量。另外,它吸收畸變的能力仍有不足。 ( 4)人工神經(jīng)網(wǎng)絡(luò) 漢字識別是一個非?;钴S的分支,不斷有新的方法涌現(xiàn)出來,為漢字識別的研究注入新的活力,其中基于人工神經(jīng)網(wǎng)絡(luò)的識別方法是非常引人注目的方向。目前神經(jīng)網(wǎng)絡(luò)理論的應(yīng)用己經(jīng)滲透到各個領(lǐng)域,并在模式識別、智能控制、計算機視覺、自適應(yīng)濾波和信號處理、非線性優(yōu)化、自動目標識別,連續(xù)語音識別、 15 聲納信號 的處理、知識處理、傳感技術(shù)與機器人、生物等領(lǐng)域都有廣泛地應(yīng)用。 后處理 后處理就是利用相關(guān)算法對識別后的漢字文本或者初級識別結(jié)果做進一步的處理,糾正誤識的漢字,給出拒識的漢字,確定模棱兩可的漢字。漢字識別的后處理方法 [12, 13]從用戶的參與程度來說,可分為三類:手工處理,交互式處理和計算機自動處理。以下對各種常用的后處理方法做簡單的介紹。 ( 1) 簡單的詞匹配 簡單的詞匹配就是利用文本中字的上下文匹配關(guān)系和詞的使用頻度,給識別后文本中的拒識字提供一個“最佳”的候選字 , 其關(guān)鍵是建立漢語詞條數(shù)據(jù)庫。該數(shù)據(jù)庫應(yīng)具印刷體漢字識別系統(tǒng)的特征提取和匹配識別研究有完善的詞條存儲、維修功能,應(yīng)該能 夠反映不同詞的使用頻度,應(yīng)盡可能的提高詞條的檢索速度,只有這樣 才能方便漢字后處理程序的使用。 ( 2) 綜合詞匹配 綜合詞匹配方法,就是綜合利用初級識別結(jié)果和字的上下文關(guān)系及詞的使用頻度,來決定最后的識別結(jié)果。這種方法實際上己把識別過程和后處理過程融為一體了。 綜合利用初級識別結(jié)果與詞條信息的糾錯優(yōu)于單純利用詞條的糾錯。綜合詞匹配法可以減少搜索詞條關(guān)系時的搜索空間,從而提高糾錯速度。這是因為在尋找字的上下文匹配關(guān)系時,利用初 級識別結(jié)果的待選集,可以大大縮小搜索范圍,避免了在整個詞條庫中查詢 。 在不利用待選集時,對于有可能識別出錯的地方,只能采
點擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1