freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

印刷體漢字識別技術(shù)的研究畢業(yè)設(shè)計(文件)

2025-08-01 17:17 上一頁面

下一頁面
 

【正文】 。 進入 90 年代以來 ,印刷體漢字識別研究的主要目的是提高識別系統(tǒng)的品質(zhì)和效率,增強系統(tǒng)對不同文本的適應(yīng)性,擴大使用面。國標(biāo) GB2312 一 80 常用漢字字符集中共有, 6763個常用字 ,分為兩級。 ( 2) 結(jié)構(gòu)復(fù)雜 漢字是一種結(jié)構(gòu)性很強的文字,每個漢字都具有 獨一無二 特定分布的若干筆劃構(gòu)成,筆劃是漢字最基本的組成部分,漢字也可以看成是由部件組合而成的,部件是筆劃有意義的組合,一般 稱之為偏旁、部首或字根。即使由人來辨認(rèn)印刷體的這些漢字,在無上下文信息的幫助時,也很容易 發(fā)生混淆 [3]。漢字識別技術(shù)是計算機智能接口的一個重要組成部分。核心部分是漢字識別模塊部分,印刷體漢字識別的過程主要過程包括預(yù)處理、特征提取、特征匹配、識別后處理。漢字的后處理是出于獲得最大化識別率考慮,它在前期已有識別水平上,通過調(diào)整參數(shù)或反饋處理獲得更高的識別率。系統(tǒng)框圖如 所示。提取特征的穩(wěn)定性及有效性,直接決定了識別的性能。其中單字圖像的特征提取與匹配模塊是 印刷漢字識別中最為核心的技術(shù)。預(yù)處理通常包括去除噪聲、版面分析、二值化、傾斜校正、行列切分、平滑、歸一化、細化等 [3][4]。 ( 2) 二值化 將一幅具有多種灰度值的圖像變 成白黑分布的二值圖像的工作稱為二值化處理 [5],二值化的主要目的是將漢字從圖像中分離出來?,F(xiàn)如今,漢字圖像二值化方法多種多樣,但大多都有應(yīng)用限制。目前,傾斜角檢測的方法有許多種,主要可分為 5 類:基于 Hough 變換的方法;基于交叉相關(guān)性的方法;基于投影的方法;基于 Fourier 變換的方法和最近鄰簇方法。 行切分是利用行與行之間的直線型空隙來分辨行,將各行的行上界和行下界記錄下印刷體漢字識別技術(shù)的研究 上海應(yīng)用技術(shù)學(xué)院 電氣與電子工程學(xué)院 畢業(yè)論文 7 來 [6]。典型的算法是,在確定這一 行的行上界和行下界之后,從左到右搜索一行文字的左右邊界,切分出單字或標(biāo)點符號。 ( 5) 歸一化 歸一化也稱規(guī)格化,它是把文字尺寸變換成統(tǒng)一大小,糾正文字位置 ( 平移 ) ,文字筆畫粗細變換等文字 圖像的規(guī)格化處理,并只對文字圖像進行投影。 ( 6) 平滑 對數(shù)字圖像進行平滑,目的是去處孤立的噪聲干擾,以平滑筆畫邊緣。 ( 7) 細化 細化處理是在圖像處理中相當(dāng)重要和關(guān)鍵的一環(huán),它是將二值化文字點陣逐層剝?nèi)ポ喞吘壣系狞c,變成筆畫寬度只有一個比特的文字骨架圖形。因此,高質(zhì)量的細化算法程序?qū)D像識別有很大的實用價值。然而,細化過程本 身固有的弱點總是造成筆畫骨架線的畸變,增加對識別的干擾,主要的畸變包括:交叉筆畫畸變、轉(zhuǎn)折處出現(xiàn)分叉筆畫、失去短筆畫和筆畫合并等。但每種漢字特征的適用環(huán)境都有所不同,有的特征在一些情況下有很強的自動糾錯能力,但在另外一些情況下卻完全失去了 效用 [8]。所以選擇哪種特征,如何組合特征將是漢字特征提取這一部分 的重點研究領(lǐng)域。 如下介紹并分析一下常用的一些的可供提取的漢字特征。其缺點是操作速度較慢,計算量大。特征點包括筆畫骨架線的端點、折點、歧點和交點,漢字的背景也含有 一定的區(qū)別于其它漢字的信息,選擇若干背景點作為特征點,有利于提高系統(tǒng)的抗干擾能力。其缺點是筆段的提取會較為困難,匹配的難度大,抗內(nèi)部筆畫斷裂或者粘連能力差。由于漢字邊框不但含有豐富的結(jié)構(gòu)信息,而且邊框部分筆畫一般較少,不易粘連,抗干擾能力強,但對漢字的位移和旋轉(zhuǎn)比較敏感,與筆畫復(fù)雜性指數(shù)正好形成互補。 而本文為實現(xiàn)特征提取,我們將著重于對漢字的橫豎撇捺四種特征的提取 (漢字本身屬性決定 ),一般而言,特征提取的常用方法有逐象素特征提取法,垂直方向數(shù)據(jù)統(tǒng)計特征提取法, 13特征點提取方法等,本設(shè)計中將引入 13 點特征提取法。 漢字的分類識別方法也是漢字識別系統(tǒng)的重要環(huán)節(jié)之一。統(tǒng)計方法的優(yōu)點是特征提取和模板的建立都比較容 易,抗干擾能力強,使局部噪聲不敏感:缺點是分辨相似字的能力較弱,對書寫風(fēng)格的變化比較敏感。 松弛匹配法首先通過迭代運算,找出輸入向量與模板向量各分量間的對應(yīng)關(guān)系,然后再根據(jù)這一對應(yīng)關(guān)系進行匹配。 松弛匹配法兼具統(tǒng)計方法和結(jié)構(gòu)方法的特長。另外,它吸收畸變的能力仍有不足。漢字識別的后處理方法從用戶的參與程度來說,可分為三類:手工處理,交互式處理和計算機自動處理。該數(shù)據(jù)庫應(yīng)具印刷體漢字識別系統(tǒng)的特征提取和匹配識別研究有完善的詞條存儲、 維修功能,應(yīng)該能夠反映不同詞的使用頻度,應(yīng)盡可能的提高詞條的檢索速度,只有這樣才能方便漢字后處理程序的使用。綜合詞匹配法可以減少搜索詞條關(guān)系時的搜索空間,從而提高糾錯速度。 ( 3) 詞法分析 語言是語音和意義的結(jié)合體。 漢字識別后處理的詞法分析方法,就是在詞匹配的基礎(chǔ)上,對仍難以確定的 漢字,找出這些漢字與前后漢字所能組成的詞,然后通過詞法分析,確定一個能和該詞的前后詞組成“最佳”匹配的詞,從而確定要識別的漢字。所以利用語義句法的方法,在初級識別結(jié)果的基礎(chǔ)上,在利用詞法分析進行匹配之后或匹配的同時,再進行句法分析和語義分析,從而確定要識別 的漢字。 ( 5) 人工神經(jīng)元網(wǎng)絡(luò) 利用人工神經(jīng)元網(wǎng)絡(luò)的漢字識別后處理可以采取兩種方式。 印刷體漢字識別方法分析 結(jié)構(gòu)模式識別方法 漢字的數(shù)量巨大,結(jié)構(gòu)復(fù)雜,但其特殊的組成結(jié)構(gòu)中蘊藏著相當(dāng)嚴(yán)的規(guī)律。這就是結(jié)構(gòu)模式識別。結(jié)構(gòu)模式識別方法的主要優(yōu)點在于對字體變化的適應(yīng)性強 ,區(qū)分相似字能力強;缺點是抗干擾能力差 ,從漢字圖像中精確的抽取基元、輪廓、特征點比較困難 ,匹配過程復(fù)雜。 統(tǒng)計模式識別方法 統(tǒng)計決策論發(fā)展較早,理論也較成熟。不足之處在于細分能力較弱,區(qū)印刷體漢字識別技術(shù)的研究 上海應(yīng)用技術(shù)學(xué)院 電氣與電子工程學(xué)院 畢業(yè)論文 13 分相似字的能力差一些。 ( 2) 利用變換特征的方法 該方法利用各種函數(shù)變換,例如 KL 變換、 Fourier 變換和 Gabor 變換等對漢字圖像特征進行變換。前兩者用于預(yù)分類,后者用于單字識別。 ( 5) 特征點特征 漢字信息的絕大部分集中在漢字骨架上,而漢字骨架信息又大多集中在若干特征點上。也就是它的魯棒性一般不好。 如表 31所示為統(tǒng)計方法和結(jié)構(gòu)方法特征比較: 表 31 統(tǒng)計方法和結(jié)構(gòu)方法特征比較 項目 方法 識別策略 判別方法 文字變形 變體 特征 提取 相似文 字區(qū)分 統(tǒng)計方法 向量維數(shù) 距離、 類似度 適應(yīng)性差 容易 不易區(qū)分 印刷體漢字識別技術(shù)的研究 上海應(yīng)用技術(shù)學(xué)院 電氣與電子工程學(xué)院 畢業(yè)論文 14 結(jié)構(gòu)方法 分而治之 串行判決 適應(yīng)性好 不容易 容易區(qū)分 由上述分析可見, 統(tǒng)計與結(jié)構(gòu)方法各有優(yōu)缺點。 人工神經(jīng)網(wǎng)絡(luò) 人工神經(jīng)網(wǎng)絡(luò) ( Artificial Neural Network,以下稱 ANN) 是一種模擬人腦神經(jīng)元細胞的網(wǎng)絡(luò)結(jié)構(gòu),它是由大量簡單的基本元件 — 神經(jīng)元,相互連接成的自適應(yīng)非線性動態(tài)系統(tǒng)[11]。 ANN可以作為單純的分類器 ( 不包含特征提取、選擇 ) ,也可以用作功能完善的分類器。此外, ANN分類器是一種非線性的分類器,它可以提供我們很難想象到的復(fù)雜的類間分界面,這也為復(fù)雜分類問題的解決提供了一種可能的解決方式。這其中的原因很 多,主要的原因還在于我們對人腦的工作方式以及 ANN本身的許多問題還沒有找到完美的答案。因此,我們至少可以說,現(xiàn)有的神經(jīng)網(wǎng)絡(luò)方法有許多地方與統(tǒng)計方法在數(shù)學(xué)原理上是相通的。 ( 4) 神經(jīng)網(wǎng)絡(luò)由于其信息的分布式的存儲方式使它具備一定的容錯能力,因此神經(jīng)網(wǎng)絡(luò)分類器對于輸人模式信息的缺損不是非常敏感,適合質(zhì)量較差圖像的識別。 BP 網(wǎng)絡(luò)能學(xué)習(xí)和存貯大量的輸入 輸出模式映射關(guān)系,而無需事前揭示描述這種映射關(guān)系的數(shù) 學(xué)方程。直到誤差反向傳播算法( BP 算法)的提出,成功地解決了求解非線性連續(xù)函數(shù)的多層前 饋神經(jīng)網(wǎng)絡(luò)權(quán)重調(diào)整問題。誤差通過輸 出層,按誤差梯度下降的方式修正各層權(quán)值,向隱層、輸入層逐層反傳。 ( 2) 作用函數(shù)模型 作用函數(shù)是反映下層輸入對上層節(jié)點刺激脈沖強度的函數(shù)又稱刺激 函 數(shù) ,一般取 為( 0,1)內(nèi)連續(xù)取值 Sigmoid 函數(shù): )1/(1)( exf ?? ( 35) ( 3) 誤差計算模型 誤差計算模型是反映神經(jīng)網(wǎng)絡(luò)期望輸出與計算輸出之間誤差大小的函數(shù): ? ??? )(2/1 O pitp iEp ( 36) tpii 節(jié)點的期望輸出值; Opii 節(jié)點計算輸出值 。 支持向量機 支持向量機是 Vapnik 等人根據(jù)統(tǒng)計學(xué)習(xí)理論提出的一種新的機器學(xué)習(xí)方法,已經(jīng)在模式識別、回歸分析和特征選擇等方面得到了較好的效果。 ( 2) 解決了算法復(fù)雜度與輸入向量密切相關(guān)的問題 。 ( 5) 算法可最終轉(zhuǎn)化為凸優(yōu)化問題,因而可保證算法的全局最優(yōu)性,避免了神經(jīng)網(wǎng)絡(luò)無法解決的局部最小問題 。其中結(jié)構(gòu)模式識別方法主要是早期文字識別的主要方法,隨著統(tǒng)計理論的發(fā)展,統(tǒng)計模式識別方法逐漸成為文字識別主要的研究力法。 印刷體漢字識別技術(shù)的研究 上海應(yīng)用技術(shù)學(xué)院 電氣與電子工程學(xué)院 畢業(yè)論文 19 4 系統(tǒng)的 Matlab 仿真 系統(tǒng)的分析 本設(shè)計要實現(xiàn)的是一個能識別 三十二 個印刷體漢字的識別系統(tǒng)。 印刷品上的漢字輸入,經(jīng)過預(yù)處理后,對 照 標(biāo)準(zhǔn)漢字修補缺損部分,用修補后的漢字進行學(xué)習(xí),形成初始的特征庫后再進行大量樣本的學(xué)習(xí),建立實用的特征庫。對神經(jīng)網(wǎng)絡(luò)設(shè)置其初始權(quán)值,選取大量的標(biāo)準(zhǔn)漢字訓(xùn)練網(wǎng)絡(luò),反復(fù)修改權(quán)值,直至與面積序號對應(yīng)的輸出 為 有效,并建立每一輸出與面積特征庫之間的連接關(guān)系。送入圖像管理模塊,經(jīng)二值化 , 轉(zhuǎn)灰度,均值濾波,二值化,行、字切割等圖像處理操作后,得到待識別文字的點陣,漢字識別模塊從點陣中提取識別特征,通過十三點特征提取,精確匹配識別結(jié)果。也就是說,現(xiàn)將字符分成 8等分,得到 8 個特征。 但是由于特征點的數(shù)目太少,所以在樣本訓(xùn)練的時候難收斂。 神經(jīng)網(wǎng)絡(luò)輸出向量中的元素個數(shù)由我們的標(biāo)準(zhǔn)庫中字符的個數(shù)確定,由于所要建立的標(biāo)準(zhǔn)庫字符的個數(shù)是 32,并且因為計算機語言只能識別 0和 1這二個值,所以神經(jīng)網(wǎng)絡(luò)輸出向量中最少有 5 個元素才能搭配出 32 個不同的數(shù)值。tansig39。traingd39。,39。}是包含每層用到的傳遞函數(shù)名稱的細胞數(shù)組。 神經(jīng)網(wǎng)絡(luò)建立后,需要對神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練以產(chǎn)生標(biāo)準(zhǔn)庫。 %設(shè)置訓(xùn)練次數(shù) =0。 系統(tǒng)的仿真 系統(tǒng)首先對標(biāo)準(zhǔn)圖像(見圖 )進行識別, 運行程序后 識別過程分別 進行 轉(zhuǎn)灰度(見圖 ), 均值濾波(見圖 ),二值化(見圖 ), 經(jīng)行列切分后得到 處理結(jié)果(見圖 ), 最后在命令窗口輸出 識別結(jié)果(見圖 )。 系統(tǒng)性能的進一步驗證 但由于本系統(tǒng)設(shè)定的字庫容量較小僅為三十二個字,即使以上漢字都能夠一一識別也并不能完全證明本系統(tǒng)具有較高的識別率。 圖 相似字誤差曲線 通過對相似字 BP 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練我們得知,此網(wǎng)絡(luò)的識別誤差也非常小,可以進行下一步的識別工作。通過對相似字標(biāo)準(zhǔn)圖像的學(xué)習(xí)訓(xùn)練之后,我們 再對相似字亂序圖像進行識別。然后輸入亂序圖像在經(jīng)過轉(zhuǎn)灰度,均值濾波,二值化,特征提取,匹配識別后,系統(tǒng)能夠?qū)y序圖像中的圖像識別出。 圖 相似字亂序圖像 圖 相似字亂序轉(zhuǎn)灰度圖像 印刷體漢字識別技術(shù)的研究 上海應(yīng)用技術(shù)學(xué)院 電氣與電子工程學(xué)院 畢業(yè)論文 30 圖 相似字亂序均值濾波圖像 圖 相似字亂序二值化圖像 圖 相似字亂序圖像處理結(jié)果 印刷體漢字識別技術(shù)的研究 上海應(yīng)用技術(shù)學(xué)院 電氣與電子工程學(xué)院 畢業(yè)論文 31 圖 相似字亂序圖像 識別 結(jié)果 我們通過 Matlab 程序仿真結(jié)果得知,此系統(tǒng)對 相似字亂序圖像的漢字也能 100%識別,進一步證明了本系統(tǒng)具有卓越的性能。 運行程序后首先載入 相似字標(biāo)準(zhǔn)的圖片(見圖 ) ,然后依次得到 轉(zhuǎn)灰度圖片(見圖 ) , 均值濾波圖片(見圖 ) ,二值化圖片( ) ,經(jīng)行列切分后得到 處理結(jié)果( )及 命令窗口輸出的識別結(jié)果( )。 我們首先建立一個相似字的標(biāo)準(zhǔn)庫,并對其 BP 神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練。 通 過對標(biāo)準(zhǔn)圖像識別學(xué)習(xí)訓(xùn)練,然后 再 對輸入亂序圖像(見 )進行識別, 運行程序后識別 過程中分別 進行 轉(zhuǎn)灰度(見圖 ),均值濾波(見圖 ),二值化(見圖 ), 經(jīng)行列切分后得到 處理結(jié)果(見圖 ), 最后在命令窗口輸出識別 結(jié)果(見圖 )。 %訓(xùn)練 BP 網(wǎng)絡(luò)( P 為輸入, T 為輸出) save zmn123 %保存文件名為 zmn123 BP 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練 下圖(見圖 )是輸出向量和輸入向量都為三十二個元素的 BP 神經(jīng)網(wǎng)絡(luò)的
點擊復(fù)制文檔內(nèi)容
研究報告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1