freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

印刷體漢字識(shí)別技術(shù)的研究畢業(yè)設(shè)計(jì)(文件)

2025-09-10 20:51 上一頁面

下一頁面
 

【正文】 進(jìn)入 90年代以來 ,印刷體漢字識(shí)別研究的主要目的是提高識(shí)別系統(tǒng)的品質(zhì)和效率,增強(qiáng)系統(tǒng)對(duì)不同文本的適應(yīng)性,擴(kuò)大使用面。國標(biāo) GB2312 一 80常用漢字字符集中共有, 6763個(gè)常用字 ,分為兩級(jí)。 ( 2) 結(jié)構(gòu)復(fù)雜 漢字是一種結(jié)構(gòu)性很強(qiáng)的文字,每個(gè)漢字都具有 獨(dú)一無二 特定分布的若干筆劃構(gòu)成,筆劃是漢字最基本的組成部分,漢字也可以看成是由部件組合而成的,部件是筆劃有意義的組合,一般 稱之為偏旁、部首或字根。即使由人來辨認(rèn)印刷體的這些漢字,在無上下文信息的幫助時(shí),也很容易 發(fā)生混淆 [3]。漢字識(shí)別技術(shù)是計(jì)算機(jī)智能接口的一個(gè)重要組成部分。核心部分是漢字識(shí)別模塊部分,印刷體漢字識(shí)別的過程主要過程包括預(yù)處理、特征提取、特征匹配、識(shí)別后處理。漢字的后處理是出于獲得最大化識(shí)別率考慮,它在前期已有識(shí)別水平上,通過調(diào)整參數(shù)或反饋處理獲得更高的識(shí)別率。系統(tǒng)框圖如 所示。提取特征的穩(wěn)定性及有效性,直接決定了識(shí)別的性能。其中單字圖像的特征提取與匹配模塊是 印刷漢字識(shí)別中最為核心的技術(shù)。預(yù)處理通常包括去除噪聲、版面分析、二值化、傾斜校正、行列切分、平滑、歸一化、細(xì)化等 [3][4]。 ( 2) 二值化 將一幅具有多種灰度值的圖像變 成白黑分布的二值圖像的工作稱為二值化處理 [5],二值化的主要目的是將漢字從圖像中分離出來?,F(xiàn)如今,漢字圖像二值化方法多種多樣,但大多都有應(yīng)用限制。目前,傾斜角檢測(cè)的方法有許多種,主要可分為 5類:基于 Hough 變換的方法;基于交叉相關(guān)性的方法;基于投影的方法;基于 Fourier 變換的方法和最近鄰簇方法。 行切分是利用行與行之間的直線型空隙來分辨行,將各行的行上界和行下界記錄下印刷體漢字識(shí)別技術(shù)的研究 上海應(yīng)用技術(shù)學(xué)院 電氣與電子工程學(xué)院 畢業(yè)論文 7 來 [6]。典型的算法是,在確定這一 行的行上界和行下界之后,從左到右搜索一行文字的左右邊界,切分出單字或標(biāo)點(diǎn)符號(hào)。 ( 5) 歸一化 歸一化也稱規(guī)格化,它是把文字尺寸變換成統(tǒng)一大小,糾正文字位置 ( 平移 ) ,文字筆畫粗細(xì)變換等文字 圖像的規(guī)格化處理,并只對(duì)文字圖像進(jìn)行投影。 ( 6) 平滑 對(duì)數(shù)字圖像進(jìn)行平滑,目的是去處孤立的噪聲干擾,以平滑筆畫邊緣。 ( 7) 細(xì)化 細(xì)化處理是在圖像處理中相當(dāng)重要和關(guān)鍵的一環(huán),它是將二值化文字點(diǎn)陣逐層剝?nèi)ポ喞吘壣系狞c(diǎn),變成筆畫寬度只有一個(gè)比特的文字骨架圖形。因此,高質(zhì)量的細(xì)化算法程序?qū)D像識(shí)別有很大的實(shí)用價(jià)值。然而,細(xì)化過程本 身固有的弱點(diǎn)總是造成筆畫骨架線的畸變,增加對(duì)識(shí)別的干擾,主要的畸變包括:交叉筆畫畸變、轉(zhuǎn)折處出現(xiàn)分叉筆畫、失去短筆畫和筆畫合并等。但每種漢字特征的適用環(huán)境都有所不同,有的特征在一些情況下有很強(qiáng)的自動(dòng)糾錯(cuò)能力,但在另外一些情況下卻完全失去了 效用 [8]。所以選擇哪種特征,如何組合特征將是漢字特征提取這一部分 的重點(diǎn)研究領(lǐng)域。 如下介紹并分析一下常用的一些的可供提取的漢字特征。其缺點(diǎn)是操作速度較慢,計(jì)算量大。特征點(diǎn)包括筆畫骨架線的端點(diǎn)、折點(diǎn)、歧點(diǎn)和交點(diǎn),漢字的背景也含有 一定的區(qū)別于其它漢字的信息,選擇若干背景點(diǎn)作為特征點(diǎn),有利于提高系統(tǒng)的抗干擾能力。其缺點(diǎn)是筆段的提取會(huì)較為困難,匹配的難度大,抗內(nèi)部筆畫斷裂或者粘連能力差。由于漢字邊框不但含有豐富的結(jié)構(gòu)信息,而且邊框部分筆畫一般較少,不易粘連,抗干擾能力強(qiáng),但對(duì)漢字的位移和旋轉(zhuǎn)比較敏感,與筆畫復(fù)雜性指數(shù)正好形成互補(bǔ)。 而本文為實(shí)現(xiàn)特征提取,我們將著重于對(duì)漢字的橫豎撇捺四種特征的提取 (漢字本身屬性決定 ),一般而言,特征提取的常用方法有逐象素特征提取法,垂直方向數(shù)據(jù)統(tǒng)計(jì)特征提取法, 13 特征點(diǎn)提取方法等,本設(shè)計(jì)中將引入 13點(diǎn)特征提取法。 漢字的分類識(shí)別方法也是漢字識(shí)別系統(tǒng)的重要環(huán)節(jié)之一。統(tǒng)計(jì)方法的優(yōu)點(diǎn)是特征提取和模板的建立都比較容 易,抗干擾能力強(qiáng),使局部噪聲不敏感:缺點(diǎn)是分辨相似字的能力較弱,對(duì)書寫風(fēng)格的變化比較敏感。 松弛匹配法首先通過迭代運(yùn)算,找出輸入向量與模板向量各分量間的對(duì)應(yīng)關(guān)系,然后再根據(jù)這一對(duì)應(yīng)關(guān)系進(jìn)行匹配。 松弛匹配法兼具統(tǒng)計(jì)方法和結(jié)構(gòu)方法的特長。另外,它吸收畸變的能力仍有不足。漢字識(shí)別的后處理方法從用戶的參與程度來說,可分為三類:手工處理,交互式處理和計(jì)算機(jī)自動(dòng)處理。該數(shù)據(jù)庫應(yīng)具印刷體漢字識(shí)別系統(tǒng)的特征提取和匹配識(shí)別研究有完善的詞條存儲(chǔ)、 維修功能,應(yīng)該能夠反映不同詞的使用頻度,應(yīng)盡可能的提高詞條的檢索速度,只有這樣才能方便漢字后處理程序的使用。綜合詞匹配法可以減少搜索詞條關(guān)系時(shí)的搜索空間,從而提高糾錯(cuò)速度。 ( 3) 詞法分析 語言是語音和意義的結(jié)合體。 漢字識(shí)別后處理的詞法分析方法,就是在詞匹配的基礎(chǔ)上,對(duì)仍難以確定的 漢字,找出這些漢字與前后漢字所能組成的詞,然后通過詞法分析,確定一個(gè)能和該詞的前后詞組成“最佳”匹配的詞,從而確定要識(shí)別的漢字。所以利用語義句法的方法,在初級(jí)識(shí)別結(jié)果的基礎(chǔ)上,在利用詞法分析進(jìn)行匹配之后或匹配的同時(shí),再進(jìn)行句法分析和語義分析,從而確定要識(shí)別 的漢字。 ( 5) 人工神經(jīng)元網(wǎng)絡(luò) 利用人工神經(jīng)元網(wǎng)絡(luò)的漢字識(shí)別后處理可以采取兩種方式。 印刷體漢字識(shí)別方法分析 結(jié)構(gòu)模式識(shí)別方法 漢字的數(shù)量巨大,結(jié)構(gòu)復(fù)雜,但其特殊的組成結(jié)構(gòu)中蘊(yùn)藏著相當(dāng)嚴(yán)的規(guī)律。這就是結(jié)構(gòu)模式識(shí)別。結(jié)構(gòu)模式識(shí)別方法的主要優(yōu)點(diǎn)在于對(duì)字體變化的適應(yīng)性強(qiáng) ,區(qū)分相似字能力強(qiáng);缺點(diǎn)是抗干擾能力差 ,從漢字圖像中精確的抽取基元、輪廓、特征點(diǎn)比較困難 ,匹配過程復(fù)雜。 統(tǒng)計(jì)模式識(shí)別方法 統(tǒng)計(jì)決策論發(fā)展較早,理論也較成熟。不足之處在于細(xì)分能力較弱,區(qū)印刷體漢字識(shí)別技術(shù)的研究 上海應(yīng)用技術(shù)學(xué)院 電氣與電子工程學(xué)院 畢業(yè)論文 13 分相似字的能力差一些。 ( 2) 利用變換特征的方法 該方法利用各種函數(shù)變換,例如 KL 變換、 Fourier 變換和 Gabor 變換等對(duì)漢字圖像特征進(jìn)行變換。前兩者用于預(yù)分類,后者用于單字識(shí)別。 ( 5) 特征點(diǎn)特征 漢字信息的絕大部分集中在漢字骨架上,而漢字骨架信息又大多集中在若干特征點(diǎn)上。也就是它的魯棒性一般不好。 如表 31 所示為統(tǒng)計(jì)方法和結(jié)構(gòu)方法特征比較: 表 31 統(tǒng)計(jì)方法和結(jié)構(gòu)方法特征比較 項(xiàng)目 方法 識(shí)別策略 判別方法 文字變形 變體 特征 提取 相似文 字區(qū)分 統(tǒng)計(jì)方法 向量維數(shù) 距離、 類似度 適應(yīng)性差 容易 不易區(qū)分 印刷體漢字識(shí)別技術(shù)的研究 上海應(yīng)用技術(shù)學(xué)院 電氣與電子工程學(xué)院 畢業(yè)論文 14 結(jié)構(gòu)方法 分而治之 串行判決 適應(yīng)性好 不容易 容易區(qū)分 由上述分析可見, 統(tǒng)計(jì)與結(jié)構(gòu)方法各有優(yōu)缺點(diǎn)。 人工神經(jīng)網(wǎng)絡(luò) 人工神經(jīng)網(wǎng)絡(luò) ( Artificial Neural Network,以下稱 ANN) 是一種模擬人腦神經(jīng)元細(xì)胞的網(wǎng)絡(luò)結(jié)構(gòu),它是由大量簡單的基本元件 — 神經(jīng)元,相互連接成的自適應(yīng)非線性動(dòng)態(tài)系統(tǒng)[11]。 ANN可以作為單純的分類器 ( 不包含特征提取、選擇 ) ,也可以用作功能完善的分類器。此外, ANN分類器是一種非線性的分類器,它可以提供我們很難想象到的復(fù)雜的類間分界面,這也為復(fù)雜分類問題的解決提供了一種可能的解決方式。這其中的原因很 多,主要的原因還在于我們對(duì)人腦的工作方式以及 ANN本身的許多問題還沒有找到完美的答案。因此,我們至少可以說,現(xiàn)有的神經(jīng)網(wǎng)絡(luò)方法有許多地方與統(tǒng)計(jì)方法在數(shù)學(xué)原理上是相通的。 ( 4) 神經(jīng)網(wǎng)絡(luò)由于其信息的分布式的存儲(chǔ)方式使它具備一定的容錯(cuò)能力,因此神經(jīng)網(wǎng)絡(luò)分類器對(duì)于輸人模式信息的缺損不是非常敏感,適合質(zhì)量較差圖像的識(shí)別。 BP 網(wǎng)絡(luò)能學(xué)習(xí)和存貯大量的輸入 輸出模式映射關(guān)系,而無需事前揭示描述這種映射關(guān)系的數(shù) 學(xué)方程。直到誤差反向傳播算法( BP 算法)的提出,成功地解決了求解非線性連續(xù)函數(shù)的多層前 饋神經(jīng)網(wǎng)絡(luò)權(quán)重調(diào)整問題。誤差通過輸 出層,按誤差梯度下降的方式修正各層權(quán)值,向隱層、輸入層逐層反傳。 ( 2) 作用函數(shù)模型 作用函數(shù)是反映下層輸入對(duì)上層節(jié)點(diǎn)刺激脈沖強(qiáng)度的函數(shù)又稱刺激 函 數(shù) ,一般取 為( 0,1)內(nèi)連續(xù)取值 Sigmoid 函數(shù): )1/(1)( exf ?? ( 35) ( 3) 誤差計(jì)算模型 誤差計(jì)算模型是反映神經(jīng)網(wǎng)絡(luò)期望輸出與計(jì)算輸出之間誤差大小的函數(shù): ? ??? )(2/1 O pitpiEp ( 36) tpii 節(jié)點(diǎn)的期望輸出值; Opii 節(jié)點(diǎn)計(jì)算輸出值 。 支持向量機(jī) 支持向量機(jī)是 Vapnik 等人根據(jù)統(tǒng)計(jì)學(xué)習(xí)理論提出的一種新的機(jī)器學(xué)習(xí)方法,已經(jīng)在模式識(shí)別、回歸分析和特征選擇等方面得到了較好的效果。 ( 2) 解決了算法復(fù)雜度與輸入向量密切相關(guān)的問題 。 ( 5) 算法可最終轉(zhuǎn)化為凸優(yōu)化問題,因而可保證算法的全局最優(yōu)性,避免了神經(jīng)網(wǎng)絡(luò)無法解決的局部最小問題 。其中結(jié)構(gòu)模式識(shí)別方法主要是早期文字識(shí)別的主要方法,隨著統(tǒng)計(jì)理論的發(fā)展,統(tǒng)計(jì)模式識(shí)別方法逐漸成為文字識(shí)別主要的研究力法。 印刷體漢字識(shí)別技術(shù)的研究 上海應(yīng)用技術(shù)學(xué)院 電氣與電子工程學(xué)院 畢業(yè)論文 19 4 系統(tǒng)的 Matlab 仿真 系統(tǒng)的分析 本設(shè)計(jì)要實(shí)現(xiàn)的是一個(gè)能識(shí)別 三十二 個(gè)印刷體漢字的識(shí)別系統(tǒng)。 印刷品上的漢字輸入,經(jīng)過預(yù)處理后,對(duì) 照 標(biāo)準(zhǔn)漢字修補(bǔ)缺損部分,用修補(bǔ)后的漢字進(jìn)行學(xué)習(xí),形成初始的特征庫后再進(jìn)行大量樣本的學(xué)習(xí),建立實(shí)用的特征庫。對(duì)神經(jīng)網(wǎng)絡(luò)設(shè)置其初始權(quán)值,選取大量的標(biāo)準(zhǔn)漢字訓(xùn)練網(wǎng)絡(luò),反復(fù)修改權(quán)值,直至與面積序號(hào)對(duì)應(yīng)的輸出 為 有效,并建立每一輸出與面積特征庫之間的連接關(guān)系。送入圖像管理模塊,經(jīng)二值化 , 轉(zhuǎn)灰度,均值濾波,二值化,行、字切割等圖像處理操作后,得到待識(shí)別文字的點(diǎn)陣,漢字識(shí)別模塊從點(diǎn)陣中提取識(shí)別特征,通過十三點(diǎn)特征提取,精確匹配識(shí)別結(jié)果。也就是說,現(xiàn)將字符分成 8等分,得到 8個(gè)特征。 但是由于特征點(diǎn)的數(shù)目太少,所以在樣本訓(xùn)練的時(shí)候難收斂。 神經(jīng)網(wǎng)絡(luò)輸出向量中的元素個(gè)數(shù)由我們的標(biāo)準(zhǔn)庫中字符的個(gè)數(shù)確定,由于所要建立的標(biāo)準(zhǔn)庫字符的個(gè)數(shù)是 32,并且因?yàn)橛?jì)算機(jī)語言只能識(shí)別 0 和 1 這二個(gè)值,所以神經(jīng)網(wǎng)絡(luò)輸出向量中最少有 5 個(gè)元素才能搭配出 32個(gè)不同的數(shù)值。tansig39。traingd39。,39。}是包含每層用到的傳遞函數(shù)名稱的細(xì)胞數(shù)組。 神經(jīng)網(wǎng)絡(luò)建立后,需要對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練以產(chǎn)生標(biāo)準(zhǔn)庫。 %設(shè)置訓(xùn)練次數(shù) =0。 系統(tǒng)的仿真 系統(tǒng)首先對(duì)標(biāo)準(zhǔn)圖像(見圖 )進(jìn)行識(shí)別, 運(yùn)行程序后 識(shí)別過程分別 進(jìn)行 轉(zhuǎn)灰度(見圖 ), 均值濾波(見圖 ),二值化(見圖 ), 經(jīng)行列切分后得到 處理結(jié)果(見圖 ), 最后在命令窗口輸出 識(shí)別結(jié)果(見圖 )。 系統(tǒng)性能的進(jìn)一步驗(yàn)證 但由于本系統(tǒng)設(shè)定的字庫容量較小僅為三十二個(gè)字,即使以上漢字都能夠一一識(shí)別也并不能完全證明本系統(tǒng)具有較高的識(shí)別率。 圖 相似字誤差曲線 通過對(duì)相似字 BP 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練我們得知,此網(wǎng)絡(luò)的識(shí)別誤差也非常小,可以進(jìn)行下一步的識(shí)別工作。通過對(duì)相似字標(biāo)準(zhǔn)圖像的學(xué)習(xí)訓(xùn)練之后,我們 再對(duì)相似字亂序圖像進(jìn)行識(shí)別。然后輸入亂序圖像在經(jīng)過轉(zhuǎn)灰度,均值濾波,二值化,特征提取,匹配識(shí)別后,系統(tǒng)能夠?qū)y序圖像中的圖像識(shí)別出。 圖 相似字亂序圖像 圖 相似字亂序轉(zhuǎn)灰度圖像 印刷體漢字識(shí)別技術(shù)的研究 上海應(yīng)用技術(shù)學(xué)院 電氣與電子工程學(xué)院 畢業(yè)論文 30 圖 相似字亂序均值濾波圖像 圖 相似字亂序二值化圖像 圖 相似字亂序圖像處理結(jié)果 印刷體漢字識(shí)別技術(shù)的研究 上海應(yīng)用技術(shù)學(xué)院 電氣與電子工程學(xué)院 畢業(yè)論文 31 圖 相似字亂序圖像 識(shí)別 結(jié)果 我們通過 Matlab 程序仿真結(jié)果得知,此系統(tǒng)對(duì) 相似字亂序圖像的漢字也能 100%識(shí)別,進(jìn)一步證明了本系統(tǒng)具有卓越的性能。 運(yùn)行程序后首先載入 相似字標(biāo)準(zhǔn)的圖片(見圖 ) ,然后依次得到 轉(zhuǎn)灰度圖片(見圖 ) , 均值濾波圖片(見圖 ) ,二值化圖片( ) ,經(jīng)行列切分后得到 處理結(jié)果( )及 命令窗口輸出的識(shí)別結(jié)果( )。 我們首先建立一個(gè)相似字的標(biāo)準(zhǔn)庫,并對(duì)其 BP 神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。 通 過對(duì)標(biāo)準(zhǔn)圖像識(shí)別學(xué)習(xí)訓(xùn)練,然后 再 對(duì)輸入亂序圖像(見 )進(jìn)行識(shí)別, 運(yùn)行程序后識(shí)別 過程中分別 進(jìn)行 轉(zhuǎn)灰度(見圖 ),均值濾波(見圖 ),二值化(見圖 ), 經(jīng)行列切分后得到 處理結(jié)果(見圖 ), 最后在命令窗口輸出識(shí)別 結(jié)果(見圖 )。 %訓(xùn)練 BP網(wǎng)絡(luò)( P為輸入, T為輸出) save zmn123 %保存文件名為 zmn123 BP 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練 下圖(見圖 )是輸出向量和輸入向量都為三十二個(gè)元素的 BP 神經(jīng)網(wǎng)絡(luò)的 訓(xùn)練著 著
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報(bào)告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1