freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

印刷體漢字識(shí)別技術(shù)的研究畢業(yè)設(shè)計(jì)(完整版)

  

【正文】 ( 3) 松弛匹配 無(wú) 論是相關(guān)匹配還是文法分析,都要求輸入特征向量和模板特征向量的各分量之間具有確切的對(duì)應(yīng)關(guān)系,然而在結(jié)構(gòu)分析中,往往事先難以確定兩者各分量間的對(duì)應(yīng)關(guān)系,此時(shí)可以采用松弛匹配法。識(shí)別的過程包括根據(jù)識(shí)別算法選擇和提取漢字的特征、與標(biāo)準(zhǔn)文字的特征進(jìn)行匹配判別。 ③四邊碼 ( Fourside Code) 四邊碼是在漢字點(diǎn)陣圖的四周各取一條帶,計(jì)算其中的文字圖像素點(diǎn)數(shù),并將它分成四級(jí),構(gòu)成一個(gè)四元組。 ( 2) 統(tǒng)計(jì)特征 ① 特征點(diǎn) 法 印刷體漢字識(shí)別技術(shù)的研究 上海應(yīng)用技術(shù)學(xué)院 電氣與電子工程學(xué)院 畢業(yè)論文 9 特征點(diǎn)提取算法的主要思想是利用字符點(diǎn)陣中一些有代表性的黑點(diǎn) (筆畫 )、白點(diǎn) (背景 )作為特征來區(qū)分不同的字符。由于信息的缺陷,便不可避免地遇到識(shí)別“死角”的問題。對(duì)于漢字,其特征大致分為兩類,包括結(jié)構(gòu)特征和統(tǒng)計(jì)特征,至今總數(shù)己經(jīng)不下百種。在細(xì)化處理過程中,一方面,去除的像素太少,則不能充分有效地減少圖像的信息量;另一方面,去除的像素太多,特別是 某些關(guān)鍵像素若被去除,則改變了原始圖像的主要特征。所以,必須采用恰當(dāng)?shù)臍w一化方法來 盡可能的 消除尺度變化對(duì)特征值 提取的影響。 字切分是利用字與字之間的直線型空隙來分辨字,將各字的左邊界和右邊界記錄下來。傾斜校正的核心在于如何檢測(cè)出圖像的傾斜角。這一過程的自動(dòng)完成算法還不是很完善,有些部分常由手工完成,最終的系統(tǒng)能夠自動(dòng)完成所有的版面分析。由此可見,印刷漢字識(shí)別技術(shù)主要包括圖像處理模塊,圖像版面的分析與理解模塊,圖像的行切分與字切分模塊,單字圖像的特征提取與匹配模塊,特征庫(kù),識(shí)別結(jié)果的后處理模塊。 印刷體漢字識(shí)別的流程簡(jiǎn)介 印刷體漢字識(shí)別的過程主要過程包括預(yù)處理、版面分析理解、文本行字切分、特征提 取、漢字識(shí)別、識(shí)別后處理,在本文中,將版面分析理解、文本行字切分都?xì)w為預(yù)處理。該系統(tǒng)由輸入設(shè)備、漢字識(shí)別模塊和計(jì)算機(jī)硬、軟件三部分組成。 ( 3) 相似字多 部分漢字字符之間只存在著很細(xì)小的差別,具有相同筆劃數(shù)目的漢字字符之間的差異有的表現(xiàn)為某一個(gè)筆劃位置或形態(tài)的微小變化,又比如“ 土 ”和“ 士 ” 這兩個(gè)字 僅在下部筆劃長(zhǎng)短 有細(xì)微的差別 而已 。 ( 1) 類別較大 目前我國(guó)常用漢字約 3000~4000 個(gè)。 同國(guó)外相比,我國(guó)的印刷體漢字識(shí)別研究起步較晚 [2]。大約在 50 年代末 60 年代初,就已經(jīng)出現(xiàn)了關(guān)于利用計(jì)算機(jī)識(shí)別數(shù)字及英文符號(hào)的研究論文。漢字識(shí)別是一門多學(xué)科綜合 性 的研究課題,它不僅與人工智能的研究有關(guān),而且與數(shù)字信號(hào)處理、圖像處理、信息論、計(jì)算機(jī)科學(xué)、幾何學(xué)、統(tǒng)計(jì)學(xué)、語(yǔ)言學(xué)、生物學(xué)、模糊數(shù)學(xué)、決策 論等 技術(shù) 都有著千絲萬(wàn)縷的聯(lián)系。然而, 隨著人們對(duì)電子化信息需求的日益增加 , 如何將漢字快速高效地輸入計(jì)算機(jī),是信息處理的一個(gè)關(guān)鍵問題,也是關(guān)系到計(jì)算機(jī)技術(shù)能否在我國(guó)真正普及的 重要前提 ,更是 能否 傳播與弘揚(yáng)中華民族悠久歷史文化的關(guān)鍵 因素 。 特征提取 。 i 學(xué)校代碼: 10259 上海應(yīng)用技術(shù)學(xué)院 學(xué)士學(xué)位論文 題 目: 硬刷題漢字識(shí)別技術(shù)的研究 專 業(yè): 電氣工程及其自動(dòng)化 班 級(jí): 09103212 姓 名: 沈佳駿 學(xué) 號(hào): 0910321220 指導(dǎo)教師: 陳嵐 二 O 一三年 六月六日 ii 印刷體漢字識(shí)別技術(shù)的研究 摘要 :印刷體 漢字識(shí)別技術(shù)是一種高速、自動(dòng)的信息錄入手段 ,成為未來計(jì)算機(jī)的重要職能接口,還可以作為辦公自動(dòng)化、新聞出版、機(jī)器翻譯等領(lǐng)域的理想輸入方式,有著廣泛的應(yīng)用前景。 匹配識(shí)別 。 傳統(tǒng)的 人工鍵入不僅 速度 慢而且勞動(dòng)強(qiáng)度大, 即使是專業(yè) 的 打字員 每分鐘 也 只能輸入 100120 個(gè)漢字。一方面各學(xué)科的發(fā)展給它的研究提供了工具;另一方面,它的研究與發(fā)展也必將促進(jìn)各學(xué)科的 相互進(jìn)步 。據(jù)文獻(xiàn)記載,印刷體漢字的識(shí)別最早可以追溯到 60 年代 中期 。我國(guó)在 20 世紀(jì) 70 年代才開始對(duì)數(shù)字、英文字母及符號(hào)的識(shí)別技術(shù)進(jìn)行研究 , 20 世紀(jì) 70 年代末僅有少數(shù)大學(xué)和研究所開始進(jìn)行漢字識(shí)別的研究并發(fā)表了一些論文,研制了少量模擬識(shí)別軟件或系統(tǒng) 。國(guó)標(biāo) GB2312 一 80 常用漢字字符集中共有, 6763個(gè)常用字 ,分為兩級(jí)。即使由人來辨認(rèn)印刷體的這些漢字,在無(wú)上下文信息的幫助時(shí),也很容易 發(fā)生混淆 [3]。核心部分是漢字識(shí)別模塊部分,印刷體漢字識(shí)別的過程主要過程包括預(yù)處理、特征提取、特征匹配、識(shí)別后處理。系統(tǒng)框圖如 所示。其中單字圖像的特征提取與匹配模塊是 印刷漢字識(shí)別中最為核心的技術(shù)。 ( 2) 二值化 將一幅具有多種灰度值的圖像變 成白黑分布的二值圖像的工作稱為二值化處理 [5],二值化的主要目的是將漢字從圖像中分離出來。目前,傾斜角檢測(cè)的方法有許多種,主要可分為 5 類:基于 Hough 變換的方法;基于交叉相關(guān)性的方法;基于投影的方法;基于 Fourier 變換的方法和最近鄰簇方法。典型的算法是,在確定這一 行的行上界和行下界之后,從左到右搜索一行文字的左右邊界,切分出單字或標(biāo)點(diǎn)符號(hào)。 ( 6) 平滑 對(duì)數(shù)字圖像進(jìn)行平滑,目的是去處孤立的噪聲干擾,以平滑筆畫邊緣。因此,高質(zhì)量的細(xì)化算法程序?qū)D像識(shí)別有很大的實(shí)用價(jià)值。但每種漢字特征的適用環(huán)境都有所不同,有的特征在一些情況下有很強(qiáng)的自動(dòng)糾錯(cuò)能力,但在另外一些情況下卻完全失去了 效用 [8]。 如下介紹并分析一下常用的一些的可供提取的漢字特征。特征點(diǎn)包括筆畫骨架線的端點(diǎn)、折點(diǎn)、歧點(diǎn)和交點(diǎn),漢字的背景也含有 一定的區(qū)別于其它漢字的信息,選擇若干背景點(diǎn)作為特征點(diǎn),有利于提高系統(tǒng)的抗干擾能力。由于漢字邊框不但含有豐富的結(jié)構(gòu)信息,而且邊框部分筆畫一般較少,不易粘連,抗干擾能力強(qiáng),但對(duì)漢字的位移和旋轉(zhuǎn)比較敏感,與筆畫復(fù)雜性指數(shù)正好形成互補(bǔ)。 漢字的分類識(shí)別方法也是漢字識(shí)別系統(tǒng)的重要環(huán)節(jié)之一。 松弛匹配法首先通過迭代運(yùn)算,找出輸入向量與模板向量各分量間的對(duì)應(yīng)關(guān)系,然后再根據(jù)這一對(duì)應(yīng)關(guān)系進(jìn)行匹配。另外,它吸收畸變的能力仍有不足。該數(shù)據(jù)庫(kù)應(yīng)具印刷體漢字識(shí)別系統(tǒng)的特征提取和匹配識(shí)別研究有完善的詞條存儲(chǔ)、 維修功能,應(yīng)該能夠反映不同詞的使用頻度,應(yīng)盡可能的提高詞條的檢索速度,只有這樣才能方便漢字后處理程序的使用。 ( 3) 詞法分析 語(yǔ)言是語(yǔ)音和意義的結(jié)合體。所以利用語(yǔ)義句法的方法,在初級(jí)識(shí)別結(jié)果的基礎(chǔ)上,在利用詞法分析進(jìn)行匹配之后或匹配的同時(shí),再進(jìn)行句法分析和語(yǔ)義分析,從而確定要識(shí)別 的漢字。 印刷體漢字識(shí)別方法分析 結(jié)構(gòu)模式識(shí)別方法 漢字的數(shù)量巨大,結(jié)構(gòu)復(fù)雜,但其特殊的組成結(jié)構(gòu)中蘊(yùn)藏著相當(dāng)嚴(yán)的規(guī)律。結(jié)構(gòu)模式識(shí)別方法的主要優(yōu)點(diǎn)在于對(duì)字體變化的適應(yīng)性強(qiáng) ,區(qū)分相似字能力強(qiáng);缺點(diǎn)是抗干擾能力差 ,從漢字圖像中精確的抽取基元、輪廓、特征點(diǎn)比較困難 ,匹配過程復(fù)雜。不足之處在于細(xì)分能力較弱,區(qū)印刷體漢字識(shí)別技術(shù)的研究 上海應(yīng)用技術(shù)學(xué)院 電氣與電子工程學(xué)院 畢業(yè)論文 13 分相似字的能力差一些。前兩者用于預(yù)分類,后者用于單字識(shí)別。也就是它的魯棒性一般不好。 人工神經(jīng)網(wǎng)絡(luò) 人工神經(jīng)網(wǎng)絡(luò) ( Artificial Neural Network,以下稱 ANN) 是一種模擬人腦神經(jīng)元細(xì)胞的網(wǎng)絡(luò)結(jié)構(gòu),它是由大量簡(jiǎn)單的基本元件 — 神經(jīng)元,相互連接成的自適應(yīng)非線性動(dòng)態(tài)系統(tǒng)[11]。此外, ANN分類器是一種非線性的分類器,它可以提供我們很難想象到的復(fù)雜的類間分界面,這也為復(fù)雜分類問題的解決提供了一種可能的解決方式。因此,我們至少可以說,現(xiàn)有的神經(jīng)網(wǎng)絡(luò)方法有許多地方與統(tǒng)計(jì)方法在數(shù)學(xué)原理上是相通的。 BP 網(wǎng)絡(luò)能學(xué)習(xí)和存貯大量的輸入 輸出模式映射關(guān)系,而無(wú)需事前揭示描述這種映射關(guān)系的數(shù) 學(xué)方程。誤差通過輸 出層,按誤差梯度下降的方式修正各層權(quán)值,向隱層、輸入層逐層反傳。 支持向量機(jī) 支持向量機(jī)是 Vapnik 等人根據(jù)統(tǒng)計(jì)學(xué)習(xí)理論提出的一種新的機(jī)器學(xué)習(xí)方法,已經(jīng)在模式識(shí)別、回歸分析和特征選擇等方面得到了較好的效果。 ( 5) 算法可最終轉(zhuǎn)化為凸優(yōu)化問題,因而可保證算法的全局最優(yōu)性,避免了神經(jīng)網(wǎng)絡(luò)無(wú)法解決的局部最小問題 。 印刷體漢字識(shí)別技術(shù)的研究 上海應(yīng)用技術(shù)學(xué)院 電氣與電子工程學(xué)院 畢業(yè)論文 19 4 系統(tǒng)的 Matlab 仿真 系統(tǒng)的分析 本設(shè)計(jì)要實(shí)現(xiàn)的是一個(gè)能識(shí)別 三十二 個(gè)印刷體漢字的識(shí)別系統(tǒng)。對(duì)神經(jīng)網(wǎng)絡(luò)設(shè)置其初始權(quán)值,選取大量的標(biāo)準(zhǔn)漢字訓(xùn)練網(wǎng)絡(luò),反復(fù)修改權(quán)值,直至與面積序號(hào)對(duì)應(yīng)的輸出 為 有效,并建立每一輸出與面積特征庫(kù)之間的連接關(guān)系。也就是說,現(xiàn)將字符分成 8等分,得到 8 個(gè)特征。 神經(jīng)網(wǎng)絡(luò)輸出向量中的元素個(gè)數(shù)由我們的標(biāo)準(zhǔn)庫(kù)中字符的個(gè)數(shù)確定,由于所要建立的標(biāo)準(zhǔn)庫(kù)字符的個(gè)數(shù)是 32,并且因?yàn)橛?jì)算機(jī)語(yǔ)言只能識(shí)別 0和 1這二個(gè)值,所以神經(jīng)網(wǎng)絡(luò)輸出向量中最少有 5 個(gè)元素才能搭配出 32 個(gè)不同的數(shù)值。traingd39。}是包含每層用到的傳遞函數(shù)名稱的細(xì)胞數(shù)組。 %設(shè)置訓(xùn)練次數(shù) =0。 系統(tǒng)性能的進(jìn)一步驗(yàn)證 但由于本系統(tǒng)設(shè)定的字庫(kù)容量較小僅為三十二個(gè)字,即使以上漢字都能夠一一識(shí)別也并不能完全證明本系統(tǒng)具有較高的識(shí)別率。通過對(duì)相似字標(biāo)準(zhǔn)圖像的學(xué)習(xí)訓(xùn)練之后,我們 再對(duì)相似字亂序圖像進(jìn)行識(shí)別。 圖 相似字亂序圖像 圖 相似字亂序轉(zhuǎn)灰度圖像 印刷體漢字識(shí)別技術(shù)的研究 上海應(yīng)用技術(shù)學(xué)院 電氣與電子工程學(xué)院 畢業(yè)論文 30 圖 相似字亂序均值濾波圖像 圖 相似字亂序二值化圖像 圖 相似字亂序圖像處理結(jié)果 印刷體漢字識(shí)別技術(shù)的研究 上海應(yīng)用技術(shù)學(xué)院 電氣與電子工程學(xué)院 畢業(yè)論文 31 圖 相似字亂序圖像 識(shí)別 結(jié)果 我們通過 Matlab 程序仿真結(jié)果得知,此系統(tǒng)對(duì) 相似字亂序圖像的漢字也能 100%識(shí)別,進(jìn)一步證明了本系統(tǒng)具有卓越的性能。 我們首先建立一個(gè)相似字的標(biāo)準(zhǔn)庫(kù),并對(duì)其 BP 神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。 %訓(xùn)練 BP 網(wǎng)絡(luò)( P 為輸入, T 為輸出) save zmn123 %保存文件名為 zmn123 BP 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練 下圖(見圖 )是輸出向量和輸入向量都為三十二個(gè)元素的 BP 神經(jīng)網(wǎng)絡(luò)的 訓(xùn)練著 著 印刷體漢字識(shí)別技術(shù)的研究 上海應(yīng)用技術(shù)學(xué)院 電氣與電子工程學(xué)院 畢業(yè)論文 22 誤差,最終誤差是 ,誤差較大并不理想 。traingd39。 其中 P 是神經(jīng)網(wǎng)絡(luò)的輸入向量, {39。tansig39。最后,將字符圖像的全部黑色像素的數(shù)目的總和作為 1 個(gè)特征。系統(tǒng) 共 包含五個(gè) 子 功能模塊(見圖 ) 。 印刷體漢字識(shí)別系統(tǒng)采用的是十三點(diǎn)特征提取 法 和神經(jīng)網(wǎng)絡(luò)識(shí)別相結(jié)合的原理。 印刷體漢字識(shí)別技術(shù)的研究 上海應(yīng)用技術(shù)學(xué)院 電氣與電子工程學(xué)院 畢業(yè)論文 18 本章小結(jié) 本章對(duì)印刷體 漢字識(shí)別技術(shù)的理論部分進(jìn)行了較為全面和詳細(xì)的研究,論述了漢字在識(shí)別過程中各個(gè)組成部分基本的運(yùn)作原理,并對(duì)多種 識(shí)別方法進(jìn)行了簡(jiǎn)要的論述及比較。其分類原理是通過某種事先選擇的非線性映射將輸入向量映射到高維特征空間,然后在這個(gè)高維空間構(gòu)造最優(yōu)超平面,使兩類之間的間隔最大,同時(shí)保證訓(xùn)練樣本的分類誤差盡可能小。 BP 神經(jīng)網(wǎng)絡(luò)模型 BP 網(wǎng)絡(luò)模型包括其輸入輸出模型、作用函數(shù)模型、誤差計(jì)算模型和自學(xué)習(xí)模型。 BP 神經(jīng)網(wǎng)絡(luò)模型拓?fù)浣Y(jié)構(gòu)包括輸入層 ( input) 、隱層( hide layer) 和輸出層 ( output layer) 。 ( 2) 神經(jīng)網(wǎng)絡(luò)不但能在模式空間中形成復(fù)雜的 判決表面,而且還具備自適應(yīng)的能力,即網(wǎng)絡(luò)不但具備自適應(yīng)的學(xué)習(xí)能力,還能自適應(yīng)地調(diào)整網(wǎng)絡(luò)規(guī)模的大小,適合大類別集的識(shí)別工作。另外,這種方法所需要的訓(xùn)練樣本規(guī)模比較大,訓(xùn)練過程也比較長(zhǎng)。 ANN中的各 個(gè)神經(jīng)元的
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報(bào)告相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1