freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

畢業(yè)論文-印刷體漢字識別技術的研究(留存版)

2025-08-02 22:23上一頁面

下一頁面
  

【正文】 ................ 4 印刷體漢字識別的原理簡介 ............................................ 4 印刷體漢字識別的流程簡介 ............................................ 4 3 印刷體漢字識別技術的 研究 ................................................ 6 預處理 .............................................................. 6 漢字特征提取 ........................................................ 8 漢字識別算法分類 .................................................... 9 后處理 ............................................................. 11 印刷體漢字識別方法分析 ............................................. 12 結構模式識別方法 ............................................... 12 統(tǒng)計模式識別方法 ............................................... 12 人工神經(jīng)網(wǎng)絡 ................................................... 14 BP 神經(jīng)網(wǎng)絡 .................................................... 15 支持向量機 ..................................................... 17 本章小結 ........................................................... 18 4 系統(tǒng)的 Matlab 仿真 ...................................................... 19 系統(tǒng)的分析 ......................................................... 19 系統(tǒng)的實現(xiàn) ......................................................... 20 特征提取 ....................................................... 20 BP 神經(jīng)網(wǎng)絡的建立 .............................................. 21 BP 神經(jīng)網(wǎng)絡的訓練 .............................................. 21 系統(tǒng)的仿真 ..................................................... 23 系統(tǒng)性能的進一步驗證 ........................................... 27 仿真結果分析 ................................................... 31 本章小結 ........................................................... 32 5 未來展望與全文總結 ..................................................... 33 未來展望 ........................................................... 33 全文總結 ............................................ 錯誤 !未定義書簽。因此,能否在漢字識別技術的研究方面占據(jù)領先的位置也是中國科技實力的一項至關重要的體現(xiàn)。各個系統(tǒng)可以支持簡、繁體 漢字的識別,解決了多體多字號混排文本的識別問題,對于簡單的版面可以進行有效的定量分析,同時漢字識別率已達到了 98%以上。 印刷體漢字識別技術的研究 上海應用技術學院 電氣與電子工程學院 畢業(yè)論文 4 2 印刷體漢字識別的概述 印刷體漢字識別的原理簡介 漢字識別( CCR: Chinese Character Recognition)是用電子計算機自動辨識印刷在紙上或者人寫在紙(或其他介質(zhì))上的漢字。特征提取是整個環(huán)節(jié)中最重要的一環(huán),它是從單個字符圖像上提取統(tǒng)計特征或結構特征的過程,包括為此而做的細化 ( Thinning) 、規(guī)范化( Normalization) 等。如何確定此閾值的過程也就成了研究二值化算法的重點。對文本漢字行來說,由于存在左右分離字,寬窄字,字間交連等,加上行間混有英文、數(shù)字、符號、和字間污點干擾,使得字切分比行切分困難得多。針對各種不同印刷體漢字識別技術的研究 上海應用技術學院 電氣與電子工程學院 畢業(yè)論文 8 的應用,國內(nèi)外 已發(fā)表了許多細化算法,如 Hilditch 經(jīng)典細化算法、 Deutsch 算法等。這種方法利用彈性吸收漢字的變形,一個字只用一個樣本。但不管使用什么樣的特征,漢字特征的提取都要遵循區(qū)別性、可靠性、獨立性和特征數(shù)量這四個標準 [9]。求出輸入量與每個模板間的距離,取其中距離最小的模板所代表的類別為識別結果。 綜合利用初級識別結果與詞條信息的糾錯優(yōu)于單純利用詞條的糾錯。另外,還要建立起一套句法規(guī)則和語義規(guī)則,以便指導語法分析和語義分析??傊畣渭儾捎媒Y構模式識別方法的脫機手寫漢字識別系統(tǒng) ,識別率較低。漢字輪廓具有豐富的特征,即使在稍微傾斜或者筆畫粘連的情況,也能提取較為完全的輪廓信息。 ANN還具有一定的自適應的學習與組織能力,組成網(wǎng)絡的各個“細胞”可以并行工作,并可以通過調(diào)整“細胞”間的連接系數(shù)完成分類、識別等復雜的功能。 ( 3)一般的神經(jīng)網(wǎng)絡兼有模式變換和模式特征提取的作用,如前饋網(wǎng)絡的隱層就有非線性映射的功能,這一特點也被利用來與其他方法結合來確定一些重要的參數(shù)。 ( 1) 節(jié)點輸出模型 隱節(jié)點輸出模型: )(? ??? qjXiW ijfOj ( 33) 輸出節(jié)點輸出模型: )(? ??? qkOjT jkfYk ( 34) 輸入層 輸入 層 隱層 輸出層 權修正 誤差e 訓練信號 印刷體漢字識別技術的研究 上海應用技術學院 電氣與電子工程學院 畢業(yè)論文 17 f非線形作用函數(shù); q 神經(jīng)單元閾值 。文字的識別方法主要分為結構模式識別、統(tǒng)計模式識別、人工神經(jīng)網(wǎng)絡三種方法。 圖 印刷體漢字識別系統(tǒng)功能模塊 印刷體漢字識別系統(tǒng) 掃描 預處理 學習 識別 輸出 印刷體漢字識別技術的研究 上海應用技術學院 電氣與電子工程學院 畢業(yè)論文 20 圖 印刷體漢字識別工作流程圖 系統(tǒng)的工作流程如圖 所示,文件首先由文件管理器加載。,39。是用到的訓練函數(shù)的名稱。下圖(見圖)是輸出向量為五個元素和輸入向量為三十二個元素的 BP 神經(jīng)網(wǎng)絡的訓練誤差,最終誤差是 。經(jīng)過兩組實驗的數(shù)據(jù)顯示,本系統(tǒng)能夠?qū)嶒炈玫牡臐h字 100%的識別,說明本系統(tǒng)采用的算法有一定的實用價值。 圖 亂序圖像 圖 亂序轉灰度圖像 圖 亂序均值濾波圖像 圖 亂序二值 化圖像 印刷體漢字識別技術的研究 上海應用技術學院 電氣與電子工程學院 畢業(yè)論文 26 圖 亂序圖像處理結果 圖 亂序圖像識別結果 印刷體漢字識別技術的研究 上海應用技術學院 電氣與電子工程學院 畢業(yè)論文 27 基于這個已建立的標準庫,我們通過 Matlab 程序仿真結果得知,此系統(tǒng)對亂序圖像的漢字也能 100%識別,初步驗證了本系統(tǒng)具有一定高度的識別率。tansig39。這里我們只簡單建立一個具有 32 個字的標準庫,我們所提取的特征點是 13 個,這對于具有 32 個字的標準庫來說足夠了。所有按一定的順序排列,建立每一漢字與其國標碼指針。它主要是針對小樣本情況,且最優(yōu)解是基于有限的樣本信息,而不是樣本數(shù)趨于無窮大時的最優(yōu)解 。當實際輸出與期望輸出不符時,進入誤差的反向傳播階段。例如,對于統(tǒng)計模式識別方法,如分段線性判決函數(shù)法, Fisher線性判決規(guī)則,多變量高斯線性分類器,印刷體漢字識別技術的研究 上海應用技術學院 電氣與電子工程學院 畢業(yè)論文 15 主成分分析 PCA( Primary Component Analysis) 等,都可用神經(jīng)網(wǎng)絡的并行計算結構或迭代計算結構實現(xiàn):而一些重要的神經(jīng)網(wǎng)絡模型,其學習算法與統(tǒng)計方法是相通的,如在一定條件下, MLP和 RBF分類器的對于訓練樣本的輸出就是該樣本的后驗概率的估計,這等價于 Bayes方法。這是近年來文字識別領域的一個重要研究方向,并將得到廣泛應用。 ( 3)筆畫方向特征 筆畫方向的統(tǒng)計特征總共有 3種:全局筆畫方向密度 GDCD, 局部筆畫方向密度 LDCD和周邊筆畫方向 PDC。通常抽取筆段或基本筆畫作為基元 ,由這些基元組合及其相互關系完全可以精確地對漢字加以描述 ,最后利用 形式語言及自動機理論進行文法推斷 ,即識別。 ( 4)句法、語義分析 語句無論是從結構上,還是從意思上都有一種人類共同理解、共同接受和共同遵守的語言組合法則。 ( 1)簡單的詞匹配 簡單的詞匹配就是利用文本中字的上下文匹配關系和詞的使用頻度,給識別后文本中的拒識字提供一個“最佳”的候選字,其關鍵是 建立漢語詞條數(shù)據(jù)庫。 ( 3)松弛匹配 無論是相關匹配還是文法分析,都要求輸入特征向量和模板特征向量的各分量之間具有確切的對應關系,然而在結構分析中,往往事先難以確定兩者各分量間的對應關系,此時可以采用松弛匹配法。 ③四邊碼 ( Fourside Code) 四邊碼是在漢字點陣圖的四周各取一條帶,計算其中的文字圖像素點數(shù),并將它分成四級,構成一個四元組。由于信息的缺陷,便不可避免地遇到識別“死角”的問題。在細化處理過程中 ,一方面,去除的像素太少,則不能充分有效地減少圖像的信息量;另一方面,去除的像素太多,特別是某些關鍵像素若被去除,則改變了原始圖像的主要特征。 字切分是 利用字與字之間的直線型空隙來分辨字,將各字的左邊界和右邊界記錄下來。這一過程的自動完成算法還不是很完善,有些部分常由手工完成 ,最終的系統(tǒng)能夠自動完成所有的版面分析。 印刷體漢字識別的 流程簡介 印刷體漢字識別的過程主要過程包括預處理、版面分析理解、文本行字切分、特征提取、漢字識別、識別后處理,在本文中,將版面分析理解、文本行字切分都歸為預處理。 ( 3)相似字多 部分漢字字符之間只存在著很細小的差別,具有相同筆劃數(shù)目的漢字字符之間的差異有的表現(xiàn)為某一個筆劃位置或形態(tài)的微小變化,又比如“土”和“士”這兩個字僅在下部筆劃長短有細微的差別而已。 同國外相比,我國的印刷體漢字 識別研究起步較晚 [2]。漢字識別是一門多學科綜合性的研究課題,它不僅與人工智能的研究有關,而且 與數(shù)字信號處理、圖像處理、信息論、計算機科學、幾何學、統(tǒng)計學、語言學、生物學、模糊數(shù)學、決策論等技術都有著千絲萬縷的聯(lián)系。 特征提取 。 匹配 識別 。一方面各學科的發(fā)展給它的研究提供了工具;另一方面,它的研究與發(fā)展也必將促進各學科的相互進步。我國在 20 世紀 70 年代才開始對數(shù)字、英文字母及符號的識別技術進行研究, 20 世紀 70 年代末僅有少數(shù)大學和研究所開始進行漢字識別的研究并發(fā)表了一些論文,研制了少量模擬識別軟件或系統(tǒng)。即使由人來辨認印刷體的這些漢字,在無上下文信息的幫助時,也很容 易發(fā)生混淆 [3]。系統(tǒng)框圖如 所示。 ( 2)二值化 將一幅具有多種灰度值的圖像變成白黑分布的二值圖像的工作稱為二值化處理 [5],二值化的主要目的是將漢字從圖像中分離出來。典型的算法是,在確定這一行的行上界和行下界之后,從左到右搜索一行文字的左右邊界,切分出單字或標點符號。因此,高質(zhì)量的細化算法程序?qū)D像識別有很大的實用價值。 如下介紹并分析一下常用的一些的可供提取的漢字特征。由于漢字邊框不但含有豐富的結構信息,而且邊框部分筆畫一般較少,不易粘連,抗干擾能力 強,但對漢字的位移和旋轉比較敏感,與筆畫復雜性指數(shù)正好形成互補。 松弛匹配法首先通過迭代運算,找出輸入向量與模板向量各分量間的對應關系,然后再根據(jù)這一對應關系進行匹配。該數(shù)據(jù)庫應具印刷體漢字識別系統(tǒng)的特征
點擊復制文檔內(nèi)容
畢業(yè)設計相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1