freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

印刷體漢字識(shí)別技術(shù)的研究畢業(yè)設(shè)計(jì)-預(yù)覽頁(yè)

 

【正文】 ter could process Chinese information more easily. In practice, large volume of letters, newspaper, magazines need to be covered into a coded representation of the input characters. That39。 關(guān)鍵詞 : 漢字識(shí)別 。 實(shí)際生活中, 大量的書(shū)信、報(bào)紙、雜志內(nèi)容需要輸入計(jì)算機(jī),這就是印刷體漢字識(shí)別要解決的問(wèn)題。漢字識(shí)別的最終目的是使中文信息能更自然,更方便地輸入計(jì)算機(jī),以便于進(jìn)一步處理 。第三章對(duì)印刷體漢字識(shí)別作了詳細(xì)闡述,論述了印刷體漢字識(shí)別的原理和預(yù)處理、特征抽取與分析、后處理過(guò)程;分析了統(tǒng)計(jì)模式識(shí)別方法、 結(jié)構(gòu)模式識(shí)別方法以及 人工神經(jīng)網(wǎng)絡(luò)模式 識(shí)別方法 ;第四章用 Matlab 對(duì)系統(tǒng)進(jìn)行了仿真;最后 在第五章進(jìn)行全文總結(jié)并預(yù)測(cè) 了漢字識(shí)別技術(shù)研究今后的 發(fā)展 方 向。 人 工神經(jīng)網(wǎng)絡(luò) 。同時(shí)也是世界上使用人數(shù)最多和數(shù)量最多的文字之一。這種方法不適用于需要處理大量文字資料的辦公自動(dòng)化、文檔管理、圖書(shū)情報(bào)管理等場(chǎng)合。目前印刷體漢字識(shí)別技術(shù)已經(jīng)呈現(xiàn)出了廣泛的應(yīng)用前景,它主要應(yīng)用在中文信息處理、辦公室自動(dòng)化、機(jī)器翻譯、人工智能等高技術(shù)領(lǐng)域。因而 該技術(shù) 有著重要的實(shí)用價(jià)值和理論意義。利用機(jī)器識(shí)別文字符號(hào),可以說(shuō)從 1929年 奧地利科學(xué)家 陶舍克利用光學(xué)模板匹配識(shí)別開(kāi)始。 1966 年, IBM 公司發(fā)表了第一篇關(guān)于印刷印刷體漢字識(shí)別技術(shù)的研究 上海應(yīng)用技術(shù)學(xué)院 電氣與電子工程學(xué)院 畢業(yè)論文 2 體漢字識(shí)別的論文,在這篇論文中他們利用簡(jiǎn)單的模板匹配法識(shí)別了 1000 個(gè)印刷體漢字。此外,日本的三洋、松下、理光和富士等公司也有其研制的印刷漢字識(shí)別系統(tǒng) ,但因這些系統(tǒng)價(jià)格極其昂貴,沒(méi)有得到廣泛應(yīng)用 。但由于我國(guó)政府從 80 年代 中期 開(kāi)始對(duì)漢字自動(dòng)識(shí)別輸人的研究給予了充分的重視和支持 ,漢字識(shí)別技術(shù)進(jìn)入了研究的高潮。在加強(qiáng)版面分析、識(shí)別結(jié)果上下文匹配后處理和各種實(shí)用化技術(shù)的研制的同時(shí),進(jìn)行對(duì)識(shí)別方法的進(jìn)一步研究,促使更實(shí)用的產(chǎn)品廣泛出現(xiàn)。第一級(jí) 3, 755 個(gè)漢字,使用頻度為 %,第二級(jí)有 3, 008 個(gè)漢字,兩級(jí)漢字總使用頻度為 %,識(shí)別系統(tǒng)一般應(yīng)能正確識(shí)別這些常用字,才能滿足實(shí)際應(yīng)用的需要。筆劃和部首的不同排列組合,構(gòu)成了 數(shù)以千印刷體漢字識(shí)別技術(shù)的研究 上海應(yīng)用技術(shù)學(xué)院 電氣與電子工程學(xué)院 畢業(yè)論文 3 計(jì) 表達(dá)不同含義的結(jié)構(gòu)異常復(fù)雜的漢字字符。識(shí)別算法和系統(tǒng)必須能夠正確判定這些細(xì)微的差異,否則就會(huì)發(fā)生錯(cuò)誤。從學(xué)科上劃分 , 漢字識(shí)別屬于模式識(shí)別和人工智能的范疇。 預(yù)處理是在所有識(shí)別處理之前進(jìn)行的,它將從各種不同輸入方式獲得的漢字圖像中的干擾因素降到最低。 在本文中,將二值化,平滑去噪,文本行字切分都?xì)w為預(yù)處理。 印刷體漢字識(shí)別技術(shù)的研究 上海應(yīng)用技術(shù)學(xué)院 電氣與電子工程學(xué)院 畢業(yè)論文 5 圖 印刷體漢字識(shí)別流程圖 版面分析主要是對(duì)文本圖像的總體進(jìn)行分析,區(qū)分出文本段落及排版順序,圖像、表格的區(qū)域;對(duì)于文本區(qū)域?qū)⑦M(jìn)行識(shí)別處理,對(duì)于表格區(qū)域進(jìn)行專用的表格分析及識(shí)別處理,對(duì)于圖像區(qū)域進(jìn)行壓縮或簡(jiǎn)單存儲(chǔ)。文字識(shí)別,即從學(xué)習(xí)得到的特征庫(kù)中找到與待識(shí)別字符相似度最高的字符類的過(guò)程。近幾年來(lái),印刷漢字識(shí)別系統(tǒng)的單字識(shí)別正確率已經(jīng)超過(guò) 98%,為了進(jìn)一步提高系統(tǒng)的總體識(shí)別率,掃描圖像、圖像的預(yù)處理以及識(shí)別后處理等方面的技術(shù),也都得到了深入的研究,并取得了長(zhǎng)足的進(jìn)展,有效地提高了印刷漢字識(shí)別系統(tǒng)的總體性能。 ( 1) 版面分析 印刷體文字識(shí)別常遇到的識(shí)別主體不是一個(gè)文字段,而是整個(gè)版面,所以版面分析是印刷體文字識(shí)別系統(tǒng)中的重要組成部分。通常的方法為先確定像素的閾值,比較像素值和閾值的大小,從而確定為 1 或 0,這個(gè)二值化閾值的選取較為關(guān)鍵。研究一種適合各種文字圖像的二值化方法也 是預(yù)處理環(huán)節(jié)的重點(diǎn)。靈活運(yùn)用傾斜角度檢測(cè)算法將是傾斜校正環(huán)節(jié)的重要研究方向。典型的算法是,從上到下,對(duì)二值漢字點(diǎn)陣的每行像素值進(jìn)行累加,若從某行開(kāi)始的若干累加和均大于一個(gè)試驗(yàn)常數(shù),則可認(rèn)為該行是一漢字文本行的開(kāi)始,即行上界。從左邊開(kāi)始垂直方向的行距內(nèi)像素單列累加和均大于一個(gè)試驗(yàn)常數(shù),則可認(rèn)為是該漢字的左邊界。漢字圖像的歸一化往往會(huì)帶來(lái)兩個(gè)問(wèn)題:一是字符圖像的縮放可能會(huì)引入一些干擾 。平滑在圖像處理中實(shí)質(zhì)是一幅文字圖像通過(guò)一個(gè)低通濾波器,去除高頻分量,保留低頻分量,在實(shí)際應(yīng)用中,采用 WXW(一般采用 3x3) 的輔助矩陣對(duì)二值文字圖像進(jìn)行掃描。細(xì)化處理的目的是搜索圖像的骨架,去除圖像上多余的像素,從而在不改變圖像主要特征的前提下,減少圖像的信息量。 針對(duì)文字圖像的細(xì)化算法已有很多,它的優(yōu)劣對(duì)系統(tǒng)的識(shí)別效果影響很大??梢哉f(shuō),這些問(wèn)題依賴細(xì)化算法本身是無(wú)法克服的,需要在后續(xù)的處理中盡量消除這些畸變的干擾。例如,漢字特征點(diǎn)特征算法本身是一種比較簡(jiǎn)單、完善的特征提取算法。但不得不提到的是,任何一個(gè)實(shí)用的。 ( 1) 結(jié)構(gòu)特征 ① 抽取筆畫(huà)法 抽取筆畫(huà)法是利用漢字由筆畫(huà)所構(gòu)成的特點(diǎn)進(jìn)行識(shí)別,它利用漢字的結(jié)構(gòu)信息來(lái)進(jìn)行漢字的聯(lián)機(jī)識(shí)別,在印刷體和脫機(jī)印刷體識(shí)別中,由于筆畫(huà)提取的困難,結(jié)果不是很理想。 ③非線性匹配法 非線性匹配法是由 Tsukumo 等提出的,用以解決字形的位移、筆畫(huà)的變形等現(xiàn)象。其特點(diǎn)是能夠大大壓縮特征庫(kù)的容量,對(duì)于內(nèi)部筆畫(huà)粘連字符,其識(shí)別的適應(yīng)性較強(qiáng)、直觀性好,但不易表示為矢量形式,匹配難度大,不適合作為粗分類的特征。 當(dāng)然,漢字的特征多種多樣,各有各的優(yōu)點(diǎn)、短處和不同的適用范圍。 當(dāng)然,漢字的特征多 種多樣,各有各的優(yōu)點(diǎn)、短處和不同的適用范圍。 漢字識(shí)別 算法 分類 識(shí)別算法是整個(gè)識(shí)別過(guò)程的核心部分。諸多分類方法各自有其優(yōu)缺點(diǎn)。 ( 2) 文法分析 文法分析的基本思想是將輸入的漢字看作是一個(gè)語(yǔ)句或符號(hào)串,將識(shí)別問(wèn)題轉(zhuǎn)化為判斷輸入的語(yǔ)句是否屬于某種語(yǔ)言,即句子是否符合某種語(yǔ)言的語(yǔ)法約束條件,這種方法在漢字識(shí)別中也得到了應(yīng)用。迭代開(kāi)始之前,首先根據(jù)輸入向量各分量與模板向量各分量之間的相似度構(gòu)成一個(gè)初始權(quán)值矩陣。由于它是根據(jù)總體的匹配程度來(lái)決定識(shí)別結(jié)果的,所以這一點(diǎn)它類似于統(tǒng)計(jì)方法,同時(shí)它在迭代中還把基元間位置關(guān)系等結(jié)構(gòu)信息考慮在內(nèi),這一點(diǎn)又很像結(jié)構(gòu)方法。 ( 4) 人工神經(jīng)網(wǎng)絡(luò) 漢字識(shí)別是一個(gè)非?;钴S的分支,不斷有新的方法涌現(xiàn)出來(lái),為漢字識(shí)別的研究注入新的活力,其中基于人工神經(jīng)網(wǎng)絡(luò)的識(shí)別方法是非常引人注目的方向。 一般而言,后處理可以在相關(guān)編程過(guò)程中由計(jì)算機(jī)自動(dòng)實(shí)現(xiàn) [6]。 ( 2) 綜合詞匹配 綜合詞匹配方法,就是綜合利用初級(jí)識(shí)別結(jié)果和字的上下文關(guān)系及詞的使用頻度,來(lái)決定最后的識(shí)別結(jié)果。這是因?yàn)樵趯ふ易值纳舷挛钠ヅ潢P(guān)系時(shí),利用初級(jí)識(shí)別結(jié)果的待選集,可以大大縮小搜索范圍,避免了在整個(gè)詞條庫(kù)中查 詢。語(yǔ)素是最小的語(yǔ)言單位?;谠~法分析的漢字識(shí)別后處理的關(guān)鍵是構(gòu)造一個(gè)完善的詞條數(shù)據(jù)庫(kù)。 進(jìn)行語(yǔ)義句法分析也要首先建立詞條庫(kù)。一種是把識(shí)別過(guò)程和后處理過(guò)程分開(kāi),網(wǎng)絡(luò)的輸入是初級(jí)識(shí)別結(jié)果的短語(yǔ)或者句子,其中包含不確定的漢字 ( 或拒識(shí)的漢字 ) ,通過(guò)網(wǎng)絡(luò)的運(yùn)行,最終確定這些字。從筆畫(huà)上講,漢字有包括橫、豎、撇、捺、點(diǎn)、折、勾等七種基本筆畫(huà),還有提挑、撇點(diǎn)、橫捺等七種變形筆畫(huà)。 結(jié)構(gòu)模式識(shí)別理論在 20 世紀(jì) 70 年代初形成 ,是早期漢字識(shí)別研究的主要方法。因此 ,有人采用漢字輪廓結(jié)構(gòu)信息作為特征 ,但這一方案需要進(jìn)行松弛迭代匹配 ,耗時(shí)太長(zhǎng) ,而且對(duì)于筆畫(huà)較模糊的漢字圖像 ,抽取輪廓會(huì)遇到極大困難。其要點(diǎn)是提取待識(shí)別模式的的一組統(tǒng)計(jì)特征 ,然后按照一定準(zhǔn)則所確定的決策函數(shù)進(jìn)行分類判決。 常用的漢字統(tǒng)計(jì)模式識(shí)別方法包括 [10]: ( 1) 模板匹配 模板匹配是將漢字的圖像直接作為特征,將之與特征庫(kù)中的漢字圖像逐一比較,相似度最高的漢字即為待選漢字。但這些變換如果沒(méi)有合適的處理,都多少存在缺陷。這些特征 都是以筆畫(huà)方向貢獻(xiàn) ( Direction Contribution) 為基礎(chǔ)。一旦確定這些筆畫(huà)特征點(diǎn),漢字筆畫(huà)以及結(jié)構(gòu)形狀就可以確定。 當(dāng)然還有許多種不同的統(tǒng)計(jì)特征,諸如圖描述法、包含配選法、脫殼透視法、差筆劃法等,這里就不一一介紹了。統(tǒng)計(jì)方法具有良好的魯棒性,較好的抗干擾抗噪聲的能力,它一般按一定的距離度量匹配準(zhǔn)則,采用多維特征值累加的辦法,把局部噪聲和微小畸變淹沒(méi)在最后的累加和里,但是,可以用來(lái)區(qū)分“敏感部位”的差異也隨之消失,因此對(duì)漢字結(jié)構(gòu)的差異區(qū)分能力較弱,區(qū)分相似字的能力較差;而結(jié)構(gòu)方法對(duì)結(jié)構(gòu)特征較敏感,區(qū)分相似字的能力較強(qiáng),但是結(jié)構(gòu)特征難以抽取,不穩(wěn)定。雖然目前對(duì)于人腦神經(jīng)元的研究還不算完善,我們無(wú)法確定 ANN的工作方式是否與人腦神經(jīng)元的運(yùn)作方式相同,但是 ANN正在吸引著越來(lái)越多的注意力。在英文字母與數(shù)字的識(shí)別等類別數(shù)目較少的分類問(wèn)題中,常常將字符的圖像點(diǎn)陣直接作為神經(jīng)網(wǎng)絡(luò)的輸入。 目前,在對(duì)于像漢字識(shí)別這樣超多類的分類問(wèn)題, ANN的規(guī)模會(huì)很大,結(jié)構(gòu)也很復(fù)雜,實(shí)用性較差。 人工神經(jīng)網(wǎng)絡(luò)模式識(shí)別與傳統(tǒng)的統(tǒng)計(jì)模式識(shí)別開(kāi)始是兩個(gè)獨(dú)立發(fā)展的分支,但隨著研究的深入,人們發(fā)現(xiàn)二者之間存在緊密的聯(lián)系。但是,神經(jīng)網(wǎng)絡(luò)確實(shí)有優(yōu)于傳統(tǒng)統(tǒng)計(jì)方法的地方,這表現(xiàn)為 [11]: ( 1) 神經(jīng)網(wǎng)絡(luò)的計(jì)算結(jié)構(gòu)是并行的,而且常常是通過(guò)大量簡(jiǎn)單單元的協(xié)同運(yùn)算完成諸如求矩陣特征值這樣復(fù)雜的計(jì)算任務(wù),這一點(diǎn)在 PCA網(wǎng)絡(luò)中得以充分體現(xiàn)。 由于上述優(yōu)點(diǎn),神經(jīng)網(wǎng)絡(luò)的識(shí)別方法正在越來(lái)越多地得到關(guān)注,也因而成為近來(lái)的研究熱點(diǎn)。它的學(xué)習(xí)規(guī)則是使用最速下降法,通過(guò)反向傳播來(lái)不斷調(diào)整網(wǎng)絡(luò)的權(quán)值和閾值,使網(wǎng)絡(luò)的誤差平方和最小 [12]。 BP ( Back Propagation) 神經(jīng)網(wǎng)絡(luò),即誤差反傳誤差反向傳播算法的學(xué)習(xí)過(guò)程,由信息的正向傳播和誤差的反向傳播兩個(gè)過(guò)程組成。周而復(fù)始的信息正向傳播和誤差反向傳播過(guò)程,是各層權(quán)值不斷調(diào)整的過(guò)程,也是神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)訓(xùn)練的過(guò)程,此過(guò)程一直進(jìn)行到網(wǎng)絡(luò)輸出的誤差減少到可以接受的程度,或者預(yù)先設(shè)定的學(xué)習(xí)次數(shù)為止。 ( 4) 自學(xué)習(xí)模型 神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過(guò)程,即連接下層節(jié)點(diǎn)和上層節(jié)點(diǎn)之間的權(quán)重拒陣 Wij 的設(shè)定和誤差修正過(guò)程。支持向量機(jī)可以看作一種新的訓(xùn)練多項(xiàng)式、徑向基機(jī)分類器或 神經(jīng)網(wǎng)絡(luò)分類器的方法。 ( 3) 通過(guò)引用核函數(shù),將輸入空間中的非線性問(wèn)題映射到高維特征空間中在高維空間中構(gòu)造線性函數(shù)判別 。 ( 6) 支持向量機(jī)有嚴(yán)格的理論和數(shù)學(xué)基礎(chǔ),避免了神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)中的經(jīng)驗(yàn)成分。近年來(lái),人工神經(jīng)網(wǎng)絡(luò)發(fā)展迅猛,它模擬人腦的活動(dòng)方式,更符合人們的思維習(xí)慣。由于字庫(kù)容量較小,因此本設(shè)計(jì)對(duì)系統(tǒng)的預(yù)期識(shí)別率指標(biāo) 定 為 100%。系統(tǒng)在識(shí)別過(guò)程中可進(jìn)行 自 學(xué)習(xí)。以后隨著學(xué)習(xí)過(guò)程的進(jìn)行,將建立動(dòng)態(tài)調(diào)整 面積 特征庫(kù)與神經(jīng)網(wǎng)絡(luò)之間的 對(duì)應(yīng) 關(guān)系。 . 系統(tǒng)的實(shí)現(xiàn) 此次采用 MATLAB 進(jìn)行系統(tǒng)仿真( Matlab 仿真程序見(jiàn)參考附錄 1),其中學(xué)習(xí)功能使用 sim 函數(shù)實(shí)現(xiàn),特征提取用十三點(diǎn)特征提取法。再畫(huà) 4 道線,統(tǒng)計(jì)穿過(guò)的黑色像 素的數(shù)目,可以得到 4 個(gè)特征。漢字圖像 預(yù)處理 漢字識(shí)別 識(shí)別結(jié)果 轉(zhuǎn)灰度圖像 均值濾波 列分割 二值化 加載特征庫(kù) 特征提取 特征匹配 行分割 印刷體漢字識(shí)別技術(shù)的研究 上海應(yīng)用技術(shù)學(xué)院 電氣與電子工程學(xué)院 畢業(yè)論文 21 圖 十三點(diǎn)特征提取分塊 十三點(diǎn)特征所產(chǎn)生的數(shù)據(jù)形成一個(gè)矢量作為神經(jīng)網(wǎng)絡(luò)的輸入,此數(shù)據(jù)用于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和識(shí)別過(guò)程(十三點(diǎn)特征提取的程序見(jiàn)參考附錄 1)。神經(jīng)網(wǎng)絡(luò)的建立可以參見(jiàn)以下程序: =newff( minmax( P) ,[50,40,5],{39。,39。) 。tansig39。 39。訓(xùn)練程序及訓(xùn)練參數(shù)如下: =100。 %設(shè)置性能函數(shù)(訓(xùn)練要求精度) =train( ,P,T) 。 圖 標(biāo)準(zhǔn) 圖像 圖 標(biāo)準(zhǔn)轉(zhuǎn)灰度圖像 圖 標(biāo)準(zhǔn)均值濾波圖像 圖 標(biāo)準(zhǔn)二值化圖像 印刷體漢字識(shí)別技術(shù)的研究 上海應(yīng)用技術(shù)學(xué)院 電氣與電子工程學(xué)院 畢業(yè)論文 24 圖 標(biāo)準(zhǔn)圖像處理結(jié)果 圖 標(biāo)準(zhǔn)圖像 識(shí)別 結(jié)果 印刷體漢字識(shí)別技術(shù)的研究 上海應(yīng)用技術(shù)學(xué)院 電氣與電子工程學(xué)院 畢業(yè)論文 25 基于這個(gè)已建立的標(biāo)準(zhǔn)庫(kù),我們通過(guò) Matlab 程序仿真結(jié)果得知,此系統(tǒng) 經(jīng)過(guò)自學(xué)習(xí)后 對(duì)標(biāo)準(zhǔn)圖像中漢字的識(shí)別率是 100%,系統(tǒng)的技術(shù)指標(biāo)符合我們的預(yù)期。因此,為了進(jìn)一步驗(yàn)證本系統(tǒng)的性能,下面我們將采用一組總數(shù) 32個(gè)字的相似字圖片讓系統(tǒng)對(duì)其進(jìn)行識(shí)別,標(biāo)準(zhǔn)庫(kù)的建立及識(shí)別過(guò)程同第一組漢字圖片的識(shí)別方法。 然后我們對(duì)相似字標(biāo)準(zhǔn)圖像進(jìn)行識(shí)別。 運(yùn)行程序后首先載入 相似字亂序的圖片(見(jiàn)圖 ) ,然后依次得到 轉(zhuǎn)灰度圖片(見(jiàn)圖 ) , 均值濾波圖片(見(jiàn)圖 ) , 二值化圖片( ) ,經(jīng)行列切分后得到 處理結(jié)果( )及 命令窗口輸出的識(shí)別 結(jié)果( )。說(shuō)明系統(tǒng)基本實(shí)現(xiàn)預(yù)先設(shè)想的功能,能夠在學(xué)習(xí)標(biāo)準(zhǔn)圖像識(shí)別后建立標(biāo)準(zhǔn)庫(kù),并
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報(bào)告相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1