freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

印刷體漢字識(shí)別技術(shù)的研究畢業(yè)設(shè)計(jì)-免費(fèi)閱讀

2025-08-11 17:17 上一頁面

下一頁面
  

【正文】 運(yùn)行程序后首先載入 相似字亂序的圖片(見圖 ) ,然后依次得到 轉(zhuǎn)灰度圖片(見圖 ) , 均值濾波圖片(見圖 ) , 二值化圖片( ) ,經(jīng)行列切分后得到 處理結(jié)果( )及 命令窗口輸出的識(shí)別 結(jié)果( )。因此,為了進(jìn)一步驗(yàn)證本系統(tǒng)的性能,下面我們將采用一組總數(shù) 32個(gè)字的相似字圖片讓系統(tǒng)對(duì)其進(jìn)行識(shí)別,標(biāo)準(zhǔn)庫的建立及識(shí)別過程同第一組漢字圖片的識(shí)別方法。 %設(shè)置性能函數(shù)(訓(xùn)練要求精度) =train( ,P,T) 。 39。) 。神經(jīng)網(wǎng)絡(luò)的建立可以參見以下程序: =newff( minmax( P) ,[50,40,5],{39。再畫 4 道線,統(tǒng)計(jì)穿過的黑色像 素的數(shù)目,可以得到 4 個(gè)特征。以后隨著學(xué)習(xí)過程的進(jìn)行,將建立動(dòng)態(tài)調(diào)整 面積 特征庫與神經(jīng)網(wǎng)絡(luò)之間的 對(duì)應(yīng) 關(guān)系。由于字庫容量較小,因此本設(shè)計(jì)對(duì)系統(tǒng)的預(yù)期識(shí)別率指標(biāo) 定 為 100%。 ( 6) 支持向量機(jī)有嚴(yán)格的理論和數(shù)學(xué)基礎(chǔ),避免了神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)中的經(jīng)驗(yàn)成分。支持向量機(jī)可以看作一種新的訓(xùn)練多項(xiàng)式、徑向基機(jī)分類器或 神經(jīng)網(wǎng)絡(luò)分類器的方法。周而復(fù)始的信息正向傳播和誤差反向傳播過程,是各層權(quán)值不斷調(diào)整的過程,也是神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)訓(xùn)練的過程,此過程一直進(jìn)行到網(wǎng)絡(luò)輸出的誤差減少到可以接受的程度,或者預(yù)先設(shè)定的學(xué)習(xí)次數(shù)為止。它的學(xué)習(xí)規(guī)則是使用最速下降法,通過反向傳播來不斷調(diào)整網(wǎng)絡(luò)的權(quán)值和閾值,使網(wǎng)絡(luò)的誤差平方和最小 [12]。但是,神經(jīng)網(wǎng)絡(luò)確實(shí)有優(yōu)于傳統(tǒng)統(tǒng)計(jì)方法的地方,這表現(xiàn)為 [11]: ( 1) 神經(jīng)網(wǎng)絡(luò)的計(jì)算結(jié)構(gòu)是并行的,而且常常是通過大量簡(jiǎn)單單元的協(xié)同運(yùn)算完成諸如求矩陣特征值這樣復(fù)雜的計(jì)算任務(wù),這一點(diǎn)在 PCA網(wǎng)絡(luò)中得以充分體現(xiàn)。 目前,在對(duì)于像漢字識(shí)別這樣超多類的分類問題, ANN的規(guī)模會(huì)很大,結(jié)構(gòu)也很復(fù)雜,實(shí)用性較差。雖然目前對(duì)于人腦神經(jīng)元的研究還不算完善,我們無法確定 ANN的工作方式是否與人腦神經(jīng)元的運(yùn)作方式相同,但是 ANN正在吸引著越來越多的注意力。 當(dāng)然還有許多種不同的統(tǒng)計(jì)特征,諸如圖描述法、包含配選法、脫殼透視法、差筆劃法等,這里就不一一介紹了。這些特征 都是以筆畫方向貢獻(xiàn) ( Direction Contribution) 為基礎(chǔ)。 常用的漢字統(tǒng)計(jì)模式識(shí)別方法包括 [10]: ( 1) 模板匹配 模板匹配是將漢字的圖像直接作為特征,將之與特征庫中的漢字圖像逐一比較,相似度最高的漢字即為待選漢字。因此 ,有人采用漢字輪廓結(jié)構(gòu)信息作為特征 ,但這一方案需要進(jìn)行松弛迭代匹配 ,耗時(shí)太長 ,而且對(duì)于筆畫較模糊的漢字圖像 ,抽取輪廓會(huì)遇到極大困難。從筆畫上講,漢字有包括橫、豎、撇、捺、點(diǎn)、折、勾等七種基本筆畫,還有提挑、撇點(diǎn)、橫捺等七種變形筆畫。 進(jìn)行語義句法分析也要首先建立詞條庫。語素是最小的語言單位。 ( 2) 綜合詞匹配 綜合詞匹配方法,就是綜合利用初級(jí)識(shí)別結(jié)果和字的上下文關(guān)系及詞的使用頻度,來決定最后的識(shí)別結(jié)果。 ( 4) 人工神經(jīng)網(wǎng)絡(luò) 漢字識(shí)別是一個(gè)非?;钴S的分支,不斷有新的方法涌現(xiàn)出來,為漢字識(shí)別的研究注入新的活力,其中基于人工神經(jīng)網(wǎng)絡(luò)的識(shí)別方法是非常引人注目的方向。迭代開始之前,首先根據(jù)輸入向量各分量與模板向量各分量之間的相似度構(gòu)成一個(gè)初始權(quán)值矩陣。諸多分類方法各自有其優(yōu)缺點(diǎn)。 當(dāng)然,漢字的特征多 種多樣,各有各的優(yōu)點(diǎn)、短處和不同的適用范圍。其特點(diǎn)是能夠大大壓縮特征庫的容量,對(duì)于內(nèi)部筆畫粘連字符,其識(shí)別的適應(yīng)性較強(qiáng)、直觀性好,但不易表示為矢量形式,匹配難度大,不適合作為粗分類的特征。 ( 1) 結(jié)構(gòu)特征 ① 抽取筆畫法 抽取筆畫法是利用漢字由筆畫所構(gòu)成的特點(diǎn)進(jìn)行識(shí)別,它利用漢字的結(jié)構(gòu)信息來進(jìn)行漢字的聯(lián)機(jī)識(shí)別,在印刷體和脫機(jī)印刷體識(shí)別中,由于筆畫提取的困難,結(jié)果不是很理想。例如,漢字特征點(diǎn)特征算法本身是一種比較簡(jiǎn)單、完善的特征提取算法。 針對(duì)文字圖像的細(xì)化算法已有很多,它的優(yōu)劣對(duì)系統(tǒng)的識(shí)別效果影響很大。平滑在圖像處理中實(shí)質(zhì)是一幅文字圖像通過一個(gè)低通濾波器,去除高頻分量,保留低頻分量,在實(shí)際應(yīng)用中,采用 WXW(一般采用 3x3) 的輔助矩陣對(duì)二值文字圖像進(jìn)行掃描。從左邊開始垂直方向的行距內(nèi)像素單列累加和均大于一個(gè)試驗(yàn)常數(shù),則可認(rèn)為是該漢字的左邊界。靈活運(yùn)用傾斜角度檢測(cè)算法將是傾斜校正環(huán)節(jié)的重要研究方向。通常的方法為先確定像素的閾值,比較像素值和閾值的大小,從而確定為 1 或 0,這個(gè)二值化閾值的選取較為關(guān)鍵。近幾年來,印刷漢字識(shí)別系統(tǒng)的單字識(shí)別正確率已經(jīng)超過 98%,為了進(jìn)一步提高系統(tǒng)的總體識(shí)別率,掃描圖像、圖像的預(yù)處理以及識(shí)別后處理等方面的技術(shù),也都得到了深入的研究,并取得了長足的進(jìn)展,有效地提高了印刷漢字識(shí)別系統(tǒng)的總體性能。 印刷體漢字識(shí)別技術(shù)的研究 上海應(yīng)用技術(shù)學(xué)院 電氣與電子工程學(xué)院 畢業(yè)論文 5 圖 印刷體漢字識(shí)別流程圖 版面分析主要是對(duì)文本圖像的總體進(jìn)行分析,區(qū)分出文本段落及排版順序,圖像、表格的區(qū)域;對(duì)于文本區(qū)域?qū)⑦M(jìn)行識(shí)別處理,對(duì)于表格區(qū)域進(jìn)行專用的表格分析及識(shí)別處理,對(duì)于圖像區(qū)域進(jìn)行壓縮或簡(jiǎn)單存儲(chǔ)。 預(yù)處理是在所有識(shí)別處理之前進(jìn)行的,它將從各種不同輸入方式獲得的漢字圖像中的干擾因素降到最低。識(shí)別算法和系統(tǒng)必須能夠正確判定這些細(xì)微的差異,否則就會(huì)發(fā)生錯(cuò)誤。第一級(jí) 3, 755 個(gè)漢字,使用頻度為 %,第二級(jí)有 3, 008 個(gè)漢字,兩級(jí)漢字總使用頻度為 %,識(shí)別系統(tǒng)一般應(yīng)能正確識(shí)別這些常用字,才能滿足實(shí)際應(yīng)用的需要。但由于我國政府從 80 年代 中期 開始對(duì)漢字自動(dòng)識(shí)別輸人的研究給予了充分的重視和支持 ,漢字識(shí)別技術(shù)進(jìn)入了研究的高潮。 1966 年, IBM 公司發(fā)表了第一篇關(guān)于印刷印刷體漢字識(shí)別技術(shù)的研究 上海應(yīng)用技術(shù)學(xué)院 電氣與電子工程學(xué)院 畢業(yè)論文 2 體漢字識(shí)別的論文,在這篇論文中他們利用簡(jiǎn)單的模板匹配法識(shí)別了 1000 個(gè)印刷體漢字。因而 該技術(shù) 有著重要的實(shí)用價(jià)值和理論意義。這種方法不適用于需要處理大量文字資料的辦公自動(dòng)化、文檔管理、圖書情報(bào)管理等場(chǎng)合。 人 工神經(jīng)網(wǎng)絡(luò) 。漢字識(shí)別的最終目的是使中文信息能更自然,更方便地輸入計(jì)算機(jī),以便于進(jìn)一步處理 。 關(guān)鍵詞 : 漢字識(shí)別 。 在跨入信息時(shí)代后 , 現(xiàn)如今 漢字印刷材料的數(shù)量大大增加,一些專業(yè)單位如新聞社、圖書館、古籍出版社、檔案館等所接觸的印刷材料更是浩如煙海,信息量均是 呈 爆炸性增長,畢竟閱讀印刷材料更為符合人的自然閱讀習(xí)慣。 漢字識(shí)別是模式識(shí)別的重要應(yīng)用領(lǐng)域,也是光學(xué)字符識(shí)別 OCR( Optical Character Recognition) 的重要組成部分。當(dāng)時(shí),他使用了 10 塊模板對(duì)應(yīng) 10個(gè)數(shù)字,依次把待識(shí)別的數(shù) 字投影到這 10 塊模板上,當(dāng)模板透過的光達(dá)到最小時(shí)(數(shù)字遮擋了模板的透光部分),數(shù)字就被識(shí)別成這塊模板上的數(shù)字。 直到 80 年代中期以來,以軟件為主并使用通用高檔微機(jī)的產(chǎn)品 才逐步 走向市場(chǎng)。 印刷體漢字識(shí)別 技術(shù) 存在的難點(diǎn) 由于漢字 具有 以下幾個(gè)方面的特點(diǎn),使?jié)h字 字符 在識(shí)別難度上遠(yuǎn)遠(yuǎn)大于字母化 字符 的識(shí)別。 與世界上常用的其他民族的文字相比,漢字的結(jié)構(gòu)是最為復(fù)雜的。它涉及到 模式識(shí)別和圖像處理、人工智能、形式語言學(xué)、模糊數(shù)學(xué)等眾多學(xué)科,是一門綜合性的技術(shù)。漢字圖像通過光電掃描儀, CCD器件等工具掃描成為二維圖像信號(hào) (數(shù)碼圖像 ),該種信號(hào)在文本中以圖片 (jpg, bmp等格式 )形式顯現(xiàn) , 而后通過本文所介紹的預(yù)處理,特征提取與匹配及相關(guān)后處理等實(shí)現(xiàn)漢字識(shí)別的過程。后處理則是利用詞義、詞頻、語法規(guī)則或語料庫等語言先驗(yàn)知識(shí)對(duì)識(shí)別結(jié)果進(jìn)行校正的過程。它是指對(duì)印刷體文檔圖像進(jìn)行分析,提取出文本、圖像圖形、表格等區(qū)域,并確定其邏輯關(guān)系,并將相應(yīng)的文本塊連接在一起。 ( 3) 傾斜校正 通過輸入設(shè)備獲得的圖像不可避免地會(huì)發(fā)生傾斜,這會(huì)給后面的行字分割、文字識(shí)別等圖像處理與分析帶來困難,因此,在漢字識(shí)別系統(tǒng)中,傾斜校正是圖像預(yù)處理的重要部分。同理,當(dāng)出現(xiàn)連續(xù)大約一個(gè)漢字高度的大累加和情況后突然出現(xiàn)一系列小累加和甚至零值時(shí),判定為行下界。二是圖像縮放本身的運(yùn)算量較大。細(xì)化處理結(jié)果的好壞,直接影響到識(shí)別的效果和質(zhì)量。 漢字特征提取 預(yù)處理的最終目的是為了更加方便、準(zhǔn)確地進(jìn)行漢字的特征提取,從而提高漢字識(shí)別率。識(shí)別系統(tǒng)只利用其中部分子空間的信息。此方法試圖克服從圖形中正確抽取筆畫的困難,以提高正確判別的能力。選擇什么樣的特征使得此單分類環(huán)節(jié)的識(shí)別效果達(dá)到最佳,選擇哪些特征來優(yōu)化組合來達(dá)到整個(gè)系統(tǒng)的識(shí)別效果達(dá)到最佳,這也是設(shè)計(jì)者需要考慮的因素。原始圖像經(jīng)過預(yù)處理后 ,得到一個(gè)較為理想的二值圖像 ,然后就可以對(duì)這個(gè)處理后的二值圖像進(jìn)行識(shí)別。 文法分析是典型的結(jié)構(gòu)識(shí)別方法,由于其側(cè)重點(diǎn)是在筆段形狀、位置以及筆段之間相互關(guān)系的分析上,所以它的優(yōu)點(diǎn)是分辨相似字的能力較強(qiáng),對(duì)書寫風(fēng)格的變化不敏感:缺點(diǎn)是對(duì)局部噪聲敏感,特征提取比較復(fù)雜。因此松弛匹配法在漢字識(shí)別中取得了很好的效果,它不僅可以用于特征點(diǎn)的匹配,而且還可以用于筆段、筆畫和部件的匹配。 以下對(duì)各種常用的后處理方法做簡(jiǎn)單的介紹。在不利用待選集時(shí),對(duì)于有可能識(shí)別出錯(cuò)的地方,只能采用拒識(shí),而拒識(shí)不提供任何未知漢字與已知漢字字符集中漢字相似度的信息,所以尋找詞條時(shí)的搜索空間只能是整個(gè)詞條庫。該數(shù)據(jù)庫中的每一個(gè)詞條項(xiàng)都要包括本詞條的詞性、詞頻、連接屬性、語義信息等。另一種方法是把識(shí)別過程和后處理過程綜合在一起,初級(jí)識(shí)別給出的結(jié)果是每一個(gè)待識(shí)漢字的前幾個(gè)候選字和每一候選字與 待識(shí)字之間的相似度。其思想是直接從字符的輪廓或骨架上提取的字符像素分布特征,如筆畫、圈、端點(diǎn)、節(jié)點(diǎn)、弧、突起、凹陷等多個(gè)基元組合,再用結(jié)構(gòu)方法描述基元組合所代表的結(jié)構(gòu)和關(guān)系。漢字的統(tǒng)計(jì)模式識(shí)別是將字符點(diǎn)陣看作一個(gè)整體,其所用的特征是從這個(gè)整體上經(jīng)過大量的統(tǒng)計(jì)而得到的。有的抗噪性能差,有的代碼復(fù)雜度高。它們包括端點(diǎn)、折點(diǎn)、歧點(diǎn)和交點(diǎn)等。因此, 現(xiàn)在 人們已注意到將兩種方 法結(jié)合起來使用 ,加強(qiáng) 識(shí)別技術(shù) 的穩(wěn)定性與泛化能力使之 可處理更多類型、更加復(fù)雜的模式 。不同于傳統(tǒng)的模式識(shí)別方法,在這種情況下,神經(jīng)網(wǎng)絡(luò)所“提取”的 特征并無明顯的物理含義,而是儲(chǔ)存在神經(jīng)物理中各個(gè)神經(jīng)元的連接之中,省去了由人來決定特征提取的方法與實(shí)現(xiàn)過程。在一些情況下,統(tǒng)計(jì)方法和神經(jīng)網(wǎng)絡(luò)方法是可互相替代的,實(shí)際上神經(jīng)網(wǎng)絡(luò)的方法有時(shí)被認(rèn)為是統(tǒng)計(jì)方法的子集。但是,神經(jīng)網(wǎng) 絡(luò)方法還需要在以下幾方面進(jìn)行深人研究:網(wǎng)絡(luò)的模型,以保證網(wǎng)絡(luò)的快速收斂;訓(xùn)練樣本集的選擇,全面的學(xué)習(xí)樣本是高識(shí)別率的保證,合理的樣本數(shù)量可避免網(wǎng)絡(luò)的過訓(xùn)練,訓(xùn)練樣本特征的選取,保證良好的識(shí)別穩(wěn)定性。輸入層各神經(jīng)元負(fù)責(zé)接收來自外界的輸入信息,并傳遞給中間層各神經(jīng)元;中間層是內(nèi)部信息處理層,負(fù)責(zé)信息變換,根據(jù)信息變化能力的需求,中間層可以設(shè)計(jì)為單隱層或者多隱層結(jié)構(gòu);最后一個(gè)隱層傳遞到輸出層各神經(jīng)元的信息,經(jīng)進(jìn)一步處理后,完成一次學(xué)習(xí)的正向傳播處理過程,由輸出層向外界輸出信息處理結(jié)果。 BP 網(wǎng)絡(luò)有師學(xué)習(xí)方式 需要設(shè)定期望值和無師學(xué) 習(xí)方式 只需輸入模式 之分。 ( 4) 支持向量機(jī)是以統(tǒng)計(jì)學(xué)理論為 基礎(chǔ)的,與傳統(tǒng)統(tǒng)計(jì)學(xué)習(xí)理論不同。但它的建模比較復(fù)雜,而且運(yùn)算量大。取標(biāo)準(zhǔn)漢字,對(duì)每一漢字計(jì)算特征向量 。 y = sim( , P_test); %用訓(xùn)練出來的神經(jīng)網(wǎng)絡(luò)計(jì)算數(shù)據(jù)的第 P_test 行;其中 是 SIMULINK 的模型名 ( 神經(jīng)網(wǎng)絡(luò)的對(duì)象見參考附錄 2) ; P_test 是 用來測(cè)試數(shù)據(jù)的 外部輸入向量。 BP 神經(jīng)網(wǎng)絡(luò)的建立 BP 神經(jīng)網(wǎng)絡(luò)的建立要考慮索要建立標(biāo)準(zhǔn)庫的大小 ,先確定標(biāo)準(zhǔn)庫的大小,然后確定輸入向量中元素的最小個(gè)數(shù),即所要提取特征點(diǎn)的最少個(gè)數(shù)。tansig39。,39。 %每 100 顯示 1 次 =。 通 過對(duì)標(biāo)準(zhǔn)圖像識(shí)別學(xué)習(xí)訓(xùn)練,然后 再 對(duì)輸入亂序圖像(見 )進(jìn)行識(shí)別, 運(yùn)行程序后識(shí)別 過程中分別 進(jìn)行 轉(zhuǎn)灰度(見圖 ),均值濾波(見圖 ),二值化(見圖 ), 經(jīng)行列切分后得到 處理結(jié)果(見圖 ), 最后在命令窗口輸出識(shí)別 結(jié)果(見圖 )。 運(yùn)行程序后首先載入 相似字標(biāo)準(zhǔn)的圖片(見圖 ) ,然后依次得到 轉(zhuǎn)灰度圖片(見圖 ) , 均值濾波圖片(見圖 ) ,二值化圖片( ) ,經(jīng)行列切分后得到 處理結(jié)果( )及 命令窗口輸出的識(shí)別結(jié)果( )。然后輸入亂序圖像在經(jīng)過轉(zhuǎn)灰度,均值濾波,二值化,特征提取,匹配識(shí)別后,系統(tǒng)能夠?qū)y序圖像中的圖像識(shí)別出。 圖 相似字誤差曲線 通過對(duì)相似字 BP 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練我們得知,此網(wǎng)絡(luò)的識(shí)別誤差也非常小,可以進(jìn)行下一步的識(shí)別工作。 系統(tǒng)的仿真 系統(tǒng)首先對(duì)標(biāo)準(zhǔn)圖像(見圖 )進(jìn)行識(shí)別, 運(yùn)行程序后 識(shí)別過程分別 進(jìn)行 轉(zhuǎn)灰度(見圖 ), 均值濾波(見圖 ),二值化(見圖 ), 經(jīng)行列切分后得到 處理結(jié)果(見圖 ), 最后在命令窗口輸出 識(shí)別結(jié)果(見圖 )。 神經(jīng)網(wǎng)絡(luò)建立后,需要對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練以產(chǎn)生標(biāo)準(zhǔn)庫。,39。tansig39。 但是由于特征點(diǎn)的數(shù)目太少,所以在樣本訓(xùn)練的時(shí)候難收斂。送入圖像管理模塊,經(jīng)二值化 , 轉(zhuǎn)灰度,均值濾波,二值化,行、字切割等圖像處理操作后,得到待識(shí)別文字的點(diǎn)陣,漢字識(shí)別模塊從點(diǎn)陣中提取識(shí)別特征,通過十三點(diǎn)特征提取,精確匹配識(shí)別結(jié)果。 印刷品上的漢字輸入,經(jīng)過預(yù)處理后,對(duì) 照 標(biāo)準(zhǔn)漢字修補(bǔ)缺損部分,用修補(bǔ)后的漢字進(jìn)行學(xué)習(xí),形成
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報(bào)告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1