freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

印刷體漢字識(shí)別技術(shù)的研究畢業(yè)設(shè)計(jì)(留存版)

  

【正文】 13 個(gè),這對(duì)于具有 32 個(gè)字的標(biāo)準(zhǔn)庫(kù)來(lái)說足夠了。tansig39。 圖 亂序圖像 圖 亂序轉(zhuǎn)灰度圖像 圖 亂序均值濾波圖像 圖 亂序二值化圖像 印刷體漢字識(shí)別技術(shù)的研究 上海應(yīng)用技術(shù)學(xué)院 電氣與電子工程學(xué)院 畢業(yè)論文 26 圖 亂序圖像處理結(jié)果 圖 亂序圖像 識(shí)別 結(jié)果 印刷體漢字識(shí)別技術(shù)的研究 上海應(yīng)用技術(shù)學(xué)院 電氣與電子工程學(xué)院 畢業(yè)論文 27 基于 這個(gè)已建立的標(biāo)準(zhǔn)庫(kù),我們通過 Matlab 程序仿真結(jié)果得知,此系統(tǒng)對(duì)亂序圖像的漢字也能 100%識(shí)別 ,初步驗(yàn)證了本系統(tǒng)具有一定高度的識(shí)別率 。 仿真結(jié)果分析 由第一組圖像的仿真結(jié)果可以看出,當(dāng)輸入標(biāo)準(zhǔn)圖像,經(jīng)過轉(zhuǎn)灰度,均值濾波,二值化,識(shí)別輸出。 圖 三十二輸出元素系統(tǒng)的訓(xùn)練誤差曲線 印刷體漢字識(shí)別技術(shù)的研究 上海應(yīng)用技術(shù)學(xué)院 電氣與電子工程學(xué)院 畢業(yè)論文 23 圖 五輸出元素系統(tǒng)的訓(xùn)練誤差曲線 上圖(圖 )是輸出向量為五個(gè)元素和輸入向量為三十二個(gè)元素的 BP 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練誤差,最終訓(xùn)練誤差是 ,由此觀之,輸出向量含有五個(gè)元素的 BP 神經(jīng)網(wǎng)絡(luò)識(shí)別誤差更小一些,在可接受范圍之內(nèi),本系統(tǒng)可以采用。tansig39。十三點(diǎn)特征提取法有著極好的適應(yīng)性, 能大大縮短識(shí)別時(shí)間并提高識(shí)別率。十三點(diǎn)特征提取 法 負(fù)責(zé)提取漢字中的特征點(diǎn),形成一個(gè) 131? 的向量,作為神經(jīng)網(wǎng)絡(luò)的輸入,我們可以實(shí)現(xiàn)一個(gè)標(biāo)準(zhǔn)庫(kù)神經(jīng)網(wǎng)絡(luò),由于不同的漢字對(duì)應(yīng)的特征向量不同,當(dāng)輸入相應(yīng)的特征向量就輸出對(duì)應(yīng)的漢字。 支持向量機(jī)與神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方法相比,支持向量機(jī)具有以下特點(diǎn) : ( 1) 支持向量機(jī)是基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,保證學(xué)習(xí)機(jī)器具有良好的泛化能力 。 BP 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖(圖): 印刷體漢字識(shí)別技術(shù)的研究 上海應(yīng)用技術(shù)學(xué)院 電氣與電子工程學(xué)院 畢業(yè)論文 16 圖 BP 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu) 在人工神經(jīng)網(wǎng)絡(luò)發(fā)展歷史中,很長(zhǎng)一段時(shí)間里沒有找到隱層的連接權(quán)值調(diào)整問題的有效算法。對(duì)于與樣本相差較大的模式的識(shí)別能力也比較差。但幾乎每種特征都不是完美的,都要在特殊條件下施加一些特殊的處理。另外,其對(duì)于傾斜、筆畫變粗變細(xì)均無(wú)良好的適應(yīng)能力。換而言之,漢字圖形具有豐富的有規(guī)律可循的結(jié)構(gòu)信息,可以設(shè)法 提取含有這些信息的結(jié)構(gòu)特征和組字規(guī)律,將它們作為漢字識(shí)別的依據(jù)。另外,不同的應(yīng)用背景,也有不同的分類結(jié)果。 印刷體漢字識(shí)別技術(shù)的研究 上海應(yīng)用技術(shù)學(xué)院 電氣與電子工程學(xué)院 畢業(yè)論文 11 后處理 后處理就是利用相關(guān)算法對(duì)識(shí)別后的漢字文本或者 初級(jí)識(shí)別結(jié)果做進(jìn)一步的處理,糾正誤識(shí)的漢字,給出拒識(shí)的漢字,確定模棱兩可的漢字。相關(guān)匹配是一種統(tǒng)計(jì)識(shí)別方法。利用筆段與筆段之間的關(guān)系組成特征對(duì)漢字進(jìn)行識(shí)別,受字體和字號(hào)的影響小,對(duì)于多體漢字的識(shí)別獲得了良好效果。針對(duì)不同的系統(tǒng)需求,應(yīng)該選擇不同的漢字特征,進(jìn)行優(yōu)化特征組合,這樣才能達(dá)到系統(tǒng)最佳識(shí)別效果。 常用的平滑濾波方法有中值濾波和均值濾波 [7]。漢字的切分分為行切分和字切分。因此 ,在對(duì)原始圖像進(jìn)行識(shí)別處理之前,盡可能將干擾因素影響降低,是非常有必要的,也就是要先對(duì)原始 采樣信號(hào)進(jìn)行預(yù)處理。 漢字識(shí)別的基本思想是匹配識(shí)別, 匹配識(shí)別技術(shù)涉及到分類器的設(shè)計(jì)等重要問 題,這也是非常重要的一個(gè)環(huán)節(jié)。 可以說,字量大是造成漢字識(shí)別困難的主要原因之一。 1981 年 5月在日本第 56 屆商業(yè)展覽會(huì)上,富士通研究實(shí)驗(yàn)室進(jìn)行了手寫印刷體漢字識(shí)別的公開表 演。人們要求有一種能將文字信息高速、自動(dòng)輸入計(jì)算機(jī)的方法,于是印刷體漢字識(shí)別技術(shù) 便 應(yīng)運(yùn)而生。本文 首先在第一章 就漢字識(shí)別研究的意義 和 背景 以及對(duì)目前存在的問題 作了綜述。 v 參考文獻(xiàn) .................................................................. 35 致謝 ...................................................................... 36 參考附錄 .................................................................. 37 參考附錄 1 .............................................................. 37 參考附錄 2 .............................................................. 48 印刷體漢字識(shí)別技術(shù)的研究 上海應(yīng)用技術(shù)學(xué)院 電氣與電子工程學(xué)院 畢業(yè)論文 1 1 緒論 印刷體漢字識(shí)別技術(shù)的研究意義 漢字已有數(shù)千年的歷史,是中華民族文化的重要結(jié)晶,閃爍著中 華 人民智慧的光芒。 印刷體漢字識(shí)別技術(shù)的研究狀況 印刷體漢字識(shí)別是文字識(shí)別技術(shù)的一種。 進(jìn)入 90 年代以來(lái) ,印刷體漢字識(shí)別研究的主要目的是提高識(shí)別系統(tǒng)的品質(zhì)和效率,增強(qiáng)系統(tǒng)對(duì)不同文本的適應(yīng)性,擴(kuò)大使用面。漢字識(shí)別技術(shù)是計(jì)算機(jī)智能接口的一個(gè)重要組成部分。提取特征的穩(wěn)定性及有效性,直接決定了識(shí)別的性能?,F(xiàn)如今,漢字圖像二值化方法多種多樣,但大多都有應(yīng)用限制。 ( 5) 歸一化 歸一化也稱規(guī)格化,它是把文字尺寸變換成統(tǒng)一大小,糾正文字位置 ( 平移 ) ,文字筆畫粗細(xì)變換等文字 圖像的規(guī)格化處理,并只對(duì)文字圖像進(jìn)行投影。然而,細(xì)化過程本 身固有的弱點(diǎn)總是造成筆畫骨架線的畸變,增加對(duì)識(shí)別的干擾,主要的畸變包括:交叉筆畫畸變、轉(zhuǎn)折處出現(xiàn)分叉筆畫、失去短筆畫和筆畫合并等。其缺點(diǎn)是操作速度較慢,計(jì)算量大。 而本文為實(shí)現(xiàn)特征提取,我們將著重于對(duì)漢字的橫豎撇捺四種特征的提取 (漢字本身屬性決定 ),一般而言,特征提取的常用方法有逐象素特征提取法,垂直方向數(shù)據(jù)統(tǒng)計(jì)特征提取法, 13特征點(diǎn)提取方法等,本設(shè)計(jì)中將引入 13 點(diǎn)特征提取法。 松弛匹配法兼具統(tǒng)計(jì)方法和結(jié)構(gòu)方法的特長(zhǎng)。綜合詞匹配法可以減少搜索詞條關(guān)系時(shí)的搜索空間,從而提高糾錯(cuò)速度。 ( 5) 人工神經(jīng)元網(wǎng)絡(luò) 利用人工神經(jīng)元網(wǎng)絡(luò)的漢字識(shí)別后處理可以采取兩種方式。 統(tǒng)計(jì)模式識(shí)別方法 統(tǒng)計(jì)決策論發(fā)展較早,理論也較成熟。 ( 5) 特征點(diǎn)特征 漢字信息的絕大部分集中在漢字骨架上,而漢字骨架信息又大多集中在若干特征點(diǎn)上。 ANN可以作為單純的分類器 ( 不包含特征提取、選擇 ) ,也可以用作功能完善的分類器。 ( 4) 神經(jīng)網(wǎng)絡(luò)由于其信息的分布式的存儲(chǔ)方式使它具備一定的容錯(cuò)能力,因此神經(jīng)網(wǎng)絡(luò)分類器對(duì)于輸人模式信息的缺損不是非常敏感,適合質(zhì)量較差圖像的識(shí)別。 ( 2) 作用函數(shù)模型 作用函數(shù)是反映下層輸入對(duì)上層節(jié)點(diǎn)刺激脈沖強(qiáng)度的函數(shù)又稱刺激 函 數(shù) ,一般取 為( 0,1)內(nèi)連續(xù)取值 Sigmoid 函數(shù): )1/(1)( exf ?? ( 35) ( 3) 誤差計(jì)算模型 誤差計(jì)算模型是反映神經(jīng)網(wǎng)絡(luò)期望輸出與計(jì)算輸出之間誤差大小的函數(shù): ? ??? )(2/1 O pitp iEp ( 36) tpii 節(jié)點(diǎn)的期望輸出值; Opii 節(jié)點(diǎn)計(jì)算輸出值 。其中結(jié)構(gòu)模式識(shí)別方法主要是早期文字識(shí)別的主要方法,隨著統(tǒng)計(jì)理論的發(fā)展,統(tǒng)計(jì)模式識(shí)別方法逐漸成為文字識(shí)別主要的研究力法。送入圖像管理模塊,經(jīng)二值化 , 轉(zhuǎn)灰度,均值濾波,二值化,行、字切割等圖像處理操作后,得到待識(shí)別文字的點(diǎn)陣,漢字識(shí)別模塊從點(diǎn)陣中提取識(shí)別特征,通過十三點(diǎn)特征提取,精確匹配識(shí)別結(jié)果。tansig39。 神經(jīng)網(wǎng)絡(luò)建立后,需要對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練以產(chǎn)生標(biāo)準(zhǔn)庫(kù)。 圖 相似字誤差曲線 通過對(duì)相似字 BP 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練我們得知,此網(wǎng)絡(luò)的識(shí)別誤差也非常小,可以進(jìn)行下一步的識(shí)別工作。 運(yùn)行程序后首先載入 相似字標(biāo)準(zhǔn)的圖片(見圖 ) ,然后依次得到 轉(zhuǎn)灰度圖片(見圖 ) , 均值濾波圖片(見圖 ) ,二值化圖片( ) ,經(jīng)行列切分后得到 處理結(jié)果( )及 命令窗口輸出的識(shí)別結(jié)果( )。 %每 100 顯示 1 次 =。tansig39。 y = sim( , P_test); %用訓(xùn)練出來(lái)的神經(jīng)網(wǎng)絡(luò)計(jì)算數(shù)據(jù)的第 P_test 行;其中 是 SIMULINK 的模型名 ( 神經(jīng)網(wǎng)絡(luò)的對(duì)象見參考附錄 2) ; P_test 是 用來(lái)測(cè)試數(shù)據(jù)的 外部輸入向量。但它的建模比較復(fù)雜,而且運(yùn)算量大。 BP 網(wǎng)絡(luò)有師學(xué)習(xí)方式 需要設(shè)定期望值和無(wú)師學(xué) 習(xí)方式 只需輸入模式 之分。但是,神經(jīng)網(wǎng) 絡(luò)方法還需要在以下幾方面進(jìn)行深人研究:網(wǎng)絡(luò)的模型,以保證網(wǎng)絡(luò)的快速收斂;訓(xùn)練樣本集的選擇,全面的學(xué)習(xí)樣本是高識(shí)別率的保證,合理的樣本數(shù)量可避免網(wǎng)絡(luò)的過訓(xùn)練,訓(xùn)練樣本特征的選取,保證良好的識(shí)別穩(wěn)定性。不同于傳統(tǒng)的模式識(shí)別方法,在這種情況下,神經(jīng)網(wǎng)絡(luò)所“提取”的 特征并無(wú)明顯的物理含義,而是儲(chǔ)存在神經(jīng)物理中各個(gè)神經(jīng)元的連接之中,省去了由人來(lái)決定特征提取的方法與實(shí)現(xiàn)過程。它們包括端點(diǎn)、折點(diǎn)、歧點(diǎn)和交點(diǎn)等。漢字的統(tǒng)計(jì)模式識(shí)別是將字符點(diǎn)陣看作一個(gè)整體,其所用的特征是從這個(gè)整體上經(jīng)過大量的統(tǒng)計(jì)而得到的。另一種方法是把識(shí)別過程和后處理過程綜合在一起,初級(jí)識(shí)別給出的結(jié)果是每一個(gè)待識(shí)漢字的前幾個(gè)候選字和每一候選字與 待識(shí)字之間的相似度。在不利用待選集時(shí),對(duì)于有可能識(shí)別出錯(cuò)的地方,只能采用拒識(shí),而拒識(shí)不提供任何未知漢字與已知漢字字符集中漢字相似度的信息,所以尋找詞條時(shí)的搜索空間只能是整個(gè)詞條庫(kù)。因此松弛匹配法在漢字識(shí)別中取得了很好的效果,它不僅可以用于特征點(diǎn)的匹配,而且還可以用于筆段、筆畫和部件的匹配。原始圖像經(jīng)過預(yù)處理后 ,得到一個(gè)較為理想的二值圖像 ,然后就可以對(duì)這個(gè)處理后的二值圖像進(jìn)行識(shí)別。此方法試圖克服從圖形中正確抽取筆畫的困難,以提高正確判別的能力。 漢字特征提取 預(yù)處理的最終目的是為了更加方便、準(zhǔn)確地進(jìn)行漢字的特征提取,從而提高漢字識(shí)別率。二是圖像縮放本身的運(yùn)算量較大。 ( 3) 傾斜校正 通過輸入設(shè)備獲得的圖像不可避免地會(huì)發(fā)生傾斜,這會(huì)給后面的行字分割、文字識(shí)別等圖像處理與分析帶來(lái)困難,因此,在漢字識(shí)別系統(tǒng)中,傾斜校正是圖像預(yù)處理的重要部分。后處理則是利用詞義、詞頻、語(yǔ)法規(guī)則或語(yǔ)料庫(kù)等語(yǔ)言先驗(yàn)知識(shí)對(duì)識(shí)別結(jié)果進(jìn)行校正的過程。它涉及到 模式識(shí)別和圖像處理、人工智能、形式語(yǔ)言學(xué)、模糊數(shù)學(xué)等眾多學(xué)科,是一門綜合性的技術(shù)。 印刷體漢字識(shí)別 技術(shù) 存在的難點(diǎn) 由于漢字 具有 以下幾個(gè)方面的特點(diǎn),使?jié)h字 字符 在識(shí)別難度上遠(yuǎn)遠(yuǎn)大于字母化 字符 的識(shí)別。當(dāng)時(shí),他使用了 10 塊模板對(duì)應(yīng) 10個(gè)數(shù)字,依次把待識(shí)別的數(shù) 字投影到這 10 塊模板上,當(dāng)模板透過的光達(dá)到最小時(shí)(數(shù)字遮擋了模板的透光部分),數(shù)字就被識(shí)別成這塊模板上的數(shù)字。 在跨入信息時(shí)代后 , 現(xiàn)如今 漢字印刷材料的數(shù)量大大增加,一些專業(yè)單位如新聞社、圖書館、古籍出版社、檔案館等所接觸的印刷材料更是浩如煙海,信息量均是 呈 爆炸性增長(zhǎng),畢竟閱讀印刷材料更為符合人的自然閱讀習(xí)慣。漢字識(shí)別的最終目的是使中文信息能更自然,更方便地輸入計(jì)算機(jī),以便于進(jìn)一步處理 。這種方法不適用于需要處理大量文字資料的辦公自動(dòng)化、文檔管理、圖書情報(bào)管理等場(chǎng)合。 1966 年, IBM 公司發(fā)表了第一篇關(guān)于印刷印刷體漢字識(shí)別技術(shù)的研究 上海應(yīng)用技術(shù)學(xué)院 電氣與電子工程學(xué)院 畢業(yè)論文 2 體漢字識(shí)別的論文,在這篇論文中他們利用簡(jiǎn)單的模板匹配法識(shí)別了 1000 個(gè)印刷體漢字。第一級(jí) 3, 755 個(gè)漢字,使用頻度為 %,第二級(jí)有 3, 008 個(gè)漢字,兩級(jí)漢字總使用頻度為 %,識(shí)別系統(tǒng)一般應(yīng)能正確識(shí)別這些常用字,才能滿足實(shí)際應(yīng)用的需要。 預(yù)處理是在所有識(shí)別處理之前進(jìn)行的,它將從各種不同輸入方式獲得的漢字圖像中的干擾因素降到最低。近幾年來(lái),印刷漢字識(shí)別系統(tǒng)的單字識(shí)別正確率已經(jīng)超過 98%,為了進(jìn)一步提高系統(tǒng)的總體識(shí)別率,掃描圖像、圖像的預(yù)處理以及識(shí)別后處理等方面的技術(shù),也都得到了深入的研究,并取得了長(zhǎng)足的進(jìn)展,有效地提高了印刷漢字識(shí)別系統(tǒng)的總體性能。靈活運(yùn)用傾斜角度檢測(cè)算法將是傾斜校正環(huán)節(jié)的重要研究方向。平滑在圖像處理中實(shí)質(zhì)是一幅文字圖像通過一個(gè)低通濾波器,去除高頻分量,保留低頻分量,在實(shí)際應(yīng)用中,采用 WXW(一般采用 3x3) 的輔助矩陣對(duì)二值文字圖像進(jìn)行掃描。例如,漢字特征點(diǎn)特征算法本身是一種比較簡(jiǎn)單、完善的特征提取算法。其特點(diǎn)是能夠大大壓縮特征庫(kù)的容量,對(duì)于內(nèi)部筆畫粘連字符,其識(shí)別的適應(yīng)性較強(qiáng)、直觀性好,但不易表示為矢量形式,匹配難度大,不適合作為粗分類的特征。諸多分類方法各自有其優(yōu)缺點(diǎn)。 ( 4) 人工神經(jīng)網(wǎng)絡(luò) 漢字識(shí)別是一個(gè)非?;钴S的分支,不斷有新的方法涌現(xiàn)出來(lái),為漢字識(shí)別的研究注入新的活力,其中基于人工神經(jīng)網(wǎng)絡(luò)的識(shí)別方法是非常引人注目的方向。語(yǔ)素是最小的語(yǔ)言單位。從筆畫上講,漢
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報(bào)告相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1