freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于matlab的數(shù)字識別系統(tǒng)設計論文-文庫吧資料

2024-09-03 15:21本頁面
  

【正文】 索書號印刷體數(shù)字比較簡單,可以由 5個基本基元組成,分別為:突變 (P)、豎直 (v)、左斜 (L)、右斜 (R)和圓弧 (C)。 RP(i)=min{ x/P(x,y),y=i} i=1,2.....M (式 52) 相應地,頂部輪廓( TP( k),k=1,2.......N)定義為字符最高邊界像素點的垂直方向坐標值。 左側(cè)輪廓( LP(k),k=1,2.....M)定義為字符最左側(cè)邊界 像素點的遂平方向坐標值。 字符輪廓定義 由于受噪聲和隨機污點的干擾,以及二值化和粘連字符處理會一起字符的變形。如圖所示為索書號二值圖像的部分切割的字符。其中粘連的字符有 115 個,有 107 個準確切分,其中有 5 個字符經(jīng)過切分后的筆劃修復 回復字形, 8 個字符發(fā)生錯誤切分,切分準確率為 93% 通過實驗和分析發(fā)現(xiàn),粘連字符發(fā)生錯誤切分的主要類型是字符 M、 N 和 l、 T 以及 7 等發(fā) 生水平筆劃粘連。 索書號字符的估計寬度 Gw為 22 個象素,字符串中最大字符的寬度為 28 個象 素,晟小字符的寬度為 20 個像素,字符的估計高度 Hw為 29 個象素,字符串的字符寬度均在合 理范圍內(nèi)。由于不同尺寸大小、不同字符的文字筆畫粗不同,而且受文字結(jié)構(gòu)自身變化的影響即使同一個文字,其字符寬度也不是保持某一個恒定的值。 實驗結(jié)果分析 字符寬度和高度的估計準確與否直接影響算法的切分結(jié)果。有時切分,會使上式中的 SR 或 SL 為 0,無法進行計算分析,因此,當其中任意一值為 0時,則令 Rw=1。 如圖 55 所示,正確的切分后,字符“ 3”的變形。 第二步:在上述切分的基礎進行粘連字符的切分。切分的步驟如下: 第一步:為非粘連字符的切分。 4. 3. 3.粘連索書號的切分 索書號字符粘連的類型主要是簡單粘連。 13 單個字符的寬度估計值為: Gw=med{DCT(1),...DCT(1),...DCB(1),...DCB(1)} (式 410) 由于受字符形態(tài)的影響,即使相同字體的字符,其寬度也有較大的變化,如字符 1和字符“ M”的寬度,而字符的高度保持基本保持一致。因此,可以采用凹凸結(jié)構(gòu)的間距近似檢測單個字符的寬度 Gw. 由于凹凸結(jié)構(gòu)受字符自身形狀和粘連情況的影響,如 I, I, l(小寫 L)和 1 等字符相對較窄, 而 M, N, V, W 等字符本身包含凹凸結(jié)構(gòu),從這 些字符檢測到的問距會偏小,而水平筆劃的字 符粘連會使檢測到的間距偏大,所以取凹結(jié)構(gòu)間距和凸結(jié)構(gòu)間距的中間值作為單個字符的近似寬度。為了有效抑制筆劃邊緣不光滑的干擾影響,在檢測過程中,增 加了一個約束條件,即凹輪廓的深度和凸輪廓的高度必須大于等于 3 個象素。在字符間的間隔處,則在上輪 廓存在凹結(jié)構(gòu),在下輪廓存在凸結(jié)構(gòu)。如果所在列無字符,即無黑色像素點,則該列 Eb(i)為 0。 同理,同理,從下而上逐列掃描圖像,由每列的第一個黑色像素點組成的輪廓曲線稱之為字符串 下輪廓。上輪廓用其像素點的坐標表示為: PT(i)=ET(i) i=1, 2, 3, 4.......M (式 41) 式中 ET(i) 即自上而下掃描 i列圖像時遇到的第 一個黑色像素點的 y 軸坐標。并利用切分處筆劃寬度特征,對切分處的 變形筆劃進行了恢復,有效抑制噪聲干擾而產(chǎn)生的字符 筆劃變形,提高索書號文字識別的正確率。另一方面,由于干擾而引起的字符變形比較嚴重,導致圖像分析容易出錯,切分點的選擇和切分路徑的建立比較困難。切分后字符的筆畫粘連引起的字符變形被糾正,但是,字符“ 3”的筆畫變形依舊沒有修復。而且索書號字符圖像受下列因素的嚴重干擾: (1)字符串附近存在的污點; (2)字符和紙張的不均勻褪色: (3)光照不均勻。與文檔圖像相比,索書號字符圖像具有以下特點: (1)字符間隔比文檔中單詞的字符問隔 大; (2)索書號的字符基本保持相同高度;發(fā)生重疊粘連和交錯粘連的概率很小。 索書號字符的粘連原因 文檔圖像本身是二值圖像,如前所述,其粘連的主要原因是字符的字體、尺寸、間距的變化, 低劣的印刷質(zhì)量和圖像分辨率較低而引起的,字符筆劃變形主要是由字符粘連和粘連筆劃的切分 引起。一般認為粘連字符的錯誤切分會導致字符筆畫的嚴重失真變形,以致無法實現(xiàn)字符的正確識別。但在實際應 用中,需要識別的往往都是由多個字符組成的字符串,其中不乏存在筆畫粘連的字符切分是尋求最佳的路徑將字符串切分成一個個的完整字符,它是文字識別系統(tǒng)的關(guān)鍵步驟之一。如圖 31即分割出的索書號圖像的二值化圖像。圖 42為實驗樣本中低對比度和污跡干擾的典型索書號圖像。其中有的索書號圖像中存在污跡,有的文字或標簽紙不均勻褪色,有的存在大面積陰影和低對比度等 4種典型。這表 示如果圖像灰度值服從正太分布是,最佳閾值可按上式求得。 需確定一個閾值 T是的灰度值小于 T的像素分割為背景而是的灰度值大于 T的像素分割為目標。根據(jù)概率定義有 P1+p2=1,所以混合概率 10 密度式自由 5 個未知的參數(shù)。如果已知密度函數(shù)的形式,就有可能計算出一個最優(yōu)閾值,用它可把圖像分成兩類區(qū)域而是誤分割率最小。 這里最優(yōu)閾值指能使誤分割率最小的分割閾值。 有時圖像中目標和背景的灰度值有部分交錯,這是乳癰一個全局閾值進行分割則總會稀罕省一定的誤差。如果對算風直方圖選取兩峰之間的谷所對應的灰度值作為閾值就可將目標和背景分開。圖像的灰度直方圖是圖像個相熟灰度值得一種統(tǒng)計度量。閾值法就是按照某種準則確定閾值 t 最優(yōu)閾值法 對灰度圖像,基于各像素值的閾值是僅考慮各像素本身灰度值而確定的,因而算法一般較簡單,但對抗噪聲能力不強。 二值化問題描述如: 令 N為一系列自然數(shù), (x,y)是數(shù)字圖像的空間坐標, G={0,1,2....l1}是表示灰度級的正整數(shù),這樣圖像函數(shù)以定義為映射: f:N*N→ G,坐標為 (x, y)的像素點值為 f(x, y)。 圖 28 分割出的索書號圖像 9 3 文字圖像二值化 二值化的概述 多數(shù) OCR文字識別系統(tǒng)都是在二值化的文字圖像上實現(xiàn)的。經(jīng)過列方向和行方向邊界天正,形成完整的文字圖像區(qū),并提取出文字圖像。在已經(jīng)分割出的文字區(qū)域赴京,統(tǒng)計行方向的邊緣點數(shù)量,若邊緣點數(shù)量大于 2,則將列并入文字圖像區(qū)域。 邊界調(diào)整 檢測出的文字圖像中,由于文字大小寫,吱聲結(jié)構(gòu)等造成字符排列不爭氣,導致不問字符的筆畫會 被漏檢,如字符 P 的下半部分。 經(jīng)可能文字圖像行合并后,圖 21所示的索書號文字圖像區(qū)域中存在兩個索書號圖像區(qū)域。 8 0 50 100 150 200 250 300 350 400 450 50001020304050607080X D ir e c t io n E d g e P ix e ls S t a t is t ic s 圖 27 列方向邊緣點數(shù)量統(tǒng)計 檢測出的可能文字圖像應先進行合并,形成可能的文字圖像區(qū)域。 文字圖像區(qū)域列邊緣點數(shù)兩也有下屬關(guān)系: Nx( word) Nx0( word) Nx (nonword) (27) 式中 Nx( word)是文字圖像區(qū)域中某一列的邊緣點數(shù)量, Nx (nonword)是非文字圖像區(qū)域中某一列的邊緣點數(shù)量, Nx0( word)所示是整幅圖像邊緣點數(shù)量的列平均值。 文字圖像列區(qū)域檢測 在檢測出行區(qū)域文字圖像中進一步確定。 經(jīng)可能文字圖像行合并后,圖 21所示的索書號文字圖像區(qū)域中存在兩個索書號圖像區(qū)域。 0 50 100 150 200 250 300 350 400 450 500012345678910Y D ire c t io n E d g e P ix e ls S t a t is t ic s 圖 26 行方向邊緣點數(shù)量統(tǒng)計 檢測出的可能文字圖像應先進行合并,形成可能的文字圖像區(qū)域。但是從概率角度可以認為,文字圖像區(qū)域的每一行邊緣點適量大于政府圖像邊緣點數(shù)量的行平均值,而非文字圖像區(qū)域者相反,即: Ny( word) Ny0( word) Ny (nonword) ( 25) 式中 Ny( word)是文字圖像區(qū)域中某一行的邊緣點數(shù)量, Ny (nonword)是非文字圖像區(qū)域中某一行的邊緣點數(shù)量, Ny0( word)所示是整幅圖像邊緣點數(shù)量的行平均值。因此文字圖像區(qū)域中行統(tǒng)計平均的邊緣點數(shù)量比非文字圖像區(qū)域中的多,則: Ny0( word) Ny0 (nonword) (24) 式中, Ny0( word)為文職圖像區(qū)域的行平均邊緣點個數(shù), Ny0(nonword) 為非文字圖像區(qū)域的行平均邊緣點個數(shù)。經(jīng)邊緣點 S分量分割后的圖像如圖 25所示,圖中的邊緣點為主要的文字邊緣點。由于索書號文字采用黑色應刷,但發(fā)生不同程度的退色,繼黑巖色的飽和度 S有一定的變化,故 BW_Word(i,j)=???01 S1≤S≤s2 and BW(i,j)=1 ( 23) 式中, BW(i,j)是 Canny算子檢測的邊緣, BW_Word(i,j)是文字的邊緣點, S1和 S2表示索書號文字 S分量對應的范圍。受光照條件和文字顏色退化程度不同的影響,文字部分特征如對比度,亮度等容易搜到干擾,但是文字的邊緣分布規(guī)律且有較強的干擾性能。如圖 24所示,即實驗中的 Canny算子邊緣檢測結(jié)果。實際應用中, TG取值只需要滿足兩個條件:第一 ,確保盡可能地檢測出索書號文字的邊緣點,這粗限定了 TG 取值的最高上限;第二,確保加邊緣盡可能少,這限定了 TG取值的下限。實驗中σ設置為 1, TL=*TG。這三個準則相結(jié)合可以檢測的最佳的邊緣。 Canny算子邊緣檢測有如下 3個指標:第一,對每個邊緣點有唯一的響應,得到的邊緣為單像素狂;第二,錯誤率 最低,即要少將真正的邊緣點丟失也要少將非邊緣點判為邊緣點;第三,高位置精度,檢測的邊緣應在正真的邊界上。英雌,問了減少算法的耗時,首先子轉(zhuǎn)換 I分量,如圖 23所示,待邊緣檢測出來后,再堆邊緣點進行 S分量計算。其中 I表示顏色的敏感程度, H表示不同的顏色, S表示顏色的深淺, I分量與彩色信息無關(guān), H和 S與人感受彩色的方式緊密相連。但 R, G和 B3分量之間有很高的相關(guān)性,直接利用這些分量常常不嫩得到所需的分割效果。它的算法流程如圖 22 所示,實驗 結(jié)果證明,該方法具有定位精度高,準確率高,抗噪能力強,并在“索書號自動識別系統(tǒng)”中取得理想效果。 本課題利用基于邊緣點數(shù)量統(tǒng)計的文字圖像分割方法。 CCD 拍攝的圖書索書號圖像如圖 21 所示 .圖像中除了索書號還包含尤其他文字,紅色條形框還包含有其他文字,紅色條形框以及裝飾景物等,為了能夠正確識別該書的索書號,首先必須從圖像中正確分割出索書號圖像。 第四階段:索書號單字識別。而粘連索 書號切分存在的主要問題是 (1)粘連字符的切分比較困難: (2)索書號字符發(fā)生粘連有一 部分是字符 的筆畫發(fā)生變形所致,如筆劃寬度變粗等。非粘連單字 切分比價容易解決。因此,單字切分往往與字符識別緊密結(jié)合在一起。 第三階段:索書號字符切分是將索書號字符串切分成一個個字符,以提供給識別算法進行識 別。 (3)污跡的影響。索書號提取主要存在的問題:(1)不均勻光照增大了索書號圖像的灰度值變化范圍。但由于定位得到的圖像區(qū)域略大于真實索 書號區(qū)域,二值化后在索書號字符附近可能會存在一些非字符目標,影響后續(xù)的單字切分和識別。 第二階段:索書號提取是在定位得到的索書號 區(qū)域中,將索書號字符與周圍目標和背景相 互分離。索書號定位主要存在兩個問題: (1)受不均勻光照和褪色的影響,索書號的紋理特征、顏色特征以及形狀特征等有較大的變化,可靠性相對較差; (2)有的索書號由 1 個字符串組成,有的索陸號由 2 個字符串組成,而在索書號的周圍附近還會存在其他文字,如出版社名稱和作者姓名。由于該階段是解決索 書號的區(qū)域查找問題,而沒 有涉及單字切分,因此圖像區(qū)域的估計允許有一定誤差。為了能夠解決上述問題,索書號圖像識別主要由以下 4 個模塊組 成:索書號定位,索書號提取,索書號字符切分和索書號單字識別。本論文選取圖書館的 主要類別圖
點擊復制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1