【正文】
度高、成本低、信息量大的濃淡圖像處理的花銷大。二值化的關(guān)鍵是找到合適的閾值t來(lái)區(qū)分對(duì)象和背景。將256個(gè)亮度等級(jí)的灰度圖像通過(guò)適當(dāng)?shù)拈y值選取而獲得仍然可以反映圖像整體和局部特征的二值化圖像。圖像的二值化如下圖所示: (a)原文字區(qū)域圖 (b)二值化圖像 轉(zhuǎn)為二值化圖由于字符本身的灰度與背景間的灰度值存在著較大差別, 使得文本區(qū)域中的邊緣特性很明顯, 這一特征也是尋找字符的重要依據(jù)。全局閾值是指整個(gè)圖像都使用的一個(gè)閾值;局部閾值則是指根據(jù)圖像的具體區(qū)域來(lái)確定的閾值,與全局閾值相比,它的優(yōu)點(diǎn)是能處理亮度和對(duì)比度發(fā)生變化的圖像。在[Chen02]中,Chen等首先為圖像中的文字灰度值建立一個(gè)高斯混合模型( Gaussian Mixture Model, GMM ),然后用基于馬爾科夫隨機(jī)場(chǎng)(MarkovRandom Field, MRF)的方法確定每個(gè)象素所屬的高斯項(xiàng),從而達(dá)到分割的目的。文獻(xiàn)[Sobottka99]利用一種非監(jiān)督聚類的方法將圖片中顏色相近的像素聚成若干個(gè)像素類,然后通過(guò)一個(gè)自底向上和一個(gè)自頂向下相結(jié)合的方法來(lái)完成文字的分割;文[Zhou97]則應(yīng)用了一種基于EMST的聚類方法進(jìn)行顏色的量化[27]。它將圖像的每個(gè)像素的灰度值與進(jìn)行比較,若大于,則取為前景色(白色);否則,取為背景色。全局閾值法算法簡(jiǎn)單,對(duì)于目標(biāo)和背景明顯分離、直方圖分布呈雙峰的圖像效果良好。由于字符本身的灰度與背景間的灰度值存在著較大差別, 使得文本區(qū)域中的邊緣特性很明顯, 這一特征也是尋找字符的重要依據(jù)?;谏线叿治龅奶攸c(diǎn), 現(xiàn)在尋找文本的上下邊界。如果滿足以上的閾值條件那么行計(jì)數(shù)器的值加 1。基于前面的工作,最后完成在彩色圖像中文本的提取,如下圖: (a)原圖對(duì)文字區(qū)域定位得到目標(biāo)文本區(qū)域:(b)文字定位文本區(qū)域的提取得到字符串:(c)(文字分割)字符串圖像 本章對(duì)基于邊緣檢測(cè)算法的基礎(chǔ)上對(duì)文本的細(xì)定位做了字符的切分,即實(shí)現(xiàn)字符串,通過(guò)文本區(qū)域的二值化,去除殘余分量等算法,最后應(yīng)用閾值分割法對(duì)文本塊進(jìn)行行掃描確定文字的上下邊界,達(dá)到文字字符的單獨(dú)提取。2.研究了簡(jiǎn)單背景下文本提取中的彩色圖像邊緣檢測(cè)的有關(guān)問(wèn)題。我們認(rèn)為充分利用文本區(qū)域強(qiáng)烈的空間頻率特征,采用邊緣檢測(cè)和二值化閾值結(jié)合的方法,可以較好的指導(dǎo)圖像分割算法完成視頻和彩色圖像文本區(qū)域提取的任務(wù)。由于從彩色圖像中抽取文字信息所走流程較多,定位,二值化,識(shí)別等步驟都會(huì)不同程度地引入錯(cuò)誤,即使單看其中某些步驟可能性能良好,但整體來(lái)看能完全正確抽取出來(lái)的文字還是不多,離完全實(shí)用還有一段距離。s entropy [J],Pattern Recognition, 2004, 37(6): 11491161.[23]Yu Qiao, Qingmao Hua, et al. Thresholding based on variance and intensity contrast [J],Pattern Recognition, 2007, 40(2): 596608.[24][Jain98] , and . Automatic text location in images and video frames. PatternRognition, , , , 1998.[25][Li00] , , and . Automatic text detection and tracking in digital transactions on Image Processing, , , January, 2000.[26][Li99] , and . Text enhancement in digital videos. Recognition and Retrieval, 1999[27][[J],計(jì)算機(jī)應(yīng)用與軟件,2006, 23(4):8587.[28]周德龍,潘泉,[J],中國(guó)圖象圖形學(xué)報(bào),2001,6A(4);353358[29][M],電子工業(yè)出版社,2007年[30]侯格賢,畢篤彥,[J],中國(guó)圖像圖形學(xué)報(bào),2000, 5A(1):3943致 謝畢業(yè)設(shè)計(jì)結(jié)束了,短短的3個(gè)月的時(shí)間在研究彩色圖像文本提取算法研究的過(guò)程中,需要翻閱大量的資料,并進(jìn)行算法的分析與實(shí)驗(yàn)。同時(shí),在課程學(xué)習(xí)和論文研究期間,趙英亮老師給予了我悉心的指導(dǎo)和熱情的幫助,在課題研究中給了我很多啟發(fā)性的建議,趙老師不但幫助我對(duì)課題方向進(jìn)行了解,還對(duì)我的設(shè)計(jì)方案提出了很多寶貴的建議,并耐心地解答我遇到的問(wèn)題,使我的畢業(yè)設(shè)計(jì)有了質(zhì)的提高。最后,對(duì)評(píng)審論文的各位專家、學(xué)者表示衷心的感謝!37。在此,表示衷心的感謝!最后,感謝中北大學(xué)所有辛勤培育我的老師們,感謝您們?cè)诖髮W(xué)四年里對(duì)我的支持與幫助。 首先,我要感謝我的指導(dǎo)老師趙英亮老師。參考文獻(xiàn)[1]陳鍛生,[J],計(jì)算機(jī)學(xué)報(bào),2006,29(2):194207[2]莊越挺,劉駿偉,吳飛,[J],計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),(8):750—753[3]Yu Zhong,Kalle Karu,Anil K Jain. Locating Text in Complex Color Images[J]. Pattern Recognition, 1995, 28(10):1523—1535[4]徐華根,唐慧明,[J].電視技術(shù),2005(1):36—38[5]陳兵旗,孫明,VisualC++使用圖像處理[M].北京:清華大學(xué)出版社,2004.[6]歐文武,朱軍民,.2003,17(5):55—60[7]Jain A K,Yu B. Automatic Text Location in Intages and VideoFrames[J].Pattern Remgnition,1998, 31(12) :2055—2076.[8]李昭早,.2006.1[9]章毓晉,.3:254—258[10]歐文武,朱軍民,30:65—67[11]崔瑩瑩,楊杰,[J].影像技術(shù),2006(1):28—30[12]張引,復(fù)雜背景下文本提取方法研究與應(yīng)用[D].杭州:浙江大學(xué)。今后工作展望文本所用的算法相較以前的算法有一些改進(jìn),但也存在著一定的局限,例如有一些經(jīng)驗(yàn)閾值需要設(shè)定,對(duì)低分辨率的圖像文字檢測(cè)效果不好。3.研究了彩色圖像文本區(qū)域提取算法視頻和彩色圖像文本提取是典型的圖像分割問(wèn)題。主要研究成果如下: 、邊緣等特征以及目標(biāo)提取算法的基礎(chǔ)上,首先將圖像灰度化,繼而進(jìn)行邊緣、檢測(cè)形態(tài)學(xué)填充,然后對(duì)連通區(qū)域進(jìn)行自適應(yīng)閾值分割,進(jìn)而根據(jù)對(duì)文本字符區(qū)域顏色、通過(guò)行掃描邊界,去除非文本區(qū)域??紤]到文字塊的高度, 若得到連續(xù)滿足變化條件的行數(shù)大于15 的話, 則認(rèn)為這個(gè)連續(xù)變化區(qū)域?yàn)檐嚺频纳舷聟^(qū)域。因?yàn)槿绻峭ㄟ^(guò)文本區(qū)域的話,選擇15 作為閾值是可行的。判斷取一條穿過(guò)文字區(qū)域的直線上各個(gè)點(diǎn)的灰度值進(jìn)行研究可以看出, 穿過(guò)文字區(qū)域的灰度值具有十分明顯的峰谷特征。由于每一個(gè)區(qū)域所包含的內(nèi)容與其他區(qū)域大相徑庭,因此,必須考慮區(qū)域與區(qū)域之間的關(guān)系以及每一個(gè)小區(qū)域和整幅圖像之間的關(guān)系。其中全局閾值法又可分為基于點(diǎn)的閾值法和基于區(qū)域的閾值法。閾值方法分為全局閾值和局部閾值兩種,如果分割過(guò)程中對(duì)圖像上每個(gè)像素所使用的閾值都相等,則為全局閾值方法;如果每個(gè)像素所使用的閾值可能不同,則為局部閾值方法[28]?;陬伾P偷姆椒ㄓ捎诳紤]到了文字顏色的多峰值分布,因而能夠處理比較復(fù)雜的背景,但是對(duì)不同的圖像,其文字的顏色模型往往差別很大,為多種不同的圖像建立不同的模型并不容易,有時(shí)候甚至是不可能的。文[Wu97]利用了局部閾值來(lái)取出背景的噪聲,同時(shí)得到二值化的圖像。基于顏色閾值的方法假定了圖像中文字的亮度總是比背景高或者比背景低,通過(guò)估計(jì)背景顏色和前景顏色的閾值來(lái)達(dá)到分割的目的。其次,要進(jìn)行二值圖像的處理與分析,首先要把灰度圖像二值化,得到二值化圖像。求解閾值的方法很多,微分直方圖法、最大方差法、基于灰度的數(shù)學(xué)期望的方法、可變閾值法等。 在實(shí)際的圖像處理系統(tǒng)中,進(jìn)行圖像二值化的關(guān)鍵使確定合適的閾值,使得字符與背景能夠分割開來(lái),而且二值變換的結(jié)果圖像必須要具備良好的保形性,不丟掉有用的形狀信息,不會(huì)產(chǎn)生額外的空缺等。在數(shù)字圖像處理中二值圖像占有很重要的地位。確定文本區(qū)域位置后下一步任務(wù)就是進(jìn)行字符切分分離出字符圖像。如圖所示: 對(duì)腐蝕后的圖像開運(yùn)算結(jié)果圖在切除了非目標(biāo)文本的小區(qū)域后得到定位剪切的彩色文本區(qū)域如下圖所示,實(shí)現(xiàn)了文本的彩色細(xì)定位: 本章應(yīng)用了基于邊緣的文本提取方法通過(guò)形態(tài)學(xué)填充形成連通區(qū)域,得到的二值化圖像特征更加突出,更加便于后續(xù)的篩選。針對(duì)本文腐蝕運(yùn)算的處理結(jié)果如下圖: 對(duì)邊緣后的圖像進(jìn)行腐蝕化處理 使用同一個(gè)結(jié)構(gòu)元素對(duì)圖像先腐蝕再進(jìn)行膨脹的運(yùn)算稱為開運(yùn)算。將結(jié)構(gòu)元素的原點(diǎn)移至圖象A起始部分,如果B的全部象素都包含在A之中,則此時(shí)處在結(jié)構(gòu)元素原點(diǎn)位置的象素記做“1”,否則,記做“0”。在任何方向?qū)挾炔淮笥?r個(gè)象素的物體將被消除。運(yùn)算結(jié)果使物體的面積減少了相應(yīng)數(shù)量的點(diǎn)。數(shù)學(xué)形態(tài)學(xué)的基礎(chǔ)是二值形態(tài)學(xué),基本運(yùn)算主要為腐蝕、膨脹、開啟和閉合四種。最基本的形態(tài)學(xué)算子有四個(gè):腐蝕、膨脹、開運(yùn)算以及閉運(yùn)算。Canny 算子則能較好地體現(xiàn)圖像的弱邊緣[18]。(6)使用累計(jì)直方圖計(jì)算兩個(gè)閾值。方向和135176。3. 邊緣連接。這4個(gè)區(qū)及其相應(yīng)的比較方向如下模板所示:例如,如果中心像素x的梯度方向?qū)儆诘?區(qū),則把x的梯度值同