【正文】
s under plicated background has not only enriched image processing theoretically, but also has enormous value in practical application. For example, the image retrieval under Internet environment and the discernment of the plate number in traffic administration. The location and extraction of text from plex background is an important research problem in the puter vision.The variation of the text in terms of characters font, size, style, orientation alignment, texture color and plex background makes the problem of text localization very difficult. The scene content is unconstrained and maybe both indoor and outdoor scenes under any lighting or contrast conditions. To extract plex background text, text areas should be located first.Current text location methods ale researched in this paper, and the advantage and disadvantage of them are analyzed.Then text location method based on edge detection and support vector machines is implemented.Edge detection based text location method is posed by Pyramid deposition, improved Canny algorithmbased edge detection, edge abstracting and binary, connected ponent analysis, text region identifying and bination. First, the improved Canny algorithm is used to detect the text edge, then connected ponent and text region identifying and bination is used to get the candidate text region.This paper uses the method of support vector machines classifier training to improve the correctness of text location. The support vector machine is applied to reduce the number of examples effectively, and the result of the experiment is good.The result of the experiment shows that this algorithm can well and exactly locate the text, this algorithm is valuable in theory and application. Keywords: text location;edge detection;feature extraction;support vector machines目 錄第一章 緒論 1 研究背景及意義 1 文本定位研究的現(xiàn)狀 2 論文的主要研究內(nèi)容及結(jié)構(gòu) 4第二章 復(fù)雜背景圖像中的文本定位的一般方法 6 文本特征及類別 6 文本流程定位 7 文本定位方法 9 本章小結(jié) 13第三章 基于邊緣檢測的文本定位方法研究 14 引言 14 邊緣檢測 14 連通區(qū)域分析 23 文本區(qū)域定位與合并 24 實驗結(jié)果 25 本章小結(jié) 27第四章 總結(jié) 28參考文獻 29外文資料中文翻譯致 謝第一章 緒論 研究背景及意義圖像中的文本定位是以數(shù)字圖像處理為基礎(chǔ)的,涉及到模式識別、神經(jīng)網(wǎng)絡(luò)、信號檢測、認識科學等多門學科。每天都會產(chǎn)生海量的圖像,這些數(shù)字圖像中包含了大量有用的信息。復(fù)雜背景是指:圖像中的背景含有豐富的紋理;有時文本是嵌入在紋理中的,甚至有時文本本身就是紋理;文本的可能出現(xiàn)的位置、所受光照、字體、大小和顏色都不盡相同,而且這些在文本定位前都是先驗未知的,這三點也正是這一研究的挑戰(zhàn)所在。(2)互聯(lián)網(wǎng)應(yīng)用。傳統(tǒng)的基于關(guān)鍵詞的檢索技術(shù)已不能滿足人們的需求,基于內(nèi)容的圖像檢索應(yīng)運而生,而圖像中的文字是圖像高層語義內(nèi)容的重要來源。一些不良網(wǎng)絡(luò)信息的提供者將文本嵌入到圖像文件中,或直接以圖像文件的形式顯示文本以繞開網(wǎng)絡(luò)過濾系統(tǒng)。由于數(shù)據(jù)采集設(shè)備的原因,可能會出現(xiàn)離焦模糊、運動模糊、傳感器噪聲等,這些都給文本定位帶來了較大的困難,它到目前為止依然是一個有很好解決的問題。文本定位的目的主要可以分為:視頻圖像中的文本定位用于基于內(nèi)容的視頻索、場景圖像中的文本定位用于場景理解等。為了能很好的分析現(xiàn)有文本定位方法的異同點,本文從圖像中的文本具有的一般特點出發(fā)對文本定位方法進行分類。(4)一般情況下,文本與背景之間總有一定的顏色差。但是對人工文本一般都具有一致的顏色和大小。但對于計算機來說,要完成這個過程就很困難了,因為計算機只能依靠如方差、水平邊緣、垂直邊緣等可以量化的視覺特征,而文字的特征遠不止這些,特別是中國漢字。他們提出計算圖像的局部水平方差圖,用Canny算子提取水平方差圖上的水平方向的邊緣,通過檢測成對出現(xiàn)的邊緣得到文本區(qū)域的候選矩形框。但是該方法對小的字符效果不是很好,這與其中的Split 。諾基亞中國研發(fā)中心一直致力于數(shù)碼相機拍攝的圖像中文字的提取,并取得了一定效果。文獻[6]采用了一種適應(yīng)性的文本檢測方法,該方法的實驗對象是場景文字(Scene Text),應(yīng)用多尺度邊緣檢測方法來彌補對比度和噪聲帶來的影響,采用了基于高斯混合顏色模型的搜索策略,對提取出來的候選區(qū)域進行排列分析,該方法對對比度強的場景文字效果比較突出,但是對透明的文字、相對較小的文字效果就不是很理想,并且虛檢率很高。該方法的不足之處與文獻[7]類似。復(fù)雜背景圖像的文本定位的難點主要下面分別介紹:(1)文本定位:由于所處理對象是復(fù)雜背景圖像,這些樣本受環(huán)境的影響大,噪聲干擾大,圖像中文字的語種、顏色、亮度、對比度、字體、大小、間隔、排列方向和背景紋理等因素復(fù)雜多變,由于拍攝時的投影關(guān)系,有的文字可能會發(fā)生形變,這些困難如何克服;同一幅圖像中既有人工文本也有場景文本,我們?nèi)绾螀^(qū)分,采用什么特征;采用基于知識的文本定位方法時,知識如何定義,定義的知識是否準確、有效和全面,是否具有通用性;采用基于學習的文本定位方法時,特征如何選取,選取的特征是否具有很好的推廣能力,訓練樣本如何收集,如何進行訓練,所有的這些因素都制約著復(fù)雜背景圖像中的文本定位算法的研究和發(fā)展?!≌撐牡闹饕芯績?nèi)容及結(jié)構(gòu)復(fù)雜背景圖像中的文本定位研究涉及了圖像處理、計算機視覺、模式識別和人工智能等多種學科,使用到的相關(guān)技術(shù)主要包括圖像分割技術(shù)、人工神經(jīng)網(wǎng)絡(luò)、小波分析、圖像形態(tài)學、Hough變換、支持向量機等。第二章:介紹了復(fù)雜背景圖像中文本的類別,文本定位的流程,并對多種復(fù)雜背景下文本的定位方法做了詳細介紹、比較和分析。第二章 復(fù)雜背景圖像中的文本定位的一般方法 文本特征及類別在現(xiàn)實生活中,人們可以很快地辨認出文本區(qū)域而不用逐個識別每個字符,因為文本具有很多統(tǒng)計特征,使其不同于場景的其他部分,可以歸納如下(1)文本和背景之間有較大的對比度;(2)文本擁有很多頻率和方向信息;(3)文本具有空間聚合性:在一定距離內(nèi)的字符都沿著某條虛擬的直線對齊,并且同一個字符串內(nèi)的字符都有相似的高度、方向和大小。然而,不論哪種方法都必須牢記以下兩點: (1)復(fù)雜背景下文本的對比度在圖像的不同位置會有所變化。 場景文本是指實際拍攝場景中所包含的文本,隨同拍攝場景一起被拍攝到圖像或視頻中,它屬于場景的一部分。例如,在新聞視頻n引中添加的新聞標題、電影視頻中的字幕等等。一般來說,真實場景中的文本定位相對要比人工文本定位難。圖21 文本定位步驟首先,選擇某個或某些能夠把文本與背景區(qū)別開來的文本特征;其次,采用某種算法提取文本特征;接著,聚集空間相鄰的特征點形成區(qū)域:然后,用文本的另一些特征除去一些不可能是文本的區(qū)域得到候選文本區(qū)域;最后,再用文本的一些特征對候選文本區(qū)域進行驗證得到真正的文本區(qū)域。連通成分分析(Connected Component)和排列分析、形態(tài)學運算、均值偏移算法(Mean Shift Algorithm)、水平或垂直投影方法和變異直方圖方法等是一些常用的方法。因此候選文本區(qū)域會有一些區(qū)域不是文本區(qū)域,需要進一步對它們進行驗證??梢詫⑽谋径ㄎ蛔鳛橐粋€兩類的分類問題(文本和非文本)?!』趨^(qū)域的文本定位方法基于區(qū)域的文本定位方法一般假設(shè)字符區(qū)域具有一致的顏色,根據(jù)字符顏色的一致性和字符顏色與背景較大的對比度分割圖像,然后對分割后的每個顏色層進行連通域的分析,得到各個候選的連通分量,將各個連通分量作為候選的字符連通分量,對每個連通分量利用一些幾何特征以及利用字符的排列關(guān)系等排除一些非文本連通分量,并最終得到文本區(qū)域。根據(jù)這些原則還可以嘗試各種更為有效的分割方法。Lienhart等人把文本區(qū)域看做是顏色相似的連通區(qū)域,用分離和合并算法對圖像進行分割,并把分割得到的太大和太小的塊都去掉;在形態(tài)學膨脹后,再利用相鄰幀的運動估計增強文本提取效果;最后用文本的啟發(fā)性知識濾除非文本區(qū)。該算法的魯棒性較強。同時受到噪聲污染的文本區(qū)域可能與背景物體相連而很難得到定位。Park[19]等人“們利用文本的空間差異定位車輛牌照,他們采用兩個時延神經(jīng)網(wǎng)絡(luò)在HSI空間檢測紋理。他們用三種不同尺度的二階高斯濾波器對圖像濾波,并對濾波后的圖像作非線性變換;變換后的結(jié)果作為每個像素的特征并用Kmeans聚類的方法進行紋理聚類、分割?;诩y理信息的文本定位方法通常對文字的大小和風格很敏感,很難手工設(shè)計出一個適用于各種情況的通用的紋理分類器。為了解決訓練樣本的不足,采用fly Sung、提出的Bootstrap(自舉)方法進行樣本訓練。支持向量機對于文本定位有很好的魯棒性,并且可在有限的樣本中進行訓練。而且基于紋理的文本定位方法由于假設(shè)文本是一種特殊的紋理,要求字符是成塊的出現(xiàn),字符數(shù)越少越難于進行有效的識別,也容易受復(fù)雜圖像中具有紋理特性的背景影響,虛檢率較高。另外紋理分析的計算量大、復(fù)雜度高,所以此類算法比較耗時。Hasan和Karam先將彩色圖像轉(zhuǎn)換成灰度圖像;然后提取灰度圖像的邊緣,并將邊緣圖像二值化,再對二值邊緣圖像作形態(tài)學處理;最后利用大小、高寬比、密度等啟發(fā)性知識濾除非文本區(qū)域。%%的誤檢率。但僅僅利用邊緣很難有效的區(qū)分文本區(qū)域和背景區(qū)域,因為很多的圖像中背景也含有非常多的邊緣。除了以上的方法之外,Tran等人[22],提出了一種利用Ridge定位文本的方法,他們先在兩種不同尺度上提取圖像的Ridge。文中實驗采用四組不同類型的數(shù)據(jù),%,%。Liang等采用形態(tài)學方法,從規(guī)則的背景圖像中提取出文本,而字符形狀幾乎沒有損耗。混合的方法對基于區(qū)域、紋理、邊緣的方法進行了融合的嘗試,充分利用這三類定位的優(yōu)點進行融合,是實現(xiàn)魯棒的文本定位的關(guān)鍵,但是如何進行融合、如何提取三類方法中的有效特征并組合到一個框架中是一個難點。由于統(tǒng)計模型在模式識別研究中體現(xiàn)的優(yōu)勢,本文通過將定位出的候選文本區(qū)域運用支持向量機的分類器訓練的方法來提高文本定位的準確性,取得了不錯的效果。基于邊緣的方法經(jīng)常根據(jù)文本的水平排列特性進行有效的分析,確認文本區(qū)域。圖像灰度的變化情況可以用圖像灰度分布的梯度來反映,因此我們可以用局部圖像微分技術(shù)來獲得邊緣檢測算子。所謂P階金字塔模型(pstep Pyramid)是指對原始圖像分辨率逐次進行P次縮小。另外,在具有等斜率的寬區(qū)域上,有可能將全部區(qū)域都當作邊緣檢測出來。但是它對圖像中的噪聲很敏感,也產(chǎn)生雙像素寬的邊緣,且也不能提供邊緣方向的信息。常用的高斯一拉普拉斯算子是55的模版,如圖32所示。Sobel提出一種將方向差分運算與局部平均相結(jié)合的方法,即Sobel算子。同時,因為Soble算子引入了局部平均,使其受噪聲的影響也比較小。當對精度要求不是很高時,是一種較為常用的邊緣檢測方法。另一種方法是,可以將Prewitt算子擴展到八個方向,即邊緣樣板算子?!』贑anny算子的邊緣檢測經(jīng)典的邊緣檢測算子具有實現(xiàn)簡單、運算速度快等特點,但其檢測受噪聲的影響很大,檢測結(jié)果不可靠,不能準確判定邊緣的存在及邊緣的準確位置,造成這種情況的原因有:(1) 實際的邊緣灰度與理想的邊緣灰度值間存在差異,這類算子可能檢測出多個邊緣。為解決這一問題發(fā)展并產(chǎn)生了平滑濾波邊緣檢測方法,也就是邊緣檢測中理論最成熟的線性濾波方法,也稱線性濾波邊緣檢測算子。二階導數(shù)的零交叉點不僅對應(yīng)著一階導數(shù)的極大值也對應(yīng)著一階導數(shù)的極小值,也就是說,灰度變化劇烈的點(強邊緣)與灰度變化緩慢的點(弱邊緣)都對應(yīng)著二階導數(shù)零交叉