【正文】
敏感,很難手工設(shè)計出一個適用于各種情況的通用的紋理分類器。Mao等人利用小波變換檢測圖像紋理,再通過紋理分析進行文本定位。他們用三種不同尺度的二階高斯濾波器對圖像濾波,并對濾波后的圖像作非線性變換;變換后的結(jié)果作為每個像素的特征并用Kmeans聚類的方法進行紋理聚類、分割。最后將兩個神經(jīng)網(wǎng)絡(luò)的輸出結(jié)果加以合并,并結(jié)合投影分析得到牌照的矩形區(qū)域。Park[19]等人“們利用文本的空間差異定位車輛牌照,他們采用兩個時延神經(jīng)網(wǎng)絡(luò)在HSI空間檢測紋理。這類方法通常將整幅圖像分割成互不重疊的子塊,然后使用各種方法,如Gabor濾波、空間方差、小波變換等來得到子塊中的紋理特征,然后使用一個適當?shù)姆诸惼鲗γ總€子塊進行分類(文本和非文本),通常使用的分類器有:神經(jīng)網(wǎng)絡(luò)、支持向量機、Adaboost等。同時受到噪聲污染的文本區(qū)域可能與背景物體相連而很難得到定位?;趨^(qū)域的文本定位方法對于具有較大文本與背景對比度的較大字符相對有較好的定位效果,實現(xiàn)簡單,計算速度也較快,定位的文本框準確,并同時可以提取文本的顏色,方便后續(xù)的文本提取操作。該算法的魯棒性較強。Jain和Yu先把24bits的真彩色圖像降低為6bits的彩色圖像,再用顏色聚類的方法把原圖像分解成不同顏色的子圖像;檢查每幅子圖像中是否包含滿足特定啟發(fā)式搜索的文本;最后將每幅子圖像中檢測到的文本區(qū)域進行合并Sochang 2Pei等人首先用一個SOFM神經(jīng)網(wǎng)絡(luò)對輸入圖像進行顏色量化,然后分析三維彩色直方圖;當某一顏色處的梯度大于閾值時,則認為該顏色可能是文本顏色,并將該顏色所占區(qū)域賦值為1,其它為0,從而得N值子圖像。Lienhart等人把文本區(qū)域看做是顏色相似的連通區(qū)域,用分離和合并算法對圖像進行分割,并把分割得到的太大和太小的塊都去掉;在形態(tài)學膨脹后,再利用相鄰幀的運動估計增強文本提取效果;最后用文本的啟發(fā)性知識濾除非文本區(qū)。一些門限值需要根據(jù)經(jīng)驗來決定,所以這個方法通用性不強。根據(jù)這些原則還可以嘗試各種更為有效的分割方法?;趨^(qū)域的文本定位方法主要使用的分割方法有:顏色聚類,顏色量化,利用直方圖的分割等?!』趨^(qū)域的文本定位方法基于區(qū)域的文本定位方法一般假設(shè)字符區(qū)域具有一致的顏色,根據(jù)字符顏色的一致性和字符顏色與背景較大的對比度分割圖像,然后對分割后的每個顏色層進行連通域的分析,得到各個候選的連通分量,將各個連通分量作為候選的字符連通分量,對每個連通分量利用一些幾何特征以及利用字符的排列關(guān)系等排除一些非文本連通分量,并最終得到文本區(qū)域。大多數(shù)文本定位方法都是利用文本特征進行文本的定位??梢詫⑽谋径ㄎ蛔鳛橐粋€兩類的分類問題(文本和非文本)。文本區(qū)域驗證的方法有:用候選文本區(qū)域的高、寬、高寬比和面積進行文本區(qū)域驗證:用候選文本區(qū)域的尺寸、偏心率、飽和度、強度變化與用置信度加權(quán)的排列值(Align Value)進行文本區(qū)域驗證;用候選文本區(qū)域內(nèi)邊緣點的密度進行文本區(qū)域驗證;用候選文本區(qū)域的直方圖分布、字符的結(jié)構(gòu)、字符的排列信息和字符識別進行文本區(qū)域驗證;用支持向量機進行文本區(qū)域驗證。因此候選文本區(qū)域會有一些區(qū)域不是文本區(qū)域,需要進一步對它們進行驗證。 候選文本區(qū)域提取文本特征聚集形成區(qū)域里有一些明顯不是文本區(qū)域,根據(jù)區(qū)域的高、寬、高寬比、面積和區(qū)域內(nèi)邊緣點的密度可以除去這些噪聲區(qū)域。連通成分分析(Connected Component)和排列分析、形態(tài)學運算、均值偏移算法(Mean Shift Algorithm)、水平或垂直投影方法和變異直方圖方法等是一些常用的方法。 文本特征提取對于不同的文本特征需要采用不同的圖像處理技術(shù)提取,各種文本定位方法文本特征提取與分類所用的技術(shù),如表21所示。圖21 文本定位步驟首先,選擇某個或某些能夠把文本與背景區(qū)別開來的文本特征;其次,采用某種算法提取文本特征;接著,聚集空間相鄰的特征點形成區(qū)域:然后,用文本的另一些特征除去一些不可能是文本的區(qū)域得到候選文本區(qū)域;最后,再用文本的一些特征對候選文本區(qū)域進行驗證得到真正的文本區(qū)域。因此文本后續(xù)的研究中,對本文將不具體區(qū)分是定位人工文本還是場景文本,僅僅關(guān)注圖像背景的復(fù)雜性。一般來說,真實場景中的文本定位相對要比人工文本定位難。人工文本一般比較規(guī)整,與背景之間具有較大的對比度,為了便于讓人閱讀,字符一般都具有一定的大小,字符的顏色比較一致。例如,在新聞視頻n引中添加的新聞標題、電影視頻中的字幕等等。場景文本容易受到光照條件、拍攝設(shè)備參數(shù)的影響,而且方向沒有任何的限制,字符有可能受到照相機拍攝角度的影響而發(fā)生形變,文字本身可能與場景中的其它物體發(fā)生相連等情況。 場景文本是指實際拍攝場景中所包含的文本,隨同拍攝場景一起被拍攝到圖像或視頻中,它屬于場景的一部分。 (2)由于光照的不均勻、噪聲和壓縮的影響,文本的色彩也是不一致的,因此文本區(qū)域內(nèi)部色彩的同一性不能被嚴格地假設(shè)。然而,不論哪種方法都必須牢記以下兩點: (1)復(fù)雜背景下文本的對比度在圖像的不同位置會有所變化。通常,我們把這些特征分為兩類來講:用來進行文本檢測的特征和用來驗證文本的特征。第二章 復(fù)雜背景圖像中的文本定位的一般方法 文本特征及類別在現(xiàn)實生活中,人們可以很快地辨認出文本區(qū)域而不用逐個識別每個字符,因為文本具有很多統(tǒng)計特征,使其不同于場景的其他部分,可以歸納如下(1)文本和背景之間有較大的對比度;(2)文本擁有很多頻率和方向信息;(3)文本具有空間聚合性:在一定距離內(nèi)的字符都沿著某條虛擬的直線對齊,并且同一個字符串內(nèi)的字符都有相似的高度、方向和大小。首先對圖像進行金字塔分解;然后在Canny算子邊緣檢測的研究基礎(chǔ)上,提出了一種改進的Canny算子;隨后進行連通區(qū)域分析,對文本區(qū)域進行鑒定與合并,定位出候選文本區(qū)域。第二章:介紹了復(fù)雜背景圖像中文本的類別,文本定位的流程,并對多種復(fù)雜背景下文本的定位方法做了詳細介紹、比較和分析。本文實現(xiàn)了一種基于邊緣檢測的文本定位方法,并且將其擴展到統(tǒng)計模型支持向量機的框架下來提高文本定位的準確性,取得了較好的效果?!≌撐牡闹饕芯績?nèi)容及結(jié)構(gòu)復(fù)雜背景圖像中的文本定位研究涉及了圖像處理、計算機視覺、模式識別和人工智能等多種學科,使用到的相關(guān)技術(shù)主要包括圖像分割技術(shù)、人工神經(jīng)網(wǎng)絡(luò)、小波分析、圖像形態(tài)學、Hough變換、支持向量機等。(3)算法評價:對文本定位算法評價的研究目前還非常的不夠,還沒有一種國際通用的方法,也沒有一個通用的評測數(shù)據(jù)庫,導(dǎo)致了算法間無法客觀、公正地進行比較。復(fù)雜背景圖像的文本定位的難點主要下面分別介紹:(1)文本定位:由于所處理對象是復(fù)雜背景圖像,這些樣本受環(huán)境的影響大,噪聲干擾大,圖像中文字的語種、顏色、亮度、對比度、字體、大小、間隔、排列方向和背景紋理等因素復(fù)雜多變,由于拍攝時的投影關(guān)系,有的文字可能會發(fā)生形變,這些困難如何克服;同一幅圖像中既有人工文本也有場景文本,我們?nèi)绾螀^(qū)分,采用什么特征;采用基于知識的文本定位方法時,知識如何定義,定義的知識是否準確、有效和全面,是否具有通用性;采用基于學習的文本定位方法時,特征如何選取,選取的特征是否具有很好的推廣能力,訓(xùn)練樣本如何收集,如何進行訓(xùn)練,所有的這些因素都制約著復(fù)雜背景圖像中的文本定位算法的研究和發(fā)展。復(fù)雜背景圖像中的文本定位是計算機視覺領(lǐng)域的一個非常具有挑戰(zhàn)性的課題,有著十分廣泛的應(yīng)用前景,設(shè)計一個在任何復(fù)雜背景下的文本定位系統(tǒng)是無數(shù)研究者們追求的夢想,但從目前的研究情況來看,這樣的系統(tǒng)在短期內(nèi)是不可能設(shè)計出來的。該方法的不足之處與文獻[7]類似。應(yīng)用該方法定位出來的文本塊空間位置比較精確,但是該方法有很大的局限性,對于字體很大的文本、對比度小的文本,效果就很差了。文獻[6]采用了一種適應(yīng)性的文本檢測方法,該方法的實驗對象是場景文字(Scene Text),應(yīng)用多尺度邊緣檢測方法來彌補對比度和噪聲帶來的影響,采用了基于高斯混合顏色模型的搜索策略,對提取出來的候選區(qū)域進行排列分析,該方法對對比度強的場景文字效果比較突出,但是對透明的文字、相對較小的文字效果就不是很理想,并且虛檢率很高。該方法對中文、韓文等方形文字有很好的效果。諾基亞中國研發(fā)中心一直致力于數(shù)碼相機拍攝的圖像中文字的提取,并取得了一定效果??偟膩碚f基于圖像分割或顏色分層的文本定位方法對于高清晰度的圖像,如雜志、封面等效果比較理想,而對于分辨率比較低,并且字符的字體比較小的圖像,則效果比較差。但是該方法對小的字符效果不是很好,這與其中的Split 。該方法的不足之處在于,如果圖像的對比度很低,則無法得到候選區(qū)域;其次如果字符的顏色變化很大,則顏色聚類就沒有效果。他們提出計算圖像的局部水平方差圖,用Canny算子提取水平方差圖上的水平方向的邊緣,通過檢測成對出現(xiàn)的邊緣得到文本區(qū)域的候選矩形框。諸多因素使得復(fù)雜背景圖像中的文本定位成為一項極具挑戰(zhàn)性的研究課題。但對于計算機來說,要完成這個過程就很困難了,因為計算機只能依靠如方差、水平邊緣、垂直邊緣等可以量化的視覺特征,而文字的特征遠不止這些,特別是中國漢字。有的字符的背景單一,但是大部分的圖像和視頻中文字的背景都很復(fù)雜的,有很多的自然界中的物體與字符的筆劃很相似,比如樹葉、窗格等,還有一些情況既是背景又是文本。但是對人工文本一般都具有一致的顏色和大小。(5)同一文本區(qū)域中的字符一般具有統(tǒng)一的顏色、大小、字體。(4)一般情況下,文本與背景之間總有一定的顏色差。(2)字符一般大于一定的大小,太小的字符因無法識別而不去進行定位,而字符大小的上限一般沒有限制。為了能很好的分析現(xiàn)有文本定位方法的異同點,本文從圖像中的文本具有的一般特點出發(fā)對文本定位方法進行分類。國外主要有美國的加州大學、IBM公司、MIT以及韓國和日本的主要研究機構(gòu)等。文本定位的目的主要可以分為:視頻圖像中的文本定位用于基于內(nèi)容的視頻索、場景圖像中的文本定位用于場景理解等?!∥谋径ㄎ谎芯康默F(xiàn)狀復(fù)雜背景圖像中文本定位問題的產(chǎn)生,是由于將OCR技術(shù)擴展到其它應(yīng)用領(lǐng)域中而產(chǎn)生的問題。由于數(shù)據(jù)采集設(shè)備的原因,可能會出現(xiàn)離焦模糊、運動模糊、傳感器噪聲等,這些都給文本定位帶來了較大的困難,它到目前為止依然是一個有很好解決的問題。文本區(qū)域定位就是找出圖像中文本所在的位置或剛好包圍文本的矩形區(qū)域,是文本識別非常關(guān)鍵的一步,文本定位的精確與否直接決定整個識別系統(tǒng)準確率的高低。一些不良網(wǎng)絡(luò)信息的提供者將文本嵌入到圖像文件中,或直接以圖像文件的形式顯示文本以繞開網(wǎng)絡(luò)過濾系統(tǒng)。用掃描、照相等方式獲得它們的數(shù)字圖像后,定位并識別圖像中的文字可以快速的獲得它們所包含的關(guān)鍵信息。傳統(tǒng)的基于關(guān)鍵詞的檢索技術(shù)已不能滿足人們的需求,基于內(nèi)容的圖像檢索應(yīng)運而生,而圖像中的文字是圖像高層語義內(nèi)容的重要來源。(3)圖像、視頻檢索。(2)互聯(lián)網(wǎng)應(yīng)用。復(fù)雜背景下的文本定位的應(yīng)用:(1)實時車牌定位。復(fù)雜背景是指:圖像中的背景含有豐富的紋理;有時文本是嵌入在紋理中的,甚至有時文本本身就是紋理;文本的可能出現(xiàn)的位置、所受光照、字體、大小和顏色都不盡相同,而且這些在文本定位前都是先驗未知的,這三點也正是這一研究的挑戰(zhàn)所在。這項工作不但費時費力,而且手工的標注往往是不準確或不完整的,還不可避免地帶有主觀偏差。每天都會產(chǎn)生海量的圖像,這些數(shù)字圖像中包含了大量有用的信息。圖像文本定位作為OCR系統(tǒng)的一個預(yù)處理部分,對識別嵌入在復(fù)雜圖像中的文本具有重要的作用。關(guān)鍵詞:文本定位;邊緣檢測;特征提?。恢С窒蛄繖CABSTRACT With the development of the multimedia technology, the study of locating texts under plicated background has not only enriched image processing theoretically, but also has enormous value in practical application. For example, the image retrieval under Internet environment and the discernment of the plate number in traffic administration. The location and extraction of text from plex background is an important research problem in the puter vision.The variation of the text in terms of characters font, size, style, orientation alignment, texture color and plex background makes the problem of text localization very difficult. The scene content is unconstrained and maybe both indoor and outdoor scenes under any lighting or contrast conditions. To extract plex background text, text areas should be located first.Current text location methods ale researched in this paper, and the advantage and disadvantage of them are analyzed.Then text location method based on edge detection and support vector machines is implemented.Edge detection based text location method is posed by Pyramid deposition, improved Canny