【正文】
畢業(yè)設計(論文)說明書 題目: 復雜背景圖像中文本定位算法設計摘 要 隨著多媒體技術的飛速發(fā)展,復雜背景圖像中的文本定位研究不僅豐富了圖像處理理論,而且在諸如Internet環(huán)境下的圖像檢索、交通管理中的車牌識別等具有重大的價值。復雜背景文本定位是一個具有較大難度性的研究課題,原因是文本圖像的背景非常復雜,圖像大多在室外拍攝,光照條件變化較大,其中不同文字的顏色、亮度、字體、大小、間距、對比度、排列方向和背景紋理等有很大差別。要提取具有復雜背景的文本,首先要找到包含文本的區(qū)域,然后才能利用文本識別模塊進行識別。本文綜述了現(xiàn)有的主要文本定位方法,分析了其中的優(yōu)缺點,實現(xiàn)了一種基于邊緣檢測和支持向量機的圖像文本定位方法。其中,基于邊緣檢測的文本定位主要由金字塔分解、基于改進Canny算子的邊緣檢測、邊緣提取和二值化、連通區(qū)域分析、以及文本區(qū)域鑒定與合并幾部分組成。首先運用改進的Canny邊緣檢測算法檢測出文本邊緣,然后對檢測結(jié)果進行連通區(qū)域分析、文本區(qū)域鑒定與合并得到候選的文本區(qū)域。進一步,通過將定位出的候選文本區(qū)域運用支持向量機的分類器訓練的方法來提高文本定位的準確性。實驗結(jié)果表明,該文本定位方法不但可以較準確的定位出相應的文本區(qū)域,而且具有一定的意義和較大的實用價值。關鍵詞:文本定位;邊緣檢測;特征提取;支持向量機ABSTRACT With the development of the multimedia technology, the study of locating texts under plicated background has not only enriched image processing theoretically, but also has enormous value in practical application. For example, the image retrieval under Internet environment and the discernment of the plate number in traffic administration. The location and extraction of text from plex background is an important research problem in the puter vision.The variation of the text in terms of characters font, size, style, orientation alignment, texture color and plex background makes the problem of text localization very difficult. The scene content is unconstrained and maybe both indoor and outdoor scenes under any lighting or contrast conditions. To extract plex background text, text areas should be located first.Current text location methods ale researched in this paper, and the advantage and disadvantage of them are analyzed.Then text location method based on edge detection and support vector machines is implemented.Edge detection based text location method is posed by Pyramid deposition, improved Canny algorithmbased edge detection, edge abstracting and binary, connected ponent analysis, text region identifying and bination. First, the improved Canny algorithm is used to detect the text edge, then connected ponent and text region identifying and bination is used to get the candidate text region.This paper uses the method of support vector machines classifier training to improve the correctness of text location. The support vector machine is applied to reduce the number of examples effectively, and the result of the experiment is good.The result of the experiment shows that this algorithm can well and exactly locate the text, this algorithm is valuable in theory and application. Keywords: text location;edge detection;feature extraction;support vector machines目 錄第一章 緒論 1 研究背景及意義 1 文本定位研究的現(xiàn)狀 2 論文的主要研究內(nèi)容及結(jié)構(gòu) 4第二章 復雜背景圖像中的文本定位的一般方法 6 文本特征及類別 6 文本流程定位 7 文本定位方法 9 本章小結(jié) 13第三章 基于邊緣檢測的文本定位方法研究 14 引言 14 邊緣檢測 14 連通區(qū)域分析 23 文本區(qū)域定位與合并 24 實驗結(jié)果 25 本章小結(jié) 27第四章 總結(jié) 28參考文獻 29外文資料中文翻譯致 謝第一章 緒論 研究背景及意義圖像中的文本定位是以數(shù)字圖像處理為基礎的,涉及到模式識別、神經(jīng)網(wǎng)絡、信號檢測、認識科學等多門學科。隨著光學字符識別(OCR)技術的興起,許多學者開始進行文檔圖像中文字定位與提取的研究。圖像文本定位作為OCR系統(tǒng)的一個預處理部分,對識別嵌入在復雜圖像中的文本具有重要的作用。近年來,隨著多媒體技術和計算機網(wǎng)絡的飛速發(fā)展,全世界的數(shù)字圖像的容量正以驚人的速度增長。每天都會產(chǎn)生海量的圖像,這些數(shù)字圖像中包含了大量有用的信息。目前的計算機視覺和人工智能技術都無法自動對圖像進行標注,而必須依賴于人工對圖像做出標注。這項工作不但費時費力,而且手工的標注往往是不準確或不完整的,還不可避免地帶有主觀偏差。所以如何從含有復雜背景的圖像和視頻中快速而準確地定位和提取文本,現(xiàn)在成為國際上熱門的研究課題。復雜背景是指:圖像中的背景含有豐富的紋理;有時文本是嵌入在紋理中的,甚至有時文本本身就是紋理;文本的可能出現(xiàn)的位置、所受光照、字體、大小和顏色都不盡相同,而且這些在文本定位前都是先驗未知的,這三點也正是這一研究的挑戰(zhàn)所在。如果能夠找到解決這些問題的方法,構(gòu)造出解決復雜背景下的文本定位模型,對于豐富圖像處理理論,對于基于內(nèi)容的視頻檢索技術的發(fā)展,具有重要的理論意義和實用價值。復雜背景下的文本定位的應用:(1)實時車牌定位。通過攝像頭捕獲高速公路上的車牌圖像,經(jīng)過車牌識別系統(tǒng)進行分析和處理,可以實時對交通情況進行監(jiān)督,實時識別出交通事故涉及車輛的號碼,提高運輸監(jiān)管部門的工作效率。(2)互聯(lián)網(wǎng)應用。Web服務器的數(shù)量正以驚人的速度增長,文本構(gòu)成了Web頁的重要組成部分,在有的網(wǎng)頁上圖像中的文字居然占去了總的文字量的一半以上,這個比例是相當驚人的,Web頁中的圖像包含了許多的像素文本信息。(3)圖像、視頻檢索。隨著多媒體技術和計算機網(wǎng)絡的飛速發(fā)展,越來越多的信息以數(shù)字圖像的形式傳播和存儲,圖像、視頻檢索成為計算機領域研究的熱點之一。傳統(tǒng)的基于關鍵詞的檢索技術已不能滿足人們的需求,基于內(nèi)容的圖像檢索應運而生,而圖像中的文字是圖像高層語義內(nèi)容的重要來源。(4)實時處理護照、票據(jù)、身份證等。用掃描、照相等方式獲得它們的數(shù)字圖像后,定位并識別圖像中的文字可以快速的獲得它們所包含的關鍵信息。(5)網(wǎng)絡過濾。一些不良網(wǎng)絡信息的提供者將文本嵌入到圖像文件中,或直接以圖像文件的形式顯示文本以繞開網(wǎng)絡過濾系統(tǒng)?;趫D像內(nèi)嵌文本的語義分析可以實現(xiàn)基于圖像內(nèi)容的檢索和過濾。文本區(qū)域定位就是找出圖像中文本所在的位置或剛好包圍文本的矩形區(qū)域,是文本識別非常關鍵的一步,文本定位的精確與否直接決定整個識別系統(tǒng)準確率的高低。但文本定位受語種、文字的顏色、分辨率、字符間距、背景、光照、傾斜等影響較大,并且某些紋理、圖案等很難與文字區(qū)分開來。由于數(shù)據(jù)采集設備的原因,可能會出現(xiàn)離焦模糊、運動模糊、傳感器噪聲等,這些都給文本定位帶來了較大的困難,它到目前為止依然是一個有很好解決的問題。如何從復雜背景中準確快速的定位出文本區(qū)域以及如何降低遺漏的文字,這就是目前復雜背景圖像中的文本定位在圖像領域的一個研究熱點和難點?!∥谋径ㄎ谎芯康默F(xiàn)狀復雜背景圖像中文本定位問題的產(chǎn)生,是由于將OCR技術擴展到其它應用領域中而產(chǎn)生的問題。在很多領域中,文本是嵌入在復雜背景圖像中的,要想很好的識別首先必須進行文本區(qū)域的定位,因此提出了復雜背景圖像中的文本定位問題的研究。文本定位的目的主要可以分為:視頻圖像中的文本定位用于基于內(nèi)容的視頻索、場景圖像中的文本定位用于場景理解等。國內(nèi)外很多的學術機構(gòu)都開展了這一方面的研究工作。國外主要有美國的加州大學、IBM公司、MIT以及韓國和日本的主要研究機構(gòu)等。國內(nèi)主要從事這一研究的有中國科學院自動化研究所,中國科學院計算所進行的視頻中文字定位研究,清華大學也在從事這方面的研究工作。為了能很好的分析現(xiàn)有文本定位方法的異同點,本文從圖像中的文本具有的一般特點出發(fā)對文本定位方法進行分類。復雜背景圖像中的文本具有以下的特點:(1)文本區(qū)域中的字符一般成有規(guī)律的排列,字符間隔一致,排列方向一致,一般以水平排列居多。(2)字符一般大于一定的大小,太小的字符因無法識別而不去進行定位,而字符大小的上限一般沒有限制。(3)字符一般由一致寬度的筆畫構(gòu)成,筆畫的密集程度在中文各個字符中并不一致,在英文字符中筆畫的密度變化不是很大。(4)一般情況下,文本與背景之間總有一定的顏色差。但是可能受到光照條件的影響,使顏色差變得很小。(5)同一文本區(qū)域中的字符一般具有統(tǒng)一的顏色、大小、字體。對于場景文本,這種顏色的一致性可能由于光照條件的變化而出現(xiàn)一些變化,字符的大小也可能因為拍攝的方向變化而變化。但是對人工文本一般都具有一致的顏色和大小。(6)字符的背景復雜多變,無法預測。有的字符的背景單一,但是大部分的圖像和視頻中文字的背景都很復雜的,有很多的自然界中的物體與字符的筆劃很相似,比如樹葉、窗格等,還有一些情況既是背景又是文本。人類有著非常強的識別能力,當人類看到一幅圖像,可以很快地發(fā)現(xiàn)文字區(qū)域并很快的識別出這些文字。但對于計算機來說,要完成這個過程就很困難了,因為計算機只能依靠如方差、水平邊緣、垂直邊緣等可以量化的視覺特征,而文字的特征遠不止這些,特別是中國漢字。圖像文本定位的研究涉及到模式識別、圖像處理、生理學、心理學、認知神經(jīng)科學等,和其它的檢測技術、計算機人機交互領域都有著十分密切的聯(lián)系。諸多因素使得復雜背景圖像中的文本定位成為一項極具挑戰(zhàn)性的研究課題。本文對復雜背景圖像中的文本定位研究的主要方法概述如下:第一個文本定位算法是1995年由Yu Zhong等[1]提出的,實驗對象是雜志封面。他們提出計算圖像的局部水平方差圖,用Canny算子提取水平方差圖上的水平方向的邊緣,通過檢測成對出現(xiàn)的邊緣得到文本區(qū)域的候選矩形框。對原來輸入的圖像顏色聚類,如果候選矩形框附近的像素的顏色與候選矩形框內(nèi)的顏色在一個閾值范圍之內(nèi),則將該像素合并到候選矩形框內(nèi)。該方法的不足之處在于,如果圖像的對比度很低,則無法得到候選區(qū)域;其次如果字符的顏色變化很大,則顏色聚類就沒有效果。在文獻[2]中作者提出了9條人工文字的特征,在對輸入圖像做了分割和合并算法之后,根據(jù)9條特征去除非文本區(qū)域,然后將文本區(qū)域按一定的規(guī)則合并成文字區(qū)域,通過紋理分析去除虛假區(qū)域。但是該方法對小的字符效果不是很好,這與其中的Split 。在文獻[3],[4]中也提出了類似的方法。總的來說基于圖像分割或顏色分層的文本定位方法對于高清晰度的圖像,如雜志、封面等效果比較理想,而對于分辨率比較低,并且字符的字體比較小的圖像,則效果比較差。針對以上方法的不足,一些研究者提出了基于邊緣檢測和紋理分析的方法,該方法對分辨率低的圖像取得了滿意的效果。諾基亞中國研發(fā)中心一直致力于數(shù)碼相機拍攝的圖像中文字的提取,并取得了一定效果。在文獻[5]中作者提出基于梯度的文本提取方案,在經(jīng)過濾波的彩色圖像中提取四個不同方向、不同尺度大小的梯度圖像,然后對該圖像進行二值化和聚類,最后進行連通域分析,得到單個字符。該方法對中文、韓文等方形文字有很好的效果。但是該算法用了很多的規(guī)則,這就大大降低了算法的魯棒性,限制了算法的應用范圍。文獻[6]采用了一種適應性的文本檢測方法,該方法的實驗對象是場景文字(Scene Text),應用多尺度邊緣檢測方法來彌補對比度和噪聲帶來的影響,采用了基于高斯混合顏色模型的搜索策略,對提取出來的候選區(qū)域進行排列分析,該方法對對比度強的場景文字效果比較突出,但是對透明的文字、相對較小的文字效果就不是很理想,并且虛檢率很高。文獻[7]提出