【正文】
algorithmbased edge detection, edge abstracting and binary, connected ponent analysis, text region identifying and bination. First, the improved Canny algorithm is used to detect the text edge, then connected ponent and text region identifying and bination is used to get the candidate text region.This paper uses the method of support vector machines classifier training to improve the correctness of text location. The support vector machine is applied to reduce the number of examples effectively, and the result of the experiment is good.The result of the experiment shows that this algorithm can well and exactly locate the text, this algorithm is valuable in theory and application. Keywords: text location;edge detection;feature extraction;support vector machines目 錄第一章 緒論 1 研究背景及意義 1 文本定位研究的現(xiàn)狀 2 論文的主要研究內(nèi)容及結(jié)構(gòu) 4第二章 復(fù)雜背景圖像中的文本定位的一般方法 6 文本特征及類別 6 文本流程定位 7 文本定位方法 9 本章小結(jié) 13第三章 基于邊緣檢測的文本定位方法研究 14 引言 14 邊緣檢測 14 連通區(qū)域分析 23 文本區(qū)域定位與合并 24 實驗結(jié)果 25 本章小結(jié) 27第四章 總結(jié) 28參考文獻 29外文資料中文翻譯致 謝第一章 緒論 研究背景及意義圖像中的文本定位是以數(shù)字圖像處理為基礎(chǔ)的,涉及到模式識別、神經(jīng)網(wǎng)絡(luò)、信號檢測、認(rèn)識科學(xué)等多門學(xué)科。進一步,通過將定位出的候選文本區(qū)域運用支持向量機的分類器訓(xùn)練的方法來提高文本定位的準(zhǔn)確性。其中,基于邊緣檢測的文本定位主要由金字塔分解、基于改進Canny算子的邊緣檢測、邊緣提取和二值化、連通區(qū)域分析、以及文本區(qū)域鑒定與合并幾部分組成。要提取具有復(fù)雜背景的文本,首先要找到包含文本的區(qū)域,然后才能利用文本識別模塊進行識別。畢業(yè)設(shè)計(論文)說明書 題目: 復(fù)雜背景圖像中文本定位算法設(shè)計摘 要 隨著多媒體技術(shù)的飛速發(fā)展,復(fù)雜背景圖像中的文本定位研究不僅豐富了圖像處理理論,而且在諸如Internet環(huán)境下的圖像檢索、交通管理中的車牌識別等具有重大的價值。復(fù)雜背景文本定位是一個具有較大難度性的研究課題,原因是文本圖像的背景非常復(fù)雜,圖像大多在室外拍攝,光照條件變化較大,其中不同文字的顏色、亮度、字體、大小、間距、對比度、排列方向和背景紋理等有很大差別。本文綜述了現(xiàn)有的主要文本定位方法,分析了其中的優(yōu)缺點,實現(xiàn)了一種基于邊緣檢測和支持向量機的圖像文本定位方法。首先運用改進的Canny邊緣檢測算法檢測出文本邊緣,然后對檢測結(jié)果進行連通區(qū)域分析、文本區(qū)域鑒定與合并得到候選的文本區(qū)域。實驗結(jié)果表明,該文本定位方法不但可以較準(zhǔn)確的定位出相應(yīng)的文本區(qū)域,而且具有一定的意義和較大的實用價值。隨著光學(xué)字符識別(OCR)技術(shù)的興起,許多學(xué)者開始進行文檔圖像中文字定位與提取的研究。近年來,隨著多媒體技術(shù)和計算機網(wǎng)絡(luò)的飛速發(fā)展,全世界的數(shù)字圖像的容量正以驚人的速度增長。目前的計算機視覺和人工智能技術(shù)都無法自動對圖像進行標(biāo)注,而必須依賴于人工對圖像做出標(biāo)注。所以如何從含有復(fù)雜背景的圖像和視頻中快速而準(zhǔn)確地定位和提取文本,現(xiàn)在成為國際上熱門的研究課題。如果能夠找到解決這些問題的方法,構(gòu)造出解決復(fù)雜背景下的文本定位模型,對于豐富圖像處理理論,對于基于內(nèi)容的視頻檢索技術(shù)的發(fā)展,具有重要的理論意義和實用價值。通過攝像頭捕獲高速公路上的車牌圖像,經(jīng)過車牌識別系統(tǒng)進行分析和處理,可以實時對交通情況進行監(jiān)督,實時識別出交通事故涉及車輛的號碼,提高運輸監(jiān)管部門的工作效率。Web服務(wù)器的數(shù)量正以驚人的速度增長,文本構(gòu)成了Web頁的重要組成部分,在有的網(wǎng)頁上圖像中的文字居然占去了總的文字量的一半以上,這個比例是相當(dāng)驚人的,Web頁中的圖像包含了許多的像素文本信息。隨著多媒體技術(shù)和計算機網(wǎng)絡(luò)的飛速發(fā)展,越來越多的信息以數(shù)字圖像的形式傳播和存儲,圖像、視頻檢索成為計算機領(lǐng)域研究的熱點之一。(4)實時處理護照、票據(jù)、身份證等。(5)網(wǎng)絡(luò)過濾。基于圖像內(nèi)嵌文本的語義分析可以實現(xiàn)基于圖像內(nèi)容的檢索和過濾。但文本定位受語種、文字的顏色、分辨率、字符間距、背景、光照、傾斜等影響較大,并且某些紋理、圖案等很難與文字區(qū)分開來。如何從復(fù)雜背景中準(zhǔn)確快速的定位出文本區(qū)域以及如何降低遺漏的文字,這就是目前復(fù)雜背景圖像中的文本定位在圖像領(lǐng)域的一個研究熱點和難點。在很多領(lǐng)域中,文本是嵌入在復(fù)雜背景圖像中的,要想很好的識別首先必須進行文本區(qū)域的定位,因此提出了復(fù)雜背景圖像中的文本定位問題的研究。國內(nèi)外很多的學(xué)術(shù)機構(gòu)都開展了這一方面的研究工作。國內(nèi)主要從事這一研究的有中國科學(xué)院自動化研究所,中國科學(xué)院計算所進行的視頻中文字定位研究,清華大學(xué)也在從事這方面的研究工作。復(fù)雜背景圖像中的文本具有以下的特點:(1)文本區(qū)域中的字符一般成有規(guī)律的排列,字符間隔一致,排列方向一致,一般以水平排列居多。(3)字符一般由一致寬度的筆畫構(gòu)成,筆畫的密集程度在中文各個字符中并不一致,在英文字符中筆畫的密度變化不是很大。但是可能受到光照條件的影響,使顏色差變得很小。對于場景文本,這種顏色的一致性可能由于光照條件的變化而出現(xiàn)一些變化,字符的大小也可能因為拍攝的方向變化而變化。(6)字符的背景復(fù)雜多變,無法預(yù)測。人類有著非常強的識別能力,當(dāng)人類看到一幅圖像,可以很快地發(fā)現(xiàn)文字區(qū)域并很快的識別出這些文字。圖像文本定位的研究涉及到模式識別、圖像處理、生理學(xué)、心理學(xué)、認(rèn)知神經(jīng)科學(xué)等,和其它的檢測技術(shù)、計算機人機交互領(lǐng)域都有著十分密切的聯(lián)系。本文對復(fù)雜背景圖像中的文本定位研究的主要方法概述如下:第一個文本定位算法是1995年由Yu Zhong等[1]提出的,實驗對象是雜志封面。對原來輸入的圖像顏色聚類,如果候選矩形框附近的像素的顏色與候選矩形框內(nèi)的顏色在一個閾值范圍之內(nèi),則將該像素合并到候選矩形框內(nèi)。在文獻[2]中作者提出了9條人工文字的特征,在對輸入圖像做了分割和合并算法之后,根據(jù)9條特征去除非文本區(qū)域,然后將文本區(qū)域按一定的規(guī)則合并成文字區(qū)域,通過紋理分析去除虛假區(qū)域。在文獻[3],[4]中也提出了類似的方法。針對以上方法的不足,一些研究者提出了基于邊緣檢測和紋理分析的方法,該方法對分辨率低的圖像取得了滿意的效果。在文獻[5]中作者提出基于梯度的文本提取方案,在經(jīng)過濾波的彩色圖像中提取四個不同方向、不同尺度大小的梯度圖像,然后對該圖像進行二值化和聚類,最后進行連通域分析,得到單個字符。但是該算法用了很多的規(guī)則,這就大大降低了算法的魯棒性,限制了算法的應(yīng)用范圍。文獻[7]提出了在YUV顏色空間上的邊緣提取和選擇性二值化文本提取算法,接著對文本區(qū)域進行增強、弱化、噪聲的影響。文獻[11]采用了計算水平梯度和Otsu二值化的方法,對二值圖像進行形態(tài)學(xué)上的處理,得到比較好的定位效果。微軟亞洲研究院也在進行相關(guān)方面的研究,并取得一定的成就??偟膩碇v,有:文本定位、算法集成、算法評價。(2)算法集成:多種算法集成難點主要在于集成方案選取上,即如何制訂不同算法的選擇策略,這將影響到整個系統(tǒng)的性能,另外還有一個必須要考慮的因素就是盡可能快的處理速度。要定義一個通用的算法,必須考慮很多的因素;期望輸出結(jié)果(Groundtruth)如何定義,定位結(jié)果與期望輸出結(jié)果之間采用何種匹配方案,如何體現(xiàn)圖像中文字的定位難度的不同,如何保證評價標(biāo)準(zhǔn)的公正性、客觀性,同時還要保證評價的方法高效、簡單易懂。本文在國內(nèi)外學(xué)者研究的基礎(chǔ)上,對復(fù)雜背景圖像中文本的定位進行了進一步的研究。論文的內(nèi)容、章節(jié)安排如下:第一章:緒論,介紹了復(fù)雜背景圖像中文本定位的研究背景及意義,簡述了文本定位研究的現(xiàn)狀,闡明了本文的主要研究內(nèi)容及結(jié)構(gòu)。第三章:實現(xiàn)了一種基于邊緣檢測的文本定位方法。第四章:對全文進行總結(jié),并展望進一步的工作。 從上面列出的特征中,我們可以發(fā)現(xiàn)有很多信息幫助我們處理文本。前者幫助我們設(shè)計方法來從圖像中找出候選的文本區(qū)域;后者則從候選區(qū)域中剔除錯誤,找到真正包含文本的區(qū)域。復(fù)雜背景通常比簡單背景要求更強的對比度來保證文本的可讀。復(fù)雜背景圖像中的文本可以根據(jù)產(chǎn)生的原因劃分為:場景文本(Scene Text)和人工文本(Artificial Text)。例如:拍攝圖像中的車站站牌、汽車車牌等等。人工文本是指通過數(shù)碼相機、攝像機、掃描儀等工具得到圖像,再通過圖像處理工具(軟件或硬件)對圖像或視頻進行編輯,加上一些相關(guān)的文字信息所得到的。人工本不是拍攝場景的一部分,被認(rèn)為是后期添加的結(jié)果。這一類字符相對容易識別。兩者都可以統(tǒng)一在復(fù)雜背景圖像的文本定位中?!∥谋玖鞒潭ㄎ粡?fù)雜背景圖像中的文本定位一般由特征提取、特征分類、特征聚集、候選文本區(qū)域提取和文本區(qū)域驗證等五個步驟組成,如圖21所示。 文本特征選擇文本具有尺寸、顏色與灰度值、邊緣、紋理、對比度、排列方式、符間隙、運動、穩(wěn)定性、背景變化、陰影和透明效果等特征,應(yīng)該選那些容易把文本與背景區(qū)分開來的特征,以使文本與背景在特征空間內(nèi),類間距離較大而類內(nèi)距離較小。表21文本特征和文本特征提取與分離所用的技術(shù)文本定位的方法基于區(qū)域的方法基于紋理的方法基于邊緣的方法基于學(xué)習(xí)的方法選擇的文本特征顏色與灰度值紋理被邊緣與梯度圖像塊中像素灰度值或灰度值的多階中心距,彩色梯度文本特征提取與分離所用的技術(shù)局部閥值方法,顏色聚類,顏色量化kmean方法Soble邊緣檢測,Canny邊緣檢測人工神經(jīng)網(wǎng)絡(luò),支持向量機 文本特征聚集形成區(qū)域圖像中的文本特征通常是分散的點、線段和小區(qū)域,不能構(gòu)成一個完整的文本區(qū)域,因此需要聚集這些分散的文本特征形成連續(xù)的區(qū)域。連通成分分析和排列分析方法合并排列方向相同、尺寸相似的相鄰連通成分形成連通區(qū)域;形態(tài)學(xué)膨脹運算、均值偏移算法利用邊緣點或小區(qū)域之間的空隙形成連通區(qū)域;水平或垂直投影方法和變異直方圖方法統(tǒng)計圖像水平或垂直方向全部或部分文本特征的值,然后對投影曲線或變異直方圖進行分析提取文本區(qū)域?!∥谋緟^(qū)域驗證在候選文本區(qū)域提取中,為了盡量減少文本的漏檢率,對文本區(qū)域的限制條件般并不嚴(yán)格。文本區(qū)域驗證可以使用更多的特征,采用更嚴(yán)格的限制條件?!∥谋径ㄎ环椒◤?fù)雜圖像中的文本定位屬于模式識別問題,類似于人臉檢測?,F(xiàn)在解決特定模式分類問題的關(guān)鍵就是提取有效的目標(biāo)特征,然后選擇適當(dāng)?shù)姆诸愃惴ā;谧址伾囊恢滦?,提出了基于區(qū)域的分析方法;基于字符一致排列而呈現(xiàn)一定的紋理特征,提出了基于紋理的文本區(qū)域定位方法;基于文本區(qū)域含有較多的邊緣,提出了基于邊緣的文本定位方法。根據(jù)不同的顏色分割方法,不同的確認(rèn)字符連通分量的方法,以及是否利用規(guī)則方法或者機器學(xué)習(xí)的方法,得到了各種基于區(qū)域的文本定位方法。判斷各種分割方法對基于連通域的文本定位的好壞主要是考查各種分割方法能否有效的將字符與背景區(qū)分開來:同時分割方法能夠有效的抑制噪聲連通分量的產(chǎn)生,從而減少后續(xù)連通分量的判別:另外分割方法的計算速度也是一個應(yīng)該考慮的問題。Kim[20]等人利用RGB空間的顏色聚類來分割圖像,然后去除明顯的非文本區(qū)域,如細長的水平線段、圖像邊框等;文本區(qū)域通過投影分析來提?。蛔詈髮⑦@些文本區(qū)域基于知識規(guī)則進行合并。利用這種方法進行的實驗采用了50幅視頻圖像,這些圖像中包含不同大小和風(fēng)格的文字,準(zhǔn)確率為87%。他們的實驗對象為2247幀視頻圖像,實驗表明該算法能提取視頻幀中86%100%的標(biāo)題文本。再對各二值子圖像進行形態(tài)學(xué)處理、連通域分析,得到候選文本區(qū)域。實驗采用的圖像具有不同分辨率和背景復(fù)雜度,其中的文字大小、風(fēng)格也各不相同,%的準(zhǔn)確率。但是這種方法容易受到復(fù)雜背景的影響,一些類似字符的背景目標(biāo)很難被區(qū)分,所以準(zhǔn)確率相對較低?!』诩y理的文本定位方法基于紋理的文本定位方法認(rèn)為文本具有特定的紋理屬性,這種紋理是由于字符特定的排列方向以及字符顏色與背景顏色周期性變化而產(chǎn)生。為了能夠有效的對不同大小的字符進行檢測,基于紋理的方法一般都使用基于金字塔或者小波分解的方法,對不同分辨率的圖像都進行類似的處理得到文本區(qū)域,然后融合到原始圖像上。兩個神經(jīng)網(wǎng)絡(luò)中一個用于檢測水平方向的紋理,一個用于檢測垂直方向的紋理。Wu等人提出了一種多尺度紋理分割方法用于文本定位。由于該方法是基于不同尺度紋理檢測的方法,因此對圖像分辨率高低不敏感,但是處理速度較慢。他們先對一幅圖像進行Haar小波分解,并計算不同尺度圖像的局部能量差異,再將局部能量差異圖閾值化從而得N值圖像(通常邊緣處的像素局部能量差異大,而邊緣內(nèi)部的像素局部能量差異小);然后在不同尺度的二值圖像中進行連通域分析,利用文本的幾何特性限制去除非文本區(qū)域;最后將不同尺度圖像中檢測到的文本區(qū)域進行合并。因此,人們提出了基于學(xué)習(xí)的方法以自動分類紋理。他們先用Haar小波分解得到文本和非文本的紋理特征;然后用1616的窗口掃描整個圖像,采用三層BP神經(jīng)網(wǎng)絡(luò)作為分類器識別分類文本區(qū)域和非文本區(qū)域。由于通過紋理檢測所得到的文本