freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

復雜背景圖像中文本定位算法設(shè)計終稿畢業(yè)論文(存儲版)

2025-07-27 13:46上一頁面

下一頁面
  

【正文】 率、虛假率、漏檢率來評價實驗結(jié)果。如果連通域的面積不滿足上式,則它是非文本區(qū)域。文本區(qū)域的限制條件以及篩選出非文本區(qū)域的方法如下所示:(1) 去掉矩形框的高和寬明顯不合要求的方框。后續(xù)操作不斷從堆棧中取出種子段,重復上述操作直到堆棧為空(標記完一個連通區(qū)域)?!∵B通區(qū)域分析連通域分析方法就是用來獲取圖像中各個對象的連通域,也常稱為連通域標記(Connected Component Labeling,CCL)。目前圖像二值化方法主要有以下幾種:全局閾值法;局部閾值法;動態(tài)閥值法。這說明改進后的Canny算法對邊緣的提取效果比原Canny算法有了較大的提高。式(317)中函數(shù)G的作用是確定參與平均的灰度窗口大小。MTM的數(shù)學表示為: (315)其中,只表示濾波窗口內(nèi)的像素點組成的集合。即在圖像I(x,y)的每個像素,I(i,j)的8鄰域里按梯度方向比較梯度幅度,如果在梯度方向上的兩個像素的幅值均小于,I(i,j)的,則其有可能是邊緣像素,否則肯定不是邊緣像素,將其梯度幅度置為0。二階導數(shù)的零交叉點不僅對應著一階導數(shù)的極大值也對應著一階導數(shù)的極小值,也就是說,灰度變化劇烈的點(強邊緣)與灰度變化緩慢的點(弱邊緣)都對應著二階導數(shù)零交叉點?!』贑anny算子的邊緣檢測經(jīng)典的邊緣檢測算子具有實現(xiàn)簡單、運算速度快等特點,但其檢測受噪聲的影響很大,檢測結(jié)果不可靠,不能準確判定邊緣的存在及邊緣的準確位置,造成這種情況的原因有:(1) 實際的邊緣灰度與理想的邊緣灰度值間存在差異,這類算子可能檢測出多個邊緣。當對精度要求不是很高時,是一種較為常用的邊緣檢測方法。Sobel提出一種將方向差分運算與局部平均相結(jié)合的方法,即Sobel算子。但是它對圖像中的噪聲很敏感,也產(chǎn)生雙像素寬的邊緣,且也不能提供邊緣方向的信息。所謂P階金字塔模型(pstep Pyramid)是指對原始圖像分辨率逐次進行P次縮小。基于邊緣的方法經(jīng)常根據(jù)文本的水平排列特性進行有效的分析,確認文本區(qū)域?;旌系姆椒▽趨^(qū)域、紋理、邊緣的方法進行了融合的嘗試,充分利用這三類定位的優(yōu)點進行融合,是實現(xiàn)魯棒的文本定位的關(guān)鍵,但是如何進行融合、如何提取三類方法中的有效特征并組合到一個框架中是一個難點。文中實驗采用四組不同類型的數(shù)據(jù),%,%。但僅僅利用邊緣很難有效的區(qū)分文本區(qū)域和背景區(qū)域,因為很多的圖像中背景也含有非常多的邊緣。Hasan和Karam先將彩色圖像轉(zhuǎn)換成灰度圖像;然后提取灰度圖像的邊緣,并將邊緣圖像二值化,再對二值邊緣圖像作形態(tài)學處理;最后利用大小、高寬比、密度等啟發(fā)性知識濾除非文本區(qū)域。而且基于紋理的文本定位方法由于假設(shè)文本是一種特殊的紋理,要求字符是成塊的出現(xiàn),字符數(shù)越少越難于進行有效的識別,也容易受復雜圖像中具有紋理特性的背景影響,虛檢率較高。為了解決訓練樣本的不足,采用fly Sung、提出的Bootstrap(自舉)方法進行樣本訓練。他們用三種不同尺度的二階高斯濾波器對圖像濾波,并對濾波后的圖像作非線性變換;變換后的結(jié)果作為每個像素的特征并用Kmeans聚類的方法進行紋理聚類、分割。同時受到噪聲污染的文本區(qū)域可能與背景物體相連而很難得到定位。Lienhart等人把文本區(qū)域看做是顏色相似的連通區(qū)域,用分離和合并算法對圖像進行分割,并把分割得到的太大和太小的塊都去掉;在形態(tài)學膨脹后,再利用相鄰幀的運動估計增強文本提取效果;最后用文本的啟發(fā)性知識濾除非文本區(qū)?!』趨^(qū)域的文本定位方法基于區(qū)域的文本定位方法一般假設(shè)字符區(qū)域具有一致的顏色,根據(jù)字符顏色的一致性和字符顏色與背景較大的對比度分割圖像,然后對分割后的每個顏色層進行連通域的分析,得到各個候選的連通分量,將各個連通分量作為候選的字符連通分量,對每個連通分量利用一些幾何特征以及利用字符的排列關(guān)系等排除一些非文本連通分量,并最終得到文本區(qū)域。因此候選文本區(qū)域會有一些區(qū)域不是文本區(qū)域,需要進一步對它們進行驗證。圖21 文本定位步驟首先,選擇某個或某些能夠把文本與背景區(qū)別開來的文本特征;其次,采用某種算法提取文本特征;接著,聚集空間相鄰的特征點形成區(qū)域:然后,用文本的另一些特征除去一些不可能是文本的區(qū)域得到候選文本區(qū)域;最后,再用文本的一些特征對候選文本區(qū)域進行驗證得到真正的文本區(qū)域。例如,在新聞視頻n引中添加的新聞標題、電影視頻中的字幕等等。然而,不論哪種方法都必須牢記以下兩點: (1)復雜背景下文本的對比度在圖像的不同位置會有所變化。第二章:介紹了復雜背景圖像中文本的類別,文本定位的流程,并對多種復雜背景下文本的定位方法做了詳細介紹、比較和分析。復雜背景圖像的文本定位的難點主要下面分別介紹:(1)文本定位:由于所處理對象是復雜背景圖像,這些樣本受環(huán)境的影響大,噪聲干擾大,圖像中文字的語種、顏色、亮度、對比度、字體、大小、間隔、排列方向和背景紋理等因素復雜多變,由于拍攝時的投影關(guān)系,有的文字可能會發(fā)生形變,這些困難如何克服;同一幅圖像中既有人工文本也有場景文本,我們?nèi)绾螀^(qū)分,采用什么特征;采用基于知識的文本定位方法時,知識如何定義,定義的知識是否準確、有效和全面,是否具有通用性;采用基于學習的文本定位方法時,特征如何選取,選取的特征是否具有很好的推廣能力,訓練樣本如何收集,如何進行訓練,所有的這些因素都制約著復雜背景圖像中的文本定位算法的研究和發(fā)展。文獻[6]采用了一種適應性的文本檢測方法,該方法的實驗對象是場景文字(Scene Text),應用多尺度邊緣檢測方法來彌補對比度和噪聲帶來的影響,采用了基于高斯混合顏色模型的搜索策略,對提取出來的候選區(qū)域進行排列分析,該方法對對比度強的場景文字效果比較突出,但是對透明的文字、相對較小的文字效果就不是很理想,并且虛檢率很高。但是該方法對小的字符效果不是很好,這與其中的Split 。但對于計算機來說,要完成這個過程就很困難了,因為計算機只能依靠如方差、水平邊緣、垂直邊緣等可以量化的視覺特征,而文字的特征遠不止這些,特別是中國漢字。(4)一般情況下,文本與背景之間總有一定的顏色差。文本定位的目的主要可以分為:視頻圖像中的文本定位用于基于內(nèi)容的視頻索、場景圖像中的文本定位用于場景理解等。一些不良網(wǎng)絡信息的提供者將文本嵌入到圖像文件中,或直接以圖像文件的形式顯示文本以繞開網(wǎng)絡過濾系統(tǒng)。(2)互聯(lián)網(wǎng)應用。每天都會產(chǎn)生海量的圖像,這些數(shù)字圖像中包含了大量有用的信息。其中,基于邊緣檢測的文本定位主要由金字塔分解、基于改進Canny算子的邊緣檢測、邊緣提取和二值化、連通區(qū)域分析、以及文本區(qū)域鑒定與合并幾部分組成。本文綜述了現(xiàn)有的主要文本定位方法,分析了其中的優(yōu)缺點,實現(xiàn)了一種基于邊緣檢測和支持向量機的圖像文本定位方法。近年來,隨著多媒體技術(shù)和計算機網(wǎng)絡的飛速發(fā)展,全世界的數(shù)字圖像的容量正以驚人的速度增長。通過攝像頭捕獲高速公路上的車牌圖像,經(jīng)過車牌識別系統(tǒng)進行分析和處理,可以實時對交通情況進行監(jiān)督,實時識別出交通事故涉及車輛的號碼,提高運輸監(jiān)管部門的工作效率。(5)網(wǎng)絡過濾。在很多領(lǐng)域中,文本是嵌入在復雜背景圖像中的,要想很好的識別首先必須進行文本區(qū)域的定位,因此提出了復雜背景圖像中的文本定位問題的研究。(3)字符一般由一致寬度的筆畫構(gòu)成,筆畫的密集程度在中文各個字符中并不一致,在英文字符中筆畫的密度變化不是很大。人類有著非常強的識別能力,當人類看到一幅圖像,可以很快地發(fā)現(xiàn)文字區(qū)域并很快的識別出這些文字。在文獻[2]中作者提出了9條人工文字的特征,在對輸入圖像做了分割和合并算法之后,根據(jù)9條特征去除非文本區(qū)域,然后將文本區(qū)域按一定的規(guī)則合并成文字區(qū)域,通過紋理分析去除虛假區(qū)域。但是該算法用了很多的規(guī)則,這就大大降低了算法的魯棒性,限制了算法的應用范圍??偟膩碇v,有:文本定位、算法集成、算法評價。論文的內(nèi)容、章節(jié)安排如下:第一章:緒論,介紹了復雜背景圖像中文本定位的研究背景及意義,簡述了文本定位研究的現(xiàn)狀,闡明了本文的主要研究內(nèi)容及結(jié)構(gòu)。前者幫助我們設(shè)計方法來從圖像中找出候選的文本區(qū)域;后者則從候選區(qū)域中剔除錯誤,找到真正包含文本的區(qū)域。人工文本是指通過數(shù)碼相機、攝像機、掃描儀等工具得到圖像,再通過圖像處理工具(軟件或硬件)對圖像或視頻進行編輯,加上一些相關(guān)的文字信息所得到的?!∥谋玖鞒潭ㄎ粡碗s背景圖像中的文本定位一般由特征提取、特征分類、特征聚集、候選文本區(qū)域提取和文本區(qū)域驗證等五個步驟組成,如圖21所示?!∥谋緟^(qū)域驗證在候選文本區(qū)域提取中,為了盡量減少文本的漏檢率,對文本區(qū)域的限制條件般并不嚴格。基于字符顏色的一致性,提出了基于區(qū)域的分析方法;基于字符一致排列而呈現(xiàn)一定的紋理特征,提出了基于紋理的文本區(qū)域定位方法;基于文本區(qū)域含有較多的邊緣,提出了基于邊緣的文本定位方法。利用這種方法進行的實驗采用了50幅視頻圖像,這些圖像中包含不同大小和風格的文字,準確率為87%。但是這種方法容易受到復雜背景的影響,一些類似字符的背景目標很難被區(qū)分,所以準確率相對較低。Wu等人提出了一種多尺度紋理分割方法用于文本定位。他們先用Haar小波分解得到文本和非文本的紋理特征;然后用1616的窗口掃描整個圖像,采用三層BP神經(jīng)網(wǎng)絡作為分類器識別分類文本區(qū)域和非文本區(qū)域。由于紋理方法的特征相對連通分量特征沒有直觀的意義,很難用基于規(guī)則的方法進行判斷,一般使用較為復雜的分類器進行分類?;谶吘壍姆椒ń?jīng)常根據(jù)文本的水平排列特性進行有效的分析,確認文本區(qū)域。基于邊緣的方法中,有些方法假設(shè)字符邊緣是一個整體,用連通域分析得到候選字符區(qū)域后再進行判別;有些方法認為字符區(qū)域的邊緣非常密集,所以經(jīng)常用形態(tài)學操作將整個文本區(qū)域連接成一個整體再進行判斷;有些方法將文字的邊緣作為一種紋理特征進行處理。該算法可處理各種大小、類型和排列方向的文字,但是當背景復雜時效果不佳。Zhou、Loprestitt[27]應用遺傳算法從灰度圖像中提取文本?;谶吘壍奈谋径ㄎ环椒?,認為文本與背景之間有一定的對比度,邊緣檢測的方法可以有效的檢測到字符的邊緣,而且文本區(qū)域通常含有較高的邊緣密度。目前,幾乎所有的文本定位算法都對字符大小很敏感,為了能夠找出大小不一的文本區(qū)域,本文采用金字塔模型[29]。其定義為:+ (31)在數(shù)字圖像中,可用差分近似微分運算,其離散形式為: + (32)也可以寫成: (33)由于拉普拉斯算子是一個二階導數(shù),它將在邊緣處產(chǎn)生一個陡峭的零叉,所以它是一個良好的銳化濾波器。Roberts邊緣檢測算子的卷積算子為: 1 , 0 0 , 1 0 , 1 1 , 03)Sobel邊緣檢測Roberts算子的一個主要問題是計算方向差分時對噪聲敏感。因此,Soble算子對噪聲具有平滑作用,提供較為精確的邊緣方向信息,但是這是由于局部平均的影響,它同時也會檢測出許多的偽邊緣,且邊緣定位精度不夠高。Sobel算子和Prewitt算子都是對圖像進行差分和濾波,只是平滑部分的權(quán)值有些差異,對灰度漸變和噪聲較多的圖像處理較好側(cè)。Canny算子正是基于這三個準則提出來的,其基本思想是先將圖像使用高斯函數(shù)進行平滑,再由一階微分的極大值確定邊緣點。設(shè)梯度為(,),則梯度的幅度和方向分別如下:M(x,y)= (313) (314)對梯度圖像進行非極大值抑制。MTM算法的基本思想是:在處理第n個像素點時,首先選取濾波窗口內(nèi)的灰度中值,以為中心,選取一個灰度區(qū)間將濾波窗內(nèi)所有落在選定灰度區(qū)間內(nèi)的點做平均,并將結(jié)果作為最終的濾波輸出。經(jīng)比較后F選用的是中心加權(quán)中值濾波算法(選用的是矩形窗,被處理點位于窗口中心)。(a) 原始實驗圖像(b) 算法結(jié)果圖34 實驗結(jié)果示例1 (a)原始圖像(b)算法結(jié)果圖35 實驗結(jié)果示例2由處理結(jié)果可以看出,改進后的算法圖像邊緣檢測準確,細節(jié)處理較好,而沒有改進的Canny算法,邊緣連接較差,還有部分偽邊緣,而且邊緣檢測不夠準確。圖像二值化是模式識別、支票字符分割識別、指紋識別蚓、車牌識別等應用的重要預處理技術(shù)。因此,本文采用以Bemsen局部域值法為基礎(chǔ),結(jié)合Ostu算法的方法,對上述Camay算子得到的邊緣圖像進行二值化。如果不存在重疊的目標段就把當前段彈出堆棧;如果存在,標記該段并且壓入堆棧,作為新的“種子段”。 文本區(qū)域定位與合并在所得到候選文字區(qū)域矩形框中,有許多是非文本區(qū)域矩形框,我們需根據(jù)文本的特征利用排除法來剔除它們。S10 (323)其中S為方框中的文本連通域的面積。圖像均為數(shù)碼相機拍攝的圖片,圖像的大小為320240像素。經(jīng)過實驗,該方法的處理速度快,定位準確性高。所以,在這一領(lǐng)域的研究還有很長的路要走。論文所做的主要工作:(1) 綜述了復雜背景圖像中文本的類別,文本定位的流程,并對多種復雜背景下文本的定位方法做了詳細介紹、比較和分析。另外,該算法受文字的形狀、間距、字體、大小,背景復雜度的影響較小。如果兩個矩形框冠和匙滿足下式,則合并這兩個文本框。(2) 因為文本區(qū)域特別是中文區(qū)域包含有大量邊緣,我們定義了邊緣密度,如下式: (322)其中f(i,j)力是邊緣圖像。,得到了圖像中所有的連通區(qū)域,其中的每一個連通區(qū)域用一個矩形框來描述。該算法不受連通區(qū)域的形狀和面積因素的影響,很好地克服了以上算法的缺點。局部闡值法能處理較為復雜的情況,但往往忽略了圖像的邊緣特征,容易出現(xiàn)偽影現(xiàn)象。考慮到大部分的文本都是水平方向排列,所以本文采用水平方向上的邊緣密度,表達式為: (320)其中,E(x,y)為由上述Canny算子提取的邊緣,EI為輸出的邊緣密
點擊復制文檔內(nèi)容
范文總結(jié)相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1