freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

復(fù)雜背景圖像中文本定位算法設(shè)計(jì)終稿畢業(yè)論文(存儲版)

2025-07-27 13:46上一頁面

下一頁面
  

【正文】 率、虛假率、漏檢率來評價實(shí)驗(yàn)結(jié)果。如果連通域的面積不滿足上式,則它是非文本區(qū)域。文本區(qū)域的限制條件以及篩選出非文本區(qū)域的方法如下所示:(1) 去掉矩形框的高和寬明顯不合要求的方框。后續(xù)操作不斷從堆棧中取出種子段,重復(fù)上述操作直到堆棧為空(標(biāo)記完一個連通區(qū)域)。 連通區(qū)域分析連通域分析方法就是用來獲取圖像中各個對象的連通域,也常稱為連通域標(biāo)記(Connected Component Labeling,CCL)。目前圖像二值化方法主要有以下幾種:全局閾值法;局部閾值法;動態(tài)閥值法。這說明改進(jìn)后的Canny算法對邊緣的提取效果比原Canny算法有了較大的提高。式(317)中函數(shù)G的作用是確定參與平均的灰度窗口大小。MTM的數(shù)學(xué)表示為: (315)其中,只表示濾波窗口內(nèi)的像素點(diǎn)組成的集合。即在圖像I(x,y)的每個像素,I(i,j)的8鄰域里按梯度方向比較梯度幅度,如果在梯度方向上的兩個像素的幅值均小于,I(i,j)的,則其有可能是邊緣像素,否則肯定不是邊緣像素,將其梯度幅度置為0。二階導(dǎo)數(shù)的零交叉點(diǎn)不僅對應(yīng)著一階導(dǎo)數(shù)的極大值也對應(yīng)著一階導(dǎo)數(shù)的極小值,也就是說,灰度變化劇烈的點(diǎn)(強(qiáng)邊緣)與灰度變化緩慢的點(diǎn)(弱邊緣)都對應(yīng)著二階導(dǎo)數(shù)零交叉點(diǎn)?!』贑anny算子的邊緣檢測經(jīng)典的邊緣檢測算子具有實(shí)現(xiàn)簡單、運(yùn)算速度快等特點(diǎn),但其檢測受噪聲的影響很大,檢測結(jié)果不可靠,不能準(zhǔn)確判定邊緣的存在及邊緣的準(zhǔn)確位置,造成這種情況的原因有:(1) 實(shí)際的邊緣灰度與理想的邊緣灰度值間存在差異,這類算子可能檢測出多個邊緣。當(dāng)對精度要求不是很高時,是一種較為常用的邊緣檢測方法。Sobel提出一種將方向差分運(yùn)算與局部平均相結(jié)合的方法,即Sobel算子。但是它對圖像中的噪聲很敏感,也產(chǎn)生雙像素寬的邊緣,且也不能提供邊緣方向的信息。所謂P階金字塔模型(pstep Pyramid)是指對原始圖像分辨率逐次進(jìn)行P次縮小。基于邊緣的方法經(jīng)常根據(jù)文本的水平排列特性進(jìn)行有效的分析,確認(rèn)文本區(qū)域?;旌系姆椒▽趨^(qū)域、紋理、邊緣的方法進(jìn)行了融合的嘗試,充分利用這三類定位的優(yōu)點(diǎn)進(jìn)行融合,是實(shí)現(xiàn)魯棒的文本定位的關(guān)鍵,但是如何進(jìn)行融合、如何提取三類方法中的有效特征并組合到一個框架中是一個難點(diǎn)。文中實(shí)驗(yàn)采用四組不同類型的數(shù)據(jù),%,%。但僅僅利用邊緣很難有效的區(qū)分文本區(qū)域和背景區(qū)域,因?yàn)楹芏嗟膱D像中背景也含有非常多的邊緣。Hasan和Karam先將彩色圖像轉(zhuǎn)換成灰度圖像;然后提取灰度圖像的邊緣,并將邊緣圖像二值化,再對二值邊緣圖像作形態(tài)學(xué)處理;最后利用大小、高寬比、密度等啟發(fā)性知識濾除非文本區(qū)域。而且基于紋理的文本定位方法由于假設(shè)文本是一種特殊的紋理,要求字符是成塊的出現(xiàn),字符數(shù)越少越難于進(jìn)行有效的識別,也容易受復(fù)雜圖像中具有紋理特性的背景影響,虛檢率較高。為了解決訓(xùn)練樣本的不足,采用fly Sung、提出的Bootstrap(自舉)方法進(jìn)行樣本訓(xùn)練。他們用三種不同尺度的二階高斯濾波器對圖像濾波,并對濾波后的圖像作非線性變換;變換后的結(jié)果作為每個像素的特征并用Kmeans聚類的方法進(jìn)行紋理聚類、分割。同時受到噪聲污染的文本區(qū)域可能與背景物體相連而很難得到定位。Lienhart等人把文本區(qū)域看做是顏色相似的連通區(qū)域,用分離和合并算法對圖像進(jìn)行分割,并把分割得到的太大和太小的塊都去掉;在形態(tài)學(xué)膨脹后,再利用相鄰幀的運(yùn)動估計(jì)增強(qiáng)文本提取效果;最后用文本的啟發(fā)性知識濾除非文本區(qū)?!』趨^(qū)域的文本定位方法基于區(qū)域的文本定位方法一般假設(shè)字符區(qū)域具有一致的顏色,根據(jù)字符顏色的一致性和字符顏色與背景較大的對比度分割圖像,然后對分割后的每個顏色層進(jìn)行連通域的分析,得到各個候選的連通分量,將各個連通分量作為候選的字符連通分量,對每個連通分量利用一些幾何特征以及利用字符的排列關(guān)系等排除一些非文本連通分量,并最終得到文本區(qū)域。因此候選文本區(qū)域會有一些區(qū)域不是文本區(qū)域,需要進(jìn)一步對它們進(jìn)行驗(yàn)證。圖21 文本定位步驟首先,選擇某個或某些能夠把文本與背景區(qū)別開來的文本特征;其次,采用某種算法提取文本特征;接著,聚集空間相鄰的特征點(diǎn)形成區(qū)域:然后,用文本的另一些特征除去一些不可能是文本的區(qū)域得到候選文本區(qū)域;最后,再用文本的一些特征對候選文本區(qū)域進(jìn)行驗(yàn)證得到真正的文本區(qū)域。例如,在新聞視頻n引中添加的新聞標(biāo)題、電影視頻中的字幕等等。然而,不論哪種方法都必須牢記以下兩點(diǎn): (1)復(fù)雜背景下文本的對比度在圖像的不同位置會有所變化。第二章:介紹了復(fù)雜背景圖像中文本的類別,文本定位的流程,并對多種復(fù)雜背景下文本的定位方法做了詳細(xì)介紹、比較和分析。復(fù)雜背景圖像的文本定位的難點(diǎn)主要下面分別介紹:(1)文本定位:由于所處理對象是復(fù)雜背景圖像,這些樣本受環(huán)境的影響大,噪聲干擾大,圖像中文字的語種、顏色、亮度、對比度、字體、大小、間隔、排列方向和背景紋理等因素復(fù)雜多變,由于拍攝時的投影關(guān)系,有的文字可能會發(fā)生形變,這些困難如何克服;同一幅圖像中既有人工文本也有場景文本,我們?nèi)绾螀^(qū)分,采用什么特征;采用基于知識的文本定位方法時,知識如何定義,定義的知識是否準(zhǔn)確、有效和全面,是否具有通用性;采用基于學(xué)習(xí)的文本定位方法時,特征如何選取,選取的特征是否具有很好的推廣能力,訓(xùn)練樣本如何收集,如何進(jìn)行訓(xùn)練,所有的這些因素都制約著復(fù)雜背景圖像中的文本定位算法的研究和發(fā)展。文獻(xiàn)[6]采用了一種適應(yīng)性的文本檢測方法,該方法的實(shí)驗(yàn)對象是場景文字(Scene Text),應(yīng)用多尺度邊緣檢測方法來彌補(bǔ)對比度和噪聲帶來的影響,采用了基于高斯混合顏色模型的搜索策略,對提取出來的候選區(qū)域進(jìn)行排列分析,該方法對對比度強(qiáng)的場景文字效果比較突出,但是對透明的文字、相對較小的文字效果就不是很理想,并且虛檢率很高。但是該方法對小的字符效果不是很好,這與其中的Split 。但對于計(jì)算機(jī)來說,要完成這個過程就很困難了,因?yàn)橛?jì)算機(jī)只能依靠如方差、水平邊緣、垂直邊緣等可以量化的視覺特征,而文字的特征遠(yuǎn)不止這些,特別是中國漢字。(4)一般情況下,文本與背景之間總有一定的顏色差。文本定位的目的主要可以分為:視頻圖像中的文本定位用于基于內(nèi)容的視頻索、場景圖像中的文本定位用于場景理解等。一些不良網(wǎng)絡(luò)信息的提供者將文本嵌入到圖像文件中,或直接以圖像文件的形式顯示文本以繞開網(wǎng)絡(luò)過濾系統(tǒng)。(2)互聯(lián)網(wǎng)應(yīng)用。每天都會產(chǎn)生海量的圖像,這些數(shù)字圖像中包含了大量有用的信息。其中,基于邊緣檢測的文本定位主要由金字塔分解、基于改進(jìn)Canny算子的邊緣檢測、邊緣提取和二值化、連通區(qū)域分析、以及文本區(qū)域鑒定與合并幾部分組成。本文綜述了現(xiàn)有的主要文本定位方法,分析了其中的優(yōu)缺點(diǎn),實(shí)現(xiàn)了一種基于邊緣檢測和支持向量機(jī)的圖像文本定位方法。近年來,隨著多媒體技術(shù)和計(jì)算機(jī)網(wǎng)絡(luò)的飛速發(fā)展,全世界的數(shù)字圖像的容量正以驚人的速度增長。通過攝像頭捕獲高速公路上的車牌圖像,經(jīng)過車牌識別系統(tǒng)進(jìn)行分析和處理,可以實(shí)時對交通情況進(jìn)行監(jiān)督,實(shí)時識別出交通事故涉及車輛的號碼,提高運(yùn)輸監(jiān)管部門的工作效率。(5)網(wǎng)絡(luò)過濾。在很多領(lǐng)域中,文本是嵌入在復(fù)雜背景圖像中的,要想很好的識別首先必須進(jìn)行文本區(qū)域的定位,因此提出了復(fù)雜背景圖像中的文本定位問題的研究。(3)字符一般由一致寬度的筆畫構(gòu)成,筆畫的密集程度在中文各個字符中并不一致,在英文字符中筆畫的密度變化不是很大。人類有著非常強(qiáng)的識別能力,當(dāng)人類看到一幅圖像,可以很快地發(fā)現(xiàn)文字區(qū)域并很快的識別出這些文字。在文獻(xiàn)[2]中作者提出了9條人工文字的特征,在對輸入圖像做了分割和合并算法之后,根據(jù)9條特征去除非文本區(qū)域,然后將文本區(qū)域按一定的規(guī)則合并成文字區(qū)域,通過紋理分析去除虛假區(qū)域。但是該算法用了很多的規(guī)則,這就大大降低了算法的魯棒性,限制了算法的應(yīng)用范圍??偟膩碇v,有:文本定位、算法集成、算法評價。論文的內(nèi)容、章節(jié)安排如下:第一章:緒論,介紹了復(fù)雜背景圖像中文本定位的研究背景及意義,簡述了文本定位研究的現(xiàn)狀,闡明了本文的主要研究內(nèi)容及結(jié)構(gòu)。前者幫助我們設(shè)計(jì)方法來從圖像中找出候選的文本區(qū)域;后者則從候選區(qū)域中剔除錯誤,找到真正包含文本的區(qū)域。人工文本是指通過數(shù)碼相機(jī)、攝像機(jī)、掃描儀等工具得到圖像,再通過圖像處理工具(軟件或硬件)對圖像或視頻進(jìn)行編輯,加上一些相關(guān)的文字信息所得到的?!∥谋玖鞒潭ㄎ粡?fù)雜背景圖像中的文本定位一般由特征提取、特征分類、特征聚集、候選文本區(qū)域提取和文本區(qū)域驗(yàn)證等五個步驟組成,如圖21所示?!∥谋緟^(qū)域驗(yàn)證在候選文本區(qū)域提取中,為了盡量減少文本的漏檢率,對文本區(qū)域的限制條件般并不嚴(yán)格?;谧址伾囊恢滦裕岢隽嘶趨^(qū)域的分析方法;基于字符一致排列而呈現(xiàn)一定的紋理特征,提出了基于紋理的文本區(qū)域定位方法;基于文本區(qū)域含有較多的邊緣,提出了基于邊緣的文本定位方法。利用這種方法進(jìn)行的實(shí)驗(yàn)采用了50幅視頻圖像,這些圖像中包含不同大小和風(fēng)格的文字,準(zhǔn)確率為87%。但是這種方法容易受到復(fù)雜背景的影響,一些類似字符的背景目標(biāo)很難被區(qū)分,所以準(zhǔn)確率相對較低。Wu等人提出了一種多尺度紋理分割方法用于文本定位。他們先用Haar小波分解得到文本和非文本的紋理特征;然后用1616的窗口掃描整個圖像,采用三層BP神經(jīng)網(wǎng)絡(luò)作為分類器識別分類文本區(qū)域和非文本區(qū)域。由于紋理方法的特征相對連通分量特征沒有直觀的意義,很難用基于規(guī)則的方法進(jìn)行判斷,一般使用較為復(fù)雜的分類器進(jìn)行分類?;谶吘壍姆椒ń?jīng)常根據(jù)文本的水平排列特性進(jìn)行有效的分析,確認(rèn)文本區(qū)域?;谶吘壍姆椒ㄖ校行┓椒僭O(shè)字符邊緣是一個整體,用連通域分析得到候選字符區(qū)域后再進(jìn)行判別;有些方法認(rèn)為字符區(qū)域的邊緣非常密集,所以經(jīng)常用形態(tài)學(xué)操作將整個文本區(qū)域連接成一個整體再進(jìn)行判斷;有些方法將文字的邊緣作為一種紋理特征進(jìn)行處理。該算法可處理各種大小、類型和排列方向的文字,但是當(dāng)背景復(fù)雜時效果不佳。Zhou、Loprestitt[27]應(yīng)用遺傳算法從灰度圖像中提取文本?;谶吘壍奈谋径ㄎ环椒?,認(rèn)為文本與背景之間有一定的對比度,邊緣檢測的方法可以有效的檢測到字符的邊緣,而且文本區(qū)域通常含有較高的邊緣密度。目前,幾乎所有的文本定位算法都對字符大小很敏感,為了能夠找出大小不一的文本區(qū)域,本文采用金字塔模型[29]。其定義為:+ (31)在數(shù)字圖像中,可用差分近似微分運(yùn)算,其離散形式為: + (32)也可以寫成: (33)由于拉普拉斯算子是一個二階導(dǎo)數(shù),它將在邊緣處產(chǎn)生一個陡峭的零叉,所以它是一個良好的銳化濾波器。Roberts邊緣檢測算子的卷積算子為: 1 , 0 0 , 1 0 , 1 1 , 03)Sobel邊緣檢測Roberts算子的一個主要問題是計(jì)算方向差分時對噪聲敏感。因此,Soble算子對噪聲具有平滑作用,提供較為精確的邊緣方向信息,但是這是由于局部平均的影響,它同時也會檢測出許多的偽邊緣,且邊緣定位精度不夠高。Sobel算子和Prewitt算子都是對圖像進(jìn)行差分和濾波,只是平滑部分的權(quán)值有些差異,對灰度漸變和噪聲較多的圖像處理較好側(cè)。Canny算子正是基于這三個準(zhǔn)則提出來的,其基本思想是先將圖像使用高斯函數(shù)進(jìn)行平滑,再由一階微分的極大值確定邊緣點(diǎn)。設(shè)梯度為(,),則梯度的幅度和方向分別如下:M(x,y)= (313) (314)對梯度圖像進(jìn)行非極大值抑制。MTM算法的基本思想是:在處理第n個像素點(diǎn)時,首先選取濾波窗口內(nèi)的灰度中值,以為中心,選取一個灰度區(qū)間將濾波窗內(nèi)所有落在選定灰度區(qū)間內(nèi)的點(diǎn)做平均,并將結(jié)果作為最終的濾波輸出。經(jīng)比較后F選用的是中心加權(quán)中值濾波算法(選用的是矩形窗,被處理點(diǎn)位于窗口中心)。(a) 原始實(shí)驗(yàn)圖像(b) 算法結(jié)果圖34 實(shí)驗(yàn)結(jié)果示例1 (a)原始圖像(b)算法結(jié)果圖35 實(shí)驗(yàn)結(jié)果示例2由處理結(jié)果可以看出,改進(jìn)后的算法圖像邊緣檢測準(zhǔn)確,細(xì)節(jié)處理較好,而沒有改進(jìn)的Canny算法,邊緣連接較差,還有部分偽邊緣,而且邊緣檢測不夠準(zhǔn)確。圖像二值化是模式識別、支票字符分割識別、指紋識別蚓、車牌識別等應(yīng)用的重要預(yù)處理技術(shù)。因此,本文采用以Bemsen局部域值法為基礎(chǔ),結(jié)合Ostu算法的方法,對上述Camay算子得到的邊緣圖像進(jìn)行二值化。如果不存在重疊的目標(biāo)段就把當(dāng)前段彈出堆棧;如果存在,標(biāo)記該段并且壓入堆棧,作為新的“種子段”。 文本區(qū)域定位與合并在所得到候選文字區(qū)域矩形框中,有許多是非文本區(qū)域矩形框,我們需根據(jù)文本的特征利用排除法來剔除它們。S10 (323)其中S為方框中的文本連通域的面積。圖像均為數(shù)碼相機(jī)拍攝的圖片,圖像的大小為320240像素。經(jīng)過實(shí)驗(yàn),該方法的處理速度快,定位準(zhǔn)確性高。所以,在這一領(lǐng)域的研究還有很長的路要走。論文所做的主要工作:(1) 綜述了復(fù)雜背景圖像中文本的類別,文本定位的流程,并對多種復(fù)雜背景下文本的定位方法做了詳細(xì)介紹、比較和分析。另外,該算法受文字的形狀、間距、字體、大小,背景復(fù)雜度的影響較小。如果兩個矩形框冠和匙滿足下式,則合并這兩個文本框。(2) 因?yàn)槲谋緟^(qū)域特別是中文區(qū)域包含有大量邊緣,我們定義了邊緣密度,如下式: (322)其中f(i,j)力是邊緣圖像。,得到了圖像中所有的連通區(qū)域,其中的每一個連通區(qū)域用一個矩形框來描述。該算法不受連通區(qū)域的形狀和面積因素的影響,很好地克服了以上算法的缺點(diǎn)。局部闡值法能處理較為復(fù)雜的情況,但往往忽略了圖像的邊緣特征,容易出現(xiàn)偽影現(xiàn)象??紤]到大部分的文本都是水平方向排列,所以本文采用水平方向上的邊緣密度,表達(dá)式為: (320)其中,E(x,y)為由上述Canny算子提取的邊緣,EI為輸出的邊緣密
點(diǎn)擊復(fù)制文檔內(nèi)容
范文總結(jié)相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1