freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

復(fù)雜背景圖像中文本定位算法設(shè)計終稿畢業(yè)論文-文庫吧

2025-06-12 13:46 本頁面


【正文】 了在YUV顏色空間上的邊緣提取和選擇性二值化文本提取算法,接著對文本區(qū)域進(jìn)行增強(qiáng)、弱化、噪聲的影響。應(yīng)用該方法定位出來的文本塊空間位置比較精確,但是該方法有很大的局限性,對于字體很大的文本、對比度小的文本,效果就很差了。文獻(xiàn)[11]采用了計算水平梯度和Otsu二值化的方法,對二值圖像進(jìn)行形態(tài)學(xué)上的處理,得到比較好的定位效果。該方法的不足之處與文獻(xiàn)[7]類似。微軟亞洲研究院也在進(jìn)行相關(guān)方面的研究,并取得一定的成就。復(fù)雜背景圖像中的文本定位是計算機(jī)視覺領(lǐng)域的一個非常具有挑戰(zhàn)性的課題,有著十分廣泛的應(yīng)用前景,設(shè)計一個在任何復(fù)雜背景下的文本定位系統(tǒng)是無數(shù)研究者們追求的夢想,但從目前的研究情況來看,這樣的系統(tǒng)在短期內(nèi)是不可能設(shè)計出來的??偟膩碇v,有:文本定位、算法集成、算法評價。復(fù)雜背景圖像的文本定位的難點(diǎn)主要下面分別介紹:(1)文本定位:由于所處理對象是復(fù)雜背景圖像,這些樣本受環(huán)境的影響大,噪聲干擾大,圖像中文字的語種、顏色、亮度、對比度、字體、大小、間隔、排列方向和背景紋理等因素復(fù)雜多變,由于拍攝時的投影關(guān)系,有的文字可能會發(fā)生形變,這些困難如何克服;同一幅圖像中既有人工文本也有場景文本,我們?nèi)绾螀^(qū)分,采用什么特征;采用基于知識的文本定位方法時,知識如何定義,定義的知識是否準(zhǔn)確、有效和全面,是否具有通用性;采用基于學(xué)習(xí)的文本定位方法時,特征如何選取,選取的特征是否具有很好的推廣能力,訓(xùn)練樣本如何收集,如何進(jìn)行訓(xùn)練,所有的這些因素都制約著復(fù)雜背景圖像中的文本定位算法的研究和發(fā)展。(2)算法集成:多種算法集成難點(diǎn)主要在于集成方案選取上,即如何制訂不同算法的選擇策略,這將影響到整個系統(tǒng)的性能,另外還有一個必須要考慮的因素就是盡可能快的處理速度。(3)算法評價:對文本定位算法評價的研究目前還非常的不夠,還沒有一種國際通用的方法,也沒有一個通用的評測數(shù)據(jù)庫,導(dǎo)致了算法間無法客觀、公正地進(jìn)行比較。要定義一個通用的算法,必須考慮很多的因素;期望輸出結(jié)果(Groundtruth)如何定義,定位結(jié)果與期望輸出結(jié)果之間采用何種匹配方案,如何體現(xiàn)圖像中文字的定位難度的不同,如何保證評價標(biāo)準(zhǔn)的公正性、客觀性,同時還要保證評價的方法高效、簡單易懂。 論文的主要研究內(nèi)容及結(jié)構(gòu)復(fù)雜背景圖像中的文本定位研究涉及了圖像處理、計算機(jī)視覺、模式識別和人工智能等多種學(xué)科,使用到的相關(guān)技術(shù)主要包括圖像分割技術(shù)、人工神經(jīng)網(wǎng)絡(luò)、小波分析、圖像形態(tài)學(xué)、Hough變換、支持向量機(jī)等。本文在國內(nèi)外學(xué)者研究的基礎(chǔ)上,對復(fù)雜背景圖像中文本的定位進(jìn)行了進(jìn)一步的研究。本文實(shí)現(xiàn)了一種基于邊緣檢測的文本定位方法,并且將其擴(kuò)展到統(tǒng)計模型支持向量機(jī)的框架下來提高文本定位的準(zhǔn)確性,取得了較好的效果。論文的內(nèi)容、章節(jié)安排如下:第一章:緒論,介紹了復(fù)雜背景圖像中文本定位的研究背景及意義,簡述了文本定位研究的現(xiàn)狀,闡明了本文的主要研究內(nèi)容及結(jié)構(gòu)。第二章:介紹了復(fù)雜背景圖像中文本的類別,文本定位的流程,并對多種復(fù)雜背景下文本的定位方法做了詳細(xì)介紹、比較和分析。第三章:實(shí)現(xiàn)了一種基于邊緣檢測的文本定位方法。首先對圖像進(jìn)行金字塔分解;然后在Canny算子邊緣檢測的研究基礎(chǔ)上,提出了一種改進(jìn)的Canny算子;隨后進(jìn)行連通區(qū)域分析,對文本區(qū)域進(jìn)行鑒定與合并,定位出候選文本區(qū)域。第四章:對全文進(jìn)行總結(jié),并展望進(jìn)一步的工作。第二章  復(fù)雜背景圖像中的文本定位的一般方法 文本特征及類別在現(xiàn)實(shí)生活中,人們可以很快地辨認(rèn)出文本區(qū)域而不用逐個識別每個字符,因?yàn)槲谋揪哂泻芏嘟y(tǒng)計特征,使其不同于場景的其他部分,可以歸納如下(1)文本和背景之間有較大的對比度;(2)文本擁有很多頻率和方向信息;(3)文本具有空間聚合性:在一定距離內(nèi)的字符都沿著某條虛擬的直線對齊,并且同一個字符串內(nèi)的字符都有相似的高度、方向和大小。 從上面列出的特征中,我們可以發(fā)現(xiàn)有很多信息幫助我們處理文本。通常,我們把這些特征分為兩類來講:用來進(jìn)行文本檢測的特征和用來驗(yàn)證文本的特征。前者幫助我們設(shè)計方法來從圖像中找出候選的文本區(qū)域;后者則從候選區(qū)域中剔除錯誤,找到真正包含文本的區(qū)域。然而,不論哪種方法都必須牢記以下兩點(diǎn): (1)復(fù)雜背景下文本的對比度在圖像的不同位置會有所變化。復(fù)雜背景通常比簡單背景要求更強(qiáng)的對比度來保證文本的可讀。 (2)由于光照的不均勻、噪聲和壓縮的影響,文本的色彩也是不一致的,因此文本區(qū)域內(nèi)部色彩的同一性不能被嚴(yán)格地假設(shè)。復(fù)雜背景圖像中的文本可以根據(jù)產(chǎn)生的原因劃分為:場景文本(Scene Text)和人工文本(Artificial Text)。 場景文本是指實(shí)際拍攝場景中所包含的文本,隨同拍攝場景一起被拍攝到圖像或視頻中,它屬于場景的一部分。例如:拍攝圖像中的車站站牌、汽車車牌等等。場景文本容易受到光照條件、拍攝設(shè)備參數(shù)的影響,而且方向沒有任何的限制,字符有可能受到照相機(jī)拍攝角度的影響而發(fā)生形變,文字本身可能與場景中的其它物體發(fā)生相連等情況。人工文本是指通過數(shù)碼相機(jī)、攝像機(jī)、掃描儀等工具得到圖像,再通過圖像處理工具(軟件或硬件)對圖像或視頻進(jìn)行編輯,加上一些相關(guān)的文字信息所得到的。例如,在新聞視頻n引中添加的新聞標(biāo)題、電影視頻中的字幕等等。人工本不是拍攝場景的一部分,被認(rèn)為是后期添加的結(jié)果。人工文本一般比較規(guī)整,與背景之間具有較大的對比度,為了便于讓人閱讀,字符一般都具有一定的大小,字符的顏色比較一致。這一類字符相對容易識別。一般來說,真實(shí)場景中的文本定位相對要比人工文本定位難。兩者都可以統(tǒng)一在復(fù)雜背景圖像的文本定位中。因此文本后續(xù)的研究中,對本文將不具體區(qū)分是定位人工文本還是場景文本,僅僅關(guān)注圖像背景的復(fù)雜性?!∥谋玖鞒潭ㄎ粡?fù)雜背景圖像中的文本定位一般由特征提取、特征分類、特征聚集、候選文本區(qū)域提取和文本區(qū)域驗(yàn)證等五個步驟組成,如圖21所示。圖21 文本定位步驟首先,選擇某個或某些能夠把文本與背景區(qū)別開來的文本特征;其次,采用某種算法提取文本特征;接著,聚集空間相鄰的特征點(diǎn)形成區(qū)域:然后,用文本的另一些特征除去一些不可能是文本的區(qū)域得到候選文本區(qū)域;最后,再用文本的一些特征對候選文本區(qū)域進(jìn)行驗(yàn)證得到真正的文本區(qū)域?!∥谋咎卣鬟x擇文本具有尺寸、顏色與灰度值、邊緣、紋理、對比度、排列方式、符間隙、運(yùn)動、穩(wěn)定性、背景變化、陰影和透明效果等特征,應(yīng)該選那些容易把文本與背景區(qū)分開來的特征,以使文本與背景在特征空間內(nèi),類間距離較大而類內(nèi)距離較小?!∥谋咎卣魈崛τ诓煌奈谋咎卣餍枰捎貌煌膱D像處理技術(shù)提取,各種文本定位方法文本特征提取與分類所用的技術(shù),如表21所示。表21文本特征和文本特征提取與分離所用的技術(shù)文本定位的方法基于區(qū)域的方法基于紋理的方法基于邊緣的方法基于學(xué)習(xí)的方法選擇的文本特征顏色與灰度值紋理被邊緣與梯度圖像塊中像素灰度值或灰度值的多階中心距,彩色梯度文本特征提取與分離所用的技術(shù)局部閥值方法,顏色聚類,顏色量化kmean方法Soble邊緣檢測,Canny邊緣檢測人工神經(jīng)網(wǎng)絡(luò),支持向量機(jī) 文本特征聚集形成區(qū)域圖像中的文本特征通常是分散的點(diǎn)、線段和小區(qū)域,不能構(gòu)成一個完整的文本區(qū)域,因此需要聚集這些分散的文本特征形成連續(xù)的區(qū)域。連通成分分析(Connected Component)和排列分析、形態(tài)學(xué)運(yùn)算、均值偏移算法(Mean Shift Algorithm)、水平或垂直投影方法和變異直方圖方法等是一些常用的方法。連通成分分析和排列分析方法合并排列方向相同、尺寸相似的相鄰連通成分形成連通區(qū)域;形態(tài)學(xué)膨脹運(yùn)算、均值偏移算法利用邊緣點(diǎn)或小區(qū)域之間的空隙形成連通區(qū)域;水平或垂直投影方法和變異直方圖方法統(tǒng)計圖像水平或垂直方向全部或部分文本特征的值,然后對投影曲線或變異直方圖進(jìn)行分析提取文本區(qū)域?!『蜻x文本區(qū)域提取文本特征聚集形成區(qū)域里有一些明顯不是文本區(qū)域,根據(jù)區(qū)域的高、寬、高寬比、面積和區(qū)域內(nèi)邊緣點(diǎn)的密度可以除去這些噪聲區(qū)域?!∥谋緟^(qū)域驗(yàn)證在候選文本區(qū)域提取中,為了盡量減少文本的漏檢率,對文本區(qū)域的限制條件般并不嚴(yán)格。因此候選文本區(qū)域會有一些區(qū)域不是文本區(qū)域,需要進(jìn)一步對它們進(jìn)行驗(yàn)證。文本區(qū)域驗(yàn)證可以使用更多的特征,采用更嚴(yán)格的限制條件。文本區(qū)域驗(yàn)證的方法有:用候選文本區(qū)域的高、寬、高寬比和面積進(jìn)行文本區(qū)域驗(yàn)證:用候選文本區(qū)域的尺寸、偏心率、飽和度、強(qiáng)度變化與用置信度加權(quán)的排列值(Align Value)進(jìn)行文本區(qū)域驗(yàn)證;用候選文本區(qū)域內(nèi)邊緣點(diǎn)的密度進(jìn)行文本區(qū)域驗(yàn)證;用候選文本區(qū)域的直方圖分布、字符的結(jié)構(gòu)、字符的排列信息和字符識別進(jìn)行文本區(qū)域驗(yàn)證;用支持向量機(jī)進(jìn)行文本區(qū)域驗(yàn)證?!∥谋径ㄎ环椒◤?fù)雜圖像中的文本定位屬于模式識別問題,類似于人臉檢測??梢詫⑽谋径ㄎ蛔鳛橐粋€兩類的分類問題(文本和非文本)?,F(xiàn)在解決特定模式分類問題的關(guān)鍵就是提取有效的目標(biāo)特征,然后選擇適當(dāng)?shù)姆诸愃惴?。大多?shù)文本定位方法都是利用文本特征進(jìn)行文本的定位?;谧址伾囊恢滦?,提出了基于區(qū)域的分析方法;基于字符一致排列而呈現(xiàn)一定的紋理特征,提出了基于紋理的文本區(qū)域定位方法;基于文本區(qū)域含有較多的邊緣,提出了基于邊緣的文本定位方法?!』趨^(qū)域的文本定位方法基于區(qū)域的文本定位方法一般假設(shè)字符區(qū)域具有一致的顏色,根據(jù)字符顏色的一致性和字符顏色與背景較大的對比度分割圖像,然后對分割后的每個顏色層進(jìn)行連通域的分析,得到各個候選的連通分量,將各個連通分量作為候選的字符連通分量,對每個連通分量利用一些幾何特征以及利用字符的排列關(guān)系等排除一些非文本連通分量,并最終得到文本區(qū)域。根據(jù)不同的顏色分割方法,不同的確認(rèn)字符連通分量的方法,以及是否利用規(guī)則方法或者機(jī)器學(xué)習(xí)的方法,得到了各種基于區(qū)域的文本定位方法?;趨^(qū)域的文本定位方法主要使用的分割方法有:顏色聚類,顏色量化,利用直方圖的分割等。判斷各種分割方法對基于連通域的文本定位的好壞主要是考查各種分割方法能否有效的將字符與背景區(qū)分開來:同時分割方法能夠有效的抑制噪聲連通分量的產(chǎn)生,從而減少后續(xù)連通分量的判別:另外分割方法的計算速度也是一個應(yīng)該考慮的問題。根據(jù)這些原則還可以嘗試各種更為有效的分割方法。Kim[20]等人利用RGB空間的顏色聚類來分割圖像,然后去除明顯的非文本區(qū)域,如細(xì)長的水平線段、圖像邊框等;文本區(qū)域通過投影分析來提?。蛔詈髮⑦@些文本區(qū)域基于知識規(guī)則進(jìn)行合并。一些門限值需要根據(jù)經(jīng)驗(yàn)來決定,所以這個方法通用性不強(qiáng)。利用這種方法進(jìn)行的實(shí)驗(yàn)采用了50幅視頻圖像,這些圖像中包含不同大小和風(fēng)格的文字,準(zhǔn)確率為87%。Lienhart等人把文本區(qū)域看做是顏色相似的連通區(qū)域,用分離和合并算法對圖像進(jìn)行分割,并把分割得到的太大和太小的塊都去掉;在形態(tài)學(xué)膨脹后,再利用相鄰幀的運(yùn)動估計增強(qiáng)文本提取效果;最后用文本的啟發(fā)性知識濾除非文本區(qū)。他們的實(shí)驗(yàn)對象為2247幀視頻圖像,實(shí)驗(yàn)表明該算法能提取視頻幀中86%100%的標(biāo)題文本。Jain和Yu先把24bits的真彩色圖像降低為6bits的彩色圖像,再用顏色聚類的方法把原圖像分解成不同顏色的子圖像;檢查每幅子圖像中是否包含滿足特定啟發(fā)式搜索的文本;最后將每幅子圖像中檢測到的文本區(qū)域進(jìn)行合并Sochang 2Pei等人首先用一個SOFM神經(jīng)網(wǎng)絡(luò)對輸入圖像進(jìn)行顏色量化,然后分析三維彩色直方圖;當(dāng)某一顏色處的梯度大于閾值時,則認(rèn)為該顏色可能是文本顏色,并將該顏色所占區(qū)域賦值為1,其它為0,從而得N值子圖像。再對各二值子圖像進(jìn)行形態(tài)學(xué)處理、連通域分析,得到候選文本區(qū)域。該算法的魯棒性較強(qiáng)。實(shí)驗(yàn)采用的圖像具有不同分辨率和背景復(fù)雜度,其中的文字大小、風(fēng)格也各不相同,%的準(zhǔn)確率?;趨^(qū)域的文本定位方法對于具有較大文本與背景對比度的較大字符相對有較好的定位效果,實(shí)現(xiàn)簡單,計算速度也較快,定位的文本框準(zhǔn)確,并同時可以提取文本的顏色,方便后續(xù)的文本提取操作。但是這種方法容易受到復(fù)雜背景的影響,一些類似字符的背景目標(biāo)很難被區(qū)分,所以準(zhǔn)確率相對較低。同時受到噪聲污染的文本區(qū)域可能與背景物體相連而很難得到定位?!』诩y理的文本定位方法基于紋理的文本定位方法認(rèn)為文本具有特定的紋理屬性,這種紋理是由于字符特定的排列方向以及字符顏色與背景顏色周期性變化而產(chǎn)生。這類方法通常將整幅圖像分割成互不重疊的子塊,然后使用各種方法,如Gabor濾波、空間方差、小波變換等來得到子塊中的紋理特征,然后使用一個適當(dāng)?shù)姆诸惼鲗γ總€子塊進(jìn)行分類(文本和非文本),通常使用的分類器有:神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、Adaboost等。為了能夠有效的對不同大小的字符進(jìn)行檢測,基于紋理的方法一般都使用基于金字塔或者小波分解的方法,對不同分辨率的圖像都進(jìn)行類似的處理得到文本區(qū)域,然后融合到原始圖像上。Park[19]等人“們利用文本的空間差異定位車輛牌照,他們采用兩個時延神經(jīng)網(wǎng)絡(luò)在HSI空間檢測紋理。兩個神經(jīng)網(wǎng)絡(luò)中一個用于檢測水平方向的紋理,一個用于檢測垂直方向的紋理。最后將兩個神經(jīng)網(wǎng)絡(luò)的輸出結(jié)果加以合并,并結(jié)合投影分析得到牌照的矩形區(qū)域。Wu等人提出了一種多尺度紋理分割方法用于文本定位。他們用三種不同尺度的二階高斯濾波器對圖像濾波,并對濾波后的圖像作非線性變換;變換后的結(jié)果作為每個像素的特征并用Kmeans聚類的方法進(jìn)行紋理聚類、分割。由于該方法是基于不同尺度紋理檢測的方法,因此對圖像分辨率高低不敏感,但是處理速度較慢。Mao等人利用小波變換檢測圖像紋理,再通過紋理分析進(jìn)行文本定位。他們先對一幅圖像進(jìn)行Haar小波分解,并計算不同尺度圖像的局部能量差異,再將局部能量差異圖閾值化從而得N值圖像(通常邊緣處的像素局部能量差異大,而邊緣內(nèi)部的像素局部能量差異小);然后在不同尺度的二值圖像中進(jìn)行連通域分析,利用文本的幾何特性限制去除非文本區(qū)域;最后將不同尺度圖像中檢測到的文本區(qū)域進(jìn)行合并?;诩y理信息的文本定位方法通常對文字的大小和風(fēng)格很敏感,很難手工設(shè)計出一個適用于各種情況的通用的紋理分類器。因此,人們提出了基于學(xué)習(xí)的方法以自動分類紋理。Li等人利用基于學(xué)習(xí)的方法定位圖像中的文字。他們先用Haar小波分解得到文本和非文本的紋理特征;然后用1616的窗口掃描整個圖像
點(diǎn)擊復(fù)制文檔內(nèi)容
范文總結(jié)相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1