freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

復(fù)雜背景圖像中文本定位算法設(shè)計終稿畢業(yè)論文-免費閱讀

2025-07-21 13:46 上一頁面

下一頁面
  

【正文】 首先對圖像進行金字塔分解;然后在Canny算子邊緣檢測的研究基礎(chǔ)上,實現(xiàn)了一種改進的Canny算子;隨后進行連通區(qū)域分析,對文本區(qū)域進行鑒定與合并,定位出候選文本區(qū)域?!”菊滦〗Y(jié) 本章提出了基于圖像邊緣檢測的文本定位方法,在基于Canny算子的邊緣檢測研究的基礎(chǔ)上,提出了一種改進的Canny算子邊緣檢測,實驗結(jié)果證明改進后的算法圖像邊緣檢測準確,細節(jié)處理較好?!嶒灲Y(jié)果利用本章第二節(jié)提出的改進Canny算子邊緣檢測方法可以看出,該算法對復(fù)雜背景圖像中的文本定位有不錯的效果,文本區(qū)域幾乎都被定位出來了。(3) 去掉矩形框內(nèi)文本區(qū)域面積不合要求的矩形框。本文中將部分包含文本區(qū)域劃分為文本區(qū)域。算法基本思想:找到連通區(qū)域的第一個目標段標記該段并且壓入堆棧,作為“區(qū)域增長的種子段。動態(tài)閩值法充分考慮了像元的鄰域特征,能夠根據(jù)圖像的不同背景情況自適應(yīng)地改變閩值,可較精確地提取出二值圖像,但它過度地夸大了像元的鄰域灰度的變化,會把不均勻灰度分布的背景分割到目標中去,帶來許多不應(yīng)出現(xiàn)的假目標。邊緣密度圖如圖3—5所示。由于賦予窗口中心點較大的權(quán)重,因此中心加權(quán)算法能更好地保護圖像的細節(jié)。在分析算法之前,先作如下定義: (316) (317) (318) 其中,表示濾波窗口,表示噪聲統(tǒng)計窗口。因此文本提出一種改進的Canny算法,用中心加權(quán)改進的均值濾波算(CWMTM,Center Weighted Modified Trimmed Mean)取代高斯濾波算法。這一步實際是一個低通濾波過程,用于消除空尺度小于高斯空間系數(shù)仃的圖像灰度變化。在線性濾波邊緣檢測方法中,最具代表性的是Canny邊緣檢測方法。這些算子樣板由理想的邊緣子圖像構(gòu)成,依次用邊緣樣板檢測圖像,與被檢測區(qū)域最為相似的樣板給出最大值。當使用大的領(lǐng)域時,抗噪聲特性會更好,但這樣做會增加計算量,并且得到的邊緣也比較粗。2 4 4 4 2 4 0 8 0 4 4 8 24 8 4 4 0 8 0 4 2 4 4 4 2 圖32 拉普拉斯算子的55模版2)Roberts邊緣檢測由Roberts提出的算子是一種利用局部差分算子尋找邊緣的算子,它在22鄰域上計算對角導數(shù): (34)G(x,y)又稱為Roberts交叉算子,在實際應(yīng)用中為了簡化計算,用梯度函數(shù)的Roberts絕對值來近似: (35)另外還可以用Roberts最大值來計算: max() (36)上式能夠提供較好的不變性邊緣取向。因此,有必要求出斜率的變化率,即對圖像函數(shù)進行二階微分運算。經(jīng)典的邊緣檢測方法,是對原始圖像中像素的某小鄰域來構(gòu)造邊緣檢測算子。第三章  基于邊緣檢測的文本定位方法研究 引言從視覺的角度來看,人們在觀察一幅圖像時,最先得到的信息就是圖像的輪廓,也就是圖像的邊緣信息。Tan[25]等采用金字塔方法從地圖中分離字符,適用于GIS領(lǐng)域。大尺度的稱為Central Ridge,小尺度的稱為Skeleton Ridge。Lyu[21]等人也提出了一種提取視頻中文字的方法?!』谶吘壍奈谋径ㄎ环椒? 基于邊緣的方法,認為文本與背景顏色之間有一定的對比度,通過邊緣檢測的方法可以有效的檢測到字符的邊緣,而且文本區(qū)域通常含有較高的邊緣密度?;诩y理的方法有針對子窗口或者象素點提取紋理特征兩種。因此,人們提出了基于學習的方法以自動分類紋理。兩個神經(jīng)網(wǎng)絡(luò)中一個用于檢測水平方向的紋理,一個用于檢測垂直方向的紋理。實驗采用的圖像具有不同分辨率和背景復(fù)雜度,其中的文字大小、風格也各不相同,%的準確率。Kim[20]等人利用RGB空間的顏色聚類來分割圖像,然后去除明顯的非文本區(qū)域,如細長的水平線段、圖像邊框等;文本區(qū)域通過投影分析來提??;最后將這些文本區(qū)域基于知識規(guī)則進行合并?,F(xiàn)在解決特定模式分類問題的關(guān)鍵就是提取有效的目標特征,然后選擇適當?shù)姆诸愃惴ā_B通成分分析和排列分析方法合并排列方向相同、尺寸相似的相鄰連通成分形成連通區(qū)域;形態(tài)學膨脹運算、均值偏移算法利用邊緣點或小區(qū)域之間的空隙形成連通區(qū)域;水平或垂直投影方法和變異直方圖方法統(tǒng)計圖像水平或垂直方向全部或部分文本特征的值,然后對投影曲線或變異直方圖進行分析提取文本區(qū)域。兩者都可以統(tǒng)一在復(fù)雜背景圖像的文本定位中。例如:拍攝圖像中的車站站牌、汽車車牌等等。 從上面列出的特征中,我們可以發(fā)現(xiàn)有很多信息幫助我們處理文本。本文在國內(nèi)外學者研究的基礎(chǔ)上,對復(fù)雜背景圖像中文本的定位進行了進一步的研究。微軟亞洲研究院也在進行相關(guān)方面的研究,并取得一定的成就。在文獻[5]中作者提出基于梯度的文本提取方案,在經(jīng)過濾波的彩色圖像中提取四個不同方向、不同尺度大小的梯度圖像,然后對該圖像進行二值化和聚類,最后進行連通域分析,得到單個字符。對原來輸入的圖像顏色聚類,如果候選矩形框附近的像素的顏色與候選矩形框內(nèi)的顏色在一個閾值范圍之內(nèi),則將該像素合并到候選矩形框內(nèi)。(6)字符的背景復(fù)雜多變,無法預(yù)測。復(fù)雜背景圖像中的文本具有以下的特點:(1)文本區(qū)域中的字符一般成有規(guī)律的排列,字符間隔一致,排列方向一致,一般以水平排列居多。如何從復(fù)雜背景中準確快速的定位出文本區(qū)域以及如何降低遺漏的文字,這就是目前復(fù)雜背景圖像中的文本定位在圖像領(lǐng)域的一個研究熱點和難點。(4)實時處理護照、票據(jù)、身份證等。如果能夠找到解決這些問題的方法,構(gòu)造出解決復(fù)雜背景下的文本定位模型,對于豐富圖像處理理論,對于基于內(nèi)容的視頻檢索技術(shù)的發(fā)展,具有重要的理論意義和實用價值。隨著光學字符識別(OCR)技術(shù)的興起,許多學者開始進行文檔圖像中文字定位與提取的研究。復(fù)雜背景文本定位是一個具有較大難度性的研究課題,原因是文本圖像的背景非常復(fù)雜,圖像大多在室外拍攝,光照條件變化較大,其中不同文字的顏色、亮度、字體、大小、間距、對比度、排列方向和背景紋理等有很大差別。進一步,通過將定位出的候選文本區(qū)域運用支持向量機的分類器訓練的方法來提高文本定位的準確性。這項工作不但費時費力,而且手工的標注往往是不準確或不完整的,還不可避免地帶有主觀偏差。(3)圖像、視頻檢索。文本區(qū)域定位就是找出圖像中文本所在的位置或剛好包圍文本的矩形區(qū)域,是文本識別非常關(guān)鍵的一步,文本定位的精確與否直接決定整個識別系統(tǒng)準確率的高低。國外主要有美國的加州大學、IBM公司、MIT以及韓國和日本的主要研究機構(gòu)等。(5)同一文本區(qū)域中的字符一般具有統(tǒng)一的顏色、大小、字體。諸多因素使得復(fù)雜背景圖像中的文本定位成為一項極具挑戰(zhàn)性的研究課題??偟膩碚f基于圖像分割或顏色分層的文本定位方法對于高清晰度的圖像,如雜志、封面等效果比較理想,而對于分辨率比較低,并且字符的字體比較小的圖像,則效果比較差。應(yīng)用該方法定位出來的文本塊空間位置比較精確,但是該方法有很大的局限性,對于字體很大的文本、對比度小的文本,效果就很差了。(3)算法評價:對文本定位算法評價的研究目前還非常的不夠,還沒有一種國際通用的方法,也沒有一個通用的評測數(shù)據(jù)庫,導致了算法間無法客觀、公正地進行比較。首先對圖像進行金字塔分解;然后在Canny算子邊緣檢測的研究基礎(chǔ)上,提出了一種改進的Canny算子;隨后進行連通區(qū)域分析,對文本區(qū)域進行鑒定與合并,定位出候選文本區(qū)域。 (2)由于光照的不均勻、噪聲和壓縮的影響,文本的色彩也是不一致的,因此文本區(qū)域內(nèi)部色彩的同一性不能被嚴格地假設(shè)。人工文本一般比較規(guī)整,與背景之間具有較大的對比度,為了便于讓人閱讀,字符一般都具有一定的大小,字符的顏色比較一致?!∥谋咎卣魈崛τ诓煌奈谋咎卣餍枰捎貌煌膱D像處理技術(shù)提取,各種文本定位方法文本特征提取與分類所用的技術(shù),如表21所示。文本區(qū)域驗證的方法有:用候選文本區(qū)域的高、寬、高寬比和面積進行文本區(qū)域驗證:用候選文本區(qū)域的尺寸、偏心率、飽和度、強度變化與用置信度加權(quán)的排列值(Align Value)進行文本區(qū)域驗證;用候選文本區(qū)域內(nèi)邊緣點的密度進行文本區(qū)域驗證;用候選文本區(qū)域的直方圖分布、字符的結(jié)構(gòu)、字符的排列信息和字符識別進行文本區(qū)域驗證;用支持向量機進行文本區(qū)域驗證。基于區(qū)域的文本定位方法主要使用的分割方法有:顏色聚類,顏色量化,利用直方圖的分割等。Jain和Yu先把24bits的真彩色圖像降低為6bits的彩色圖像,再用顏色聚類的方法把原圖像分解成不同顏色的子圖像;檢查每幅子圖像中是否包含滿足特定啟發(fā)式搜索的文本;最后將每幅子圖像中檢測到的文本區(qū)域進行合并Sochang 2Pei等人首先用一個SOFM神經(jīng)網(wǎng)絡(luò)對輸入圖像進行顏色量化,然后分析三維彩色直方圖;當某一顏色處的梯度大于閾值時,則認為該顏色可能是文本顏色,并將該顏色所占區(qū)域賦值為1,其它為0,從而得N值子圖像。這類方法通常將整幅圖像分割成互不重疊的子塊,然后使用各種方法,如Gabor濾波、空間方差、小波變換等來得到子塊中的紋理特征,然后使用一個適當?shù)姆诸惼鲗γ總€子塊進行分類(文本和非文本),通常使用的分類器有:神經(jīng)網(wǎng)絡(luò)、支持向量機、Adaboost等。Mao等人利用小波變換檢測圖像紋理,再通過紋理分析進行文本定位。Kim[20]將支持向量機(SVM)用于分析圖像中文本的紋理特性?;诩y理的方法一般很難準確的定位字符區(qū)域的邊框,一般在利用紋理進行定位之后,還需提取定位窗口中的連通分量進行更為準確的定位和抽取。但是有些顏色雖然在RGB空間有明顯的差異,但轉(zhuǎn)換到灰度空間后灰度值卻相似,這種情況下該算法處理起來就較為困難,Datong Chen等人先用Canny算子提取圖像邊緣,利用形態(tài)學膨脹的方法將邊緣連接成塊;再利用基線定位和啟發(fā)性知識限制獲得文本行:最后利用支持向量機進一步確認文本行?!∑渌椒ㄊ褂萌N方法(對應(yīng)三類特征)分別進行文本定位,然后再將這些定位的結(jié)果組合到一起的組合策略為:如果各個文本框之間有80%是重合的就認為是文本區(qū)域,否則再用一個基于SVM的方法進行確認。還有Zhong[23]等人,在視頻文本的檢測中使用了88壓縮域DCT方法。復(fù)雜背景中的文字相對于其背景來說還是有著自身顯著的特征,充分利用這些特征,尋找行之有效的檢測算法。 邊緣檢測邊緣檢測的實質(zhì)是采用某種算法來提取出圖像中對象與背景間的交界線。如圖3l中,小的字符在底層子圖上被檢測到,而在高層的子圖上找到了較大的字符,最后的定位結(jié)果中包含了不同大小的文本區(qū)域。高斯濾波器是一個良好的平滑濾波器,它能比較好的把噪聲點消除。其梯度大小為: (38)或取絕對值: (39)它的卷積算子 1 0 1 1 2 1 2 0 2 0 0 0 1 0 1 1 2 1由上面兩個卷積算子對圖像運算后,代入式(39),可求的圖像的梯度幅值g(x,y),然后適當選取門限TH,作如下判斷:g(x,y)TH,(i,j)為階躍狀邊點,為一個二值圖像,{g(i,j也就是圖像的邊緣圖像。它的卷積算子為: 1 0 1 1 1 1 1 0 1 0 0 0 1 0 1 1 0 1當用兩個掩模板(卷積算子)組成邊緣檢測器時,通常取較大的幅度作為輸出值,這使得它們對邊緣的走向有些敏感。(3)對噪聲都比較敏感。因此,Canny算法不容易受噪聲的干擾,能夠檢測到真正的弱邊緣。然后將極大值抑制后的圖像按進行兩次閾值處理,將梯度小于閾值的像素灰度置為0。由于選用中值作為灰度窗口的中心,因此MTM濾波器能有效地濾除脈沖噪聲。由于噪聲與圖像信號,特別是與圖像細節(jié)相比變化較慢,因此噪聲窗口的尺寸可以選得比濾波窗口大。但是文本區(qū)域相對于背景區(qū)域來說邊緣密度要大得多,即在以某個像素為中心的一個固定的窗口內(nèi),文本區(qū)域窗口內(nèi)邊緣像素的數(shù)量要大于背景區(qū)域窗口內(nèi)邊緣像素的數(shù)量,文字筆畫的邊緣分布比較集中,邊緣密度更好地代表了文本區(qū)域的邊緣特征。法,它反映了整個圖像灰度分布情況,如Ostu算法是一種經(jīng)典的整體閾值方但它單一闋值的特性決定了它的抗噪能力較差。當連通區(qū)域形狀不規(guī)則時,傳統(tǒng)的像素標記法以及線標記法執(zhí)行效率嚴重下降,算法的大部分時間浪費在對沖突標記的處理上,而區(qū)域增長法當圖像中的連通區(qū)域的面積較大時,需要對每個目標像素點進行8鄰域的判斷,效率也極大下降。該方法不僅充分利用區(qū)域的鄰域信息,而且一次掃描就可以標記出圖像中所有目標物體,不會出現(xiàn)標號沖突的現(xiàn)象,真正做到了快速、簡單。如果方框的高寬不滿足上式的要求,則篩掉此方框。對于相交文本框采用合并的方法m。表31 實驗結(jié)果數(shù)據(jù)圖像總數(shù)100失敗圖像數(shù)4 失敗率4%實際文本總數(shù)778正確定位的文本數(shù)463%錯誤定位的文本數(shù)366%未被定位的問本數(shù)315%其中:準確率=虛假率=漏檢率==1準確率實驗結(jié)果表明,基于改進的Canny算子的文本定位方法效果較好。本文對這一課題進行了研究,具有理論意義與應(yīng)用價值。如果能夠開發(fā)出新的更為有效的特征或者能夠?qū)崿F(xiàn)對各種特征的融合,如:紋理特征與連通域特征的融合,是今后需要著重研究的重點,運用更為有效的分類方法也是今后研究的一個重點工作。第四章  總結(jié) 復(fù)雜背景下的文本定位研究對于今天這樣一個信息時代有重要的意義。本文采用失敗率、文本定位準確
點擊復(fù)制文檔內(nèi)容
范文總結(jié)相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1