【正文】
基于文本的 Web 圖片搜索引擎的研究 論文 題目: 基于文本的 Web 圖片搜索引擎的研究 姓 名: 學(xué) 號(hào): 系 別: 計(jì)算機(jī)科學(xué)技術(shù)系 專 業(yè): 計(jì)算機(jī)應(yīng)用 研究方向: 網(wǎng)絡(luò)與通訊 導(dǎo) 師: 摘 要 本文研究工作是針對(duì) Web 圖片搜索引擎的應(yīng)用背景,以構(gòu)建大型 Web 圖片搜索引擎為目標(biāo),提出基于文本檢索方式的 Web 圖片搜索引擎設(shè)計(jì)方案。 文中介紹和研究了一系列與 Web 圖片搜索引擎相關(guān) 的技術(shù),包括網(wǎng)頁(yè)抓取、相關(guān)性排序( VSM 和 LSI)、信息提取、信息索引等,這些技術(shù)將被應(yīng)用到文中提出的系統(tǒng)設(shè)計(jì)方案中。 本文重點(diǎn) 地研究如何從 HTML 文檔中提取圖片相關(guān)信息,保證高效和準(zhǔn)確的實(shí)現(xiàn)圖片檢索 。 在 對(duì) 真實(shí)數(shù)據(jù) 進(jìn)行 實(shí)驗(yàn)和分析的基礎(chǔ)上 , 提出了若干關(guān)鍵技術(shù), 用于系統(tǒng)的設(shè)計(jì) , 現(xiàn)歸納如下: 1) 本文提出的方法通過(guò)細(xì)致地分析 HTML 文件的 img標(biāo)記、 a標(biāo)記、 基于文本的 Web 圖片搜索引擎的研究 網(wǎng)頁(yè)標(biāo)題、網(wǎng)頁(yè)的超鏈接文本、圖片 URL、 meta標(biāo)記、關(guān)聯(lián)的 a和 img結(jié)構(gòu)、 table結(jié)構(gòu)、圖片周圍文本等部分的結(jié)構(gòu)特點(diǎn),并利用真實(shí)數(shù)據(jù)進(jìn) 行實(shí)驗(yàn)驗(yàn)證,總結(jié)了 9 條提取模式,用于從這些結(jié)構(gòu)中提取與圖片相關(guān)的信息,以保證提取到的信息相關(guān)性程度較高。研究了三種具體的提取方法:基于 DOM 的方法、基于字符串的方法和基于Wrapper 的方法。 2) 提出了過(guò)濾無(wú)用圖片的方法,提高了系統(tǒng)中圖片的可用度。該方法將圖片文件大小小于某一閾值,圖片的長(zhǎng)或?qū)捫∮谀骋婚撝担瑘D片的長(zhǎng)寬比例超過(guò)某一閾值以及同一網(wǎng)頁(yè)內(nèi)通過(guò) img引用次數(shù)超過(guò)某一閾值的圖片作為無(wú)用圖片剔除。 3) 通過(guò)統(tǒng)計(jì)分析總結(jié)出 HTML 文件中表現(xiàn)出的一些潛在規(guī)律,比如 JPG和 GIF 的區(qū)別、 a和 img標(biāo)記的不 同意義以及圖片引用次數(shù)的不同意義。得到如下結(jié)論: JPG 重要性大于 GIF; a標(biāo)記來(lái)源圖片的重要性大于 img標(biāo)記的圖片; a引用次數(shù)越高的圖片重要性越高,而img引用次數(shù)高的圖片需要經(jīng)過(guò)過(guò)濾才能保證重要性較高。 4) 粗略地探討了將 LSI 算法應(yīng)用于圖片搜索引擎來(lái)整合文字和內(nèi)容信息的方法,并通過(guò)簡(jiǎn)單實(shí)驗(yàn)進(jìn)行了效果驗(yàn)證。 5) 設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)基于文本的 Web 圖片搜索引擎,給出了系統(tǒng)的總體結(jié)構(gòu)圖,并對(duì)獲取網(wǎng)頁(yè)、提取信息、圖片抓取和死鏈檢查、生成縮略圖、建立索引和提供查詢這 6 個(gè)工作流程進(jìn)行了詳細(xì)的描述,最后對(duì)系統(tǒng)的 使用效果和性能進(jìn)行了簡(jiǎn)單評(píng)測(cè)。 關(guān)鍵詞: Web 圖片搜索引擎 圖像檢索 基于文本 基于內(nèi)容 信息提取 基于文本的 Web 圖片搜索引擎的研究 III Abstract In the thesis, we form a scheme to design a largescale Web image search engine system using mainly textbased technology. We introduce and research a series of techniques related to Web image search engine, such as crawling, relevance ranking (VSM and LSI), information extraction and indexing. Those techniques will be used in our system design. We concentrate on how to extract information relevant to images from HTML documents more effectively and precisely. According to experiments and analysis on real data, we propose several key techniques as below for designing the system: 1) We analyze carefully the structure of HTML ponents including img tag, a tag, title of web page, anchor text of web page, URL of image, meta tag, table tag, surrounding text of img tag etc. And sum up nine extraction patterns to fetch information relevant to images. We also research three extracting methods: DOM based method, String based method and Wrapper based method. 2) We propose some methods to filter useless images according to file size, width and height of images and referred count of images by img tags. 3) Through statistics of mass of HTML documents, We conclude some latent rules, such as the difference between JPG and GIF, the difference between a tag and img tag, the difference between different referred count of images. 4) We Simply research the application method of LSI to integrate highlevel and lowlevel information of images. 5) We design and implement a textbased Web image search engine. The global structure of our system and relations of the ponents of system are introduced. Some ponents are detailed in function and implementation. Finally a simple evaluation about searching effect and performance is given. Keywords: Web image search engine, textbased, contentbased, information extraction 基于文本的 Web 圖片搜索引擎的研究 IV 目 錄 第 1 章 引言 .............................................................................................................. 1 背景 ................................................................................................................... 1 圖片檢索系統(tǒng)概述 .............................................................................................. 3 系統(tǒng)應(yīng)用領(lǐng)域 .............................................................................................. 3 用戶檢索方式 .............................................................................................. 3 系統(tǒng)評(píng)價(jià) ..................................................................................................... 4 研究現(xiàn)狀 ............................................................................................................ 5 現(xiàn)有圖片檢索系統(tǒng)簡(jiǎn)介 ....................................................................................... 6 本文的主要工作 ................................................................................................. 8 第 2 章 相關(guān)技術(shù) .................................................................................................... 10 網(wǎng)頁(yè)抓取技術(shù) ................................................................................................... 10 基本原理 ................................................................................................... 10 大型 Spider 的問題 .................................................................................... 10 相關(guān)性排序技術(shù) ............................................................................................... 11 VSM ......................................................................................................... 12 VSM 的改良: LSI ..................................................................................... 13 信息提取技術(shù) ................................................................................................... 15 基于內(nèi)容的提取技術(shù) ................................................................................. 15 基于文本的提取技術(shù) ................................................................................. 17 信息索引技術(shù) ................................................................................................... 18 索引方式 ................................................................................................... 18 提高索引的性能 ........................................................................................ 19 其它相關(guān)技術(shù) ................................................................................................... 20 本章小結(jié) ..................................