freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

軟件工程畢業(yè)設(shè)計(jì)-圖像檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)-文庫(kù)吧資料

2024-12-12 09:43本頁(yè)面
  

【正文】 rix 的工作 是不斷循環(huán)的,具體流程是: (1) 在線程池中,選擇一個(gè)預(yù)定的 URL 中 (2) 從選擇的 URL網(wǎng)址下載遠(yuǎn)程文件 (3) 分析,歸檔下載到的內(nèi)容,寫入磁盤鏡像目錄 (4) 從分析到的內(nèi)容里面根據(jù)策略選擇 URL,加入預(yù)定隊(duì)列 (5) 標(biāo)記已經(jīng)處理過(guò)的 URL (6) 從第一步繼續(xù)進(jìn)行,直到所有的 URL處理結(jié)束,抓去工作結(jié)束 Heritrix 的操作模型: 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(jì)(論文) 8 圖 21 Heritrix的模型操作圖 Heritrix 結(jié)構(gòu)分析: 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(jì)(論文) 9 圖 22 Heritrix的組件結(jié)構(gòu)圖 各個(gè)組件的作用: (1) CrawlController CrawlController(中央控制器 )是抓取任務(wù)的核心組件,他控制著整個(gè)抓取 的流程 ( 2) CrawlOrder CrawlOrder(抓取任務(wù) )是整個(gè)抓取工作的起點(diǎn),它記錄了任務(wù)的所有屬性。 Heritrix 是一個(gè)有 JAVA 開(kāi)發(fā)的 web網(wǎng)絡(luò)爬蟲(chóng),用戶可以使用它從網(wǎng)絡(luò)上抓取自己想要的資源。第一次正式發(fā)布實(shí)在 2021 年 1月。本章就圖像檢索的發(fā)展及本 文待改進(jìn)的地方做一個(gè)展望。 第四章 ,圖像檢索系統(tǒng)的搭建:如何建立圖片信息數(shù)據(jù)庫(kù), Web 頁(yè)面, Action及圖片檢索系統(tǒng)的實(shí)現(xiàn)和結(jié)果展示。 第二章 , Heritrix 應(yīng)用開(kāi)發(fā)擴(kuò)展:簡(jiǎn)要介紹 Heritrix,以及本文何擴(kuò)展Hertrix 的方法,網(wǎng)頁(yè)爬取的效果總結(jié)。綜合運(yùn)用 java 語(yǔ)言,圖像檢索,網(wǎng)絡(luò)爬蟲(chóng),網(wǎng)頁(yè)分析及 Web 開(kāi)發(fā)等相關(guān)技術(shù)。 HTML 提供了提取文本信息的 API, 是搜索引擎開(kāi)發(fā)者拜托了繁瑣的正則匹配過(guò)程,只需要通過(guò)這些 API,就可以方便的提取額特定文本,打打提高工作效率。正則表達(dá)式通過(guò)自定義的正則模式去精確的提取文本信息,但需要寫大量的正則表達(dá)式,編寫和調(diào)試正則表達(dá)式是一個(gè)繁瑣的過(guò)程。 ( 1)正則表達(dá)式:正則表達(dá)實(shí)施功能強(qiáng)大的文本分析工具,在不同語(yǔ)言中都得到了體現(xiàn)。在實(shí)際項(xiàng)目中,最常用的就是用正則表達(dá)式或 HTMLParser 來(lái)提取額網(wǎng)頁(yè)的內(nèi)容 。 HTML 文件經(jīng)過(guò)瀏覽器解析后,轉(zhuǎn)換成可視化的 Web 頁(yè)面。絕大多數(shù)元素是以一個(gè)其實(shí)標(biāo)記開(kāi)始,一個(gè)結(jié)尾標(biāo)記結(jié)束,其實(shí)標(biāo)記和結(jié)尾標(biāo)記之間的部分是元素體。從結(jié)構(gòu)上講, HTML 文件由元素組成。這就需要用到網(wǎng)頁(yè)分析及信息提取技術(shù)。其中,網(wǎng)頁(yè)特征可以是網(wǎng)頁(yè)的內(nèi)容特征,也可以是網(wǎng)頁(yè)的鏈接結(jié)構(gòu)特征,等等?;谀繕?biāo)網(wǎng)頁(yè)特征的爬蟲(chóng)所抓取、存儲(chǔ) 并索引的對(duì)象一般為網(wǎng)站或網(wǎng)頁(yè)。這兩個(gè)部分的算法又是緊密相關(guān)的。 抓取目標(biāo)的描述和定義是決定網(wǎng)頁(yè)分析算法與 URL 搜索策略如何制訂的基礎(chǔ)。另外,所有被爬蟲(chóng)抓取的網(wǎng)頁(yè)將會(huì)被系統(tǒng)存貯,進(jìn)行一定的分析、過(guò)濾,并建立索引,以便之后的查詢和檢索;對(duì)于網(wǎng)絡(luò)爬蟲(chóng)來(lái)說(shuō),這一過(guò)程所得到的分析結(jié)果還可能對(duì)以后的抓取過(guò)程給出反饋和指導(dǎo)。改進(jìn)后的網(wǎng)絡(luò)爬蟲(chóng)的工作流程較為復(fù)雜,需要根據(jù)一定的網(wǎng)頁(yè)分析算法過(guò)濾與主題無(wú)關(guān)的鏈接,保留有用的鏈接并將其放入等待抓取的 URL 隊(duì)列。網(wǎng)絡(luò)爬蟲(chóng)是一個(gè)自動(dòng)提取網(wǎng)頁(yè)的程序,它為搜索引擎從萬(wàn)維網(wǎng)上下載網(wǎng)頁(yè),是搜索引擎的重要組成。網(wǎng)絡(luò)爬蟲(chóng)是一個(gè)自動(dòng)下載網(wǎng)頁(yè)的程序,它根據(jù)既定的抓取目標(biāo),有選擇的訪問(wèn)萬(wàn)維網(wǎng)上的網(wǎng)頁(yè)與相關(guān)的鏈接,獲取所需要的信息。 (4) 通用搜索引擎大多提供基于 關(guān)鍵字的檢索,難以支持根據(jù)語(yǔ)義信息提出的查詢。 (2) 通用搜索引擎的目標(biāo)是盡可能大的網(wǎng)絡(luò)覆蓋率,有限的搜索引擎服務(wù)器資源與無(wú)限的 網(wǎng)絡(luò)數(shù)據(jù) 資源之間的矛盾將進(jìn)一步加深。搜索引擎 (Search Engine),例如傳統(tǒng)的 通用搜索引擎 AltaVista, Yahoo!和 Google 等,作為一個(gè)輔助人們檢索信息的工具成為用戶訪問(wèn)萬(wàn)維網(wǎng)的入口和指南。用戶在選擇服務(wù)提供商時(shí),除了關(guān)注價(jià)格和功能指標(biāo)外,或許會(huì)更加關(guān)注服務(wù)商能否長(zhǎng)期提供本地化的服務(wù)。 CBR 中包括了對(duì)動(dòng)態(tài)視頻、音頻等其他形式多媒體信息的檢索技術(shù)。這種技術(shù)能夠?qū)D像 的顏色、紋理、布局進(jìn)行分析并檢索。但是,用戶使用 GazoPa 提供的服務(wù),被搜索的圖像不具備 文本信息,也可能被搜索到。它提供的搜索圖像服務(wù)的特色在于,可以提取圖像中商品的形狀、顏色等信息。以 PowerSet 和WolframAlpha 為代表的問(wèn)答式精準(zhǔn)搜索近來(lái)受到廣泛關(guān)注。當(dāng)一個(gè)人提問(wèn)之后,經(jīng)過(guò)一個(gè)或多個(gè)人的回答,此人就可以找到自己所需要的信息。這是現(xiàn)有搜索技術(shù)最大的問(wèn)題。用戶如果想在互聯(lián)網(wǎng)海量信息中快速、簡(jiǎn)便地尋找到自己想要的信息而不受干擾,需要搜索技術(shù)對(duì)檢索者的想法進(jìn)行臆 測(cè)。微軟目前正式推出的新型搜索引擎 Bing 就整合了 Powerset 的語(yǔ)義搜索技術(shù)。 未來(lái),搜索技術(shù)將朝著三個(gè)方向發(fā)展:包括聯(lián)想在內(nèi)的語(yǔ)義搜索,檢索圖像、天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(jì)(論文) 3 語(yǔ)音、動(dòng)畫內(nèi)容的感性搜索,通過(guò)傳感技術(shù)搜索現(xiàn)實(shí)世界對(duì)象的現(xiàn)實(shí)挖掘。適合率指搜索結(jié)果中符合要求的數(shù)據(jù)比例,可以通過(guò)減少非適合數(shù)據(jù)提高這一比例。未來(lái),全新的搜索服務(wù)模式將出現(xiàn)。 技術(shù)趨勢(shì) :在互聯(lián)網(wǎng)時(shí)代,包括文件、圖像、語(yǔ)音、動(dòng)畫、視頻、虛擬世界等在內(nèi)的數(shù)據(jù)呈指數(shù)級(jí)增長(zhǎng),搜索技術(shù)顯得越來(lái)越 重要。 2021 年以后 :階梯式搜索方法將投入使用。將語(yǔ)義搜索用于特定領(lǐng)域或?qū)ο髸r(shí),可以達(dá)到高度適合率和再現(xiàn)率,這一結(jié)論已 經(jīng)得到實(shí)際驗(yàn)證。通過(guò)對(duì)博客及 SNS 等媒體公布的有關(guān)公司產(chǎn)品或宣傳活動(dòng)的評(píng)測(cè)進(jìn)行即時(shí)分析,可以為企業(yè)的市場(chǎng)運(yùn)營(yíng)提 供更多有益的參考。 下一代搜索技術(shù): 2021~ 2021 年 :具有聯(lián)想技術(shù)和分析功能的搜索服務(wù)逐漸興起。發(fā)揮各自的優(yōu)勢(shì)促進(jìn)圖像的高效、簡(jiǎn)單檢索方式的實(shí)現(xiàn),尤其是網(wǎng)絡(luò)環(huán)境下,結(jié)合圖像所 在 Web 文檔的特征分析,推斷圖像的特征,同時(shí)結(jié)合對(duì)圖像的內(nèi)容分析,共同標(biāo)引達(dá)到對(duì)圖像的分析和檢索。不過(guò),基于內(nèi)容的圖像檢索建立在多媒體信息的內(nèi)容語(yǔ)義上,能夠更為客觀地反映媒體本質(zhì)的特征。 立足于圖像內(nèi)容,對(duì)圖像進(jìn)行分析和檢索。如 PageRank 方法、概率方法、位置方法、摘要方法、分類或聚類方法、詞性標(biāo)注法等,不僅技術(shù)發(fā)展較為成熟 ,同時(shí)分析 和實(shí)現(xiàn)的難度略小。 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(jì)(論文) 2 立足于文本,對(duì)圖像進(jìn)行檢索。目前已有不少應(yīng)用于實(shí)踐環(huán)境的基于內(nèi)容圖像檢索系統(tǒng),如由 IBM 公司開(kāi) 發(fā) 的最早商業(yè)化 QBIC 系統(tǒng),以及由哥倫比亞大學(xué)研發(fā)的WebSeek 系統(tǒng)、麻省理工學(xué)院研發(fā)的 Photobook 系統(tǒng)等。 基于內(nèi)容的圖像檢索根據(jù)圖像特征、圖像的內(nèi)容語(yǔ)義以及上下文聯(lián)系進(jìn)行查找,以圖像語(yǔ)義特征為線索從圖像數(shù)據(jù)庫(kù)中檢出具有相似特性的其它圖像。 圖像檢索的國(guó)內(nèi)外發(fā)展?fàn)顩r 從 20 世紀(jì) 70 年代開(kāi)始,有關(guān)圖像檢索的研究就已開(kāi)始,當(dāng)時(shí)主要是基于文本的圖像檢索技術(shù)( Textbased Image Retrieval,簡(jiǎn)稱 TBIR),利用文本描述的方式描述圖像的特征,如繪畫作品的作者、年代 、流派、尺寸等。 目前主流的圖像檢索方法大致可以分為兩大類 ,即基于文本的圖像檢索(TBIR)和基于內(nèi)容的圖像檢索 (CBIR)。 圖像檢索一直是信息檢索領(lǐng)域的一個(gè)主流問(wèn)題,涉及到圖像處理、圖像分割、模式識(shí)別及機(jī)器學(xué)習(xí)等多個(gè)方面。開(kāi)發(fā)語(yǔ)言為 Java, 開(kāi)發(fā)工具為 MyEclipse 和MySQL 及 Tomcat. 關(guān)鍵詞: 圖像檢索,網(wǎng)絡(luò)爬蟲(chóng), Heritrix, HTMLParser, 網(wǎng)頁(yè)信息提取 ABSTRACT With the rapid development of work information on the explosive growth of images, which makes it on the Inter more and more difficult to find the images, image search technology bee a very hot research topic. The collection of images and indexing for image retrieval is a very important aspect. Web crawler is used to collect Web pages and pictures of the program. This study focuses on using the Heritrix Web crawler framework to extend, from the Inter and download web pages and images for web use HTMLParser information extraction and image analysis. After pletion of the work, then the image directory location and the extracted information into a database. And a picture retrieval system for Web projects, to achieve search function. Development language for Java, and MySQL development tools for the MyEclipse and Tomcat. Keywords: image retrieval, web crawler, Heritrix, HTMLParser, Web information extraction 1 目 錄 第一章 文獻(xiàn)綜述 ????????????????? 1 圖像檢索的研究意義 ????????????? 1 圖像檢索的國(guó)內(nèi)外發(fā)展?fàn)顩r ?????????? 1 網(wǎng)絡(luò)爬蟲(chóng)技術(shù)在搜索引擎中的應(yīng)用 ??????? 3 網(wǎng)頁(yè)分析和信息提取技術(shù) ??????????? 4 本文的研究重 點(diǎn),系統(tǒng)結(jié)構(gòu)和內(nèi)容 ???????? 5 第二章 Heritrix 應(yīng)用開(kāi)發(fā)擴(kuò)展 ??????????? 7 Heritrix簡(jiǎn)介 ?? ??????????????? 7 Heritrix 抓取策略及改進(jìn) ???????????? 9 Heritrix抓取過(guò)程 ?????????????? 10 網(wǎng)頁(yè)爬結(jié)果 ???????????????? 13 第三章 HTMLParser 圖片相關(guān)信息提 取 ? ?? ??? 14 HTMLParser 簡(jiǎn)介 ??????????????? 14 圖片信息提取策略 ????????????? 14 圖片信息提取的實(shí)現(xiàn)方法 ??????????? 15 實(shí)驗(yàn)提取結(jié)果 ???????????????? 17 第四章 圖像檢索系統(tǒng)的搭建 ? ?????????? 18 數(shù)據(jù)庫(kù)的建立 ??????????????? 18 系統(tǒng)的實(shí)現(xiàn)框架和結(jié)構(gòu) ???????????? 21 檢索結(jié)果展示 ???????????????? 23 2 第五章 總結(jié)和展望 ?? ? ???????????? 25 參考文獻(xiàn) ???????????????????? 26 附錄 ?????????????????????? 27 外文資料 中文譯文 致謝 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(jì)(論文) 1 第一章 文獻(xiàn)綜述 圖像檢索的研究意義 為了解決上述問(wèn)題,定向抓取相關(guān)網(wǎng)頁(yè)資源的網(wǎng)絡(luò)爬蟲(chóng)應(yīng)運(yùn)而生。完成上述工作后,再將圖片的目錄位置和提取的信息存入數(shù)據(jù)庫(kù)。網(wǎng)絡(luò)爬蟲(chóng)程序就是用來(lái)搜集網(wǎng)頁(yè)和圖片 的程序。基于 HTMLParser的網(wǎng)頁(yè)信息提取 [J] .兵工自動(dòng)化 (第 7期 ), 2021, 7. 選題是 否合適: 是□ 否□ 課題能否實(shí)現(xiàn): 能□ 不能□ 指導(dǎo)教師(簽字) 年 月 日 選題是否合適: 是□ 否□ 課題能否實(shí)現(xiàn): 能□ 不能□ 審題小組組長(zhǎng)(簽字) 年 月 日 摘 要 隨著互聯(lián)網(wǎng)的飛速發(fā)展,網(wǎng)絡(luò)上的圖片信息呈爆炸式增長(zhǎng),這使得人們?cè)诰W(wǎng)上找到所需的圖片越來(lái)越困難,圖片檢索技術(shù)成為當(dāng)今非常熱門的研究話題。 六、 進(jìn)度安排 2021 年 1月 20日 2021 年 2月 10日 閱讀圖像檢索相關(guān)資料,初步了解
點(diǎn)擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1