【正文】
軟件工程專業(yè)畢業(yè)論文 面向 web service 的網(wǎng)絡(luò)爬蟲(chóng)設(shè)計(jì)與實(shí)現(xiàn) +任務(wù)書(shū) +開(kāi)題報(bào)告 +外文翻譯 面向 web service 的網(wǎng)絡(luò)爬蟲(chóng)設(shè)計(jì)與實(shí)現(xiàn) 學(xué)生姓名 學(xué)院名稱 專 業(yè) 軟件工程 學(xué) 號(hào) 指導(dǎo)教師 職 稱 任務(wù)書(shū) 原始依據(jù)包括設(shè)計(jì)或論文的工作基 礎(chǔ)研究條件應(yīng)用環(huán) 境工作目的等 Web Services 技術(shù)是一種基于 XML 語(yǔ)言和標(biāo)準(zhǔn)的網(wǎng)絡(luò)協(xié)議實(shí)現(xiàn)的分布式計(jì)算技術(shù) Web Services 技術(shù)是可以改變軟件產(chǎn)業(yè)面貌和軟件應(yīng)用模式的技術(shù)之一 Web Services 技術(shù)可以將 Inter 上的各種信息資源和服務(wù)功能整合在一起在任何時(shí)間任何地點(diǎn)向用戶提供優(yōu)質(zhì)的服務(wù) Web Services 技術(shù)還有助于改變企業(yè)對(duì) IT系統(tǒng)的應(yīng)用方式和依賴程度所以 Web Services技術(shù)成為了網(wǎng)絡(luò)上的主流技術(shù)之一隨之也來(lái)的是大量的開(kāi)發(fā)人員開(kāi)始開(kāi)發(fā) Web 服務(wù)隨著時(shí)間的推移網(wǎng)絡(luò)上出現(xiàn)了大量的 Web 服務(wù) 但是大量的 Web 服務(wù)分布在網(wǎng)絡(luò)中的各個(gè)地方給用戶尋找特定功能的服務(wù)造成了不小的麻煩也給服務(wù)開(kāi)發(fā)者在原有的服務(wù)上進(jìn)行再次開(kāi)發(fā)造成了不便本課題的任務(wù)就是研究如何把網(wǎng)絡(luò)上分散的 Web 服務(wù)搜集在一起 參考文獻(xiàn) [1]孫立偉何國(guó)輝吳禮發(fā)網(wǎng)絡(luò)爬蟲(chóng)技術(shù)研究 Computer Knowledge and Technology 電腦知識(shí)與技術(shù) Vol4No15May 2021pp41124115 李盛韜余智華程學(xué)旗 Web 信息采集研究進(jìn)展 J 計(jì)算機(jī)科學(xué) 2021 SChakrabartiMvan den Berg and sed Crawling A New Approach to TopicSpecifi Web Resource Discovery[C]In Proceedings of the 8th International World Wide Web Conference Toronto Canada 1999 [4]鄭力明易平 Design of Crawler Based on 6HTML Parser Information Extraction 微計(jì)算機(jī)信息 Microputer Information09June2021 J Cho H GarciaMolina The evolution of the web and implications for an incremental crawler [C] In Proceedings of the 26th International Conference on Very Large Database Cairo Egypt 2021 [6]李文澤個(gè)性化垂直搜索引擎研究河南大學(xué) 20211107 []曾偉輝李淼 深層網(wǎng)絡(luò)爬蟲(chóng)研究綜述 [J] 計(jì)算機(jī)系統(tǒng)應(yīng)用 2021 []周立柱 林 玲 聚焦爬蟲(chóng)技術(shù)研究綜述 [J]計(jì)算機(jī)應(yīng)用 2021 年 9 月 [9]S Chakrabarti M van den Berg and B Dom Focused Crawling A New Approach to TopicSpecific Web Resource Discovery [C] In Proceedings of the 8th International World Wide Web Conference Toronto Canada 1999 [10]陳汶濱夏學(xué)梅 基于聚焦爬蟲(chóng)的手機(jī)天氣預(yù)報(bào)系統(tǒng) [J] 今日科苑 2021年第 2 期 [1]邱哲符滔滔 開(kāi)發(fā)自己的搜索引擎 Lucene 20Heritrix 人民郵電出版社 20214 [1]羅剛 自己動(dòng)手寫(xiě)網(wǎng)絡(luò)爬蟲(chóng) 清華大學(xué)出版社 2021101 []Heritrix 官方網(wǎng)站 [EBOL] cra [1]seeda 網(wǎng)站 [EBOL] webserv []網(wǎng)絡(luò)爬蟲(chóng) [EBOL] bview284853htmWeb 服務(wù)的網(wǎng)站地址 根 據(jù)種子地址搜索種子網(wǎng)站上的 Web 服務(wù) 把搜索到的 Web 服務(wù)相關(guān)信息存入數(shù)據(jù)庫(kù)中 為了達(dá)到以上目的本系統(tǒng)將對(duì) Heritrix 開(kāi)源框架進(jìn)行擴(kuò)展并針對(duì)服務(wù)網(wǎng)站上服務(wù)的特點(diǎn)選擇合適的爬蟲(chóng)抓取過(guò)程 當(dāng)服務(wù)網(wǎng)站提供了詳細(xì)的服務(wù)信息且網(wǎng)站服務(wù)的分布結(jié)構(gòu)是有規(guī)律的那么通過(guò)對(duì)網(wǎng)站結(jié)構(gòu)的分析可以得到網(wǎng)站中服務(wù)分布的一顆樹(shù)并用形式化語(yǔ)言描述這棵樹(shù)而經(jīng)過(guò)擴(kuò)展之后的爬蟲(chóng)對(duì)這顆樹(shù)進(jìn)行遍歷就實(shí)現(xiàn)了抓起網(wǎng)絡(luò)上分布的Web Service 當(dāng)服務(wù)網(wǎng)站沒(méi)有提供服務(wù)的信息只提供了 WSDL 文檔的 URL 那么就遍歷網(wǎng)站中所有的本網(wǎng)站的網(wǎng)頁(yè)并判斷網(wǎng)頁(yè)中 的鏈接是否是 WSDL 文檔的 URL 如果是就下載該 WSDL 文檔 指導(dǎo)教師簽字 年 月 日 審題小組組長(zhǎng)簽字 年 月 日 本科生畢業(yè)設(shè)計(jì)論文開(kāi)題報(bào)告 課題名稱 Web Services 網(wǎng)絡(luò)爬蟲(chóng) 學(xué)院名稱 軟件學(xué)院 專業(yè)名稱 軟件工程 學(xué)生姓名 指導(dǎo)教師 課題來(lái)源及意義 互聯(lián)網(wǎng)上的服務(wù)數(shù)量正快速的增長(zhǎng)分布在不同的網(wǎng)站上導(dǎo)致服務(wù)的用戶需要在不同的網(wǎng)站之間尋找一個(gè)或者多個(gè)符合自己需求的服務(wù)對(duì)于服務(wù)開(kāi)發(fā)者來(lái)說(shuō)他們無(wú)法快速準(zhǔn)確的得知現(xiàn)有的服務(wù)開(kāi)發(fā)現(xiàn)狀服務(wù)開(kāi)發(fā)者無(wú)法重用現(xiàn)有的服務(wù)重 復(fù)開(kāi)發(fā)已有的服務(wù)導(dǎo)致一個(gè)糟糕的服務(wù)開(kāi)發(fā)環(huán)境 本課題的任務(wù)是抓取互聯(lián)網(wǎng)上分散的服務(wù)具有重要意義本系統(tǒng)把互聯(lián)網(wǎng)上的服務(wù)都收集起來(lái)并存儲(chǔ)在本地?cái)?shù)據(jù)庫(kù)用戶或者服務(wù)開(kāi)發(fā)者就可以在基于該本系統(tǒng)數(shù)據(jù)庫(kù)的搜索引擎中查找到所有的互聯(lián)網(wǎng)上大部分的服務(wù)節(jié)省了在不同網(wǎng)站間查找服務(wù)的時(shí)間服務(wù)用戶可以快速準(zhǔn)確的找到符合自己需求的服務(wù)服務(wù)開(kāi)發(fā)者可以快速得知服務(wù)開(kāi)發(fā)現(xiàn)狀避免重復(fù)開(kāi)發(fā)并且可以利用現(xiàn)有服務(wù)進(jìn)行組合開(kāi)發(fā)等 國(guó)內(nèi)外發(fā)展?fàn)顩r 收集互聯(lián)網(wǎng)上的信息的系統(tǒng)被稱為網(wǎng)絡(luò)爬蟲(chóng) 又被稱為網(wǎng)頁(yè)蜘蛛網(wǎng)絡(luò)機(jī)器人在 FOAF 社區(qū)中間更經(jīng)常的 稱為網(wǎng)頁(yè)追逐者 它是一種按照一定的規(guī)則自動(dòng)的抓取萬(wàn)維網(wǎng)信息的程序或者腳本另外一些不常使用的名字還有螞蟻?zhàn)詣?dòng)索引模擬程序或者蠕蟲(chóng) 網(wǎng)絡(luò)爬蟲(chóng)按照系統(tǒng)結(jié)構(gòu)和實(shí)現(xiàn)技術(shù)大致可以分為以下幾種類型 [1]通用網(wǎng)絡(luò)爬蟲(chóng)聚焦網(wǎng)絡(luò)爬蟲(chóng)增量式網(wǎng)絡(luò)爬蟲(chóng)通用網(wǎng)絡(luò)爬蟲(chóng) [2]又稱全網(wǎng)爬蟲(chóng) Scalable Web Crawler 爬行對(duì)象從一些種子 URL 擴(kuò)充到整個(gè) Web 主要為門戶站點(diǎn)搜索引擎和大型 Web 服務(wù)提供商采集數(shù)據(jù)通用的網(wǎng)絡(luò)爬蟲(chóng)大多應(yīng)用于大型門戶網(wǎng)站或類似于 google 這樣的搜索引擎 聚焦網(wǎng)絡(luò)爬蟲(chóng) Focused Crawler 又稱主題網(wǎng)絡(luò)爬蟲(chóng) Topical Crawler 是指選擇性地爬行那些與預(yù)先定義好的主題相關(guān)頁(yè)面的網(wǎng)絡(luò)爬蟲(chóng) [3]隨著垂直搜索的蓬勃發(fā)展聚焦網(wǎng)絡(luò)也就是主題網(wǎng)絡(luò)爬蟲(chóng)成為研究的前言 [4]提出通過(guò)深入分析生活類網(wǎng)站網(wǎng)址的樹(shù)形結(jié)構(gòu)的架構(gòu)開(kāi)發(fā)了收集種子頁(yè)面的 URL 的模擬搜集齊并基于 HTMLParser 的信息提取方法從種子與頁(yè)面中提取出與生活類主題相關(guān)的目標(biāo) URL 增量式網(wǎng)絡(luò)爬蟲(chóng) Incremental Web Crawler [5]是指對(duì)已下載網(wǎng)頁(yè)采取增 量式更新和只爬行新產(chǎn)生的或者已經(jīng)發(fā)生變化網(wǎng)頁(yè) 的爬蟲(chóng)它能夠在一定程度上 保證所爬行的頁(yè)面是盡可能新的頁(yè)面 本課題研究的是針對(duì) Web 服務(wù)的聚焦網(wǎng)絡(luò)爬蟲(chóng)技術(shù)因?yàn)榫劢咕W(wǎng)絡(luò)爬蟲(chóng)技術(shù)能最快的最準(zhǔn)確的搜索 Web 服務(wù)信息本課題并不是重新開(kāi)發(fā)一個(gè)爬蟲(chóng)程序而是在現(xiàn)有爬蟲(chóng)開(kāi)源框架的基礎(chǔ)上進(jìn)行擴(kuò)展現(xiàn)有的網(wǎng)絡(luò)爬蟲(chóng)框架有很多例如HeritrixNutchLarbinJSpider 等 Heritrix 是一個(gè)由 Java 開(kāi)發(fā)的開(kāi)源的 Web 網(wǎng)絡(luò)信息采集程序和其他開(kāi)源的爬蟲(chóng)程序相比 Heritrix 的優(yōu)勢(shì)在于它的擴(kuò)展性開(kāi)發(fā)者可以擴(kuò)展它的組件來(lái)實(shí)現(xiàn)自己的抓取邏輯 [6]基于聚焦爬蟲(chóng)的手機(jī)天氣 預(yù)報(bào)系統(tǒng) 由以上對(duì)爬蟲(chóng)類型和爬蟲(chóng)框架的發(fā)展現(xiàn)狀分析本課題使用 Heritrix 開(kāi)源框架并通過(guò)分析網(wǎng)絡(luò)上分布 Web 服務(wù)的網(wǎng)站的樹(shù)形結(jié)構(gòu)的架構(gòu)實(shí)現(xiàn)針對(duì) Web服務(wù)主題的網(wǎng)絡(luò)爬蟲(chóng) 第二種情況網(wǎng)站上只提供了服務(wù)的 wsdl 文檔的 url沒(méi)有其它信息那么本系統(tǒng)就只需要抓取服務(wù)的 wsdl 文檔也就不需要分析網(wǎng)站服務(wù)分部結(jié)構(gòu)針對(duì)第二種情況主要的研究?jī)?nèi)容如下 重新改寫(xiě) Heritrix 框架處理流程中的寫(xiě)鏈以下載搜索到的 wsdl 文檔利用 Client 編寫(xiě)下載 wsdl 程序 方法和手段 在擴(kuò)展 Heritrix 框架的過(guò)程中遇 到的問(wèn)題或者使用的插件如下 在改寫(xiě) Heritrix 框架的提取鏈時(shí)需要從分析網(wǎng)站結(jié)構(gòu)中得到需要遍歷 的網(wǎng)頁(yè) URL 在改寫(xiě) Heritrix框架的寫(xiě)鏈時(shí)涉及到訪問(wèn)遠(yuǎn)程服務(wù)器下載 wsdl文檔解決該問(wèn)題時(shí)我們用到了 HTTPClient 插件該插件能夠?qū)崿F(xiàn)下載遠(yuǎn)程服務(wù)器上的文檔還可以設(shè)定連接時(shí)間等 由于 Heritrix框架提供了完善的 UI界面操作但是沒(méi)有提供完整的代碼啟動(dòng)程序同時(shí)本課題需要把爬蟲(chóng)啟動(dòng)操作嵌入到其他程序中所以需 要編寫(xiě) Heritrix 的代碼啟動(dòng)模塊 在分析網(wǎng)站結(jié)構(gòu)時(shí)需要用到 HTMLParser 插件該插件能夠 實(shí)現(xiàn)對(duì)網(wǎng)頁(yè)的詳細(xì)分析包括獲取所有網(wǎng)頁(yè)標(biāo)簽信息等功能利用該插件我們可以準(zhǔn)確無(wú)誤的獲取服務(wù)的所有詳細(xì)信息在分析網(wǎng)頁(yè)結(jié)構(gòu)時(shí)需要人工對(duì)網(wǎng)頁(yè)的包含信息的 標(biāo)簽進(jìn)行分析得到該 下信息分布的情況然后使用 HTMLParser 準(zhǔn)確定位到需求信息的位置并提取信息 分析網(wǎng)站結(jié)構(gòu)過(guò)程如下 提供一個(gè)包含所有 Web service類別的網(wǎng)頁(yè)的 URL分析該網(wǎng)頁(yè)用以上分析頁(yè)面的方法提取出所有的類別頁(yè)面的 URL 取出一個(gè)服務(wù)類別頁(yè)面 URL 并對(duì)該類別頁(yè)面進(jìn)行分析提取出所有的 Web service 詳細(xì)信息頁(yè)面的 URL 對(duì)詳細(xì)信息頁(yè)面進(jìn)行分析提取 出所有與 Web service 相關(guān)的信息 把這些相關(guān)信息存入到數(shù)據(jù)庫(kù)中 提取下一個(gè)類別 URL 并重復(fù) 2 步驟 爬蟲(chóng)無(wú)限循環(huán)執(zhí)行對(duì)頁(yè)面的分析直到?jīng)]有未訪問(wèn)過(guò)的 URL 存在 五可行性分析 網(wǎng)絡(luò)上 Web服務(wù)的飛速增長(zhǎng)例如 webser站的服務(wù)數(shù)量達(dá)到了 2萬(wàn)多個(gè)且服務(wù)的種類很多為本系統(tǒng)提供了非常好的搜索源并且網(wǎng)站的分布結(jié)構(gòu)十分清晰有利于我們?cè)O(shè)計(jì)簡(jiǎn)單有效地搜索策略同時(shí)網(wǎng)絡(luò)爬蟲(chóng)技術(shù)的飛速發(fā)展各種爬蟲(chóng)開(kāi)源框架的出現(xiàn)為我們的爬蟲(chóng)系統(tǒng)提供了良好的技術(shù)基礎(chǔ)在開(kāi)源框架的基礎(chǔ)上結(jié)合對(duì) Web 服務(wù)網(wǎng)站的結(jié)構(gòu)分析就可以實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)上 分布的 Web 服務(wù)抓取 進(jìn)度安排 1 學(xué)習(xí)與爬蟲(chóng)相關(guān)的基本知識(shí) 2 概念抽象對(duì)于 web services 爬蟲(chóng)的分析和設(shè)計(jì) 3 構(gòu)建 web services 爬蟲(chóng) 4 編程實(shí)現(xiàn)與爬蟲(chóng)測(cè)試 5 基于此系統(tǒng)完成論文提出自己的主張 610 參考文獻(xiàn) 孫立偉何 國(guó)輝吳 禮發(fā)網(wǎng)絡(luò) 爬蟲(chóng)技 術(shù)研究 Computer Knowledge and Technology 電腦知識(shí)與技術(shù) Vol4No15May 2021pp41124115 李盛韜余智華程學(xué)旗 Web 信息采 集研究進(jìn)展 J 計(jì)算機(jī)科學(xué) 2021 SChakrabartiMvan den Berg and sed Crawling A New Approach to TopicSpecifi Web Resource Discovery[C]In Proceedings of the 8th International World Wide Web Conference Toronto Canada 1999 [4]鄭力明易平 Design of Crawler Based on HTML Parser Information Extraction 微計(jì)算機(jī)信息 Microputer Information09June2021 J Cho H GarciaMolina The evolution of the web and implications for an incremental crawler [C] In Proceedings of the 26th International Conference on Very Large Database Cairo Egypt 2021 [6]李文澤個(gè)性化垂直搜索引擎研究河南大學(xué) 20211107 []曾偉輝李淼 深層網(wǎng)絡(luò)爬蟲(chóng)研究綜述 [J] 計(jì)算機(jī)系統(tǒng)應(yīng)用 2021 []周立柱 林 玲 聚焦爬蟲(chóng)技術(shù)研究綜述 [J]計(jì)算機(jī)應(yīng)用 2021 年 9 月 [9]S Chakrabarti M van den Berg and B Dom Focused Crawling A New Approach to TopicSpecific Web Resource Discovery [C] In Proceedings of the 8th International World Wide Web Conference Toronto Ca