【正文】
nada 1999 [10]陳汶濱夏學(xué)梅 基于聚焦爬蟲的手機(jī)天氣預(yù)報(bào)系統(tǒng) [J] 今日科苑 2021年第 2 期 [1]邱哲符滔滔 開發(fā)自己的搜索引擎 Lucene 20Heritrix 人民郵電出版社 20214 [1]羅剛 自己動(dòng)手寫網(wǎng)絡(luò)爬蟲 清華大學(xué)出版社 2021101 []Heritrix 官方網(wǎng)站 [EBOL] cra []網(wǎng)絡(luò)爬蟲 [EBOL] bview284853htm []Roberston L Anecdotes [Google search engine] [J] Annals of the History of Computing 2021 Volume 27 9697 選題是否合適 是□ 否□ 課題能否實(shí)現(xiàn) 能□ 不能□ 指導(dǎo)教師簽字 年 月 日 選題是否合適 是□ 否□ 課題能否實(shí)現(xiàn) 能□ 不能□ 審題小組組長(zhǎng)簽字 年 月 日 摘 要 互聯(lián)網(wǎng)上的服務(wù)數(shù)量增長(zhǎng)快速網(wǎng)站提供的關(guān)于服務(wù)的信息也各異導(dǎo)致用戶難以正確快速的找到合適的服務(wù)為了 解決以上問(wèn)題需要獲取和保存服務(wù)的 WSDL的 URL 和相關(guān)的服務(wù)信息 本文完成了一個(gè) Web 服務(wù)信息分析抓取的網(wǎng)絡(luò)爬蟲主要研究開發(fā)內(nèi)容有 1分析服務(wù)網(wǎng)站結(jié)構(gòu)在抓取某個(gè)網(wǎng)站上的服務(wù)前要人工的分析出該網(wǎng)站哪些頁(yè)面需要抓取哪些頁(yè)面中哪些信息需要抓取 2 頁(yè)面信息提取根據(jù)人工分析出的哪些頁(yè)面中哪些信息需要抓取的結(jié)構(gòu)使用 HtmlParser 工具抓取頁(yè)面中的信息 3 下載WSDL 文檔在抓取到了服務(wù) WSDL 的 URL 后使用 HtmlClient 下載 WSDL 文檔 4 加載服務(wù)信息到數(shù)據(jù)庫(kù)把在頁(yè)面信息提取中得到的關(guān)于服務(wù)的信息存入數(shù)據(jù)庫(kù)中 通過(guò)對(duì) Web 服務(wù)的抓取用戶可以通過(guò)統(tǒng)一的入口來(lái)訪問(wèn)這些服務(wù)而不用在互聯(lián)網(wǎng)上盲目搜索為服務(wù)的使用和開發(fā)提供更加便利的平臺(tái)環(huán)境 關(guān)鍵詞爬蟲網(wǎng)絡(luò)服務(wù) WSDL ABSTRACT The number of services on the Inter Increase quicklythe information sites provide about services is also different leading to that it is difficult for users to correctly and quickly find the right services in order to solve the above problems needing to capture and store the services WSDL URL and related service information This paper pleted a Web Crawler about Web service information analysis and crawlThe main research and development contents are 1 Analysis Service Web site structure before capturing the services on a Web site needing to manually analyze which pages of the site need to be captured and which information in which pages needs to be captured 2 Page information extraction According to the manual analysis that which information in which paper needs to be captured then using HtmlParser tools to capture the information in the page 3 Downloading the WSDL document capturing the service WSDL URL and then using HtmlClient to download the WSDL document4 Loading service information into the database store the information about the service into the database After Crawling the Web service users can access Web services through a unified portal rather than blindly searching on the InterProviding a more convenient platform environment for the use and development of services Key words 第一章 緒論 1 11 問(wèn)題的背景和意義 1 12 研究目標(biāo)和目的 1 13 全文安排 2 第二章 相關(guān)工作和需求分析 3 21 相關(guān)工作 3 22 功能說(shuō)明 4 23 運(yùn)行環(huán)境 4 第三章 面向 web service 的網(wǎng)絡(luò)爬蟲詳細(xì) 設(shè)計(jì) 5 31 總體架構(gòu) 5 32 數(shù)據(jù)庫(kù)設(shè)計(jì) 6 33 程序包設(shè)計(jì) 7 34 流程設(shè)計(jì) 8 第四章 面向 web service 的聚焦網(wǎng)絡(luò)爬蟲技術(shù)實(shí)現(xiàn) 13 41 分析網(wǎng)站服務(wù)分布結(jié)構(gòu) 13 42 網(wǎng)頁(yè)內(nèi)容提取 15 服務(wù)提供商集合頁(yè)面內(nèi)容提取 15 服務(wù)提供商頁(yè)面內(nèi)容提取 18 服務(wù)詳細(xì)信息頁(yè)面內(nèi)容提取 20 頁(yè)面鏈接提取 22 43 下載 WSDL 文檔 24 44 結(jié)果展示 24 第五章 總結(jié)和展望 29 51 論文總結(jié) 29 52 存在的問(wèn)題和展望 29 參考文獻(xiàn) 30 外文資料 中文譯文 致 謝 緒論 11 問(wèn)題的背景和意義 隨著互聯(lián)網(wǎng)的飛速發(fā)展應(yīng)用程序的集成軟件和數(shù)據(jù)的重用成為互聯(lián)網(wǎng)發(fā)展的障礙 Web 服務(wù)的出現(xiàn)有效的解決了以上難題 Web 服務(wù)允許應(yīng)用開發(fā)者對(duì)不同語(yǔ)言不同平臺(tái)的應(yīng)用程序進(jìn)行集成允許在程序中調(diào)用 Web 服務(wù)正因?yàn)?Web服務(wù)的有效的解決了以上問(wèn)題互聯(lián)網(wǎng)上的服務(wù)發(fā)展迅速服務(wù)數(shù)量飛速增長(zhǎng)服務(wù)數(shù)量的增長(zhǎng)使得用戶查找服務(wù)變得困難另外 Web 服務(wù)的發(fā)展也產(chǎn)生了另外一個(gè)應(yīng)用模式組合應(yīng)用 Mushup 把不同的 Web 服務(wù)進(jìn)行組合滿足用戶需求 現(xiàn)在互聯(lián)網(wǎng)上存在 許多被動(dòng)的集中式的服務(wù)注冊(cè)網(wǎng)站這類網(wǎng)站上的服務(wù)可能大部分來(lái)源于網(wǎng)站國(guó)家的開發(fā)者服務(wù)功能針對(duì)某一領(lǐng)域但是通過(guò)主動(dòng)式的爬取獲得并存儲(chǔ)互聯(lián)網(wǎng)上的服務(wù)對(duì)服務(wù)進(jìn)行集中管理有利于對(duì)用戶提供統(tǒng)一的訪問(wèn)方式有利于對(duì)互聯(lián)網(wǎng)服務(wù)的分析提高組合的效率 12 研究目的和主要內(nèi)容 為了對(duì)互聯(lián)網(wǎng)服務(wù)進(jìn)行集中管理需要將互聯(lián)網(wǎng)上的服務(wù)信息存放到數(shù)據(jù)庫(kù)中所以本論文的目的是通過(guò)爬蟲抓取得到互聯(lián)網(wǎng)上的 Web 服務(wù)信息并把服務(wù)信息存放到數(shù)據(jù)庫(kù)中 為了實(shí)現(xiàn)該目的本論文的主要研究?jī)?nèi)容包括 第一種情況網(wǎng)站上的服務(wù)提供了關(guān)于服務(wù)的相關(guān)信息那么本系統(tǒng)抓取服務(wù)WSDL 文檔的同時(shí)獲取服務(wù)的相關(guān)信息針對(duì)這種情況研究?jī)?nèi)容如下 1 開源框架 Heritrix 的擴(kuò)展 因?yàn)楝F(xiàn)有的開源爬蟲框架 Heritrix 提供了網(wǎng)絡(luò)搜索的基本結(jié)構(gòu)所以我會(huì)擴(kuò)展 Heritrix 框架使該框架適用于本系統(tǒng) a 重新改寫 Heritrix 框架處理流程的過(guò)濾鏈過(guò)濾不需要訪問(wèn)的網(wǎng)頁(yè) b 重新改寫 Heritrix 框架處理流程的提取鏈提取網(wǎng)頁(yè)包含的信息 c 重新改寫 Heritrix 框架處理流程的寫鏈下載搜索到的 wsdl 文檔 2 對(duì)網(wǎng)站服務(wù)分布結(jié)構(gòu)的分析 a 對(duì)網(wǎng)站 Web 服務(wù)的分類頁(yè)面進(jìn)行分析分 析出含有所有 Web 服務(wù)的種類URL 的 table 表格結(jié)構(gòu)和 URL 的結(jié)構(gòu) b 對(duì)某類別 Web Service 頁(yè)面進(jìn)行分析分析出含有所有該類別 Web 服務(wù)的詳細(xì)信息頁(yè)面 URL 的 table 表格結(jié)構(gòu)和 URL 的結(jié)構(gòu) c 對(duì) Web 服務(wù)詳細(xì)信息頁(yè)面進(jìn)行分析分析出 Web 服務(wù)信息的 table 表格結(jié)構(gòu) 通過(guò)對(duì)網(wǎng)站結(jié)構(gòu)的分析可以得到網(wǎng)站中服務(wù)分布的一顆樹并用形式化語(yǔ)言描述這棵樹采用數(shù)據(jù)結(jié)構(gòu)中的樹結(jié)構(gòu)來(lái)描述網(wǎng)站服務(wù)的分布樹擴(kuò)展后的爬蟲得到根節(jié)點(diǎn) URL 通過(guò)根節(jié)點(diǎn)對(duì)整棵樹進(jìn)行遍歷抓起網(wǎng)站所有的 Web 服務(wù) 第二種情況網(wǎng)站上只提供了服務(wù) WSDL 文檔的 URL 本系統(tǒng)只抓取服務(wù) WSDL文檔不需要分析網(wǎng)站服務(wù)分部結(jié)構(gòu)針對(duì)第二種情況主要的研究?jī)?nèi)容如下 重新改寫 Heritrix 框架處理流程中的寫鏈以下載搜索到的 WSDL 文檔利用HttpClient 編寫下載 WSDL 程序 13 全文安排 全文共分為六章 主要介紹本課題研究背景以及研究意義明確課題主要研究?jī)?nèi)容給出全文的組織結(jié)構(gòu) 介紹了互聯(lián)網(wǎng)上的服務(wù)的分布情況和相關(guān)爬蟲技術(shù)并對(duì)需求進(jìn)行分析包括功能說(shuō)明和運(yùn)行環(huán)境 提出了系統(tǒng)的設(shè)計(jì)和結(jié)構(gòu)其中包括總體架構(gòu)數(shù)據(jù)庫(kù)的設(shè)計(jì)工程包的設(shè)計(jì)和詳細(xì)的流程設(shè)計(jì) 在第三章得基礎(chǔ)上 給出了具體的實(shí)現(xiàn)方法其中主要包括分析網(wǎng)站服務(wù)分部結(jié)構(gòu)頁(yè)面內(nèi)容提取下載 WSDL 文檔以及結(jié)果展示 是對(duì)全文工作的總結(jié)指出并分析了現(xiàn)階段存在的問(wèn)題并展望了未來(lái)的發(fā)展前景 第二章 相關(guān)工作和需求分析 21 相關(guān)工作 隨著 Web服務(wù)開發(fā)者數(shù)量的增加互聯(lián)網(wǎng)上的 Web服務(wù)數(shù)量以爆炸方式增長(zhǎng)伴隨著 Web Service的數(shù)量的增長(zhǎng)越來(lái)越多的網(wǎng)站關(guān)注于如何吸引開發(fā)者把服務(wù)發(fā)布在他們的網(wǎng)站中這些網(wǎng)站采用了服務(wù)開發(fā)者在該網(wǎng)站上注冊(cè)服務(wù)的方式來(lái)發(fā)布服務(wù) 其中 seekda[1]網(wǎng)站是現(xiàn)有的最大的服務(wù)注冊(cè)網(wǎng)站一共有 7663 個(gè)服務(wù)提供商在該網(wǎng)站上注冊(cè)據(jù)統(tǒng)計(jì)大約有 2 萬(wàn)多個(gè)服務(wù)在該網(wǎng)站上進(jìn)行發(fā)布而且該網(wǎng)站上的服務(wù)發(fā)布信息比較齊全提供了服務(wù)的可用率用戶標(biāo)簽提供商發(fā)布服務(wù)器等信息還有其它一些服務(wù)注冊(cè)網(wǎng)站例如 盡管這些網(wǎng)站的數(shù)量不及seekda 的多但這些網(wǎng)站上的服務(wù)對(duì)用戶來(lái)說(shuō)也是有巨大意義的其服務(wù)信息很豐富需要把網(wǎng)絡(luò)上的服務(wù)抓取和集中管理 網(wǎng)絡(luò)信息抓取的主要工具是網(wǎng)絡(luò)爬蟲網(wǎng)絡(luò)爬蟲是一種按照一定的規(guī)則自動(dòng)的抓起萬(wàn)維網(wǎng)信息的程序或者腳本 [2]現(xiàn)有的網(wǎng)絡(luò)爬蟲可以分為以下幾種類型 [3]通用網(wǎng)絡(luò)爬蟲 [12]聚焦網(wǎng)絡(luò)爬蟲 [15]增量式網(wǎng)絡(luò)爬蟲 [4]Deep Web 爬蟲 [14]其應(yīng)用也十分廣泛如 Google搜索引擎的爬蟲模塊就是一個(gè)通用網(wǎng)絡(luò)爬蟲 Google的爬蟲通過(guò)遍歷互聯(lián)網(wǎng)上的網(wǎng)頁(yè)并提取網(wǎng)頁(yè)的信息例如關(guān)鍵字類型網(wǎng)頁(yè)超鏈接等然后建立網(wǎng)頁(yè)索引最后在這些網(wǎng)頁(yè)信息上建立搜索引擎向用戶提供統(tǒng)一的訪問(wèn)網(wǎng)頁(yè)的窗口 [5] 聚焦網(wǎng)絡(luò)爬蟲也稱為主題爬蟲 [13]大量的應(yīng)用于互聯(lián)網(wǎng)中例如基于聚焦爬蟲的手機(jī)天氣預(yù)報(bào)系統(tǒng) [6]就是應(yīng)用了聚焦網(wǎng)絡(luò)爬蟲通過(guò)計(jì)算頁(yè)面與天氣主題的相關(guān)度抓取網(wǎng)絡(luò)上與天氣相關(guān)的頁(yè)面信息并把對(duì)頁(yè)面進(jìn)行索引并向用戶提供統(tǒng)一訪問(wèn)窗口 Web服務(wù)有其特定結(jié)構(gòu) Web服務(wù)網(wǎng)絡(luò)爬蟲不僅僅遍歷網(wǎng)頁(yè)并建立索引而且在遍歷網(wǎng)頁(yè)過(guò)程中利用網(wǎng)頁(yè)分析工具解析網(wǎng)頁(yè) [7]把 Web 服務(wù)相關(guān)信息抓取下來(lái)如注冊(cè)標(biāo)簽提供商注冊(cè)時(shí)間可用率服務(wù)器等 Heritrix[9]是一個(gè)比較靈活可擴(kuò)展性強(qiáng)的網(wǎng)絡(luò)爬蟲開源框架目前已經(jīng)有很多應(yīng)用在該框架上進(jìn)行開發(fā)例如基于 Heritrix 的面向電子商務(wù)網(wǎng)站的信息抓取該應(yīng)用就是在 Heritrix 網(wǎng)絡(luò)爬蟲開源框架的基礎(chǔ)上進(jìn)行擴(kuò)展修改 [10]并建立特有的抓取策略來(lái)抓取網(wǎng)絡(luò)上的電子商務(wù)信息 [11] 22 功能說(shuō)明 本系統(tǒng)包含以下功能 如 果網(wǎng)站提供了詳細(xì)的服務(wù)信息那么功能如下 存儲(chǔ)服務(wù)的詳細(xì)信息 遍歷網(wǎng)站結(jié)構(gòu)過(guò)程中如果頁(yè)面是服務(wù)詳細(xì)信息頁(yè)面需要對(duì)頁(yè)面進(jìn)行解析把服務(wù)的詳細(xì)信息提取出來(lái)并存入數(shù)據(jù)庫(kù)詳細(xì)信息包括服務(wù)描述文檔 WSDL URL 服務(wù)提供商服務(wù)注冊(cè)時(shí)間服務(wù)可用率服務(wù)運(yùn)行服務(wù)器服務(wù)標(biāo)簽等 下載 WSDL 文檔 提取了 Web服務(wù)詳細(xì)信息后根據(jù) Web服務(wù) WSDL文檔的 URL下載 WSDL文檔并把文檔內(nèi)容存放到數(shù)據(jù)庫(kù)中 如果網(wǎng)站只提供了 Web 服務(wù) WSDL 文檔的 URL 那么系統(tǒng)在抓取網(wǎng)站過(guò)程中只提取 Web 服務(wù) WSDL 的 URL 把該 URL 存入數(shù)據(jù)庫(kù)并下 載 Web 服務(wù)的 WSDL 文檔 23 運(yùn)行環(huán)境 要求程序能夠運(yùn)行在如下環(huán)境中操作系統(tǒng) Windows XP 運(yùn)行平臺(tái) MyEclipse 65 以上 java 虛擬機(jī) JVM 數(shù)據(jù)庫(kù) MySQL51 第三章 面向 web service 的網(wǎng)絡(luò)爬蟲的詳細(xì)設(shè)計(jì)第四章 面向 web service 的聚焦網(wǎng)絡(luò)爬蟲的技術(shù)實(shí)現(xiàn) if urlcontains providersalphabetic 該頁(yè)面時(shí)提供商集合頁(yè)面 Sytln url 進(jìn)入 執(zhí)行操作 1 condition1 contentcuri else if urlcon