【正文】
算頁面與天氣主題的相關(guān)度,抓取網(wǎng)絡(luò)上與天氣相關(guān)的頁面信息,并把對頁面進行索引,并向用戶提供統(tǒng)一訪問窗口。 網(wǎng)絡(luò)信息抓取的主要工具是網(wǎng)絡(luò)爬蟲,網(wǎng)絡(luò)爬蟲是一種按照一定的規(guī)則,自動的抓起萬維網(wǎng)信息的程序或者腳本。而且該網(wǎng)站上的服務(wù)發(fā)布信息比較齊全,提供了服務(wù)的可用率,用戶標簽,提供商,發(fā)布服務(wù)器等信息。 第五章 是對全文工作的總結(jié),指出并分析了現(xiàn)階段存在的問題并展望了未來的發(fā)展前景。 第一章 主要介紹本課題研究背景,以及研究意義,明確課題主要研究 內(nèi)容,給出全文的組織結(jié)構(gòu)。 第二種情況:網(wǎng)站上只提供了服務(wù) WSDL文檔的 URL,本系統(tǒng)只抓取服務(wù)WSDL文檔,不需要分析網(wǎng)站服務(wù)分部結(jié)構(gòu)。 b. 對某類別 Web Service 頁面進行分析,分析出含有所有該類別 Web服務(wù)的詳細信息頁面 URL 的 table 表格結(jié)構(gòu)和 URL 的結(jié)構(gòu)。 a. 重新改寫 Heritrix 框架處理流程的過濾鏈,過濾不需要訪問的網(wǎng)頁。 研究目的和主要內(nèi)容 為了對互聯(lián)網(wǎng)服務(wù)進行集中管理,需要將互聯(lián)網(wǎng)上的服務(wù)信息存放到數(shù)據(jù)庫中。服務(wù)數(shù)量的增長,使得用戶查找服務(wù)變得困難。 3) Downloading the WSDL document: capturing the service WSDL URL, and then using HtmlClient to download the WSDL ) Loading service information into the database: store the information about the service into the database. After Crawling the Web service, users can access Web services through a unified portal , rather than blindly searching on the a more convenient platform environment for the use and development of services. Key words: Crawler; Web service; WSDL; 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(論文) 1 目 錄 第一章 緒論 ........................................ 1 問題的背景和意義 .................................. 1 研究目標和目的 .................................... 1 全文安排 ......................................... 2 第二章 相關(guān)工作和需求分析 .......................... 3 相關(guān)工作 ......................................... 3 功能說明 ......................................... 4 運行環(huán)境 ......................................... 4 第三章 面向 web service 的網(wǎng)絡(luò)爬蟲詳細設(shè)計 ............ 5 總體架構(gòu) ......................................... 5 數(shù)據(jù)庫設(shè)計 ........................................ 6 程序包設(shè)計 ........................................ 7 流程設(shè)計 ......................................... 8 第四章 面向 web service 的聚焦網(wǎng)絡(luò)爬蟲技術(shù)實現(xiàn) ....... 13 分析網(wǎng)站服務(wù)分布結(jié)構(gòu) ............................. 13 網(wǎng)頁內(nèi)容提取 ..................................... 15 服務(wù)提供商集合頁面內(nèi)容提取 .................. 15 服務(wù)提供商頁面內(nèi)容提取 ...................... 18 服務(wù)詳細信息頁面內(nèi)容提取 .................... 20 頁面鏈接提取 ................................ 22 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(論文) 2 下載 WSDL 文檔 .................................... 24 結(jié)果展示 ........................................ 24 第五章 總結(jié)和展望 ................................. 29 論文總結(jié) ........................................ 29 存在的問題和展望 ................................. 29 參考文獻 .......................................... 30 外文資料 中文譯文 致 謝 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(論文) 1 第一章 緒論 問題的背景和意義 隨著互聯(lián)網(wǎng)的飛速發(fā)展,應(yīng)用程序的集成,軟件和數(shù)據(jù)的重用成為互聯(lián)網(wǎng)發(fā)展的障礙。為服務(wù)的使用和開發(fā)提供更加便利的平臺環(huán)境。 本文完成了一個 Web 服務(wù)信息分析、抓取的網(wǎng)絡(luò)爬蟲,主要研究開發(fā)內(nèi)容有:1)分析服務(wù)網(wǎng)站結(jié)構(gòu):在抓取某個網(wǎng)站上的服務(wù)前,要人工的分析出該網(wǎng)站哪些頁面需要抓取,哪些頁面中哪些信息需要抓取; 2)頁面信息提?。焊鶕?jù)人工分析出的哪些頁面中哪些信息需要抓取的結(jié)構(gòu),使用 HtmlParser 工具抓取頁面中的信息。 六、 進度安排: 1. 學(xué)習與爬蟲相關(guān)的基本知識, 至 。 五、可行性分析: 網(wǎng)絡(luò)上 Web服務(wù)的飛速增長,例如 了 2萬多個,且服務(wù)的種類很多,為本系統(tǒng)提供了非常好的搜索源。 4. 把這些相關(guān)信息存入到數(shù)據(jù)庫中。 在分析網(wǎng)頁結(jié)構(gòu)時,需要人工對網(wǎng)頁的包含信息的table標簽進行分析,得到該 table下信息分布的情況,然后使用 HTMLParser準確定位到需求信息的位置,并提取信息。解決該問題時,我們用到了 HTTPClient 插件,該插件能夠?qū)崿F(xiàn)下載遠程服務(wù)器上的文檔,還可以設(shè)定連接時間等。針對第二種情況,主要的研究內(nèi)容如下: 重新改寫 Heritrix 框架處理流程中的寫鏈,以下載搜索到的 wsdl 文檔。 c. 對 Web Service 詳細信息頁面進行分析,分析出包含所有與該 Web Service 相關(guān)的信息的 table 表格結(jié)構(gòu)。 b. 重新改寫 Heritrix 框架處理流程中的提取鏈,以提取網(wǎng)頁包含的信息。 由以上對爬蟲類型和爬蟲框架的發(fā)展現(xiàn)狀分析,本課題使用 Heritrix 開源框架,并通過分析網(wǎng)絡(luò)上分布 Web 服務(wù)的網(wǎng)站的樹形結(jié)構(gòu)的架構(gòu),實現(xiàn)針對 Web服務(wù)主題的網(wǎng)絡(luò)爬蟲。 Heritrix[13]是一個由 Java 開發(fā)的、開源的Web 網(wǎng)絡(luò)信息采集程序。 本課題研究的是針對 Web 服務(wù)的聚焦網(wǎng)絡(luò)爬蟲技術(shù)。通用的網(wǎng)絡(luò)爬蟲大多應(yīng)用于大型門戶網(wǎng)站或類似于 google 這樣的搜索引擎 [15]。 二、 國內(nèi)外發(fā)展狀況: 收集互聯(lián)網(wǎng)上的信息的系統(tǒng)被稱為網(wǎng)絡(luò)爬蟲 (又被稱為網(wǎng)頁蜘蛛,網(wǎng)絡(luò)機器人,在 FOAF 社區(qū)中間 ,更經(jīng)常的稱為網(wǎng)頁追逐者 ),它是一種按照一定的規(guī)則 ,自動的抓取萬維網(wǎng)信息的程序或者 腳本 。 指導(dǎo)教師(簽字) 年 月 日 審題小組組長(簽字) 年 月 日 天津大學(xué)本科生畢業(yè)設(shè)計(論文)開題報告 課題名稱 Web Services 網(wǎng)絡(luò)爬蟲 學(xué)院名稱 軟件學(xué)院 專業(yè)名稱 軟件工程 學(xué)生姓名 梁其烜 指導(dǎo)教師 馮志勇 一、 課題來源及意義: 互聯(lián)網(wǎng)上的服務(wù)數(shù)量正快速的增長,分布在不同的網(wǎng)站上,導(dǎo)致服務(wù)的用戶需要在不同的網(wǎng)站之間尋找一個或者多個符合自己需求的服務(wù),對于服務(wù)開發(fā)者來說,他們無法快速、準確的得知現(xiàn)有的服務(wù)開發(fā)現(xiàn)狀,服務(wù)開發(fā)者無法重用現(xiàn)有的服務(wù),重復(fù)開發(fā)已有的服務(wù),導(dǎo)致一個糟糕的服務(wù)開發(fā)環(huán)境。 ? 把搜索到的 Web 服務(wù)相關(guān)信息存入數(shù)據(jù)庫中。09,June, 2021。Computer Knowledge and Technology 電腦知識與技術(shù) 。 但是,大量的 Web 服務(wù)分布在網(wǎng)絡(luò)中的各個地方,給用戶尋找特定功能的服務(wù)造成了不小的麻煩,也給服務(wù)開發(fā)者在原有的服務(wù)上進行再次開發(fā)造成了不便。 Web Services 技術(shù)是可以改變軟件產(chǎn)業(yè)面貌和軟件應(yīng)用模式的技術(shù)之一。) Web Services技術(shù)是一種基于 XML語言和標準的網(wǎng)絡(luò)協(xié)議實現(xiàn)的分布式計算技術(shù)。所以 Web Services 技術(shù)成為了網(wǎng)絡(luò)上的主流技術(shù)之一,隨之也來的是大量的開發(fā)人員開始開發(fā) Web 服務(wù),隨著時間的推移,網(wǎng)絡(luò)上出現(xiàn)了大量的 Web 服務(wù)。網(wǎng)絡(luò)爬蟲技術(shù)研究 。微計算機信息, Microputer Information。 ? 根據(jù)種子地址,搜索種子網(wǎng)站上的 Web 服務(wù)。 當服務(wù)網(wǎng)站沒有提供服務(wù)的信息,只提供了 WSDL 文檔的 URL,那么就遍歷網(wǎng)站中所有的本網(wǎng)站的網(wǎng)頁,并判斷網(wǎng)頁中的鏈接是否是 WSDL 文檔的 URL, 如果是,就下載該 WSDL 文檔。服務(wù)用戶可以快速、準確的找到符合自己需求的服務(wù),服務(wù)開發(fā)者可以快速得知服務(wù)開發(fā)現(xiàn)狀,避免重復(fù)開發(fā),并且可以利用現(xiàn)有服務(wù)進行組合開發(fā)等。通用網(wǎng)絡(luò)爬蟲 [2]又稱全網(wǎng)爬蟲 (Scalable Web Crawler),爬行對象從一些種子 URL 擴充到整個 Web ,主要為門戶站點搜索引擎和大型 Web 服務(wù)提供商采集數(shù)據(jù)。 增量式網(wǎng)絡(luò)爬蟲 (Incremental Web Crawler) [5]是指對已下載網(wǎng)頁采取增 量式更新和只爬行新產(chǎn)生的或者已經(jīng)發(fā)生變化網(wǎng)頁的爬蟲,它能夠在一定程度上 保證所爬行的頁面是盡可能新的頁面 。 現(xiàn)有的網(wǎng)絡(luò)爬蟲框架有很多,例如:Heritrix、 Nutch、 Larbin、 JSpider 等。例如: 基于聚焦爬蟲的手機天氣預(yù)報系統(tǒng) ,它是在 Heritrix的基本功能上進行擴展 [11]和修改 [12]。 a. 重新改寫 Heritrix 框架處理流程中的過濾鏈,以過濾不需要訪問的網(wǎng)頁。 b. 對某類別 Web Service 頁面進行分析,分析出含有所有該類別 Web Service 的詳細信息頁面 URL 的 table 表格結(jié)構(gòu)和 URL 的結(jié)構(gòu)。 第二種情況:網(wǎng)站上只提供了服務(wù)的 wsdl文檔的 url,沒有其它信息,那么本系統(tǒng)就只需要抓取服務(wù)的 wsdl文檔,也就不需要分析網(wǎng)站服務(wù)分部結(jié)構(gòu)。 2. 在改寫 Heritrix 框架的寫鏈時,涉及到訪問遠程服務(wù)器,下載 wsdl 文檔。利用該插件,我們可以準確無誤的獲取服務(wù)的所有詳細信息。 3. 對詳細信息頁 面進行分析,提取出所有與 Web service 相關(guān)的信息。 爬蟲無限循環(huán)執(zhí)行對頁面的分析,直到?jīng)]有未訪問過的 URL 存在。在開源框架的基礎(chǔ)上,結(jié)合對 Web服務(wù)網(wǎng)站的結(jié)構(gòu)分析,就可以實現(xiàn)對網(wǎng)絡(luò)上分布的 Web服務(wù)抓取。 選題是否合適: 是□ 否□ 課題能否實現(xiàn): 能□ 不能□ 指導(dǎo)教師 (簽字) 年 月 日 選題是否合適: 是□ 否□ 課題能否實現(xiàn): 能□ 不能□ 審題小組組長(簽字) 年 月 日 摘 要 互聯(lián)網(wǎng)上的服務(wù)數(shù)量增長快速,網(wǎng)站提供的關(guān)于服務(wù)的信息也各異,導(dǎo)致用戶難以正確、快速的找到合適的服務(wù),為了解決以上問題,需要獲取和保存服務(wù)的 WSDL 的 URL 和相關(guān)的服務(wù)信息。 通過對 Web 服務(wù)的抓取,用戶可以通過統(tǒng)一的入口來訪問這些服務(wù),而不用在互聯(lián)網(wǎng)上盲目搜索。 2) Page information extraction: According to the manual analysis that which information in which paper needs to be captured, then using HtmlParser tools to capture the information in the page。正因為 Web 服務(wù)的有效的解決了以上問題,互聯(lián)網(wǎng)上的服務(wù)發(fā)展迅速,服務(wù)數(shù)量飛速增長