freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

畢業(yè)論文-面向webservice的網(wǎng)絡(luò)爬蟲設(shè)計(jì)與實(shí)現(xiàn)(已修改)

2025-01-28 23:58 本頁面
 

【正文】 畢業(yè)設(shè)計(jì)(論文)說明書 學(xué) 院 軟件學(xué)院 專 業(yè) 軟件工程 年 級 07 級 姓 名 梁其烜 指導(dǎo)教師 馮志勇 2022 年 6 月 15 日 畢業(yè)設(shè)計(jì)(論文)任務(wù)書 題目:面向 web service 的網(wǎng)絡(luò)爬蟲設(shè)計(jì)與實(shí)現(xiàn) 學(xué)生姓名 梁其烜 學(xué)院名稱 軟件學(xué)院 專 業(yè) 軟件工 程 學(xué) 號 3007218123 指導(dǎo)教師 馮志勇 職 稱 教授 一、 原始依據(jù)(包括設(shè)計(jì)或論文的工作基礎(chǔ)、研究條件、應(yīng)用環(huán) 境、工作目的等。) Web Services 技術(shù)是一種基于 XML語言和標(biāo)準(zhǔn)的網(wǎng)絡(luò)協(xié)議實(shí)現(xiàn)的分布式計(jì)算技術(shù)。 Web Services 技術(shù)是可以改變軟件產(chǎn)業(yè)面貌和軟件應(yīng)用模式的技術(shù)之一。 Web Services 技術(shù)可以將 Inter 上的各種信息資源和服務(wù)功能整合在一起,在任何時間、任何地點(diǎn)向用戶提供優(yōu)質(zhì)的服務(wù) 。 Web Services 技術(shù)還有助于改變企業(yè)對 IT 系統(tǒng)的應(yīng)用方式和依賴程度。所以 Web Services 技術(shù)成為了網(wǎng)絡(luò)上的主流技術(shù)之一,隨之也來的是大量的開發(fā)人員開始開發(fā) Web 服務(wù),隨著時間的推移,網(wǎng)絡(luò)上出現(xiàn)了大量的 Web 服務(wù)。 但是,大量的 Web 服務(wù)分布在網(wǎng)絡(luò)中的各個地方,給用戶尋找特定功能的服務(wù)造成了不小的麻煩,也給服務(wù)開發(fā)者在原有的服務(wù)上進(jìn)行再次開發(fā)造成了不便。本課題的任務(wù)就是研究如何把網(wǎng)絡(luò)上分散的 Web 服務(wù)搜集在一起。 二、 參考文獻(xiàn) [1]孫立偉,何國輝,吳禮發(fā) 。網(wǎng)絡(luò)爬蟲技術(shù)研究 。Computer Knowledge and Technology 電腦知識與技術(shù) 。,May 2022, [2]李盛韜,余智華,程學(xué)旗 .Web 信息采集研究進(jìn)展【 J】 .計(jì)算機(jī)科學(xué), 2022. [3], den Berg and Crawling: A New Approach to TopicSpecifi Web Resource Discovery[C].In Proceedings of the 8th International World Wide Web Conference, Toronto, Canada, 1999. [4]鄭力明,易平 。Design of Crawler Based on HTML Parser Information Extraction。微計(jì)算機(jī)信息, Microputer Information。09,June, 2022。 [5]J. Cho, H. GarciaMolina. The evolution of the web and implications for an incremental crawler [C]. In Proceedings of the 26th International Conference on Very Large Database, Cairo, Egypt, 2022. [6]李文澤;個性化垂直搜索引擎研究;河南大學(xué); 20221107; [7]曾偉輝,李淼 . 深層網(wǎng)絡(luò)爬蟲研究綜述 [J]. 計(jì)算機(jī)系統(tǒng)應(yīng)用 , 2022. [8]周立柱 ,林 玲 . 聚焦爬蟲技術(shù)研究綜述 [J].計(jì)算機(jī)應(yīng)用 , 2022 年 9 月 . [9]S. Chakrabarti, M. van den Berg and B. Dom. Focused Crawling: A New Approach to TopicSpecific Web Resource Discovery [C]. In Proceedings of the 8th International World Wide Web Conference, Toronto, Canada, 1999. [10]陳汶濱,夏學(xué)梅 . 基于聚焦爬蟲的手機(jī)天氣預(yù)報(bào)系統(tǒng) [J]. 今日科苑 . 2022年第2期 . [11]邱哲,符滔滔 . 開發(fā)自己的搜索引擎 Lucene +Heritrix. 人民郵電出版社 , 20224. [12]羅剛 . 自己動手寫網(wǎng)絡(luò)爬蟲 . 清華大學(xué)出版社 . 2022101; [13]Heritrix 官方網(wǎng)站 [EB/OL]. [14]seeda 網(wǎng)站 [EB/OL]. [15]網(wǎng)絡(luò)爬蟲 [EB/OL]. 三、設(shè)計(jì)(研究)內(nèi)容和要求(包括設(shè)計(jì)或研究內(nèi)容、主要指標(biāo) 與技術(shù)參數(shù),并根據(jù)課題性質(zhì)對學(xué)生提出具體要求。) 本系統(tǒng)將要達(dá)到以下目標(biāo): ? 提供給用戶一個種子文件,用戶可以設(shè)置抓取 Web 服務(wù)的網(wǎng)站地址。 ? 根據(jù)種子地址,搜索種子網(wǎng)站上的 Web 服務(wù)。 ? 把搜索到的 Web 服務(wù)相關(guān)信息存入數(shù)據(jù)庫中。 為了達(dá)到以上目的,本系統(tǒng)將對 Heritrix 開源框架進(jìn)行擴(kuò)展 ,并針對服務(wù)網(wǎng)站上服務(wù)的特點(diǎn)選擇合適 的爬蟲抓取過程。 當(dāng)服務(wù)網(wǎng)站提供了詳細(xì)的服務(wù)信息,且網(wǎng)站服務(wù)的分布結(jié)構(gòu)是有規(guī)律的,那么通過 對網(wǎng)站結(jié)構(gòu)的分析,可以得到網(wǎng)站中服務(wù)分布的一顆樹,并用形式化語言描述這棵樹,而經(jīng)過擴(kuò)展之后的爬蟲對這顆樹進(jìn)行遍歷,就實(shí)現(xiàn)了抓起網(wǎng)絡(luò)上分布的 Web Service。 當(dāng)服務(wù)網(wǎng)站沒有提供服務(wù)的信息,只提供了 WSDL 文檔的 URL,那么就遍歷網(wǎng)站中所有的本網(wǎng)站的網(wǎng)頁,并判斷網(wǎng)頁中的鏈接是否是 WSDL 文檔的 URL, 如果是,就下載該 WSDL 文檔。 指導(dǎo)教師(簽字) 年 月 日 審題小組組長(簽字) 年 月 日 天津大學(xué)本科生畢業(yè)設(shè)計(jì)(論文)開題報(bào)告 課題名稱 Web Services 網(wǎng)絡(luò)爬蟲 學(xué)院名稱 軟件學(xué)院 專業(yè)名稱 軟件工程 學(xué)生姓名 梁其烜 指導(dǎo)教師 馮志勇 一、 課題來源及意義: 互聯(lián)網(wǎng)上的服務(wù)數(shù)量正快速的增長,分布在不同的網(wǎng)站上,導(dǎo)致服務(wù)的用戶需要在不同的網(wǎng)站之間尋找一個或者多個符合自己需求的服務(wù),對于服務(wù)開發(fā)者來說,他們無法快速、準(zhǔn)確的得知現(xiàn)有的服務(wù)開發(fā)現(xiàn)狀,服務(wù)開發(fā)者無法重用現(xiàn)有的服務(wù),重復(fù)開發(fā)已有的服務(wù),導(dǎo)致一個糟糕的服務(wù)開發(fā)環(huán)境。 本課題的任務(wù)是抓取 互聯(lián)網(wǎng)上分散的服務(wù),具有重要意義:本系統(tǒng)把互聯(lián)網(wǎng)上的服務(wù)都收集起來,并存儲在本地?cái)?shù)據(jù)庫。用戶或者服務(wù)開發(fā)者就可以在基于該本系統(tǒng)數(shù)據(jù)庫的搜索引擎中查找到所有的互聯(lián)網(wǎng)上大部分的服務(wù),節(jié)省了在不同網(wǎng)站間查找服務(wù)的時間。服務(wù)用戶可以快速、準(zhǔn)確的找到符合自己需求的服務(wù),服務(wù)開發(fā)者可以快速得知服務(wù)開發(fā)現(xiàn)狀,避免重復(fù)開發(fā),并且可以利用現(xiàn)有服務(wù)進(jìn)行組合開發(fā)等。 二、 國內(nèi)外發(fā)展?fàn)顩r: 收集互聯(lián)網(wǎng)上的信息的系統(tǒng)被稱為網(wǎng)絡(luò)爬蟲 (又被稱為網(wǎng)頁蜘蛛,網(wǎng)絡(luò)機(jī)器人,在 FOAF 社區(qū)中間 ,更經(jīng)常的稱為網(wǎng)頁追逐者 ),它是一種按照一定的規(guī)則 ,自動的抓取萬維網(wǎng)信息的程序或者 腳本 。另外一些不常使用的名字還有螞蟻,自動索引,模擬程序或者 蠕蟲 。 網(wǎng)絡(luò)爬蟲按照系統(tǒng)結(jié)構(gòu)和實(shí)現(xiàn)技術(shù),大致可以分為以下幾種類型 [1]:通用網(wǎng)絡(luò)爬蟲 [2]、聚焦網(wǎng)絡(luò)爬蟲 [8]、增量式網(wǎng)絡(luò)爬蟲 [5]、 Deep Web 爬蟲 [7]。通用網(wǎng)絡(luò)爬蟲 [2]又稱全網(wǎng)爬蟲 (Scalable Web Crawler),爬行對象從一些種子 URL 擴(kuò)充到整個 Web ,主要為門戶站點(diǎn)搜索引擎和大型 Web 服務(wù)提供商采集數(shù)據(jù)。通用的網(wǎng)絡(luò)爬蟲大多應(yīng)用于大型門戶網(wǎng)站或類似于 google 這樣的搜索引擎 [15]。 聚焦網(wǎng)絡(luò)爬蟲 (Focused Crawler),又稱主題網(wǎng)絡(luò)爬蟲 (Topical Crawler ),是指選擇性地爬行那些與預(yù)先定義好的主題相關(guān)頁面的網(wǎng)絡(luò)爬蟲 [3]。隨著垂直搜索的蓬勃發(fā)展,聚焦網(wǎng)絡(luò),也就是主題網(wǎng)絡(luò)爬蟲成為研究的前言 , [4]提出通過深入分析生活類網(wǎng)站網(wǎng)址的樹形結(jié)構(gòu)的架構(gòu),開發(fā)了收 集種子頁面的 URL 的模擬搜集齊,并基于 HTMLParser 的信息提取方法,從種子與頁面中提取出與生活類主題相關(guān)的目標(biāo) URL。 增量式網(wǎng)絡(luò)爬蟲 (Incremental Web Crawler) [5]是指對已下載網(wǎng)頁采取增 量式更新和只爬行新產(chǎn)生的或者已經(jīng)發(fā)生變化網(wǎng)頁的爬蟲,它能夠在一定程度上 保證所爬行的頁面是盡可能新的頁面 。 本課題研究的是針對 Web 服務(wù)的聚焦網(wǎng)絡(luò)爬蟲技術(shù)。因?yàn)榫劢咕W(wǎng)絡(luò)爬蟲技術(shù)能最快的,最準(zhǔn)確的搜索 Web 服務(wù)信息。本課題并不是重新開發(fā)一個爬蟲程序,而是在現(xiàn)有爬蟲開源框架的基礎(chǔ)上進(jìn)行擴(kuò)展 。 現(xiàn)有的網(wǎng)絡(luò)爬蟲框架有很多,例如: Heritrix、 Nutch、 Larbin、 JSpider 等。 Heritrix[13]是一個由 Java 開發(fā)的、開源的 Web 網(wǎng)絡(luò)信息采集程序。和其他開源的爬蟲程序相比, Heritrix 的優(yōu)勢在于它的擴(kuò)展性,開發(fā)者可以擴(kuò)展它的組件,來實(shí)現(xiàn)自己的抓取邏輯 [6]。 現(xiàn)已有很多應(yīng)用是在 Heritrix 上開發(fā)的。例如: 基于聚焦爬蟲的手機(jī)天氣預(yù)報(bào)系統(tǒng) ,它是在 Heritrix 的基本功能上進(jìn)行擴(kuò)展 [11]和修改 [12]。 由以上對爬蟲類型和爬蟲框架的發(fā)展現(xiàn)狀分析,本課題使用 Heritrix 開源框架,并通過分析網(wǎng)絡(luò)上分布 Web 服務(wù)的網(wǎng)站的樹形結(jié)構(gòu)的架構(gòu),實(shí)現(xiàn)針對 Web服務(wù)主題的網(wǎng)絡(luò)爬蟲。 三、 目標(biāo)和內(nèi)容: 我的研究目標(biāo)是:把互聯(lián)網(wǎng)上廣泛分布的 Web Service 搜集起來,把相關(guān)信息存入數(shù)據(jù)庫,存在兩種情況: 第一種情況:網(wǎng)站上的服務(wù)提供了關(guān)于服務(wù)的相關(guān)信息,那么本系統(tǒng)需要在抓取服務(wù) wsdl 文檔的同時,獲取服務(wù)的相關(guān)信息。針對這種情況,主要的研究內(nèi)容如下: Heritrix 的擴(kuò)展 因?yàn)楝F(xiàn)有的開源爬蟲框架 Heritrix 提供了網(wǎng)絡(luò)搜索的基本結(jié)構(gòu),所以,我會擴(kuò)展 Heritrix 框架,使該框架適用于本系統(tǒng)。 a. 重新改寫 Heritrix 框架處理流程中的過濾鏈,以過濾不需要訪問的網(wǎng)頁。 b. 重新改寫 Heritrix 框架處理流程中的提取鏈,以提取網(wǎng)頁包含的信息。 c. 重新改寫 Heritrix 框架處理流程中的寫鏈,以下載搜索到的 wsdl 文檔。 a. 對網(wǎng)站所有 Web Service 的分類頁面進(jìn)行分析,分析出含有 所有 Web Service 的種類 URl 的 table 表格結(jié)構(gòu)和 URL 的結(jié)構(gòu)。 b. 對某類別 Web Service 頁面進(jìn)行分析,分析出含有所有該類別 Web Service 的詳細(xì)信息頁面 URL 的 table 表格結(jié)構(gòu)和 URL 的結(jié)構(gòu)。 c. 對 Web Service 詳細(xì)信息頁面進(jìn)行分析,分析出包含所有與該 Web Service 相關(guān)的信息的 table 表格結(jié)構(gòu)。 通過對網(wǎng)站結(jié)構(gòu)的分析,可以得到網(wǎng)站中服務(wù)分布的一顆樹,并用形式化語言描述這棵樹。 采用數(shù)據(jù)結(jié)構(gòu)中的樹結(jié)構(gòu)來描述網(wǎng)站服務(wù)的分布樹,而經(jīng)過擴(kuò)展之后的爬蟲得到根節(jié)點(diǎn), 并通過根節(jié)點(diǎn)對整棵樹進(jìn)行遍歷,就實(shí)現(xiàn)了抓起網(wǎng)絡(luò)上分布的 Web Service。 第二種情況:網(wǎng)站上只提供了服務(wù)的 wsdl文檔的 url,沒有其它信息,那么本系統(tǒng)就只需要抓取服務(wù)的 wsdl文檔,也就不需要分析網(wǎng)站服務(wù)分部結(jié)構(gòu)。針對第二種情況,主要的研究內(nèi)容如下: 重新改寫 Heritrix 框架處理流程中的寫鏈,以下載搜索到的 wsdl 文檔。利用 Client 編寫下載 wsdl 程序。 四、 方法和手段: 在擴(kuò)展 Heritrix 框架的過程中,遇到的問題或者使用的插件如下: 1. 在改寫 Heritrix 框架的提取鏈時,需要從 分析網(wǎng)站結(jié)構(gòu)中得到需要遍歷 的網(wǎng)頁 URL。 2. 在改寫 Heritrix 框架的寫鏈時,涉及到訪問遠(yuǎn)程服務(wù)器,下載 wsdl 文檔。解決該問題時,我們用到了 HTTPClient 插件,該插件能夠?qū)崿F(xiàn)下載遠(yuǎn)程服務(wù)器上的文檔,還可以設(shè)定連接時間等。 3. 由于 Heritrix 框架提供了完善的 UI 界面操作,但是沒有提供完整的代碼啟動程序,同時本課題需要把爬蟲啟動操作嵌入到其他程序中,所以需 要編寫 Heritrix 的代碼啟動模塊。 在分析網(wǎng)站結(jié)構(gòu)時,需要用到 HTMLParser 插件,該插件能夠?qū)崿F(xiàn)對網(wǎng)頁的詳細(xì)分析,包括獲取所有網(wǎng)頁標(biāo)簽 信息等功能。利用該插件,我們可以準(zhǔn)確無誤的獲取服務(wù)的所有詳細(xì)信息。
點(diǎn)擊復(fù)制文檔內(nèi)容
規(guī)章制度相關(guān)推薦
文庫吧 www.dybbs8.com
公安備案圖鄂ICP備17016276號-1