freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

畢業(yè)論文設(shè)計:面向webservice的網(wǎng)絡(luò)爬蟲設(shè)計與實(shí)現(xiàn)(編輯修改稿)

2024-07-11 01:32 本頁面
 

【文章內(nèi)容簡介】 未來的發(fā)展前景。 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(論文) 3 第二章 相關(guān)工作和需求分析 相關(guān)工作 隨著 Web 服務(wù)開發(fā)者數(shù)量的增加,互聯(lián)網(wǎng)上的 Web 服務(wù)數(shù)量以爆炸方式增長。伴隨著 Web Service 的數(shù)量的增長,越來越多的網(wǎng)站關(guān)注于如何吸引開發(fā)者把服務(wù)發(fā)布在他們的網(wǎng)站中,這些網(wǎng)站采用了服務(wù)開發(fā)者在該網(wǎng)站上注冊服務(wù)的方式來發(fā)布服務(wù)。 其中, seekda[1]網(wǎng)站是現(xiàn)有的最大的服務(wù)注冊網(wǎng)站,一共有 7663 個服務(wù)提供商在該網(wǎng)站上注冊,據(jù)統(tǒng)計,大約有 2 萬多個服務(wù)在該網(wǎng)站上進(jìn)行發(fā)布。而且該網(wǎng)站上的服務(wù)發(fā)布信息比較齊全,提供了服務(wù)的可用率,用戶標(biāo)簽,提供商,發(fā)布服務(wù)器等信息。還有其它一些服務(wù)注冊網(wǎng)站,例如: 、。盡管這些網(wǎng)站的數(shù)量不及 seekda 的多,但這些網(wǎng)站上的服務(wù)對用戶來說,也是有巨大意義的。其服務(wù)信息很豐富,需要把網(wǎng)絡(luò)上的服務(wù)抓取和集中管理。 網(wǎng)絡(luò)信息抓取的主要工具是網(wǎng)絡(luò)爬蟲,網(wǎng)絡(luò)爬蟲是一種按照一定的規(guī)則,自動的抓起萬維網(wǎng)信息的程序或者腳本。 [2]現(xiàn)有的網(wǎng)絡(luò)爬蟲可以分為以下幾種類型[3]:通用網(wǎng)絡(luò)爬蟲 [12]、聚焦網(wǎng)絡(luò)爬蟲 [15]、增量式網(wǎng)絡(luò)爬蟲 [4]、 Deep Web 爬蟲 [14]。其應(yīng)用也十分廣泛,如 :Google 搜索引擎的爬蟲模塊就是一個通用網(wǎng)絡(luò)爬蟲,Google 的爬蟲通過 遍歷互聯(lián)網(wǎng)上的網(wǎng)頁,并提取網(wǎng)頁的信息,例如關(guān)鍵字、類型、網(wǎng)頁超鏈接等,然后建立網(wǎng)頁索引。最后在這些網(wǎng)頁信息上建立搜索引擎,向用戶提供統(tǒng)一的訪問網(wǎng)頁的窗口 [5]。 聚焦網(wǎng)絡(luò)爬蟲也稱為主題爬蟲 [13],大量的應(yīng)用于互聯(lián)網(wǎng)中,例如基于聚焦爬蟲的手機(jī)天氣預(yù)報系統(tǒng) [6],就是應(yīng)用了聚焦網(wǎng)絡(luò)爬蟲,通過計算頁面與天氣主題的相關(guān)度,抓取網(wǎng)絡(luò)上與天氣相關(guān)的頁面信息,并把對頁面進(jìn)行索引,并向用戶提供統(tǒng)一訪問窗口。 Web 服務(wù)有其特定結(jié)構(gòu), Web 服務(wù)網(wǎng)絡(luò)爬蟲不僅僅遍歷網(wǎng)頁,并建立索引,而且在遍歷網(wǎng)頁過程中,利用網(wǎng)頁分析工具解析網(wǎng) 頁 [7],把 Web 服務(wù)相關(guān)信息抓取下來,如:注冊標(biāo)簽、提供商、注冊時間、可用率、服務(wù)器等。 Heritrix[9]是一個比較靈活、可擴(kuò)展性強(qiáng)的網(wǎng)絡(luò)爬蟲開源框架,目前,已經(jīng)有很多應(yīng)用在該框架上進(jìn)行開發(fā),例如基于 Heritrix 的面向電子商務(wù)網(wǎng)站的信息抓取,該應(yīng)用就是在 Heritrix 網(wǎng)絡(luò)爬蟲開源框架的基礎(chǔ)上進(jìn)行擴(kuò)展、修改 [10],并建立特有的抓取策略來抓取網(wǎng)絡(luò)上的電子商務(wù)信息 [11]。 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(論文) 4 功能說明 本系統(tǒng)包含以下功能: 如果網(wǎng)站提供了詳細(xì)的服務(wù)信息,那么功能如下: 1. 存儲服務(wù)的詳細(xì)信息 遍歷網(wǎng)站結(jié)構(gòu)過程中,如果頁面是服務(wù)詳細(xì)信息頁面,需要對頁面進(jìn)行解析,把服務(wù)的詳細(xì)信息提取出來,并存入數(shù)據(jù)庫。詳細(xì)信息包括:服務(wù)描述文檔 WSDL URL、服務(wù)提供商、服務(wù)注冊時間、服務(wù)可用率、服務(wù)運(yùn)行服務(wù)器、服務(wù)標(biāo)簽等。 2. 下載 WSDL 文檔 提取了 Web服務(wù)詳細(xì)信息后,根據(jù) Web服務(wù) WSDL文檔的 URL,下載 WSDL文檔,并把文檔內(nèi)容存放到數(shù)據(jù)庫中。 如果網(wǎng)站只提供了 Web 服務(wù) WSDL 文檔的 URL,那么系統(tǒng)在抓取網(wǎng)站過程中,只提取 Web 服務(wù) WSDL 的 URL,把該 URL 存入數(shù)據(jù)庫,并下載 Web 服務(wù)的 WSDL 文檔。 運(yùn)行環(huán)境 要求程序能夠運(yùn)行在如下環(huán)境中:操作系統(tǒng): Windows XP;運(yùn)行平臺:MyEclipse 以上; java 虛擬機(jī): JVM 以上;數(shù)據(jù)庫: 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(論文) 5 第三章 面向 web service 的網(wǎng)絡(luò)爬蟲的詳細(xì)設(shè)計 總體架構(gòu) 本系統(tǒng)采用的是廣度優(yōu)先策略,利用網(wǎng)絡(luò)爬蟲開源框架 Heritrix 的多線程管理、鏈接調(diào)度器模塊,擴(kuò)展了 Heritrix 的處理鏈流程。 Heritrix 框架的多線程管理池可以提供 50 個線程同時進(jìn)行抓取工 作, Frontier調(diào)度器負(fù)責(zé)調(diào)度鏈接, Frontier 把新鏈接加入到待訪問隊列中,把未訪問鏈接傳遞給線程。本系統(tǒng)針對兩類網(wǎng)站進(jìn)行了處理鏈修改及擴(kuò)展。 針對提供了詳細(xì)信息的服務(wù)網(wǎng)站,裁掉了一些 Heritrix 原有處理鏈,只保留了過濾鏈,提取鏈,寫鏈,并對三個處理鏈功能進(jìn)行重新設(shè)定。 ? 過濾鏈主要負(fù)責(zé)根據(jù)網(wǎng)站服務(wù)分部結(jié)構(gòu)過濾掉不相關(guān)的鏈接。 ? 提取鏈主要負(fù)責(zé)解析頁面信息,提取的內(nèi)容包括: ; 細(xì)信息內(nèi)容; ? 寫鏈主要負(fù)責(zé)把服務(wù)信息存儲到數(shù)據(jù)庫中,下載 WSDL 文檔。 系統(tǒng)結(jié)構(gòu)圖如下 : 圖 31 抓取詳細(xì)信息情況下的系統(tǒng)結(jié)構(gòu) 圖 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(論文) 6 針對網(wǎng)站只提供了服務(wù) WSDL 文檔的 URL,本系統(tǒng)的設(shè)計是:處理鏈保留過濾鏈、提取鏈和寫鏈,并對過濾鏈、提取鏈和寫鏈功能進(jìn)行了重新設(shè)定。 過濾鏈主要負(fù)責(zé)過濾非本網(wǎng)站鏈接,爬蟲抓取的范圍局限于主網(wǎng)站,所有其他指向網(wǎng)站的鏈接都會過濾。提取鏈主要負(fù)責(zé)解析網(wǎng)頁內(nèi)容,提取服務(wù) WSDL 文檔的 URL。寫鏈主要負(fù)責(zé)根據(jù)服務(wù) WSDL 文檔的 URL 下載服務(wù) WSDL 文檔。 系統(tǒng)結(jié)構(gòu)圖如下: 圖 32 抓取沒有詳細(xì)信息服務(wù)的系統(tǒng)結(jié)構(gòu) 圖 數(shù)據(jù) 庫設(shè)計 本系統(tǒng)的數(shù)據(jù)庫較簡單,只有一個表 webServiceDetail,在兩種情況下,都需要存儲服務(wù) WSDL 文檔的 URL,在第一種情況下,需要存儲服務(wù)相關(guān)信息,這些相關(guān)信息包括:服務(wù)提供商、服務(wù)注冊時間、服務(wù)可用率、服務(wù)用戶描述、服務(wù)服務(wù)器等,但是在第二種情況下,不需要存儲服務(wù)相關(guān)信息,只存儲服務(wù)WSDL 文檔的 URL。數(shù)據(jù)庫表定義如下: 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(論文) 7 表 31 webServiceDetail表 屬性名 數(shù)據(jù)類型 非空 自增長 默認(rèn)值 wsdlAddress VARCHAR(255) √ Provider VARCHAR(30) monitoredSince VARCHAR(50) server VARCHAR(50) availability VARCHAR(50) description VARCHAR(5000) descriptionByUser VARCHAR(1000) fileAddress VARCHAR(255) date datatime state VARCHAR(50) type Boolean √ 重要字段說明: wsdlAddress 字段為主鍵,因?yàn)槊總€服務(wù) WSDL 文檔的 URL 是唯一的。 type 字段為 true 時,表示該服務(wù)有相關(guān)服務(wù)信息,為 false 時,表示該服務(wù)沒有相關(guān)的服務(wù)信息。 程序包設(shè)計 本系統(tǒng)主要包括 5 大模塊,分別是: 1. 過濾鏈模塊 2. 提取鏈模塊 3. 寫鏈模塊 4. 管理訪問鏈接模塊 5. 管理爬蟲多線程模塊 相對應(yīng)的程序包設(shè)計圖如下: 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(論文) 8 圖 33 程序包設(shè)計圖 ? 是過濾鏈模塊的程序文件包,主要負(fù)責(zé)過 濾無關(guān)的網(wǎng)頁鏈接。 ? 是提取鏈模塊的程序文件包,主要負(fù)責(zé)對各種頁面進(jìn)行信息提取。 ? 是寫鏈模塊的程序文件包,主要負(fù)責(zé)下載 WSDL 文檔。 ? 是負(fù)責(zé)管理待訪問隊列的鏈接的程序文件包,向線程傳遞鏈接。 ? 是負(fù)責(zé)管理爬蟲線程的程序文件包,線程獲取鏈接,并訪問網(wǎng)頁的。 流程設(shè)計 針對第一種情況,爬蟲抓取過程如圖 34 所示: 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(論文) 9 圖 34 第一種情況爬蟲抓取流程圖 1. 向爬蟲程序提供一個初始 URL,該 URL 是服務(wù)提供商集合頁面的 URL, 該 URL 被加入到待訪問隊列中。 2. 爬蟲線程管理器 TreadPool 詢問 Frontier,檢查待訪問隊列中是否存在鏈 接,如果存在, TreadPool 獲得該鏈接,并分配給一個線程。直到?jīng)]有空 閑線程都在工作或者待訪問隊列中沒有多余的鏈接為止。 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(論文) 10 3. 爬蟲線程獲得鏈接后,首先經(jīng)過過濾鏈的處理,判斷鏈接頁面的類型, 并決定如何解析該頁面。 4. 鏈接進(jìn)入了提取鏈,提取鏈直到了過濾鏈對鏈接頁 面類型的判斷后,對 頁面進(jìn)行不同策略的分析和提取。 如果該頁面是服務(wù)提供商集合頁面,提取鏈就對該頁面進(jìn)行提供商 服務(wù)集合頁面鏈接的抓取,并把這些鏈接加入到待訪問隊列中。 如果該頁面是提供商服務(wù)集合頁面,提取鏈就對該頁面進(jìn)行服務(wù)詳 細(xì)信息頁面鏈接的抓取,并把這些鏈接加入到待訪問隊列中。 如果該頁面是服務(wù)詳細(xì)信息頁面,提取鏈就對該頁面進(jìn)行服務(wù)詳細(xì) 信息進(jìn)行抓取。 ,就進(jìn)入了寫鏈,如果是服務(wù)詳細(xì)信息頁面,在數(shù)據(jù)庫中標(biāo) 記該頁面類型為 true,表示該 數(shù)據(jù)庫記錄是 一個提供商服務(wù)集合頁面相 關(guān)的內(nèi)容。還要把提取鏈中提取出來的服務(wù)信息存入服務(wù)詳細(xì)信息表中, 例如:服務(wù)提供商、服務(wù)注冊時間、 服務(wù)可用率、服務(wù)標(biāo)簽等。 針對第二種情況,爬蟲抓取過程如圖 35 所示: 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(論文) 11 圖 35 第二種情況爬蟲抓取流程圖 1. 向爬蟲程序提供一個初始 URL,該 URL 是待抓取網(wǎng)站的首頁 URL,該 URL 被加入到待訪問隊列中。 2. 爬蟲線程管理器 TreadPool 詢問 Frontier,檢查待訪問隊列中是否存在鏈 接,如果存在, TreadPool 獲得該鏈接,并分配給 一個線程。直到?jīng)]有空 閑線程或者待訪問隊列中沒有多余的鏈接為止。 3. 爬蟲線程獲得鏈接后,首先經(jīng)過過濾鏈的處理,判斷鏈接頁面的類型, 并決定如何解析該頁面。 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(論文) 12 4. 鏈接進(jìn)入了提取鏈,提取鏈知道了過濾鏈對鏈接頁面類型的判斷后,對 頁面進(jìn)行不同策略的分析和提取。 如果該頁面是本網(wǎng)站的其他頁面,提取鏈就對該頁面進(jìn)行鏈接抓取, 并把這些鏈接加入到待訪問隊列中,并跳過寫鏈。 如果該頁面是其他網(wǎng)站的頁面,提取鏈就忽略該頁面。跳過寫鏈。 如果該頁面是服務(wù) WSDL 文檔的 URL, 提取鏈就把該鏈接提交給寫 鏈。 5. 如果鏈接能夠進(jìn)入了寫鏈,該鏈接是服務(wù) WSDL 文檔的鏈接,所以先下 載該 WSDL 文檔,并在數(shù)據(jù)庫中添加一條記錄,并在字段 type 中標(biāo)記為 false,說明該服務(wù)是沒有詳細(xì)信息的。 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(論文) 13 第四章 面向 web service 的聚焦網(wǎng)絡(luò)爬蟲的技術(shù)實(shí)現(xiàn) 分析網(wǎng)站服務(wù)分布結(jié)構(gòu) 針對第一種情況,首先要分析網(wǎng)站服務(wù)的分布結(jié)構(gòu)。 現(xiàn)有的服務(wù)網(wǎng)站中, seekda 網(wǎng)站的服務(wù)分布是有結(jié)構(gòu)、有規(guī)律的。所以我 對 seekda 網(wǎng)站的具體分析如下: 用戶在 Seekda 網(wǎng)站上有三種方式可以查找服務(wù): 1. 網(wǎng)站提供了強(qiáng)大的搜索功能,用戶可以在搜索頁面輸入服務(wù)名、服務(wù)標(biāo) 簽、服務(wù)注冊時間等信息進(jìn)行搜索。 2. 網(wǎng)站把同一類標(biāo)簽的服務(wù),以標(biāo)簽的方式顯示在首頁,用戶可以根據(jù)標(biāo) 簽來找服務(wù),但是只是服務(wù)數(shù)量較多的標(biāo)簽會顯示。 3. 網(wǎng)站按照提供商來進(jìn)行分類,用戶可以查找每一個提供商,然后就查找 到了每個提供商下的每個服務(wù)。 方式 1:爬蟲抓取網(wǎng)站所有服務(wù)是不可行的,因?yàn)榕老x無法列舉所有可能的搜索條件。方式 2:只有服務(wù)數(shù) 量比較多的標(biāo)簽會顯示,對于爬蟲來說,無法得到服務(wù)數(shù)量少的標(biāo)簽。方式 3:爬蟲可以得到所有的提供商,也就可以得到所有的服務(wù)。通過以上分析,得出以下結(jié)論: 針對 seekda 網(wǎng)站的抓取策略是先得到所有的提供商集合,然后進(jìn)入每個提供商頁面,在提供商頁面,得到該提供商的所有服務(wù)。當(dāng)爬蟲遍歷完所有的提供商頁面,也就抓取完所有的服務(wù)。 網(wǎng)站服務(wù)分部結(jié)構(gòu)如圖 41 所示: 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(論文) 14 圖 41 網(wǎng)站服務(wù)分布結(jié)構(gòu)圖 要把網(wǎng)站結(jié)構(gòu)應(yīng)用于爬蟲中,就需要知道哪些頁面是服務(wù)詳細(xì)信息
點(diǎn)擊復(fù)制文檔內(nèi)容
畢業(yè)設(shè)計相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1