freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

畢業(yè)論文設(shè)計:面向webservice的網(wǎng)絡(luò)爬蟲設(shè)計與實現(xiàn)-在線瀏覽

2024-08-01 01:32本頁面
  

【正文】 索策略。在開源框架的基礎(chǔ)上,結(jié)合對 Web服務(wù)網(wǎng)站的結(jié)構(gòu)分析,就可以實現(xiàn)對網(wǎng)絡(luò)上分布的 Web服務(wù)抓取。 2. 概念抽象,對于 web services 爬蟲的分析和設(shè)計, 至 。 選題是否合適: 是□ 否□ 課題能否實現(xiàn): 能□ 不能□ 指導(dǎo)教師 (簽字) 年 月 日 選題是否合適: 是□ 否□ 課題能否實現(xiàn): 能□ 不能□ 審題小組組長(簽字) 年 月 日 摘 要 互聯(lián)網(wǎng)上的服務(wù)數(shù)量增長快速,網(wǎng)站提供的關(guān)于服務(wù)的信息也各異,導(dǎo)致用戶難以正確、快速的找到合適的服務(wù),為了解決以上問題,需要獲取和保存服務(wù)的 WSDL 的 URL 和相關(guān)的服務(wù)信息。 3)下載 WSDL 文檔:在抓取到了服務(wù) WSDL 的 URL 后,使用 HtmlClient 下載 WSDL 文檔。 通過對 Web 服務(wù)的抓取,用戶可以通過統(tǒng)一的入口來訪問這些服務(wù),而不用在互聯(lián)網(wǎng)上盲目搜索。 關(guān)鍵詞: 爬蟲 ;網(wǎng)絡(luò)服務(wù); WSDL; ABSTRACT The number of services on the Inter Increase quickly,the information sites provide about services is also different, leading to that it is difficult for users to correctly and quickly find the right services, in order to solve the above problems, needing to capture and store the service39。 2) Page information extraction: According to the manual analysis that which information in which paper needs to be captured, then using HtmlParser tools to capture the information in the page。 Web 服務(wù)的出現(xiàn)有效的解決了以上難題。正因為 Web 服務(wù)的有效的解決了以上問題,互聯(lián)網(wǎng)上的服務(wù)發(fā)展迅速,服務(wù)數(shù)量飛速增長。另外, Web 服務(wù)的發(fā)展也產(chǎn)生了另外一個應(yīng)用模式:組合應(yīng)用 (Mushup),把不同的 Web 服務(wù)進(jìn)行組合,滿足用戶需求。但是通過主動式的爬取,獲得并存儲互聯(lián)網(wǎng)上的服務(wù),對服務(wù)進(jìn)行集中管理,有利于對用戶提供統(tǒng)一的訪問方式,有利于對互聯(lián)網(wǎng)服務(wù)的分析,提高組合的效率。所以本論文的目的是:通過爬蟲抓取,得到互聯(lián)網(wǎng)上的 Web 服務(wù)信息,并把服務(wù)信息存放到數(shù)據(jù)庫中。針對這種情況,研究內(nèi)容如下: Heritrix 的擴(kuò)展 因為現(xiàn)有的開源爬蟲框架 Heritrix 提供了網(wǎng)絡(luò)搜索的基本結(jié)構(gòu),所以,我會擴(kuò)展 Heritrix 框架,使該框架適用于本系統(tǒng)。 b. 重新改寫 Heritrix 框架處理流程的提取鏈,提取網(wǎng)頁包含的信息。 a. 對網(wǎng)站 Web 服務(wù)的分類頁面進(jìn)行分析,分析出含有所有 Web 服務(wù)的種類 URL 的 table 表格結(jié)構(gòu)和 URL 的結(jié)構(gòu)。 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(論文) 2 c. 對 Web 服務(wù)詳細(xì)信息頁面進(jìn)行分析,分析出 Web 服務(wù)信息的 table表格結(jié)構(gòu)。采用數(shù)據(jù)結(jié)構(gòu)中的樹結(jié)構(gòu)來描述網(wǎng)站服務(wù)的分布樹,擴(kuò)展后的爬蟲得到根節(jié)點 URL,通過根節(jié)點對整棵樹進(jìn)行遍歷,抓起網(wǎng)站所有的 Web服務(wù)。針對第二種情況,主要的研究內(nèi)容如下: 重新改寫 Heritrix 框架處理流程中的寫鏈,以下載搜索到的 WSDL 文檔。 全文安排 全文共分為六章。 第二章 介紹了互聯(lián)網(wǎng)上的服務(wù)的分布情況和相關(guān)爬蟲技術(shù),并對需求進(jìn)行分析,包括功能說明和運(yùn)行環(huán)境。 第四章 在第三章得基礎(chǔ)上給出了具體的實現(xiàn)方法,其中主要包括分析網(wǎng)站服務(wù)分部結(jié)構(gòu)、頁面內(nèi)容提取、下載 WSDL 文檔以及結(jié)果展示。 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(論文) 3 第二章 相關(guān)工作和需求分析 相關(guān)工作 隨著 Web 服務(wù)開發(fā)者數(shù)量的增加,互聯(lián)網(wǎng)上的 Web 服務(wù)數(shù)量以爆炸方式增長。 其中, seekda[1]網(wǎng)站是現(xiàn)有的最大的服務(wù)注冊網(wǎng)站,一共有 7663 個服務(wù)提供商在該網(wǎng)站上注冊,據(jù)統(tǒng)計,大約有 2 萬多個服務(wù)在該網(wǎng)站上進(jìn)行發(fā)布。還有其它一些服務(wù)注冊網(wǎng)站,例如: 、。其服務(wù)信息很豐富,需要把網(wǎng)絡(luò)上的服務(wù)抓取和集中管理。 [2]現(xiàn)有的網(wǎng)絡(luò)爬蟲可以分為以下幾種類型[3]:通用網(wǎng)絡(luò)爬蟲 [12]、聚焦網(wǎng)絡(luò)爬蟲 [15]、增量式網(wǎng)絡(luò)爬蟲 [4]、 Deep Web 爬蟲 [14]。最后在這些網(wǎng)頁信息上建立搜索引擎,向用戶提供統(tǒng)一的訪問網(wǎng)頁的窗口 [5]。 Web 服務(wù)有其特定結(jié)構(gòu), Web 服務(wù)網(wǎng)絡(luò)爬蟲不僅僅遍歷網(wǎng)頁,并建立索引,而且在遍歷網(wǎng)頁過程中,利用網(wǎng)頁分析工具解析網(wǎng) 頁 [7],把 Web 服務(wù)相關(guān)信息抓取下來,如:注冊標(biāo)簽、提供商、注冊時間、可用率、服務(wù)器等。 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(論文) 4 功能說明 本系統(tǒng)包含以下功能: 如果網(wǎng)站提供了詳細(xì)的服務(wù)信息,那么功能如下: 1. 存儲服務(wù)的詳細(xì)信息 遍歷網(wǎng)站結(jié)構(gòu)過程中,如果頁面是服務(wù)詳細(xì)信息頁面,需要對頁面進(jìn)行解析,把服務(wù)的詳細(xì)信息提取出來,并存入數(shù)據(jù)庫。 2. 下載 WSDL 文檔 提取了 Web服務(wù)詳細(xì)信息后,根據(jù) Web服務(wù) WSDL文檔的 URL,下載 WSDL文檔,并把文檔內(nèi)容存放到數(shù)據(jù)庫中。 運(yùn)行環(huán)境 要求程序能夠運(yùn)行在如下環(huán)境中:操作系統(tǒng): Windows XP;運(yùn)行平臺:MyEclipse 以上; java 虛擬機(jī): JVM 以上;數(shù)據(jù)庫: 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(論文) 5 第三章 面向 web service 的網(wǎng)絡(luò)爬蟲的詳細(xì)設(shè)計 總體架構(gòu) 本系統(tǒng)采用的是廣度優(yōu)先策略,利用網(wǎng)絡(luò)爬蟲開源框架 Heritrix 的多線程管理、鏈接調(diào)度器模塊,擴(kuò)展了 Heritrix 的處理鏈流程。本系統(tǒng)針對兩類網(wǎng)站進(jìn)行了處理鏈修改及擴(kuò)展。 ? 過濾鏈主要負(fù)責(zé)根據(jù)網(wǎng)站服務(wù)分部結(jié)構(gòu)過濾掉不相關(guān)的鏈接。 系統(tǒng)結(jié)構(gòu)圖如下 : 圖 31 抓取詳細(xì)信息情況下的系統(tǒng)結(jié)構(gòu) 圖 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(論文) 6 針對網(wǎng)站只提供了服務(wù) WSDL 文檔的 URL,本系統(tǒng)的設(shè)計是:處理鏈保留過濾鏈、提取鏈和寫鏈,并對過濾鏈、提取鏈和寫鏈功能進(jìn)行了重新設(shè)定。提取鏈主要負(fù)責(zé)解析網(wǎng)頁內(nèi)容,提取服務(wù) WSDL 文檔的 URL。 系統(tǒng)結(jié)構(gòu)圖如下: 圖 32 抓取沒有詳細(xì)信息服務(wù)的系統(tǒng)結(jié)構(gòu) 圖 數(shù)據(jù) 庫設(shè)計 本系統(tǒng)的數(shù)據(jù)庫較簡單,只有一個表 webServiceDetail,在兩種情況下,都需要存儲服務(wù) WSDL 文檔的 URL,在第一種情況下,需要存儲服務(wù)相關(guān)信息,這些相關(guān)信息包括:服務(wù)提供商、服務(wù)注冊時間、服務(wù)可用率、服務(wù)用戶描述、服務(wù)服務(wù)器等,但是在第二種情況下,不需要存儲服務(wù)相關(guān)信息,只存儲服務(wù)WSDL 文檔的 URL。 type 字段為 true 時,表示該服務(wù)有相關(guān)服務(wù)信息,為 false 時,表示該服務(wù)沒有相關(guān)的服務(wù)信息。 ? 是提取鏈模塊的程序文件包,主要負(fù)責(zé)對各種頁面進(jìn)行信息提取。 ? 是負(fù)責(zé)管理待訪問隊列的鏈接的程序文件包,向線程傳遞鏈接。 流程設(shè)計 針對第一種情況,爬蟲抓取過程如圖 34 所示: 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(論文) 9 圖 34 第一種情況爬蟲抓取流程圖 1. 向爬蟲程序提供一個初始 URL,該 URL 是服務(wù)提供商集合頁面的 URL, 該 URL 被加入到待訪問隊列中。直到?jīng)]有空 閑線程都在工作或者待訪問隊列中沒有多余的鏈接為止。 4. 鏈接進(jìn)入了提取鏈,提取鏈直到了過濾鏈對鏈接頁 面類型的判斷后,對 頁面進(jìn)行不同策略的分析和提取。 如果該頁面是提供商服務(wù)集合頁面,提取鏈就對該頁面進(jìn)行服務(wù)詳 細(xì)信息頁面鏈接的抓取,并把這些鏈接加入到待訪問隊列中。 ,就進(jìn)入了寫鏈,如果是服務(wù)詳細(xì)信息頁面,在數(shù)據(jù)庫中標(biāo) 記該頁面類型為 true,表示該 數(shù)據(jù)庫記錄是 一個提供商服務(wù)集合頁面相 關(guān)的內(nèi)容。 針對第二種情況,爬蟲抓取過程如圖 35 所示: 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(論文) 11 圖 35 第二種情況爬蟲抓取流程圖 1. 向爬蟲程序提供一個初始 URL,該 URL 是待抓取網(wǎng)站的首頁 URL,該 URL 被加入到待訪問隊列中。直到?jīng)]有空 閑線程或者待訪問隊列中沒有多余的鏈接為止。 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(論文) 12 4. 鏈接進(jìn)入了提取鏈,提取鏈知道了過濾鏈對鏈接頁面類型的判斷后,對 頁面進(jìn)行不同策略的分析和提取。 如果該頁面是其他網(wǎng)站的頁面,提取鏈就忽略該頁面。 如果該頁面是服務(wù) WSDL 文檔的 URL, 提取鏈就把該鏈接提交給寫 鏈。 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(論文) 13 第四章 面向 web service 的聚焦網(wǎng)絡(luò)爬蟲的技術(shù)實現(xiàn) 分析網(wǎng)站服務(wù)分布結(jié)構(gòu) 針對第一種情況,首先要分析網(wǎng)站服務(wù)的分布結(jié)構(gòu)。所以我 對 seekda 網(wǎng)站的具體分析如下: 用戶在 Seekda 網(wǎng)站上有三種方式可以查找服務(wù): 1. 網(wǎng)站提供了強(qiáng)大的搜索功能,用戶可以在搜索頁面輸入服務(wù)名、服務(wù)標(biāo) 簽、服務(wù)注冊時間等信息進(jìn)行搜索。 3. 網(wǎng)站按照提供商來進(jìn)行分類,用戶可以查找每一個提供商,然后就查找 到了每個提供商下的每個服務(wù)。方式 2:只有服務(wù)數(shù) 量比較多的標(biāo)簽會顯示,對于爬蟲來說,無法得到服務(wù)數(shù)量少的標(biāo)簽。通過以上分析,得出以下結(jié)論: 針對 seekda 網(wǎng)站的抓取策略是先得到所有的提供商集合,然后進(jìn)入每個提供商頁面,在提供商頁面,得到該提供商的所有服務(wù)。 網(wǎng)站服務(wù)分部結(jié)構(gòu)如圖 41 所示: 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(論文) 14 圖 41 網(wǎng)站服務(wù)分布結(jié)構(gòu)圖 要把網(wǎng)站結(jié)構(gòu)應(yīng)用于爬蟲中,就需要知道哪些頁面是服務(wù)詳細(xì)信息頁面、服務(wù)提供商頁面、服務(wù)提供商集合頁面。 得到網(wǎng)站服務(wù)分布結(jié)構(gòu)后,通過分析不同類型頁面的 URL,用正則表達(dá)式來過濾無關(guān)網(wǎng)頁和判斷網(wǎng)頁類型。下面就以 提供商的 QueryService 服務(wù)為例,說明三種網(wǎng)頁的 URL 的特點。 2. 是服務(wù)提供商 的頁面 URL, 名 /?tab=servicelistamp。p=*結(jié)尾的 URL 就是服務(wù)提供商頁面。 通過以上的結(jié)論,本系統(tǒng)在過濾鏈中判斷頁面類型的代碼如下: if((/providers/alphabetic/)){ //該頁面時提供商集合頁面 (url+ 進(jìn)入 提供商集合頁面 )。 }else if((/?tab=servicelistamp。 //執(zhí)行操作 2 condition2(content,curi)。 //執(zhí)行操作 3 condition3(content,curi)。 網(wǎng)頁信息的代碼結(jié)構(gòu)可能很復(fù)雜,那么就需要編寫一個很復(fù)雜的正則表達(dá)式才能從代碼中提取信息。如果用正則表達(dá)式來做,需要考慮很多情況。 下面分別介紹四種頁面的內(nèi)容提取實現(xiàn)方式。在這個 ul 標(biāo)簽中,每個服務(wù)提供商頁面 URL 都在一 個 a 標(biāo)簽中。 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(論文) 16 程序流程如圖 42 所示: 圖 42 服務(wù)提供商集合頁面內(nèi)容提取流程圖 部分代碼如下: 1. 首先新建一個解析類 Parser 實例, Parser parser = null。 } catch (ParserException e) { return。 NodeFilter attributes_filter = new AndFilter(new TagNameFilter(ul), new
點擊復(fù)制文檔內(nèi)容
畢業(yè)設(shè)計相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1