freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

畢業(yè)論文-面向webservice的網(wǎng)絡爬蟲設計與實現(xiàn)-在線瀏覽

2024-07-31 05:12本頁面
  

【正文】 布結構十分清晰,有利于我們設計簡單有效地搜索策略。在開源框架的基礎上,結合對 Web服務網(wǎng)站的結構分析,就可以實現(xiàn)對網(wǎng)絡上分布的 Web服務抓取。 2. 概念抽象,對于 web services 爬蟲的分析和設計, 至 。 選題是否合適: 是□ 否□ 課題能否實現(xiàn): 能□ 不能□ 指導教師 (簽字) 年 月 日 選題是否合適: 是□ 否□ 課題能否實現(xiàn): 能□ 不能□ 審題小組組長(簽字) 年 月 日 摘 要 互聯(lián)網(wǎng)上的服務數(shù)量增長快速,網(wǎng)站提供的關于服務的信息也各異,導致用戶難以正確、快速的找到合適的服務,為了解決以上問題,需要獲取和保存服務的 WSDL 的 URL 和相關的服務信息。 3)下載 WSDL 文檔:在抓取到了服務 WSDL 的 URL 后,使用HtmlClient 下載 WSDL 文檔。 通過對 Web 服務的抓取,用戶可以通過統(tǒng)一的入口來訪問這些服務,而不用在互聯(lián)網(wǎng)上盲目搜索。 關鍵詞: 爬蟲 ;網(wǎng)絡服務; WSDL; ABSTRACT The number of services on the Inter Increase quickly,the information sites provide about services is also different, leading to that it is difficult for users to correctly and quickly find the right services, in order to solve the above problems, needing to capture and store the service39。 2) Page information extraction: According to the manual analysis that which information in which paper needs to be captured, then using HtmlParser tools to capture the information in the page。 Web 服務的出現(xiàn)有效的解決了以上難題。正因為 Web 服務的有效的解決了以上問題,互聯(lián)網(wǎng)上的服務發(fā)展迅速,服務數(shù)量飛速增長。另外, Web 服務的發(fā)展也產(chǎn)生了另外一個應用模式:組合應用 (Mushup),把不同的 Web 服務進行組合,滿足用戶需求。但是通過主動式的爬取,獲得并存儲互聯(lián)網(wǎng)上的服務,對服務進行集中管理,有利于對用戶提供統(tǒng)一的訪問方式,有利于對互聯(lián)網(wǎng)服務的分析,提高組合的效率。所以本論文的目的是:通過爬蟲抓取,得到互聯(lián)網(wǎng)上的 Web 服務信息,并把服務信息存放到數(shù)據(jù)庫中。針對這種情況,研究內(nèi)容如下: Heritrix 的擴展 因為現(xiàn)有的開源爬蟲框架 Heritrix 提供了網(wǎng)絡搜索的基本結構,所以,我會擴展 Heritrix 框架,使該框架適用于本系統(tǒng)。 b. 重新改寫 Heritrix 框架處理流程的提取鏈,提取網(wǎng)頁包含的信息。 a. 對網(wǎng)站 Web 服務的分類頁面進行分析,分析出含有所有 Web 服務的種類 URL 的 table 表格結構和 URL 的結構。 天津大學 2021屆 本科生畢業(yè)設計(論文) 2 c. 對 Web 服務詳細信息頁面進行分析,分析出 Web 服務信息的 table表格結構。采用數(shù)據(jù)結構中的樹結構來描述網(wǎng)站服務的分布樹,擴展后的爬蟲得到根節(jié)點 URL,通過根節(jié)點對整棵樹進行遍歷,抓起網(wǎng)站所有的 Web服務。針對第二種情況,主要的研究內(nèi)容如下: 重新改寫 Heritrix 框架處理流程中的寫鏈,以下載搜索到的 WSDL 文檔。 全文安排 全文共分為六章。 第二章 介紹了互聯(lián)網(wǎng)上的服務的分布情況和相關爬蟲技術,并對需求進行分析,包括功能說明和運行環(huán)境。 第四章 在第三章得基礎上給出了具體的實現(xiàn)方法,其中主要包括分析網(wǎng)站服務分部結構、頁面內(nèi)容提取、下載 WSDL 文檔以及結果展示。 天津大學 2021屆 本科生畢業(yè)設計(論文) 3 第二章 相關工作和需求分析 相關工作 隨著 Web 服務開發(fā)者數(shù)量的增加,互聯(lián)網(wǎng)上的 Web 服務數(shù)量以爆炸方式增長。 其中, seekda[1]網(wǎng)站是現(xiàn)有的最大的服務注冊網(wǎng)站,一共有 7663 個服務提供商在該網(wǎng)站上注冊,據(jù)統(tǒng)計,大約有 2 萬多個服務在該網(wǎng)站上進行發(fā)布。還有其它一些服務注冊網(wǎng)站,例如: 、。其服務信息很豐富,需要把網(wǎng)絡上的服務抓取和集中管理。 [2]現(xiàn)有的網(wǎng)絡爬蟲可以分為以下幾種類型[3]:通用網(wǎng)絡爬蟲 [12]、聚焦網(wǎng)絡爬蟲 [15]、增量式網(wǎng)絡爬蟲 [4]、 Deep Web 爬蟲 [14]。最后在這些網(wǎng)頁信息上建立搜索引擎,向用戶提供統(tǒng)一的訪問網(wǎng)頁的窗口 [5]。 Web 服務有其特定結構, Web 服務網(wǎng)絡爬蟲不僅僅遍歷網(wǎng)頁,并建立索引,而且在遍歷網(wǎng)頁過程中,利用網(wǎng)頁分析工具解析網(wǎng) 頁 [7],把 Web 服務相關信息抓取下來,如:注冊標簽、提供商、注冊時間、可用率、服務器等。 天津大學 2021屆 本科生畢業(yè)設計(論文) 4 功能說明 本系統(tǒng)包含以下功能: 如果網(wǎng)站提供了詳細的服務信息,那么功能如下: 1. 存儲服務的詳細信息 遍歷網(wǎng)站結構過程中,如果頁面是服務詳細信息頁面,需要對頁面進行解析,把服務的詳細信息提取出來,并存入數(shù)據(jù)庫。 2. 下載 WSDL 文檔 提取了 Web服務詳細信息后,根據(jù) Web服務 WSDL文檔的 URL,下載 WSDL文檔,并把文檔內(nèi)容存放到數(shù)據(jù)庫中。 運行環(huán)境 要求程序能夠運行在如下環(huán)境中:操作系統(tǒng): Windows XP;運行平臺:MyEclipse 以上; java 虛擬機: JVM 以上;數(shù)據(jù)庫: 天津大學 2021屆 本科生畢業(yè)設計(論文) 5 第三章 面向 web service 的網(wǎng)絡爬蟲的詳細設計 總體架構 本系統(tǒng)采用的是廣度優(yōu)先策略,利用網(wǎng)絡爬蟲開源框架 Heritrix 的多線程管理、鏈接調(diào)度器模塊,擴展了 Heritrix 的處理鏈流程。本系統(tǒng)針對兩類網(wǎng)站進行了處理鏈修改及擴展。 ? 過濾鏈主要負責根據(jù)網(wǎng)站服務分部結構過濾掉不相關的鏈接。 系統(tǒng)結構圖如下 : 圖 31 抓取詳細信息情況下的系統(tǒng)結構 圖 天津大學 2021屆 本科生畢業(yè)設計(論文) 6 針對網(wǎng)站只提供了服務 WSDL 文檔的 URL,本系統(tǒng)的設計是:處理鏈保留過濾鏈、提取鏈和寫鏈,并對過濾鏈、提取鏈和寫鏈功能進行了重新設定。提取鏈主要負責解析網(wǎng)頁內(nèi)容,提取服務 WSDL 文檔的 URL。 系統(tǒng)結構圖如下: 圖 32 抓取沒有詳細信息服務的系統(tǒng)結構 圖 數(shù)據(jù) 庫設計 本系統(tǒng)的數(shù)據(jù)庫較簡單,只有一個表 webServiceDetail,在兩種情況下,都需要存儲服務 WSDL 文檔的 URL,在第一種情況下,需要存儲服務相關信息,這些相關信息包括:服務提供商、服務注冊時間、服務可用率、服務用戶描述、服務服務器等,但是在第二種情況下,不需要存儲服務相關信息,只存儲服務WSDL 文檔的 URL。 type 字段為 true 時,表示該服務有相關服務信息,為 false 時,表示該服務沒有相關的服務信息。 ? 是提取鏈模塊的程序文件包,主要負責對各種頁面進行信息提取。 ? 是負責管理待訪問隊列的鏈接的程序文件包,向線程傳遞鏈接。 流程設計 針對第一種情況,爬蟲抓取過程如圖 34 所示: 天津大學 2021屆 本科生畢業(yè)設計(論文) 9 圖 34 第一種情況爬蟲抓取流程圖 1. 向爬蟲程序提供一個初始 URL,該 URL 是服務提供商集合頁面的 URL, 該 URL 被加入到待訪問隊列中。直到?jīng)]有空 閑線程都在工作或者待訪問隊列中沒有多余的鏈接為止。 4. 鏈接進入了提取鏈,提取鏈直到了過濾鏈對鏈接頁 面類型的判斷后,對 頁面進行不同策略的分析和提取。 如果該頁面是提供商服務集合頁面,提取鏈就對該頁面進行服務詳 細信息頁面鏈接的抓取,并把這些鏈接加入到待訪問隊列中。 ,就進入了寫鏈,如果是服務詳細信息頁面,在數(shù)據(jù)庫中標 記該頁面類型為 true,表示該 數(shù)據(jù)庫記錄是 一個提供商服務集合頁面相 關的內(nèi)容。 針對第二種情況,爬蟲抓取過程如圖 35 所示: 天津大學 2021屆 本科生畢業(yè)設計(論文) 11 圖 35 第二種情況爬蟲抓取流程圖 1. 向爬蟲程序提供一個初始 URL,該 URL 是待抓取網(wǎng)站的首頁 URL,該 URL 被加入到待訪問隊列中。直到?jīng)]有空 閑線程或者待訪問隊列中沒有多余的鏈接為止。 天津大學 2021屆 本科生畢業(yè)設計(論文) 12 4. 鏈接進入了提取鏈,提取鏈知道了過濾鏈對鏈接頁面類型的判斷后,對 頁面進行不同策略的分析和提取。 如果該頁面是其他網(wǎng)站的頁面,提取鏈就忽略該頁面。 如果該頁面是服務 WSDL 文檔的 URL, 提取鏈就把該鏈接提交給寫 鏈。 天津大學 2021屆 本科生畢業(yè)設計(論文) 13 第四章 面向 web service 的聚焦網(wǎng)絡爬蟲的技術實現(xiàn) 分析網(wǎng)站服務分布結構 針對第一種情況,首先要分析網(wǎng)站服務的分布結構。所以我 對 seekda 網(wǎng)站的具體分析如下: 用戶在 Seekda 網(wǎng)站上有三種方式可以查找服務: 1. 網(wǎng)站提供了強大的搜索功能,用戶可以在搜索頁面輸入服務名、服務標 簽、服務注冊時間等信息進行搜索。 3. 網(wǎng)站按照提供商來進行分類,用戶可以查找每一個提供商,然后就查找 到了每個提供商下的每個服務。方式 2:只有服務數(shù) 量比較多的標簽會顯示,對于爬蟲來說,無法得到服務數(shù)量少的標簽。通過以上分析,得出以下結論: 針對 seekda 網(wǎng)站的抓取策略是先得到所有的提供商集合,然后進入每個提供商頁面,在提供商頁面,得到該提供商的所有服務。 網(wǎng)站服務分部結構如圖 41 所示: 天津大學 2021屆 本科生畢業(yè)設計(論文) 14 圖 41 網(wǎng)站服務分布結構圖 要把網(wǎng)站結構應用于爬蟲中,就需要知道哪些頁面是服務詳細信息頁面、服務提供商頁面、服務提供商集合頁面。 得到網(wǎng)站服務分布結構后,通過分析不同類型頁面的 URL,用正則表達式來過濾無關網(wǎng)頁和判斷網(wǎng)頁類型。下面就以 提供商的 QueryService 服務為例,說明三種網(wǎng)頁的 URL 的特點。 2. 是服務提供商 的頁面 URL, 名 /?tab=servicelistamp。p=*結尾的 URL 就是服務提供商頁面。 通過以上的結論,本系統(tǒng)在過濾鏈中判斷頁面類型的代碼如下: if((/providers/alphabetic/)){ //該頁面時提供商集合頁面 (url+ 進入 提供商集合頁面 )。 }else if((/?tab=servicelistamp。 //執(zhí)行操作 2 condition2(content,curi)。 //執(zhí)行操作 3 condition3(content,curi)。 網(wǎng)頁信息的代碼結構可能很復雜,那么就需要編寫一個很復雜的正則表達式才能從代碼中提取信息。如果用正則表達式來做,需要考慮很多情況。 下面分別介紹四種頁面的內(nèi)容提取實現(xiàn)方式。在這個 ul 標簽中,每個服務提供商頁面 URL 都在一 個 a 標簽中。 天津大學 2021屆 本科生畢業(yè)設計(論文) 16 程序流程如圖 42 所示: 圖 42 服務提供商集合頁面內(nèi)容提取流程圖 部分代碼如下: 1. 首先新建一個解析類 Parser 實例, Parser parser = null。 } catch (ParserException e) { return。 NodeFilter attributes_filter = new AndFilter(new
點擊復制文檔內(nèi)容
畢業(yè)設計相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1