正文內(nèi)容

畢業(yè)論文-面向webservice的網(wǎng)絡爬蟲設計與實現(xiàn)-在線瀏覽

2024-07-31 05:12本頁面

　　

【正文】布結構十分清晰，有利于我們設計簡單有效地搜索策略。在開源框架的基礎上，結合對 Web服務網(wǎng)站的結構分析，就可以實現(xiàn)對網(wǎng)絡上分布的 Web服務抓取。 2. 概念抽象，對于 web services 爬蟲的分析和設計，至。選題是否合適：是□ 否□ 課題能否實現(xiàn)：能□ 不能□ 指導教師（簽字）年月日選題是否合適：是□ 否□ 課題能否實現(xiàn)：能□ 不能□ 審題小組組長（簽字）年月日摘要互聯(lián)網(wǎng)上的服務數(shù)量增長快速，網(wǎng)站提供的關于服務的信息也各異，導致用戶難以正確、快速的找到合適的服務，為了解決以上問題，需要獲取和保存服務的 WSDL 的 URL 和相關的服務信息。 3）下載 WSDL 文檔：在抓取到了服務 WSDL 的 URL 后，使用HtmlClient 下載 WSDL 文檔。通過對 Web 服務的抓取，用戶可以通過統(tǒng)一的入口來訪問這些服務，而不用在互聯(lián)網(wǎng)上盲目搜索。關鍵詞：爬蟲；網(wǎng)絡服務； WSDL； ABSTRACT The number of services on the Inter Increase quickly,the information sites provide about services is also different, leading to that it is difficult for users to correctly and quickly find the right services, in order to solve the above problems, needing to capture and store the service39。 2) Page information extraction: According to the manual analysis that which information in which paper needs to be captured, then using HtmlParser tools to capture the information in the page。 Web 服務的出現(xiàn)有效的解決了以上難題。正因為 Web 服務的有效的解決了以上問題，互聯(lián)網(wǎng)上的服務發(fā)展迅速，服務數(shù)量飛速增長。另外， Web 服務的發(fā)展也產(chǎn)生了另外一個應用模式：組合應用 (Mushup)，把不同的 Web 服務進行組合，滿足用戶需求。但是通過主動式的爬取，獲得并存儲互聯(lián)網(wǎng)上的服務，對服務進行集中管理，有利于對用戶提供統(tǒng)一的訪問方式，有利于對互聯(lián)網(wǎng)服務的分析，提高組合的效率。所以本論文的目的是：通過爬蟲抓取，得到互聯(lián)網(wǎng)上的 Web 服務信息，并把服務信息存放到數(shù)據(jù)庫中。針對這種情況，研究內(nèi)容如下： Heritrix 的擴展因為現(xiàn)有的開源爬蟲框架 Heritrix 提供了網(wǎng)絡搜索的基本結構，所以，我會擴展 Heritrix 框架，使該框架適用于本系統(tǒng)。 b. 重新改寫 Heritrix 框架處理流程的提取鏈，提取網(wǎng)頁包含的信息。 a. 對網(wǎng)站 Web 服務的分類頁面進行分析，分析出含有所有 Web 服務的種類 URL 的 table 表格結構和 URL 的結構。天津大學 2021屆本科生畢業(yè)設計（論文） 2 c. 對 Web 服務詳細信息頁面進行分析，分析出 Web 服務信息的 table表格結構。采用數(shù)據(jù)結構中的樹結構來描述網(wǎng)站服務的分布樹，擴展后的爬蟲得到根節(jié)點 URL，通過根節(jié)點對整棵樹進行遍歷，抓起網(wǎng)站所有的 Web服務。針對第二種情況，主要的研究內(nèi)容如下：重新改寫 Heritrix 框架處理流程中的寫鏈，以下載搜索到的 WSDL 文檔。全文安排全文共分為六章。第二章介紹了互聯(lián)網(wǎng)上的服務的分布情況和相關爬蟲技術，并對需求進行分析，包括功能說明和運行環(huán)境。第四章在第三章得基礎上給出了具體的實現(xiàn)方法，其中主要包括分析網(wǎng)站服務分部結構、頁面內(nèi)容提取、下載 WSDL 文檔以及結果展示。天津大學 2021屆本科生畢業(yè)設計（論文） 3 第二章相關工作和需求分析相關工作隨著 Web 服務開發(fā)者數(shù)量的增加，互聯(lián)網(wǎng)上的 Web 服務數(shù)量以爆炸方式增長。其中， seekda[1]網(wǎng)站是現(xiàn)有的最大的服務注冊網(wǎng)站，一共有 7663 個服務提供商在該網(wǎng)站上注冊，據(jù)統(tǒng)計，大約有 2 萬多個服務在該網(wǎng)站上進行發(fā)布。還有其它一些服務注冊網(wǎng)站，例如：、。其服務信息很豐富，需要把網(wǎng)絡上的服務抓取和集中管理。 [2]現(xiàn)有的網(wǎng)絡爬蟲可以分為以下幾種類型[3]：通用網(wǎng)絡爬蟲 [12]、聚焦網(wǎng)絡爬蟲 [15]、增量式網(wǎng)絡爬蟲 [4]、 Deep Web 爬蟲 [14]。最后在這些網(wǎng)頁信息上建立搜索引擎，向用戶提供統(tǒng)一的訪問網(wǎng)頁的窗口 [5]。 Web 服務有其特定結構， Web 服務網(wǎng)絡爬蟲不僅僅遍歷網(wǎng)頁，并建立索引，而且在遍歷網(wǎng)頁過程中，利用網(wǎng)頁分析工具解析網(wǎng) 頁 [7]，把 Web 服務相關信息抓取下來，如：注冊標簽、提供商、注冊時間、可用率、服務器等。天津大學 2021屆本科生畢業(yè)設計（論文） 4 功能說明本系統(tǒng)包含以下功能：如果網(wǎng)站提供了詳細的服務信息，那么功能如下： 1. 存儲服務的詳細信息遍歷網(wǎng)站結構過程中，如果頁面是服務詳細信息頁面，需要對頁面進行解析，把服務的詳細信息提取出來，并存入數(shù)據(jù)庫。 2. 下載 WSDL 文檔提取了 Web服務詳細信息后，根據(jù) Web服務 WSDL文檔的 URL，下載 WSDL文檔，并把文檔內(nèi)容存放到數(shù)據(jù)庫中。運行環(huán)境要求程序能夠運行在如下環(huán)境中：操作系統(tǒng)： Windows XP；運行平臺：MyEclipse 以上； java 虛擬機： JVM 以上；數(shù)據(jù)庫：天津大學 2021屆本科生畢業(yè)設計（論文） 5 第三章面向 web service 的網(wǎng)絡爬蟲的詳細設計總體架構本系統(tǒng)采用的是廣度優(yōu)先策略，利用網(wǎng)絡爬蟲開源框架 Heritrix 的多線程管理、鏈接調(diào)度器模塊，擴展了 Heritrix 的處理鏈流程。本系統(tǒng)針對兩類網(wǎng)站進行了處理鏈修改及擴展。 ? 過濾鏈主要負責根據(jù)網(wǎng)站服務分部結構過濾掉不相關的鏈接。系統(tǒng)結構圖如下：圖 31 抓取詳細信息情況下的系統(tǒng)結構圖天津大學 2021屆本科生畢業(yè)設計（論文） 6 針對網(wǎng)站只提供了服務 WSDL 文檔的 URL，本系統(tǒng)的設計是：處理鏈保留過濾鏈、提取鏈和寫鏈，并對過濾鏈、提取鏈和寫鏈功能進行了重新設定。提取鏈主要負責解析網(wǎng)頁內(nèi)容，提取服務 WSDL 文檔的 URL。系統(tǒng)結構圖如下：圖 32 抓取沒有詳細信息服務的系統(tǒng)結構圖數(shù)據(jù) 庫設計本系統(tǒng)的數(shù)據(jù)庫較簡單，只有一個表 webServiceDetail，在兩種情況下，都需要存儲服務 WSDL 文檔的 URL，在第一種情況下，需要存儲服務相關信息，這些相關信息包括：服務提供商、服務注冊時間、服務可用率、服務用戶描述、服務服務器等，但是在第二種情況下，不需要存儲服務相關信息，只存儲服務WSDL 文檔的 URL。 type 字段為 true 時，表示該服務有相關服務信息，為 false 時，表示該服務沒有相關的服務信息。 ? 是提取鏈模塊的程序文件包，主要負責對各種頁面進行信息提取。 ? 是負責管理待訪問隊列的鏈接的程序文件包，向線程傳遞鏈接。流程設計針對第一種情況，爬蟲抓取過程如圖 34 所示：天津大學 2021屆本科生畢業(yè)設計（論文） 9 圖 34 第一種情況爬蟲抓取流程圖 1. 向爬蟲程序提供一個初始 URL，該 URL 是服務提供商集合頁面的 URL，該 URL 被加入到待訪問隊列中。直到?jīng)]有空閑線程都在工作或者待訪問隊列中沒有多余的鏈接為止。 4. 鏈接進入了提取鏈，提取鏈直到了過濾鏈對鏈接頁面類型的判斷后，對頁面進行不同策略的分析和提取。如果該頁面是提供商服務集合頁面，提取鏈就對該頁面進行服務詳細信息頁面鏈接的抓取，并把這些鏈接加入到待訪問隊列中。，就進入了寫鏈，如果是服務詳細信息頁面，在數(shù)據(jù)庫中標記該頁面類型為 true，表示該數(shù)據(jù)庫記錄是一個提供商服務集合頁面相關的內(nèi)容。針對第二種情況，爬蟲抓取過程如圖 35 所示：天津大學 2021屆本科生畢業(yè)設計（論文） 11 圖 35 第二種情況爬蟲抓取流程圖 1. 向爬蟲程序提供一個初始 URL，該 URL 是待抓取網(wǎng)站的首頁 URL，該 URL 被加入到待訪問隊列中。直到?jīng)]有空閑線程或者待訪問隊列中沒有多余的鏈接為止。天津大學 2021屆本科生畢業(yè)設計（論文） 12 4. 鏈接進入了提取鏈，提取鏈知道了過濾鏈對鏈接頁面類型的判斷后，對頁面進行不同策略的分析和提取。如果該頁面是其他網(wǎng)站的頁面，提取鏈就忽略該頁面。如果該頁面是服務 WSDL 文檔的 URL，提取鏈就把該鏈接提交給寫鏈。天津大學 2021屆本科生畢業(yè)設計（論文） 13 第四章面向 web service 的聚焦網(wǎng)絡爬蟲的技術實現(xiàn) 分析網(wǎng)站服務分布結構針對第一種情況，首先要分析網(wǎng)站服務的分布結構。所以我對 seekda 網(wǎng)站的具體分析如下：用戶在 Seekda 網(wǎng)站上有三種方式可以查找服務： 1. 網(wǎng)站提供了強大的搜索功能，用戶可以在搜索頁面輸入服務名、服務標簽、服務注冊時間等信息進行搜索。 3. 網(wǎng)站按照提供商來進行分類，用戶可以查找每一個提供商，然后就查找到了每個提供商下的每個服務。方式 2：只有服務數(shù) 量比較多的標簽會顯示，對于爬蟲來說，無法得到服務數(shù)量少的標簽。通過以上分析，得出以下結論：針對 seekda 網(wǎng)站的抓取策略是先得到所有的提供商集合，然后進入每個提供商頁面，在提供商頁面，得到該提供商的所有服務。網(wǎng)站服務分部結構如圖 41 所示：天津大學 2021屆本科生畢業(yè)設計（論文） 14 圖 41 網(wǎng)站服務分布結構圖要把網(wǎng)站結構應用于爬蟲中，就需要知道哪些頁面是服務詳細信息頁面、服務提供商頁面、服務提供商集合頁面。得到網(wǎng)站服務分布結構后，通過分析不同類型頁面的 URL，用正則表達式來過濾無關網(wǎng)頁和判斷網(wǎng)頁類型。下面就以提供商的 QueryService 服務為例，說明三種網(wǎng)頁的 URL 的特點。 2. 是服務提供商的頁面 URL，名 /?tab=servicelistamp。p=*結尾的 URL 就是服務提供商頁面。通過以上的結論，本系統(tǒng)在過濾鏈中判斷頁面類型的代碼如下： if((/providers/alphabetic/)){ //該頁面時提供商集合頁面 (url+ 進入提供商集合頁面 )。 }else if((/?tab=servicelistamp。 //執(zhí)行操作 2 condition2(content,curi)。 //執(zhí)行操作 3 condition3(content,curi)。網(wǎng)頁信息的代碼結構可能很復雜，那么就需要編寫一個很復雜的正則表達式才能從代碼中提取信息。如果用正則表達式來做，需要考慮很多情況。下面分別介紹四種頁面的內(nèi)容提取實現(xiàn)方式。在這個 ul 標簽中，每個服務提供商頁面 URL 都在一個 a 標簽中。天津大學 2021屆本科生畢業(yè)設計（論文） 16 程序流程如圖 42 所示：圖 42 服務提供商集合頁面內(nèi)容提取流程圖部分代碼如下： 1. 首先新建一個解析類 Parser 實例， Parser parser = null。 } catch (ParserException e) { return。 NodeFilter attributes_filter = new AndFilter(new

點擊復制文檔內(nèi)容

畢業(yè)設計相關推薦

新聞爬蟲系統(tǒng)的設計與實現(xiàn)畢業(yè)論文-在線瀏覽

【摘要】山東科技大學本科畢業(yè)設計（論文）摘要隨著計算機網(wǎng)絡在世界范圍的飛速發(fā)展，互聯(lián)網(wǎng)作為最具潛力與活力的媒體已經(jīng)被公認是繼報紙，廣播，電視之后的“第四媒體”，成為反映社會新聞熱點的重要載體。為了及時了解網(wǎng)絡新聞熱點，相關機構引入了新聞熱點分析系統(tǒng)。本文設計的新聞爬蟲系統(tǒng)是新聞熱點分析系統(tǒng)的數(shù)據(jù)源，負責新聞信息的采集。本文借助于爬蟲領域的相關技術與工具，結合新聞熱點分析系統(tǒng)的需求從原理或工作

2024-09-15 07:56

畢業(yè)設計---網(wǎng)絡爬蟲的設計與實現(xiàn)-在線瀏覽

【摘要】摘要Ⅰ摘要網(wǎng)絡爬蟲是一種自動搜集互聯(lián)網(wǎng)信息的程序。通過網(wǎng)絡爬蟲不僅能夠為搜索引擎采集網(wǎng)絡信息，而且可以作為定向信息采集器，定向采集某些網(wǎng)站下的特定信息，如招聘信息，租房信息等。本文通過JAVA實現(xiàn)了一個基于廣度優(yōu)先算法的多線程爬蟲程序。本論文闡述了網(wǎng)絡爬蟲實現(xiàn)中一些主要問題：為何使用廣度優(yōu)先的爬行策略，以及如何實現(xiàn)廣度優(yōu)先爬行；為何要使

2025-02-05 18:05

畢業(yè)設計---網(wǎng)絡爬蟲設計與實現(xiàn)-在線瀏覽

【摘要】畢業(yè)設計（論文）說明書學院軟件學院專業(yè)軟件工程年級2021姓名指導教師

2025-02-05 16:36

網(wǎng)絡爬蟲的設計與實現(xiàn)-在線瀏覽

【摘要】畢業(yè)設計（論文）說明書學院軟件學院專業(yè)軟件工程年級2007姓名張鳳龍指導教師陳錦言2011年3月6日

2024-08-19 12:59

基于網(wǎng)絡爬蟲的搜索引擎設計與實現(xiàn)—畢業(yè)設計論文-在線瀏覽

【摘要】本科畢業(yè)設計題目：基于網(wǎng)絡爬蟲的搜索引擎設計與實現(xiàn)系別：專業(yè)：計算機科學與技術班級：學號：

2025-01-26 16:36

基于web的網(wǎng)絡課堂的設計與實現(xiàn)計算機畢業(yè)論文-在線瀏覽

【摘要】基于Web的網(wǎng)絡課堂的設計與實現(xiàn)摘要采用自頂向下的結構化的系統(tǒng)分析方法，闡述一個網(wǎng)絡課堂網(wǎng)站的開發(fā)過程、操作流程及其一些核心的技術。首先進行項目概述，簡單介紹項目開發(fā)的背景、項目開發(fā)的目的和項目開發(fā)的意義；接下來是系統(tǒng)規(guī)劃階段，通過實際的業(yè)務流程調(diào)研，分析系統(tǒng)的組織結構，具體完成網(wǎng)絡課堂網(wǎng)站的需求分析、可行性分析、現(xiàn)行業(yè)務流程分析

2024-07-17 23:00

基于web的成績管理設計與實現(xiàn)畢業(yè)論文-在線瀏覽

【摘要】畢業(yè)設計基于WEB的成績管理設計與實現(xiàn)基于WEB的成績管理設計與實現(xiàn)【摘要】隨著全球信息化時代的到來，計算機科學的發(fā)展，信息管理技術在社會生活中的積極作用越來越明顯；計算機輔助管理已經(jīng)歷了從無到有，從不成熟到成熟的發(fā)展歷程。借鑒了很多國外的計算機輔助教學管理經(jīng)驗，我國計算機輔助教育管理也逐步發(fā)展起來。本系統(tǒng)是建

2024-08-07 20:12

基于web的虛擬校園設計與實現(xiàn)畢業(yè)論文-在線瀏覽

【摘要】分類號：TP311單位代碼：10422密級：學號：Z0843048465碩士學位論文論文題目:基于WEB的虛擬校園設計與實現(xiàn)TheDesignandImplementationofWeb-BasedVirtualCampus作者姓名耿

2024-08-07 20:05

基于web的選課系統(tǒng)設計與實現(xiàn)畢業(yè)論文-在線瀏覽

【摘要】1畢業(yè)論文姓名：班級：系部：專業(yè)：論文題目：基于W

2025-05-01 10:57

基于web數(shù)字媒體技術專業(yè)網(wǎng)絡教學平臺的設計與實現(xiàn)畢業(yè)論文-在線瀏覽

【摘要】編號濰坊學院畢業(yè)設計技術報告課題名稱：數(shù)字媒體技術專業(yè)網(wǎng)絡教學平臺的設計與實現(xiàn)(前臺)學生姓名：田秋月學號：08021140111專業(yè)：計算機科學與技術班級：2022級1班指導教師：韓殿元2022年6月濰坊學院本科畢業(yè)設計摘要網(wǎng)絡教學平臺設計與實

2024-07-30 12:42

基于web數(shù)字媒體技術專業(yè)網(wǎng)絡教學平臺的設計與實現(xiàn)_畢業(yè)論文-在線瀏覽

【摘要】編號濰坊學院畢業(yè)設計技術報告課題名稱：數(shù)字媒體技術專業(yè)網(wǎng)絡教學平臺的設計與實現(xiàn)(前臺)學生姓名：田秋月學號：08021140111專業(yè)：計算機科學與技術班

2024-09-12 08:47

畢業(yè)論文基于web在線考試系統(tǒng)的設計與實現(xiàn)-在線瀏覽

【摘要】-1-本科畢業(yè)論文論文題目：基于WEB在線考試系統(tǒng)的設計與實現(xiàn)目錄摘要?????????????????????????????IAbstract?????????????????????????????Ⅱ第1章緒論

2025-01-19 18:09

軟件工程畢業(yè)設計_網(wǎng)絡爬蟲設計與實現(xiàn)-在線瀏覽

【摘要】evaluationofscientificdevelopment.Naturesecuritytype--naturesecurityistomaintenancepeopleofhealthvaluefortarget,throughstrengtheningsecuritybased

2025-02-05 16:56

基于web的畢業(yè)設計管理系統(tǒng)的設計與實現(xiàn)畢業(yè)論文-在線瀏覽

【摘要】基于Web的畢業(yè)設計管理系統(tǒng)的設計與實現(xiàn)畢業(yè)論文目錄第一章緒論 -1-系統(tǒng)開發(fā)背景及現(xiàn)狀 -1-系統(tǒng)開發(fā)的目的 -1-系統(tǒng)開發(fā)關鍵技術與開發(fā)環(huán)境 -1-.Net技術簡介 -1-MicrosoftSQLServer技術的簡介 -2- -2-系統(tǒng)運行軟件平臺 -3-全文體系 -3-第二章基于W

2024-08-07 19:03

畢業(yè)論文--基于web的畢業(yè)設計管理系統(tǒng)的設計與實現(xiàn)-在線瀏覽

【摘要】畢業(yè)論文--基于Web的畢業(yè)設計管理系統(tǒng)的設計與實現(xiàn)摘要本系統(tǒng)是針對現(xiàn)代高校計算機技術的發(fā)展為了應對以往畢業(yè)生畢業(yè)設計中遇到的工作效率低交互性差等問題而采用軟件工程的設計思想設計的本文的基礎就是利用ASP技術與Web數(shù)據(jù)庫的結合開發(fā)出的一個基于Web技術的BS結構的畢業(yè)設計管理系統(tǒng)

2025-02-03 19:55