正文內(nèi)容

畢業(yè)論文-面向webservice的網(wǎng)絡(luò)爬蟲設(shè)計與實現(xiàn)-預(yù)覽頁

2025-02-09 23:58 上一頁面

下一頁面

　

【正文】 page。正因為 Web 服務(wù)的有效的解決了以上問題，互聯(lián)網(wǎng)上的服務(wù)發(fā)展迅速，服務(wù)數(shù)量飛速增長。但是通過主動式的爬取，獲得并存儲互聯(lián)網(wǎng)上的服務(wù)，對服務(wù)進行集中管理，有利于對用戶提供統(tǒng)一的訪問方式，有利于對互聯(lián)網(wǎng)服務(wù)的分析，提高組合的效率。針對這種情況，研究內(nèi)容如下： Heritrix 的擴展因為現(xiàn)有的開源爬蟲框架 Heritrix 提供了網(wǎng)絡(luò)搜索的基本結(jié)構(gòu)，所以，我會擴展 Heritrix 框架，使該框架適用于本系統(tǒng)。 a. 對網(wǎng)站 Web 服務(wù)的分類頁面進行分析，分析出含有所有 Web 服務(wù)的種類 URL 的 table 表格結(jié)構(gòu)和 URL 的結(jié)構(gòu)。采用數(shù)據(jù)結(jié)構(gòu)中的樹結(jié)構(gòu)來描述網(wǎng)站服務(wù)的分布樹，擴展后的爬蟲得到根節(jié)點 URL，通過根節(jié)點對整棵樹進行遍歷，抓起網(wǎng)站所有的 Web服務(wù)。全文安排全文共分為六章。第四章在第三章得基礎(chǔ)上給出了具體的實現(xiàn)方法，其中主要包括分析網(wǎng)站服務(wù)分部結(jié)構(gòu)、頁面內(nèi)容提取、下載 WSDL 文檔以及結(jié)果展示。其中， seekda[1]網(wǎng)站是現(xiàn)有的最大的服務(wù)注冊網(wǎng)站，一共有 7663 個服務(wù)提供商在該網(wǎng)站上注冊，據(jù)統(tǒng)計，大約有 2 萬多個服務(wù)在該網(wǎng)站上進行發(fā)布。其服務(wù)信息很豐富，需要把網(wǎng)絡(luò)上的服務(wù)抓取和集中管理。最后在這些網(wǎng)頁信息上建立搜索引擎，向用戶提供統(tǒng)一的訪問網(wǎng)頁的窗口 [5]。天津大學(xué) 2022 屆本科生畢業(yè)設(shè)計（論文） 4 功能說明本系統(tǒng)包含以下功能：如果網(wǎng)站提供了詳細的服務(wù)信息，那么功能如下： 1. 存儲服務(wù)的詳細信息遍歷網(wǎng)站結(jié)構(gòu)過程中，如果頁面是服務(wù)詳細信息頁面，需要對頁面進行解析，把服務(wù)的詳細信息提取出來，并存入數(shù)據(jù)庫。運行環(huán)境要求程序能夠運行在如下環(huán)境中：操作系統(tǒng)： Windows XP；運行平臺：MyEclipse 以上； java 虛擬機： JVM 以上；數(shù)據(jù)庫：天津大學(xué) 2022 屆本科生畢業(yè)設(shè)計（論文） 5 第三章面向 web service 的網(wǎng)絡(luò)爬蟲的詳細設(shè)計總體架構(gòu) 本系統(tǒng)采用的是廣度優(yōu)先策略，利用網(wǎng)絡(luò)爬蟲開源框架 Heritrix 的多線程管理、鏈接調(diào)度器模塊，擴展了 Heritrix 的處理鏈流程。 ? 過濾鏈主要負責(zé)根據(jù)網(wǎng)站服務(wù)分部結(jié)構(gòu)過濾掉不相關(guān)的鏈接。提取鏈主要負責(zé)解析網(wǎng)頁內(nèi)容，提取服務(wù) WSDL 文檔的 URL。 type 字段為 true 時，表示該服務(wù)有相關(guān)服務(wù)信息，為 false 時，表示該服務(wù)沒有相關(guān)的服務(wù)信息。 ? 是負責(zé)管理待訪問隊列的鏈接的程序文件包，向線程傳遞鏈接。直到?jīng)]有空閑線程都在工作或者待訪問隊列中沒有多余的鏈接為止。如果該頁面是提供商服務(wù)集合頁面，提取鏈就對該頁面進行服務(wù)詳細信息頁面鏈接的抓取，并把這些鏈接加入到待訪問隊列中。針對第二種情況，爬蟲抓取過程如圖 35 所示：天津大學(xué) 2022 屆本科生畢業(yè)設(shè)計（論文） 11 圖 35 第二種情況爬蟲抓取流程圖 1. 向爬蟲程序提供一個初始 URL，該 URL 是待抓取網(wǎng)站的首頁 URL，該 URL 被加入到待訪問隊列中。天津大學(xué) 2022 屆本科生畢業(yè)設(shè)計（論文） 12 4. 鏈接進入了提取鏈，提取鏈知道了過濾鏈對鏈接頁面類型的判斷后，對頁面進行不同策略的分析和提取。如果該頁面是服務(wù) WSDL 文檔的 URL，提取鏈就把該鏈接提交給寫鏈。所以我對 seekda 網(wǎng)站的具體分析如下：用戶在 Seekda 網(wǎng)站上有三種方式可以查找服務(wù)： 1. 網(wǎng)站提供了強大的搜索功能，用戶可以在搜索頁面輸入服務(wù)名、服務(wù)標(biāo) 簽、服務(wù)注冊時間等信息進行搜索。方式 2：只有服務(wù)數(shù)量比較多的標(biāo)簽會顯示，對于爬蟲來說，無法得到服務(wù)數(shù)量少的標(biāo)簽。網(wǎng)站服務(wù)分部結(jié)構(gòu)如圖 41 所示：天津大學(xué) 2022 屆本科生畢業(yè)設(shè)計（論文） 14 圖 41 網(wǎng)站服務(wù)分布結(jié)構(gòu)圖要把網(wǎng)站結(jié)構(gòu)應(yīng)用于爬蟲中，就需要知道哪些頁面是服務(wù)詳細信息頁面、服務(wù)提供商頁面、服務(wù)提供商集合頁面。下面就以提供商的 QueryService 服務(wù)為例，說明三種網(wǎng)頁的 URL 的特點。p=*結(jié)尾的 URL 就是服務(wù)提供商頁面。 }else if((/?tab=servicelistamp。 //執(zhí)行操作 3 condition3(content,curi)。如果用正則表達式來做，需要考慮很多情況。在這個 ul 標(biāo)簽中，每個服務(wù)提供商頁面 URL 都在一個 a 標(biāo)簽中。 } catch (ParserException e) { return。 try { nodelist = (attributes_filter)。 String content1 = (0).toHtml()。 } catch (ParserException e1) { ()。 return。 i++) { LinkTag aNode = (LinkTag) ((i))。)。天津大學(xué) 2022 屆本科生畢業(yè)設(shè)計（論文） 18 (extractor 抓取了 url: + url)。分析該頁面的 HTML 代碼，可以得出：服務(wù)詳細信息頁面的 URL 在屬性class=“ web_service”的 li 標(biāo)簽中，服務(wù)列表的下一頁 URL 在屬性 class=39。 Parser parser = null。next39。 try { nodelist = (attributes_filter)。 String str = ()。web_service39。 try { nodelist = (attributes_filter1)。 for(int i=0。 addLinkFromString(curi, , url, )。 beginIndex = (value=\)。提取服務(wù)提供商代碼如下： int beginIndex,endIndex,baseIndex。 endIndex = (/a)。 baseIndex = (dtMonitored since:/dt)。 url = (beginIndex+3, endIndex)。天津大學(xué) 2022 屆本科生畢業(yè)設(shè)計（論文） 22 baseIndex = (dtAvailability: /dt)。 if(beginIndex == 1 || endIndex == 1){ url = null。頁面鏈接提取該部分是針對沒有提供詳細服務(wù)信息的網(wǎng)站的抓取過程中對頁面中鏈接的提取的。 try { parser = new Parser(content)。 NodeList nodelist = null。 } 3. 得到了所有的 a標(biāo)簽集合，這些集合都存儲在 nodelist中，循環(huán)遍歷集合，得到 URL，并把 URL通過 addLinkFromString（）函數(shù)加入到爬蟲待訪問隊列中。 String url = ()。代碼如下： //得到遠程服務(wù)器返回 WSDL 文檔的輸入流 ReplayInputStream replayis = ()。 } finally { //關(guān)閉返回輸入流和文件流 ()。 2. 打開瀏覽器，輸入：并輸入用戶名和密碼（ admin|admin），登陸成功進入操作頁面。在 Select Extractors 選項中，添加在 Select Post Processors 選項中，刪除 FrontierScheduler，并添加 FrontierSchedulerForSeekda。爬蟲運行的中間結(jié)果如圖 410 所示：天津大學(xué) 2022 屆本科生畢業(yè)設(shè)計（論文） 28 圖 410 爬蟲運行中間結(jié)果爬蟲運行最終結(jié)果是： seekda網(wǎng)站的抓取過程花費了大約 2天的時間，抓取到了 21273個服務(wù)，這些服務(wù)中，能夠下載 WSDL文檔的服務(wù)有 17255個，下載的服務(wù)信息存儲在數(shù)據(jù)庫中。第二種，對于沒有提供服務(wù)詳細信息的網(wǎng)站，把網(wǎng)站首頁作為爬蟲源 URL，爬蟲線程對每一個待訪問隊列中的 URL 進行 3 個處理鏈的處理，從網(wǎng)頁中提取所有 a 標(biāo)簽中的 url，并排除非本網(wǎng)站的 URL，把剩下的 URL 加入到待訪問隊列中，當(dāng)遇到服務(wù) WSDL 的 URL 時，下載該 WSDL 文檔，當(dāng)待訪問隊列為空時，爬蟲抓取過程結(jié)束。但是，當(dāng)對新的服務(wù)注冊網(wǎng)站進行抓取時，就需要重新編寫抓取流程和抓取頁面內(nèi)容方法。天津大學(xué) 2022 屆本科生畢業(yè)設(shè)計（論文） 30 參考文獻 [1]seeda 網(wǎng)站 [EB/OL]. [2]網(wǎng)絡(luò)爬蟲 [EB/OL]. [3]孫立偉，何國輝，吳禮發(fā) . 網(wǎng)絡(luò)爬蟲技術(shù)研究 [J]. Computer Knowledge and Technology 電腦知識與技術(shù) . ,May 2022, [4]J. Cho, H. GarciaMolina. The evolution of the web and implications for an incremental crawler [C]. In Proceedings of the 26th International Conference on Very Large Database, Cairo, Egypt, 2022. [5]Roberston, L. Anecdotes [Google search engine] [J]. Annals of the History of Computing, 2022, Volume 27: 9697. [6]陳汶濱，夏學(xué)梅 . 基于聚焦爬蟲的手機天氣預(yù)報系統(tǒng) [J]. 今日科苑 . 2022年第 2期 . [7]鄭力明，易平 . Design of Crawler Based on HTML Parser Information Extraction[J]. 微計算機信息， Microputer Information . 09,June,2022. [8]楊頌，歐陽柳波 . 基于 Heritrix 的面向電子商務(wù)網(wǎng)站增量爬蟲研究 [J]. 軟件導(dǎo)刊 . 2022 年 7月 . [9]Heritrix 官方網(wǎng)站 [EB/OL]. [10]邱哲，符滔滔 . 開發(fā)自己的搜索引擎 Lucene +Heritrix. 人民郵電出版社 , 20224. [11]羅剛 . 自己動手寫網(wǎng)絡(luò)爬蟲 . 清華大學(xué)出版社 . 2022101； [12]李盛韜 , 余智華 , 程學(xué)旗 . Web 信息采集研究進展 [J]. 計算機科學(xué) , 2022 [13]S. Chakrabarti, M. van den Berg and B. Dom. Focused Crawling: A New Approach to TopicSpecific Web Resource Discovery [C]. In Proceedings of the 8th International World Wide Web Conference, Toronto, Canada, 1999. [14]曾偉輝，李淼 . 深層網(wǎng)絡(luò)爬蟲研究綜述 [J]. 計算機系統(tǒng)應(yīng)用 , 2022. [15]周立柱 ,林玲 . 聚焦爬蟲技術(shù)研究綜述 [J].計算機應(yīng)用 , 2022 年 9 月 . 外文資料 WSCE: A Crawler Engine for LargeScale Discovery of Web Services Eyhab AlMasri and Qusay H. Mahmoud Abstract This paper addresses issues relating to the efficient access and discovery of Web services across multiple UDDI Business Registries (UBRs). The ability to explore Web services across multiple UBRs is being a challenge particularly as size and magnitude of these r

點擊復(fù)制文檔內(nèi)容

規(guī)章制度相關(guān)推薦

創(chuàng)意酒店網(wǎng)絡(luò)系統(tǒng)的設(shè)計與實現(xiàn)畢業(yè)論文-資料下載頁

【摘要】畢業(yè)設(shè)計報告——《和豐四季創(chuàng)意酒店網(wǎng)絡(luò)系統(tǒng)的設(shè)計與實現(xiàn)》紹興職業(yè)技術(shù)學(xué)院創(chuàng)意酒店網(wǎng)絡(luò)系統(tǒng)的設(shè)計與實現(xiàn)畢業(yè)論文目錄第1章概述 4 實習(xí)的基本情況 4 畢業(yè)設(shè)計的核心任務(wù) 4 畢業(yè)設(shè)計的工程進程 5第2章需求分析 6 建設(shè)目標(biāo) 6 項目需求分析 6 計算機網(wǎng)絡(luò)系統(tǒng)需求分析 7 寬帶需求分析 7 擴展需求分析 7

2025-06-18 07:23

寵物犬網(wǎng)絡(luò)商店的設(shè)計與實現(xiàn)畢業(yè)論文-資料下載頁

【摘要】哈爾濱學(xué)院本科畢業(yè)論文（設(shè)計）題目：寵物犬網(wǎng)絡(luò)交易平臺的設(shè)計與實現(xiàn)院（系）專業(yè)年級姓名學(xué)號指導(dǎo)教師職稱I

2025-08-18 13:52

網(wǎng)絡(luò)文件管理系統(tǒng)的設(shè)計與實現(xiàn)_畢業(yè)論文-資料下載頁

【摘要】吉林大學(xué)珠海學(xué)院畢業(yè)論文網(wǎng)絡(luò)文件管理系統(tǒng)設(shè)計與實現(xiàn)TheDesignandImplementationofNetworkFileManagementSystem系別：計算機科學(xué)與技術(shù)專業(yè)名稱：計算機科學(xué)與技術(shù)學(xué)生姓名：學(xué)號：指導(dǎo)教師姓名、職稱：

2025-08-20 10:43

網(wǎng)絡(luò)投票系統(tǒng)的設(shè)計與實現(xiàn)本科畢業(yè)論文-資料下載頁

【摘要】本科畢業(yè)論文（設(shè)計、創(chuàng)作）題　　目：　網(wǎng)絡(luò)投票系統(tǒng)的設(shè)計與實現(xiàn)　　　畢業(yè)設(shè)計（論文）原創(chuàng)性聲明和使用授權(quán)說明原創(chuàng)性聲明本人鄭重承諾：所呈交的畢業(yè)設(shè)計（論文），是我個人在指導(dǎo)教師的指導(dǎo)下進行的研究工作及取得的成果。盡我所知，除文中特別加以標(biāo)注和致謝的地方外，不包含其他人或組織已經(jīng)發(fā)表或公布過的研究成果，也不包含我為獲得

2025-06-23 06:31

網(wǎng)絡(luò)投票系統(tǒng)的設(shè)計與實現(xiàn)本科畢業(yè)論文-資料下載頁

【摘要】本科畢業(yè)論文（設(shè)計、創(chuàng)作）題目：網(wǎng)絡(luò)投票系統(tǒng)的設(shè)計與實現(xiàn)畢業(yè)設(shè)計（論文）原創(chuàng)性聲明和使用授權(quán)說明原創(chuàng)性聲明本人鄭重承諾：所呈交的畢業(yè)設(shè)計（論文），是我個人在指導(dǎo)教師的指導(dǎo)下進行的研究工作及取得的成果。盡我所知，除文中特別加以標(biāo)注和致謝的地方外，不包含其他人或

2025-08-17 21:30

基于bs架構(gòu)的網(wǎng)絡(luò)論壇設(shè)計與實現(xiàn)畢業(yè)論文-資料下載頁

【摘要】中國石油大學(xué)勝利學(xué)院本科畢業(yè)設(shè)計（論文）基于B/S架構(gòu)的網(wǎng)絡(luò)論壇設(shè)計與實現(xiàn)畢業(yè)論文第一章論壇系統(tǒng)開發(fā)背景及意義1.系統(tǒng)開發(fā)背景論壇又名網(wǎng)絡(luò)論壇BBS，全稱為BulletinBoardSystem（電子公告板）或者BulletinBoardService（公告板服務(wù)）。是Internet上的一種電子信息服務(wù)系統(tǒng)。它提供一塊公共電子白板，每個用戶都可以在上面

2025-06-19 15:52

網(wǎng)絡(luò)購物系統(tǒng)的設(shè)計與實現(xiàn)畢業(yè)論文正稿-資料下載頁

【摘要】.....從封皮到目錄：頁面設(shè)置上：下：左右：2厘米裝訂線：左備注：封皮無頁眉、頁腳、頁碼。從封皮到目錄：頁面設(shè)置上：下：左右：2厘米裝訂線：左備注：封皮無頁眉、頁腳、頁碼。

2025-06-23 19:03

畢業(yè)論文：基于網(wǎng)絡(luò)的同學(xué)錄設(shè)計與實現(xiàn)-資料下載頁

【摘要】SelectionParagraphFormatLineSpacingLinesToPointsSelectionParagraphFormatLineSpacingLinesToPointselectionParagraaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaphFormatLineSpacingLinesToPointsSelection

2024-11-01 14:32

基于jsp的網(wǎng)絡(luò)商店系統(tǒng)的設(shè)計與實現(xiàn)畢業(yè)論文-資料下載頁

【摘要】本科生畢業(yè)論文(設(shè)計)基于Jsp的網(wǎng)絡(luò)商店系統(tǒng)的設(shè)計與實現(xiàn)姓　　名學(xué)　　號?！　I(yè)指導(dǎo)教師2022年5月20日摘　要隨著國內(nèi)Inter使用人數(shù)的增加，利用Inter進行網(wǎng)絡(luò)購物并以銀行卡付款的消費方式已漸流行，市場

2025-07-09 13:11

基于jspservlet的網(wǎng)絡(luò)教學(xué)平臺的設(shè)計與實現(xiàn)畢業(yè)論文-資料下載頁

【摘要】基于JSP/Servlet的網(wǎng)絡(luò)教學(xué)平臺的設(shè)計與實現(xiàn)畢業(yè)論文目錄1引言 1網(wǎng)絡(luò)教學(xué)系統(tǒng)的技術(shù) 1本系統(tǒng)的特點和意義 22系統(tǒng)核心技術(shù)特點 2web系統(tǒng)應(yīng)用研究 2N層體系結(jié)構(gòu) 2基于組件開發(fā) 3JSP/Servlet對web應(yīng)用系統(tǒng)的支持 33系統(tǒng)分析 4用例分析 4用例建模 5標(biāo)識參與

2025-06-27 18:12

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

畢業(yè)論文-面向webservice的網(wǎng)絡(luò)爬蟲設(shè)計與實現(xiàn)-預(yù)覽頁

創(chuàng)意酒店網(wǎng)絡(luò)系統(tǒng)的設(shè)計與實現(xiàn)畢業(yè)論文-資料下載頁

寵物犬網(wǎng)絡(luò)商店的設(shè)計與實現(xiàn)畢業(yè)論文-資料下載頁

網(wǎng)絡(luò)文件管理系統(tǒng)的設(shè)計與實現(xiàn)_畢業(yè)論文-資料下載頁

網(wǎng)絡(luò)投票系統(tǒng)的設(shè)計與實現(xiàn)本科畢業(yè)論文-資料下載頁

網(wǎng)絡(luò)投票系統(tǒng)的設(shè)計與實現(xiàn)本科畢業(yè)論文-資料下載頁

基于bs架構(gòu)的網(wǎng)絡(luò)論壇設(shè)計與實現(xiàn)畢業(yè)論文-資料下載頁

網(wǎng)絡(luò)購物系統(tǒng)的設(shè)計與實現(xiàn)畢業(yè)論文正稿-資料下載頁

畢業(yè)論文：基于網(wǎng)絡(luò)的同學(xué)錄設(shè)計與實現(xiàn)-資料下載頁

基于jsp的網(wǎng)絡(luò)商店系統(tǒng)的設(shè)計與實現(xiàn)畢業(yè)論文-資料下載頁

基于jspservlet的網(wǎng)絡(luò)教學(xué)平臺的設(shè)計與實現(xiàn)畢業(yè)論文-資料下載頁

基于jsp的網(wǎng)絡(luò)商店系統(tǒng)的設(shè)計與實現(xiàn)畢業(yè)論文-資料下載頁

網(wǎng)絡(luò)廣告管理系統(tǒng)設(shè)計與實現(xiàn)畢業(yè)論文-資料下載頁

網(wǎng)絡(luò)聊天系統(tǒng)開發(fā)設(shè)計與實現(xiàn)畢業(yè)論文-資料下載頁

網(wǎng)絡(luò)聊天系統(tǒng)開發(fā)設(shè)計與實現(xiàn)_畢業(yè)論文-資料下載頁

網(wǎng)絡(luò)工程畢業(yè)論文-納稅申報系統(tǒng)的設(shè)計與實現(xiàn)-資料下載頁

畢業(yè)論文-面向webservice的網(wǎng)絡(luò)爬蟲設(shè)計與實現(xiàn)(存儲版)

畢業(yè)論文-面向webservice的網(wǎng)絡(luò)爬蟲設(shè)計與實現(xiàn)-文庫吧在線文庫

畢業(yè)論文-面向webservice的網(wǎng)絡(luò)爬蟲設(shè)計與實現(xiàn)(完整版)

畢業(yè)論文-面向webservice的網(wǎng)絡(luò)爬蟲設(shè)計與實現(xiàn)(更新版)

畢業(yè)論文-面向webservice的網(wǎng)絡(luò)爬蟲設(shè)計與實現(xiàn)(專業(yè)版)