freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

畢業(yè)論文設(shè)計(jì):面向webservice的網(wǎng)絡(luò)爬蟲設(shè)計(jì)與實(shí)現(xiàn)(存儲版)

2025-07-15 01:32上一頁面

下一頁面
  

【正文】 設(shè)計(jì)(論文) 27 圖 49 設(shè)置 module頁面 2 6. 點(diǎn)擊 setting 標(biāo)簽,進(jìn)入?yún)?shù)設(shè)置頁面: 在 useragent: 處,修改為 Mozilla/ (patible。 本系統(tǒng)對 Seekda 網(wǎng)站上的服務(wù)進(jìn)行抓取,大概用了 2 天時間,抓取了 21273個服務(wù),下載了 17255 個 WSDL 文檔,并把服務(wù)相關(guān)信息存入數(shù)據(jù)庫。因?yàn)?WSDL 的 URL 絕大部分是以 ?wsdl 結(jié)尾的,那么爬蟲程序就可以遍歷所有網(wǎng)站,只抓取 WSDL 的 URL,就不需要根據(jù)網(wǎng)頁結(jié)構(gòu)來提取服務(wù)詳細(xì)信息,服務(wù)詳細(xì)信息從 WSDL 文檔中就可以 得到。 根據(jù)分析結(jié)果,本系統(tǒng)采用的抓取方法包括以下兩種: 第一種,對于提供了服務(wù)詳細(xì)信息的網(wǎng)站,首先分析得到注冊網(wǎng)站的服務(wù)分布結(jié)構(gòu),然后,爬蟲根據(jù)服務(wù)分布結(jié)構(gòu)依次循環(huán)遍歷網(wǎng)站,在遍歷過程中,把服務(wù)詳細(xì)信息抓取下來,并存入數(shù)據(jù)庫。 在 Select Extractors 選項(xiàng)中,依次刪除 ExtractorHTML, ExtractorCSS, ExtractorJS, ExtractorSWF。 try { //把返回的 WSDL文檔內(nèi)容寫入硬盤文件中 (fos)。 i++) { LinkTag aNode = (LinkTag) ((i))。 NodeFilter attributes_filter = new TagNameFilter(a)。并編寫代碼提取內(nèi)容。提取服務(wù)可用率代碼如下: int beginIndex,endIndex,baseIndex。提取服務(wù)注冊時間代碼如下: int beginIndex,endIndex,baseIndex。 服務(wù)提供商在這段源代碼( dtProvider:/dtdda href= ./a)中。 (the wsdl page is: +url)。 ()。 if(() != 0){ Node linode = (0)。 } 2. 首先通過新 建一個 Filter,在頁面中查找屬性 class=39。 服務(wù)提供商頁面內(nèi)容提取 服務(wù)提供商頁面的提取過程比較特殊, 因?yàn)?某提供商注冊的服務(wù)比較多,需要分頁顯示,所以在抓取服務(wù)詳細(xì)信息頁面 URL 的同時,也要抓取下一頁的URL,并把這些 URL 加入到待訪問隊(duì)列中。 int end = (。 } catch (ParserException e) { ()。 } 3. 得到了 class=providerlist的 ul標(biāo)簽后,把這部分內(nèi)容轉(zhuǎn)換為 String,并新建一個 Filter,目的是為了找到 ul標(biāo)簽下所有 a標(biāo)簽。 try { parser = new Parser(content)。例如:在頁面中,存在一個標(biāo)簽,在開發(fā)者編寫代碼時,會用一些空格來調(diào)整內(nèi)容 的長度,根據(jù)內(nèi)容的不同,空格的長度也不同。 //執(zhí)行操作 1 condition1(content,curi)。 Seekda 網(wǎng)站主要包含三種類型的頁面。 方式 1:爬蟲抓取網(wǎng)站所有服務(wù)是不可行的,因?yàn)榕老x無法列舉所有可能的搜索條件。跳過寫鏈。還要把提取鏈中提取出來的服務(wù)信息存入服務(wù)詳細(xì)信息表中, 例如:服務(wù)提供商、服務(wù)注冊時間、 服務(wù)可用率、服務(wù)標(biāo)簽等。 2. 爬蟲線程管理器 TreadPool 詢問 Frontier,檢查待訪問隊(duì)列中是否存在鏈 接,如果存在, TreadPool 獲得該鏈接,并分配給一個線程。數(shù)據(jù)庫表定義如下: 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(jì)(論文) 7 表 31 webServiceDetail表 屬性名 數(shù)據(jù)類型 非空 自增長 默認(rèn)值 wsdlAddress VARCHAR(255) √ Provider VARCHAR(30) monitoredSince VARCHAR(50) server VARCHAR(50) availability VARCHAR(50) description VARCHAR(5000) descriptionByUser VARCHAR(1000) fileAddress VARCHAR(255) date datatime state VARCHAR(50) type Boolean √ 重要字段說明: wsdlAddress 字段為主鍵,因?yàn)槊總€服務(wù) WSDL 文檔的 URL 是唯一的。 針對提供了詳細(xì)信息的服務(wù)網(wǎng)站,裁掉了一些 Heritrix 原有處理鏈,只保留了過濾鏈,提取鏈,寫鏈,并對三個處理鏈功能進(jìn)行重新設(shè)定。 Heritrix[9]是一個比較靈活、可擴(kuò)展性強(qiáng)的網(wǎng)絡(luò)爬蟲開源框架,目前,已經(jīng)有很多應(yīng)用在該框架上進(jìn)行開發(fā),例如基于 Heritrix 的面向電子商務(wù)網(wǎng)站的信息抓取,該應(yīng)用就是在 Heritrix 網(wǎng)絡(luò)爬蟲開源框架的基礎(chǔ)上進(jìn)行擴(kuò)展、修改 [10],并建立特有的抓取策略來抓取網(wǎng)絡(luò)上的電子商務(wù)信息 [11]。盡管這些網(wǎng)站的數(shù)量不及 seekda 的多,但這些網(wǎng)站上的服務(wù)對用戶來說,也是有巨大意義的。 第三章 提出了系統(tǒng)的設(shè)計(jì)和結(jié)構(gòu),其中包括總體架構(gòu)、數(shù)據(jù)庫的設(shè)計(jì)、工程包的設(shè)計(jì)和詳細(xì)的流程設(shè)計(jì)。 通過對網(wǎng)站結(jié)構(gòu)的分析,可以得到網(wǎng)站中服務(wù)分布的一顆樹,并用形式化 語言描述這棵樹。 為了 實(shí)現(xiàn)該目的,本論文的主要研究內(nèi)容包括: 第一種情況:網(wǎng)站上的服務(wù)提供了關(guān)于服務(wù)的相關(guān)信息,那么本系統(tǒng)抓取服務(wù) WSDL 文檔的同時,獲取服務(wù)的相關(guān)信息。 Web 服務(wù)允許應(yīng)用開發(fā)者對不同語言,不同平臺的應(yīng)用程序進(jìn)行集成,允許在程序中調(diào)用 Web 服務(wù)。 4)加載服務(wù)信息到數(shù)據(jù)庫:把在頁面信息提取中得到的關(guān)于服務(wù)的信息存入數(shù)據(jù)庫中。同時網(wǎng)絡(luò)爬蟲技術(shù)的飛速發(fā)展,各種爬蟲開源框架的出現(xiàn),為我們的爬蟲系統(tǒng)提供了良好的 技術(shù)基礎(chǔ)。 2. 并對該類別頁面進(jìn)行分析,提取出所有的 Web service 詳細(xì)信息頁面的URL。 四、 方法和手段: 在擴(kuò)展 Heritrix 框架的過程中,遇到的問題或者使用的插件如下: 1. 在改寫 Heritrix 框架的提取鏈時,需要從 分析網(wǎng)站結(jié)構(gòu)中得到需要遍歷 的網(wǎng)頁 URL。 a. 對網(wǎng)站所有 Web Service 的分類頁面進(jìn)行分析,分析出含有 所有 Web Service 的種類 URl 的 table 表格結(jié)構(gòu)和 URL 的結(jié)構(gòu)。 現(xiàn)已有很多應(yīng)用是在 Heritrix 上開發(fā)的。隨著垂直搜索的蓬勃發(fā)展,聚焦網(wǎng)絡(luò),也就是主題網(wǎng)絡(luò)爬蟲成為研究的前言 , [4]提出通過深入分析生活類網(wǎng)站網(wǎng)址的樹形結(jié)構(gòu)的架構(gòu),開發(fā)了收 集種子頁面的 URL 的模擬搜集齊,并基于 HTMLParser 的信息提取方法,從種子與頁面中提取出與生活類主題相關(guān)的目標(biāo) URL。用戶或者服務(wù)開發(fā)者就可以在基于該本系統(tǒng)數(shù)據(jù)庫的搜索引擎中查找到所有的互聯(lián)網(wǎng)上大部分的服務(wù),節(jié)省了在不同網(wǎng)站間查找服務(wù)的時間。) 本系統(tǒng)將要達(dá)到以下目標(biāo): ? 提供給用戶一個種子文件,用戶可以設(shè)置抓取 Web 服務(wù)的網(wǎng)站地址。 二、 參考文獻(xiàn) [1]孫立偉,何國輝,吳禮發(fā) 。 畢業(yè)設(shè)計(jì)(論文)說明書 學(xué) 院 軟件學(xué)院 專 業(yè) 軟件工程 年 級 07 級 姓 名 梁其烜 指導(dǎo)教師 馮志勇 2021 年 6 月 15 日 畢業(yè)設(shè)計(jì)(論文)任務(wù)書 題目:面向 web service 的網(wǎng)絡(luò)爬蟲設(shè)計(jì)與實(shí)現(xiàn) 學(xué)生姓名 梁其烜 學(xué)院名稱 軟件學(xué)院 專 業(yè) 軟件工 程 學(xué) 號 3007218123 指導(dǎo)教師 馮志勇 職 稱 教授 一、 原始依據(jù)(包括設(shè)計(jì)或論文的工作基礎(chǔ)、研究條件、應(yīng)用環(huán) 境、工作目的等。本課題的任務(wù)就是研究如何把網(wǎng)絡(luò)上分散的 Web 服務(wù)搜集在一起。 [5]J. Cho, H. GarciaMolina. The evolution of the web and implications for an incremental crawler [C]. In Proceedings of the 26th International Conference on Very Large Database, Cairo, Egypt, 2021. [6]李文澤;個性化垂直搜索引擎研究;河南大學(xué); 20211107; [7]曾偉輝,李淼 . 深層網(wǎng)絡(luò)爬蟲研究綜述 [J]. 計(jì)算機(jī)系統(tǒng)應(yīng)用 , 2021. [8]周立柱 ,林 玲 . 聚焦爬蟲技術(shù)研究綜述 [J].計(jì)算機(jī)應(yīng)用 , 2021 年 9 月 . [9]S. Chakrabarti, M. van den Berg and B. Dom. Focused Crawling: A New Approach to TopicSpecific Web Resource Discovery [C]. In Proceedings of the 8th International World Wide Web Conference, Toronto, Canada, 1999. [10]陳汶濱,夏學(xué)梅 . 基于聚焦爬蟲的手機(jī)天氣預(yù)報系統(tǒng) [J]. 今日科苑 . 2021年第 2期 . [11]邱哲,符滔滔 . 開發(fā)自己的搜索引擎 Lucene +Heritrix. 人民郵電出版社 , 20214. [12]羅剛 . 自己動手寫網(wǎng)絡(luò)爬蟲 . 清華大學(xué)出版社 . 2021101; [13]Heritrix 官方網(wǎng)站 [EB/OL]. [14]seeda 網(wǎng)站 [EB/OL]. [15]網(wǎng)絡(luò)爬蟲 [EB/OL]. 三、設(shè)計(jì)(研究)內(nèi)容和要求(包括設(shè)計(jì)或研究內(nèi)容、主要指標(biāo) 與技術(shù)參數(shù),并根據(jù)課題性質(zhì)對學(xué)生提出具體要求。 本課題的任務(wù)是抓取 互聯(lián)網(wǎng)上分散的服務(wù),具有重要意義:本系統(tǒng)把互聯(lián)網(wǎng)上的服務(wù)都收集起來,并存儲在本地?cái)?shù)據(jù)庫。 聚焦網(wǎng)絡(luò)爬蟲 (Focused Crawler),又稱主題網(wǎng)絡(luò)爬蟲 (Topical Crawler ),是指選擇性地爬行那些與預(yù)先定義好的主題相關(guān)頁面的網(wǎng)絡(luò)爬蟲 [3]。和其他開源的爬蟲程序相比, Heritrix 的優(yōu)勢在于它的擴(kuò)展性,開發(fā)者可以擴(kuò)展它的組件,來實(shí)現(xiàn)自己的抓取邏輯 [6]。 c. 重新改寫 Heritrix 框架處理流程中的寫鏈,以下載搜索到的 wsdl 文檔。利用 Client 編寫下載 wsdl 程序。 分析網(wǎng)站結(jié)構(gòu)過程如下: 1. 提供一個包含所有 Web service 類別的網(wǎng)頁的 URL,分析該網(wǎng)頁,用以上分析頁面的方法提取出所有的類別頁面的 URL,取出一個服務(wù)類別頁面URL。并且網(wǎng)站的分布結(jié)構(gòu)十分清晰,有利于我們設(shè)計(jì)簡單有效地搜索策略。 3)下載 WSDL 文檔:在抓取到了服務(wù) WSDL 的 URL 后,使用 HtmlClient 下載 WSDL 文檔。 Web 服務(wù)的出現(xiàn)有效的解決了以上難題。所以本論文的目的是:通過爬蟲抓取,得到互聯(lián)網(wǎng)上的 Web 服務(wù)信息,并把服務(wù)信息存放到數(shù)據(jù)庫中。 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(jì)(論文) 2 c. 對 Web 服務(wù)詳細(xì)信息頁面進(jìn)行分析,分析出 Web 服務(wù)信息的 table表格結(jié)構(gòu)。 第二章 介紹了互聯(lián)網(wǎng)上的服務(wù)的分布情況和相關(guān)爬蟲技術(shù),并對需求進(jìn)行分析,包括功能說明和運(yùn)行環(huán)境。還有其它一些服務(wù)注冊網(wǎng)站,例如: 、。 Web 服務(wù)有其特定結(jié)構(gòu), Web 服務(wù)網(wǎng)絡(luò)爬蟲不僅僅遍歷網(wǎng)頁,并建立索引,而且在遍歷網(wǎng)頁過程中,利用網(wǎng)頁分析工具解析網(wǎng) 頁 [7],把 Web 服務(wù)相關(guān)信息抓取下來,如:注冊標(biāo)簽、提供商、注冊時間、可用率、服務(wù)器等。本系統(tǒng)針對兩類網(wǎng)站進(jìn)行了處理鏈修改及擴(kuò)展。 系統(tǒng)結(jié)構(gòu)圖如下: 圖 32 抓取沒有詳細(xì)信息服務(wù)的系統(tǒng)結(jié)構(gòu) 圖 數(shù)據(jù) 庫設(shè)計(jì) 本系統(tǒng)的數(shù)據(jù)庫較簡單,只有一個表 webServiceDetail,在兩種情況下,都需要存儲服務(wù) WSDL 文檔的 URL,在第一種情況下,需要存儲服務(wù)相關(guān)信息,這些相關(guān)信息包括:服務(wù)提供商、服務(wù)注冊時間、服務(wù)可用率、
點(diǎn)擊復(fù)制文檔內(nèi)容
畢業(yè)設(shè)計(jì)相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1