freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

畢業(yè)論文設(shè)計(jì):面向webservice的網(wǎng)絡(luò)爬蟲設(shè)計(jì)與實(shí)現(xiàn)(存儲(chǔ)版)

  

【正文】 設(shè)計(jì)(論文) 27 圖 49 設(shè)置 module頁(yè)面 2 6. 點(diǎn)擊 setting 標(biāo)簽,進(jìn)入?yún)?shù)設(shè)置頁(yè)面: 在 useragent: 處,修改為 Mozilla/ (patible。 本系統(tǒng)對(duì) Seekda 網(wǎng)站上的服務(wù)進(jìn)行抓取,大概用了 2 天時(shí)間,抓取了 21273個(gè)服務(wù),下載了 17255 個(gè) WSDL 文檔,并把服務(wù)相關(guān)信息存入數(shù)據(jù)庫(kù)。因?yàn)?WSDL 的 URL 絕大部分是以 ?wsdl 結(jié)尾的,那么爬蟲程序就可以遍歷所有網(wǎng)站,只抓取 WSDL 的 URL,就不需要根據(jù)網(wǎng)頁(yè)結(jié)構(gòu)來(lái)提取服務(wù)詳細(xì)信息,服務(wù)詳細(xì)信息從 WSDL 文檔中就可以 得到。 根據(jù)分析結(jié)果,本系統(tǒng)采用的抓取方法包括以下兩種: 第一種,對(duì)于提供了服務(wù)詳細(xì)信息的網(wǎng)站,首先分析得到注冊(cè)網(wǎng)站的服務(wù)分布結(jié)構(gòu),然后,爬蟲根據(jù)服務(wù)分布結(jié)構(gòu)依次循環(huán)遍歷網(wǎng)站,在遍歷過程中,把服務(wù)詳細(xì)信息抓取下來(lái),并存入數(shù)據(jù)庫(kù)。 在 Select Extractors 選項(xiàng)中,依次刪除 ExtractorHTML, ExtractorCSS, ExtractorJS, ExtractorSWF。 try { //把返回的 WSDL文檔內(nèi)容寫入硬盤文件中 (fos)。 i++) { LinkTag aNode = (LinkTag) ((i))。 NodeFilter attributes_filter = new TagNameFilter(a)。并編寫代碼提取內(nèi)容。提取服務(wù)可用率代碼如下: int beginIndex,endIndex,baseIndex。提取服務(wù)注冊(cè)時(shí)間代碼如下: int beginIndex,endIndex,baseIndex。 服務(wù)提供商在這段源代碼( dtProvider:/dtdda href= ./a)中。 (the wsdl page is: +url)。 ()。 if(() != 0){ Node linode = (0)。 } 2. 首先通過新 建一個(gè) Filter,在頁(yè)面中查找屬性 class=39。 服務(wù)提供商頁(yè)面內(nèi)容提取 服務(wù)提供商頁(yè)面的提取過程比較特殊, 因?yàn)?某提供商注冊(cè)的服務(wù)比較多,需要分頁(yè)顯示,所以在抓取服務(wù)詳細(xì)信息頁(yè)面 URL 的同時(shí),也要抓取下一頁(yè)的URL,并把這些 URL 加入到待訪問隊(duì)列中。 int end = (。 } catch (ParserException e) { ()。 } 3. 得到了 class=providerlist的 ul標(biāo)簽后,把這部分內(nèi)容轉(zhuǎn)換為 String,并新建一個(gè) Filter,目的是為了找到 ul標(biāo)簽下所有 a標(biāo)簽。 try { parser = new Parser(content)。例如:在頁(yè)面中,存在一個(gè)標(biāo)簽,在開發(fā)者編寫代碼時(shí),會(huì)用一些空格來(lái)調(diào)整內(nèi)容 的長(zhǎng)度,根據(jù)內(nèi)容的不同,空格的長(zhǎng)度也不同。 //執(zhí)行操作 1 condition1(content,curi)。 Seekda 網(wǎng)站主要包含三種類型的頁(yè)面。 方式 1:爬蟲抓取網(wǎng)站所有服務(wù)是不可行的,因?yàn)榕老x無(wú)法列舉所有可能的搜索條件。跳過寫鏈。還要把提取鏈中提取出來(lái)的服務(wù)信息存入服務(wù)詳細(xì)信息表中, 例如:服務(wù)提供商、服務(wù)注冊(cè)時(shí)間、 服務(wù)可用率、服務(wù)標(biāo)簽等。 2. 爬蟲線程管理器 TreadPool 詢問 Frontier,檢查待訪問隊(duì)列中是否存在鏈 接,如果存在, TreadPool 獲得該鏈接,并分配給一個(gè)線程。數(shù)據(jù)庫(kù)表定義如下: 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(jì)(論文) 7 表 31 webServiceDetail表 屬性名 數(shù)據(jù)類型 非空 自增長(zhǎng) 默認(rèn)值 wsdlAddress VARCHAR(255) √ Provider VARCHAR(30) monitoredSince VARCHAR(50) server VARCHAR(50) availability VARCHAR(50) description VARCHAR(5000) descriptionByUser VARCHAR(1000) fileAddress VARCHAR(255) date datatime state VARCHAR(50) type Boolean √ 重要字段說(shuō)明: wsdlAddress 字段為主鍵,因?yàn)槊總€(gè)服務(wù) WSDL 文檔的 URL 是唯一的。 針對(duì)提供了詳細(xì)信息的服務(wù)網(wǎng)站,裁掉了一些 Heritrix 原有處理鏈,只保留了過濾鏈,提取鏈,寫鏈,并對(duì)三個(gè)處理鏈功能進(jìn)行重新設(shè)定。 Heritrix[9]是一個(gè)比較靈活、可擴(kuò)展性強(qiáng)的網(wǎng)絡(luò)爬蟲開源框架,目前,已經(jīng)有很多應(yīng)用在該框架上進(jìn)行開發(fā),例如基于 Heritrix 的面向電子商務(wù)網(wǎng)站的信息抓取,該應(yīng)用就是在 Heritrix 網(wǎng)絡(luò)爬蟲開源框架的基礎(chǔ)上進(jìn)行擴(kuò)展、修改 [10],并建立特有的抓取策略來(lái)抓取網(wǎng)絡(luò)上的電子商務(wù)信息 [11]。盡管這些網(wǎng)站的數(shù)量不及 seekda 的多,但這些網(wǎng)站上的服務(wù)對(duì)用戶來(lái)說(shuō),也是有巨大意義的。 第三章 提出了系統(tǒng)的設(shè)計(jì)和結(jié)構(gòu),其中包括總體架構(gòu)、數(shù)據(jù)庫(kù)的設(shè)計(jì)、工程包的設(shè)計(jì)和詳細(xì)的流程設(shè)計(jì)。 通過對(duì)網(wǎng)站結(jié)構(gòu)的分析,可以得到網(wǎng)站中服務(wù)分布的一顆樹,并用形式化 語(yǔ)言描述這棵樹。 為了 實(shí)現(xiàn)該目的,本論文的主要研究?jī)?nèi)容包括: 第一種情況:網(wǎng)站上的服務(wù)提供了關(guān)于服務(wù)的相關(guān)信息,那么本系統(tǒng)抓取服務(wù) WSDL 文檔的同時(shí),獲取服務(wù)的相關(guān)信息。 Web 服務(wù)允許應(yīng)用開發(fā)者對(duì)不同語(yǔ)言,不同平臺(tái)的應(yīng)用程序進(jìn)行集成,允許在程序中調(diào)用 Web 服務(wù)。 4)加載服務(wù)信息到數(shù)據(jù)庫(kù):把在頁(yè)面信息提取中得到的關(guān)于服務(wù)的信息存入數(shù)據(jù)庫(kù)中。同時(shí)網(wǎng)絡(luò)爬蟲技術(shù)的飛速發(fā)展,各種爬蟲開源框架的出現(xiàn),為我們的爬蟲系統(tǒng)提供了良好的 技術(shù)基礎(chǔ)。 2. 并對(duì)該類別頁(yè)面進(jìn)行分析,提取出所有的 Web service 詳細(xì)信息頁(yè)面的URL。 四、 方法和手段: 在擴(kuò)展 Heritrix 框架的過程中,遇到的問題或者使用的插件如下: 1. 在改寫 Heritrix 框架的提取鏈時(shí),需要從 分析網(wǎng)站結(jié)構(gòu)中得到需要遍歷 的網(wǎng)頁(yè) URL。 a. 對(duì)網(wǎng)站所有 Web Service 的分類頁(yè)面進(jìn)行分析,分析出含有 所有 Web Service 的種類 URl 的 table 表格結(jié)構(gòu)和 URL 的結(jié)構(gòu)。 現(xiàn)已有很多應(yīng)用是在 Heritrix 上開發(fā)的。隨著垂直搜索的蓬勃發(fā)展,聚焦網(wǎng)絡(luò),也就是主題網(wǎng)絡(luò)爬蟲成為研究的前言 , [4]提出通過深入分析生活類網(wǎng)站網(wǎng)址的樹形結(jié)構(gòu)的架構(gòu),開發(fā)了收 集種子頁(yè)面的 URL 的模擬搜集齊,并基于 HTMLParser 的信息提取方法,從種子與頁(yè)面中提取出與生活類主題相關(guān)的目標(biāo) URL。用戶或者服務(wù)開發(fā)者就可以在基于該本系統(tǒng)數(shù)據(jù)庫(kù)的搜索引擎中查找到所有的互聯(lián)網(wǎng)上大部分的服務(wù),節(jié)省了在不同網(wǎng)站間查找服務(wù)的時(shí)間。) 本系統(tǒng)將要達(dá)到以下目標(biāo): ? 提供給用戶一個(gè)種子文件,用戶可以設(shè)置抓取 Web 服務(wù)的網(wǎng)站地址。 二、 參考文獻(xiàn) [1]孫立偉,何國(guó)輝,吳禮發(fā) 。 畢業(yè)設(shè)計(jì)(論文)說(shuō)明書 學(xué) 院 軟件學(xué)院 專 業(yè) 軟件工程 年 級(jí) 07 級(jí) 姓 名 梁其烜 指導(dǎo)教師 馮志勇 2021 年 6 月 15 日 畢業(yè)設(shè)計(jì)(論文)任務(wù)書 題目:面向 web service 的網(wǎng)絡(luò)爬蟲設(shè)計(jì)與實(shí)現(xiàn) 學(xué)生姓名 梁其烜 學(xué)院名稱 軟件學(xué)院 專 業(yè) 軟件工 程 學(xué) 號(hào) 3007218123 指導(dǎo)教師 馮志勇 職 稱 教授 一、 原始依據(jù)(包括設(shè)計(jì)或論文的工作基礎(chǔ)、研究條件、應(yīng)用環(huán) 境、工作目的等。本課題的任務(wù)就是研究如何把網(wǎng)絡(luò)上分散的 Web 服務(wù)搜集在一起。 [5]J. Cho, H. GarciaMolina. The evolution of the web and implications for an incremental crawler [C]. In Proceedings of the 26th International Conference on Very Large Database, Cairo, Egypt, 2021. [6]李文澤;個(gè)性化垂直搜索引擎研究;河南大學(xué); 20211107; [7]曾偉輝,李淼 . 深層網(wǎng)絡(luò)爬蟲研究綜述 [J]. 計(jì)算機(jī)系統(tǒng)應(yīng)用 , 2021. [8]周立柱 ,林 玲 . 聚焦爬蟲技術(shù)研究綜述 [J].計(jì)算機(jī)應(yīng)用 , 2021 年 9 月 . [9]S. Chakrabarti, M. van den Berg and B. Dom. Focused Crawling: A New Approach to TopicSpecific Web Resource Discovery [C]. In Proceedings of the 8th International World Wide Web Conference, Toronto, Canada, 1999. [10]陳汶濱,夏學(xué)梅 . 基于聚焦爬蟲的手機(jī)天氣預(yù)報(bào)系統(tǒng) [J]. 今日科苑 . 2021年第 2期 . [11]邱哲,符滔滔 . 開發(fā)自己的搜索引擎 Lucene +Heritrix. 人民郵電出版社 , 20214. [12]羅剛 . 自己動(dòng)手寫網(wǎng)絡(luò)爬蟲 . 清華大學(xué)出版社 . 2021101; [13]Heritrix 官方網(wǎng)站 [EB/OL]. [14]seeda 網(wǎng)站 [EB/OL]. [15]網(wǎng)絡(luò)爬蟲 [EB/OL]. 三、設(shè)計(jì)(研究)內(nèi)容和要求(包括設(shè)計(jì)或研究?jī)?nèi)容、主要指標(biāo) 與技術(shù)參數(shù),并根據(jù)課題性質(zhì)對(duì)學(xué)生提出具體要求。 本課題的任務(wù)是抓取 互聯(lián)網(wǎng)上分散的服務(wù),具有重要意義:本系統(tǒng)把互聯(lián)網(wǎng)上的服務(wù)都收集起來(lái),并存儲(chǔ)在本地?cái)?shù)據(jù)庫(kù)。 聚焦網(wǎng)絡(luò)爬蟲 (Focused Crawler),又稱主題網(wǎng)絡(luò)爬蟲 (Topical Crawler ),是指選擇性地爬行那些與預(yù)先定義好的主題相關(guān)頁(yè)面的網(wǎng)絡(luò)爬蟲 [3]。和其他開源的爬蟲程序相比, Heritrix 的優(yōu)勢(shì)在于它的擴(kuò)展性,開發(fā)者可以擴(kuò)展它的組件,來(lái)實(shí)現(xiàn)自己的抓取邏輯 [6]。 c. 重新改寫 Heritrix 框架處理流程中的寫鏈,以下載搜索到的 wsdl 文檔。利用 Client 編寫下載 wsdl 程序。 分析網(wǎng)站結(jié)構(gòu)過程如下: 1. 提供一個(gè)包含所有 Web service 類別的網(wǎng)頁(yè)的 URL,分析該網(wǎng)頁(yè),用以上分析頁(yè)面的方法提取出所有的類別頁(yè)面的 URL,取出一個(gè)服務(wù)類別頁(yè)面URL。并且網(wǎng)站的分布結(jié)構(gòu)十分清晰,有利于我們?cè)O(shè)計(jì)簡(jiǎn)單有效地搜索策略。 3)下載 WSDL 文檔:在抓取到了服務(wù) WSDL 的 URL 后,使用 HtmlClient 下載 WSDL 文檔。 Web 服務(wù)的出現(xiàn)有效的解決了以上難題。所以本論文的目的是:通過爬蟲抓取,得到互聯(lián)網(wǎng)上的 Web 服務(wù)信息,并把服務(wù)信息存放到數(shù)據(jù)庫(kù)中。 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(jì)(論文) 2 c. 對(duì) Web 服務(wù)詳細(xì)信息頁(yè)面進(jìn)行分析,分析出 Web 服務(wù)信息的 table表格結(jié)構(gòu)。 第二章 介紹了互聯(lián)網(wǎng)上的服務(wù)的分布情況和相關(guān)爬蟲技術(shù),并對(duì)需求進(jìn)行分析,包括功能說(shuō)明和運(yùn)行環(huán)境。還有其它一些服務(wù)注冊(cè)網(wǎng)站,例如: 、。 Web 服務(wù)有其特定結(jié)構(gòu), Web 服務(wù)網(wǎng)絡(luò)爬蟲不僅僅遍歷網(wǎng)頁(yè),并建立索引,而且在遍歷網(wǎng)頁(yè)過程中,利用網(wǎng)頁(yè)分析工具解析網(wǎng) 頁(yè) [7],把 Web 服務(wù)相關(guān)信息抓取下來(lái),如:注冊(cè)標(biāo)簽、提供商、注冊(cè)時(shí)間、可用率、服務(wù)器等。本系統(tǒng)針對(duì)兩類網(wǎng)站進(jìn)行了處理鏈修改及擴(kuò)展。 系統(tǒng)結(jié)構(gòu)圖如下: 圖 32 抓取沒有詳細(xì)信息服務(wù)的系統(tǒng)結(jié)構(gòu) 圖 數(shù)據(jù) 庫(kù)設(shè)計(jì) 本系統(tǒng)的數(shù)據(jù)庫(kù)較簡(jiǎn)單,只有一個(gè)表 webServiceDetail,在兩種情況下,都需要存儲(chǔ)服務(wù) WSDL 文檔的 URL,在第一種情況下,需要存儲(chǔ)服務(wù)相關(guān)信息,這些相關(guān)信息包括:服務(wù)提供商、服務(wù)注冊(cè)時(shí)間、服務(wù)可用率、
點(diǎn)擊復(fù)制文檔內(nèi)容
畢業(yè)設(shè)計(jì)相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1