freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

畢業(yè)論文設(shè)計:面向webservice的網(wǎng)絡(luò)爬蟲設(shè)計與實現(xiàn)(留存版)

2025-08-04 01:32上一頁面

下一頁面
  

【正文】 術(shù)可以將 Inter 上的各種信息資源和服務(wù)功能整合在一起,在任何時間、任何地點向用戶提供優(yōu)質(zhì)的服務(wù) 。 為了達到以上目的,本系統(tǒng)將對 Heritrix 開源框架進行擴展 ,并針對服務(wù)網(wǎng)站上服務(wù)的特點選擇合適 的爬蟲抓取過程。因為聚焦網(wǎng)絡(luò)爬蟲技術(shù)能最快的,最準(zhǔn)確的搜索 Web 服務(wù)信息。 通過對網(wǎng)站結(jié)構(gòu)的分析,可以得到網(wǎng)站中服務(wù)分布的一顆樹,并用形式化語言描述這棵樹。 5. 提取下一個類別 URL。 關(guān)鍵詞: 爬蟲 ;網(wǎng)絡(luò)服務(wù); WSDL; ABSTRACT The number of services on the Inter Increase quickly,the information sites provide about services is also different, leading to that it is difficult for users to correctly and quickly find the right services, in order to solve the above problems, needing to capture and store the service39。 b. 重新改寫 Heritrix 框架處理流程的提取鏈,提取網(wǎng)頁包含的信息。 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(論文) 3 第二章 相關(guān)工作和需求分析 相關(guān)工作 隨著 Web 服務(wù)開發(fā)者數(shù)量的增加,互聯(lián)網(wǎng)上的 Web 服務(wù)數(shù)量以爆炸方式增長。 2. 下載 WSDL 文檔 提取了 Web服務(wù)詳細信息后,根據(jù) Web服務(wù) WSDL文檔的 URL,下載 WSDL文檔,并把文檔內(nèi)容存放到數(shù)據(jù)庫中。 ? 是提取鏈模塊的程序文件包,主要負(fù)責(zé)對各種頁面進行信息提取。直到?jīng)]有空 閑線程或者待訪問隊列中沒有多余的鏈接為止。通過以上分析,得出以下結(jié)論: 針對 seekda 網(wǎng)站的抓取策略是先得到所有的提供商集合,然后進入每個提供商頁面,在提供商頁面,得到該提供商的所有服務(wù)。 //執(zhí)行操作 2 condition2(content,curi)。 NodeFilter attributes_filter = new AndFilter(new TagNameFilter(ul), new HasAttributeFilter(class, providerlist))。 for (int i = 0。的 li 標(biāo)簽中。 (()+ next :+str)。 baseIndex = (input type=\hidden\ name=uri)。 beginIndex = (\)。由其它處理鏈來處理。 } 下載 WSDL 文檔 在爬蟲抓取過程中,如果抓取到了服務(wù) WSDL 文檔的 URL,就下載 WSDL文檔,具體過程是: 首先得到利用 HTTPClient 工具對 WSDL 文檔進行連接,并得到 inputStream。 heritrix/ + 在 from: 處,修改為: 在 maxretries:處,修改為 5,在 retrydelayseconds 處,修改為 60。 要實現(xiàn)一個抓取流程和提取頁面內(nèi)容方法就可以抓取互聯(lián)網(wǎng)上所有的服務(wù)WSDL 文檔及服務(wù)信息,可以讓服務(wù)提供者把服務(wù)相關(guān)的信息寫入 WSDL 文檔。 4. 在頁面 中輸入 Name of new job, description, seeds,如圖 47 所示: 圖 47 新任務(wù)設(shè)置頁面 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(論文) 26 5. 然后點擊 Modules 標(biāo)簽,進入新頁面,如圖 48 和 49所示: 在 select crawl scope 選項中,選擇 BroadScope,并點擊 change 按鈕。 i ()。 } 同理可分析服務(wù)用戶描述、服務(wù)標(biāo)簽內(nèi)容的 HTML 代碼結(jié)構(gòu)。 服 務(wù) 注 冊 時 間 在 這 段 源 代 碼 ( dtMonitored since:/dtddabbr title=20210516T00:00:00Z 2021516/abbr/dd)中。i++){ String url= (i).toHtml()。 } 3. 如果該頁面不是最后一頁,提取下一頁的 URL,并加入到帶訪問隊列中。 } 通過以上步驟,就 可以得到服務(wù)提供商集合頁面的所有提供商頁面 URL,并把這些 URL 加入到爬蟲待訪問隊列中,爬蟲在后續(xù)的抓取過程中,會對這些提供商頁面 URL 進行再抓取并提取內(nèi)容。 try { nodelist1 = (nodefiter1)。 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(論文) 16 程序流程如圖 42 所示: 圖 42 服務(wù)提供商集合頁面內(nèi)容提取流程圖 部分代碼如下: 1. 首先新建一個解析類 Parser 實例, Parser parser = null。 通過以上的結(jié)論,本系統(tǒng)在過濾鏈中判斷頁面類型的代碼如下: if((/providers/alphabetic/)){ //該頁面時提供商集合頁面 (url+ 進入 提供商集合頁面 )。 3. 網(wǎng)站按照提供商來進行分類,用戶可以查找每一個提供商,然后就查找 到了每個提供商下的每個服務(wù)。 ,就進入了寫鏈,如果是服務(wù)詳細信息頁面,在數(shù)據(jù)庫中標(biāo) 記該頁面類型為 true,表示該 數(shù)據(jù)庫記錄是 一個提供商服務(wù)集合頁面相 關(guān)的內(nèi)容。 系統(tǒng)結(jié)構(gòu)圖如下: 圖 32 抓取沒有詳細信息服務(wù)的系統(tǒng)結(jié)構(gòu) 圖 數(shù)據(jù) 庫設(shè)計 本系統(tǒng)的數(shù)據(jù)庫較簡單,只有一個表 webServiceDetail,在兩種情況下,都需要存儲服務(wù) WSDL 文檔的 URL,在第一種情況下,需要存儲服務(wù)相關(guān)信息,這些相關(guān)信息包括:服務(wù)提供商、服務(wù)注冊時間、服務(wù)可用率、服務(wù)用戶描述、服務(wù)服務(wù)器等,但是在第二種情況下,不需要存儲服務(wù)相關(guān)信息,只存儲服務(wù)WSDL 文檔的 URL。 Web 服務(wù)有其特定結(jié)構(gòu), Web 服務(wù)網(wǎng)絡(luò)爬蟲不僅僅遍歷網(wǎng)頁,并建立索引,而且在遍歷網(wǎng)頁過程中,利用網(wǎng)頁分析工具解析網(wǎng) 頁 [7],把 Web 服務(wù)相關(guān)信息抓取下來,如:注冊標(biāo)簽、提供商、注冊時間、可用率、服務(wù)器等。 第二章 介紹了互聯(lián)網(wǎng)上的服務(wù)的分布情況和相關(guān)爬蟲技術(shù),并對需求進行分析,包括功能說明和運行環(huán)境。所以本論文的目的是:通過爬蟲抓取,得到互聯(lián)網(wǎng)上的 Web 服務(wù)信息,并把服務(wù)信息存放到數(shù)據(jù)庫中。 3)下載 WSDL 文檔:在抓取到了服務(wù) WSDL 的 URL 后,使用 HtmlClient 下載 WSDL 文檔。 分析網(wǎng)站結(jié)構(gòu)過程如下: 1. 提供一個包含所有 Web service 類別的網(wǎng)頁的 URL,分析該網(wǎng)頁,用以上分析頁面的方法提取出所有的類別頁面的 URL,取出一個服務(wù)類別頁面URL。 c. 重新改寫 Heritrix 框架處理流程中的寫鏈,以下載搜索到的 wsdl 文檔。 聚焦網(wǎng)絡(luò)爬蟲 (Focused Crawler),又稱主題網(wǎng)絡(luò)爬蟲 (Topical Crawler ),是指選擇性地爬行那些與預(yù)先定義好的主題相關(guān)頁面的網(wǎng)絡(luò)爬蟲 [3]。 [5]J. Cho, H. GarciaMolina. The evolution of the web and implications for an incremental crawler [C]. In Proceedings of the 26th International Conference on Very Large Database, Cairo, Egypt, 2021. [6]李文澤;個性化垂直搜索引擎研究;河南大學(xué); 20211107; [7]曾偉輝,李淼 . 深層網(wǎng)絡(luò)爬蟲研究綜述 [J]. 計算機系統(tǒng)應(yīng)用 , 2021. [8]周立柱 ,林 玲 . 聚焦爬蟲技術(shù)研究綜述 [J].計算機應(yīng)用 , 2021 年 9 月 . [9]S. Chakrabarti, M. van den Berg and B. Dom. Focused Crawling: A New Approach to TopicSpecific Web Resource Discovery [C]. In Proceedings of the 8th International World Wide Web Conference, Toronto, Canada, 1999. [10]陳汶濱,夏學(xué)梅 . 基于聚焦爬蟲的手機天氣預(yù)報系統(tǒng) [J]. 今日科苑 . 2021年第 2期 . [11]邱哲,符滔滔 . 開發(fā)自己的搜索引擎 Lucene +Heritrix. 人民郵電出版社 , 20214. [12]羅剛 . 自己動手寫網(wǎng)絡(luò)爬蟲 . 清華大學(xué)出版社 . 2021101; [13]Heritrix 官方網(wǎng)站 [EB/OL]. [14]seeda 網(wǎng)站 [EB/OL]. [15]網(wǎng)絡(luò)爬蟲 [EB/OL]. 三、設(shè)計(研究)內(nèi)容和要求(包括設(shè)計或研究內(nèi)容、主要指標(biāo) 與技術(shù)參數(shù),并根據(jù)課題性質(zhì)對學(xué)生提出具體要求。 畢業(yè)設(shè)計(論文)說明書 學(xué) 院 軟件學(xué)院 專 業(yè) 軟件工程 年 級 07 級 姓 名 梁其烜 指導(dǎo)教師 馮志勇 2021 年 6 月 15 日 畢業(yè)設(shè)計(論文)任務(wù)書 題目:面向 web service 的網(wǎng)絡(luò)爬蟲設(shè)計與實現(xiàn) 學(xué)生姓名 梁其烜 學(xué)院名稱 軟件學(xué)院 專 業(yè) 軟件工 程 學(xué) 號 3007218123 指導(dǎo)教師 馮志勇 職 稱 教授 一、 原始依據(jù)(包括設(shè)計或論文的工作基礎(chǔ)、研究條件、應(yīng)用環(huán) 境、工作目的等。) 本系統(tǒng)將要達到以下目標(biāo): ? 提供給用戶一個種子文件,用戶可以設(shè)置抓取 Web 服務(wù)的網(wǎng)站地址。隨著垂直搜索的蓬勃發(fā)展,聚焦網(wǎng)絡(luò),也就是主題網(wǎng)絡(luò)爬蟲成為研究的前言 , [4]提出通過深入分析生活類網(wǎng)站網(wǎng)址的樹形結(jié)構(gòu)的架構(gòu),開發(fā)了收 集種子頁面的 URL 的模擬搜集齊,并基于 HTMLParser 的信息提取方法,從種子與頁面中提取出與生活類主題相關(guān)的目標(biāo) URL。 a. 對網(wǎng)站所有 Web Service 的分類頁面進行分析,分析出含有 所有 Web Service 的種類 URl 的 table 表格結(jié)構(gòu)和 URL 的結(jié)構(gòu)。 2. 并對該類別頁面進行分析,提取出所有的 Web service 詳細信息頁面的URL。 4)加載服務(wù)信息到數(shù)據(jù)庫:把在頁面信息提取中得到的關(guān)于服務(wù)的信息存入數(shù)據(jù)庫中。 為了 實現(xiàn)該目的,本論文的主要研究內(nèi)容包括: 第一種情況:網(wǎng)站上的服務(wù)提供了關(guān)于服務(wù)的相關(guān)信息,那么本系統(tǒng)抓取服務(wù) WSDL 文檔的同時,獲取服務(wù)的相關(guān)信息。 第三章 提出了系統(tǒng)的設(shè)計和結(jié)構(gòu),其中包括總體架構(gòu)、數(shù)據(jù)庫的設(shè)計、工程包的設(shè)計和詳細的流程設(shè)計。 Heritrix[9]是一個比較靈活、可擴展性強的網(wǎng)絡(luò)爬蟲開源框架,目前,已經(jīng)有很多應(yīng)用在該框架上進行開發(fā),例如基于 Heritrix 的面向電子商務(wù)網(wǎng)站的信息抓取,該應(yīng)用就是在 Heritrix 網(wǎng)絡(luò)爬蟲開源框架的基礎(chǔ)上進行擴展、修改 [10],并建立特有的抓取策略來抓取網(wǎng)絡(luò)上的電子商務(wù)信息 [11]。數(shù)據(jù)庫表定義如下: 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(論文) 7 表 31 webServiceDetail表 屬性名 數(shù)據(jù)類型 非空 自增長 默認(rèn)值 wsdlAddress VARCHAR(255) √ Provider VARCHAR(30) monitoredSince VARCHAR(50) server VARCHAR(50) availability VARCHAR(50) descri
點擊復(fù)制文檔內(nèi)容
畢業(yè)設(shè)計相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1