freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

畢業(yè)論文-面向webservice的網(wǎng)絡(luò)爬蟲(chóng)設(shè)計(jì)與實(shí)現(xiàn)(留存版)

  

【正文】 vices 技術(shù)可以將 Inter 上的各種信息資源和服務(wù)功能整合在一起,在任何時(shí)間、任何地點(diǎn)向用戶提供優(yōu)質(zhì)的服務(wù) 。 為了達(dá)到以上目的,本系統(tǒng)將對(duì) Heritrix 開(kāi)源框架進(jìn)行擴(kuò)展 ,并針對(duì)服務(wù)網(wǎng)站上服務(wù)的特點(diǎn)選擇合適 的爬蟲(chóng)抓取過(guò)程。因?yàn)榫劢咕W(wǎng)絡(luò)爬蟲(chóng)技術(shù)能最快的,最準(zhǔn)確的搜索 Web 服務(wù)信息。 通過(guò)對(duì)網(wǎng)站結(jié)構(gòu)的分析,可以得到網(wǎng)站中服務(wù)分布的一顆樹(shù),并用形式化語(yǔ)言描述這棵樹(shù)。 5. 提取下一個(gè)類別 URL。 關(guān)鍵詞: 爬蟲(chóng) ;網(wǎng)絡(luò)服務(wù); WSDL; ABSTRACT The number of services on the Inter Increase quickly,the information sites provide about services is also different, leading to that it is difficult for users to correctly and quickly find the right services, in order to solve the above problems, needing to capture and store the service39。 b. 重新改寫 Heritrix 框架處理流程的提取鏈,提取網(wǎng)頁(yè)包含的信息。 天津大學(xué) 2021屆 本科生畢業(yè)設(shè)計(jì)(論文) 3 第二章 相關(guān)工作和需求分析 相關(guān)工作 隨著 Web 服務(wù)開(kāi)發(fā)者數(shù)量的增加,互聯(lián)網(wǎng)上的 Web 服務(wù)數(shù)量以爆炸方式增長(zhǎng)。 2. 下載 WSDL 文檔 提取了 Web服務(wù)詳細(xì)信息后,根據(jù) Web服務(wù) WSDL文檔的 URL,下載 WSDL文檔,并把文檔內(nèi)容存放到數(shù)據(jù)庫(kù)中。 ? 是提取鏈模塊的程序文件包,主要負(fù)責(zé)對(duì)各種頁(yè)面進(jìn)行信息提取。直到?jīng)]有空 閑線程或者待訪問(wèn)隊(duì)列中沒(méi)有多余的鏈接為止。通過(guò)以上分析,得出以下結(jié)論: 針對(duì) seekda 網(wǎng)站的抓取策略是先得到所有的提供商集合,然后進(jìn)入每個(gè)提供商頁(yè)面,在提供商頁(yè)面,得到該提供商的所有服務(wù)。 //執(zhí)行操作 2 condition2(content,curi)。 NodeFilter attributes_filter = new AndFilter(new TagNameFilter(ul), new HasAttributeFilter(class, providerlist))。 for (int i = 0。的 li 標(biāo)簽中。 (()+ next :+str)。 baseIndex = (input type=\hidden\ name=uri)。 beginIndex = (\)。由其它處理鏈來(lái)處理。 } 下載 WSDL 文檔 在爬蟲(chóng)抓取過(guò)程中,如果抓取到了服務(wù) WSDL 文檔的 URL,就下載 WSDL文檔,具體過(guò)程是: 首先得到利用 HTTPClient 工具對(duì) WSDL 文檔進(jìn)行連接,并得到 inputStream。 heritrix/ + 在 from: 處,修改為: 在 maxretries:處,修改為 5,在 retrydelayseconds 處,修改為 60。 要實(shí)現(xiàn)一個(gè)抓取流程和提取頁(yè)面內(nèi)容方法就可以抓取互聯(lián)網(wǎng)上所有的服務(wù)WSDL 文檔及服務(wù)信息,可以讓服務(wù)提供者把服務(wù)相關(guān)的信息寫入 WSDL 文檔。 4. 在頁(yè)面 中輸入 Name of new job, description, seeds,如圖 47 所示: 圖 47 新任務(wù)設(shè)置頁(yè)面 天津大學(xué) 2021屆 本科生畢業(yè)設(shè)計(jì)(論文) 26 5. 然后點(diǎn)擊 Modules 標(biāo)簽,進(jìn)入新頁(yè)面,如圖 48 和 49 所示: 在 select crawl scope 選項(xiàng)中,選擇 BroadScope,并點(diǎn)擊 change 按鈕。 i ()。 } 同理可分析服務(wù)用戶描述、服務(wù)標(biāo)簽內(nèi)容的 HTML 代碼結(jié)構(gòu)。 服 務(wù) 注 冊(cè) 時(shí) 間 在 這 段 源 代 碼 ( dtMonitored since:/dtddabbr title=20210516T00:00:00Z 2021516/abbr/dd)中。i++){ String url= (i).toHtml()。 } 3. 如果該頁(yè)面不是最后一頁(yè),提取下一頁(yè)的 URL,并加入到帶訪問(wèn)隊(duì)列中。 } 通過(guò)以上步驟,就 可以得到服務(wù)提供商集合頁(yè)面的所有提供商頁(yè)面 URL,并把這些 URL 加入到爬蟲(chóng)待訪問(wèn)隊(duì)列中,爬蟲(chóng)在后續(xù)的抓取過(guò)程中,會(huì)對(duì)這些提供商頁(yè)面 URL 進(jìn)行再抓取并提取內(nèi)容。 try { nodelist1 = (nodefiter1)。 天津大學(xué) 2021屆 本科生畢業(yè)設(shè)計(jì)(論文) 16 程序流程如圖 42 所示: 圖 42 服務(wù)提供商集合頁(yè)面內(nèi)容提取流程圖 部分代碼如下: 1. 首先新建一個(gè)解析類 Parser 實(shí)例, Parser parser = null。 通過(guò)以上的結(jié)論,本系統(tǒng)在過(guò)濾鏈中判斷頁(yè)面類型的代碼如下: if((/providers/alphabetic/)){ //該頁(yè)面時(shí)提供商集合頁(yè)面 (url+ 進(jìn)入 提供商集合頁(yè)面 )。 3. 網(wǎng)站按照提供商來(lái)進(jìn)行分類,用戶可以查找每一個(gè)提供商,然后就查找 到了每個(gè)提供商下的每個(gè)服務(wù)。 ,就進(jìn)入了寫鏈,如果是服務(wù)詳細(xì)信息頁(yè)面,在數(shù)據(jù)庫(kù)中標(biāo) 記該頁(yè)面類型為 true,表示該 數(shù)據(jù)庫(kù)記錄是 一個(gè)提供商服務(wù)集合頁(yè)面相 關(guān)的內(nèi)容。 系統(tǒng)結(jié)構(gòu)圖如下: 圖 32 抓取沒(méi)有詳細(xì)信息服務(wù)的系統(tǒng)結(jié)構(gòu) 圖 數(shù)據(jù) 庫(kù)設(shè)計(jì) 本系統(tǒng)的數(shù)據(jù)庫(kù)較簡(jiǎn)單,只有一個(gè)表 webServiceDetail,在兩種情況下,都需要存儲(chǔ)服務(wù) WSDL 文檔的 URL,在第一種情況下,需要存儲(chǔ)服務(wù)相關(guān)信息,這些相關(guān)信息包括:服務(wù)提供商、服務(wù)注冊(cè)時(shí)間、服務(wù)可用率、服務(wù)用戶描述、服務(wù)服務(wù)器等,但是在第二種情況下,不需要存儲(chǔ)服務(wù)相關(guān)信息,只存儲(chǔ)服務(wù)WSDL 文檔的 URL。 Web 服務(wù)有其特定結(jié)構(gòu), Web 服務(wù)網(wǎng)絡(luò)爬蟲(chóng)不僅僅遍歷網(wǎng)頁(yè),并建立索引,而且在遍歷網(wǎng)頁(yè)過(guò)程中,利用網(wǎng)頁(yè)分析工具解析網(wǎng) 頁(yè) [7],把 Web 服務(wù)相關(guān)信息抓取下來(lái),如:注冊(cè)標(biāo)簽、提供商、注冊(cè)時(shí)間、可用率、服務(wù)器等。 第二章 介紹了互聯(lián)網(wǎng)上的服務(wù)的分布情況和相關(guān)爬蟲(chóng)技術(shù),并對(duì)需求進(jìn)行分析,包括功能說(shuō)明和運(yùn)行環(huán)境。所以本論文的目的是:通過(guò)爬蟲(chóng)抓取,得到互聯(lián)網(wǎng)上的 Web 服務(wù)信息,并把服務(wù)信息存放到數(shù)據(jù)庫(kù)中。 3)下載 WSDL 文檔:在抓取到了服務(wù) WSDL 的 URL 后,使用HtmlClient 下載 WSDL 文檔。 分析網(wǎng)站結(jié)構(gòu)過(guò)程如下: 1. 提供一個(gè)包含所有 Web service 類別的網(wǎng)頁(yè)的 URL,分析該網(wǎng)頁(yè),用以上分析頁(yè)面的方法提取出所有的類別頁(yè)面的 URL,取出一個(gè)服務(wù)類別頁(yè)面 URL。 c. 重新改寫 Heritrix框架處理流程中的寫鏈,以下載搜索到的 wsdl 文檔。 聚焦網(wǎng)絡(luò)爬蟲(chóng) (Focused Crawler),又稱主題網(wǎng)絡(luò)爬蟲(chóng) (Topical Crawler ),是指選擇性地爬行那些與預(yù)先定義好的主題相關(guān)頁(yè)面的網(wǎng)絡(luò)爬蟲(chóng) [3]。 [5]J. Cho, H. GarciaMolina. The evolution of the web and implications for an incremental crawler [C]. In Proceedings of the 26th International Conference on Very Large Database, Cairo, Egypt, 2021. [6]李文澤;個(gè)性化垂直搜索引擎研究;河南大學(xué); 20211107; [7]曾偉輝,李淼 . 深層網(wǎng)絡(luò)爬蟲(chóng)研究綜述 [J]. 計(jì)算機(jī)系統(tǒng)應(yīng)用 , 2021. [8]周立柱 ,林 玲 . 聚焦爬蟲(chóng)技術(shù)研究綜述 [J].計(jì)算機(jī)應(yīng)用 , 2021 年 9 月 . [9]S. Chakrabarti, M. van den Berg and B. Dom. Focused Crawling: A New Approach to TopicSpecific Web Resource Discovery [C]. In Proceedings of the 8th International World Wide Web Conference, Toronto, Canada, 1999. [10]陳汶濱,夏學(xué)梅 . 基于聚焦爬蟲(chóng)的手機(jī)天氣預(yù)報(bào)系統(tǒng) [J]. 今日科苑 . 2021年第2期 . [11]邱哲,符滔滔 . 開(kāi)發(fā)自己的搜索引擎 Lucene +Heritrix. 人民郵電出版社 , 20214. [12]羅剛 . 自己動(dòng)手寫網(wǎng)絡(luò)爬蟲(chóng) . 清華大學(xué)出版社 . 2021101; [13]Heritrix 官方網(wǎng)站 [EB/OL]. [14]seeda 網(wǎng)站 [EB/OL]. [15]網(wǎng)絡(luò)爬蟲(chóng) [EB/OL]. 三、設(shè)計(jì)(研究)內(nèi)容和要求(包括設(shè)計(jì)或研究?jī)?nèi)容、主要指標(biāo) 與技術(shù)參數(shù),并根據(jù)課題性質(zhì)對(duì)學(xué)生提出具體要求。 畢業(yè)設(shè)計(jì)(論文)說(shuō)明書(shū) 學(xué) 院 軟件學(xué)院 專 業(yè) 軟件工程 年 級(jí) 07 級(jí) 姓 名 梁其烜 指導(dǎo)教師 馮志勇 2021 年 6 月 15 日 畢業(yè)設(shè)計(jì)(論文)任務(wù)書(shū) 題目:面向 web service 的網(wǎng)絡(luò)爬蟲(chóng)設(shè)計(jì)與實(shí)現(xiàn) 學(xué)生姓名 梁其烜 學(xué)院名稱 軟件學(xué)院 專 業(yè) 軟件工 程 學(xué) 號(hào) 3007218123 指導(dǎo)教師 馮志勇 職 稱 教授 一、 原始依據(jù)(包括設(shè)計(jì)或論文的工作基礎(chǔ)、研究條件、應(yīng)用環(huán) 境、工作目的等。) 本系統(tǒng)將要達(dá)到以下目標(biāo): ? 提供給用戶一個(gè)種子文件,用戶可以設(shè)置抓取 Web 服務(wù)的網(wǎng)站地址。隨著垂直搜索的蓬勃發(fā)展,聚焦網(wǎng)絡(luò),也就是主題網(wǎng)絡(luò)爬蟲(chóng)成為研究的前言 , [4]提出通過(guò)深入分析生活類網(wǎng)站網(wǎng)址的樹(shù)形結(jié)構(gòu)的架構(gòu),開(kāi)發(fā)了收 集種子頁(yè)面的 URL 的模擬搜集齊,并基于 HTMLParser 的信息提取方法,從種子與頁(yè)面中提取出與生活類主題相關(guān)的目標(biāo) URL。 a. 對(duì)網(wǎng)站所有 Web Service 的分類頁(yè)面進(jìn)行分析,分析出含有 所有 Web Service 的種類 URl 的 table 表格結(jié)構(gòu)和 URL 的結(jié)構(gòu)。 2. 并對(duì)該類別頁(yè)面進(jìn)行分析,提取出所有的 Web service 詳細(xì)信息頁(yè)面的URL。 4)加載服務(wù)信息到數(shù)據(jù)庫(kù):把在頁(yè)面信息提取中得到的關(guān)于服務(wù)的信息存入數(shù)據(jù)庫(kù)中。 為了 實(shí)現(xiàn)該目的,本論文的主要研究?jī)?nèi)容包括: 第一種情況:網(wǎng)站上的服務(wù)提供了關(guān)于服務(wù)的相關(guān)信息,那么本系統(tǒng)抓取服務(wù) WSDL 文檔的同時(shí),獲取服務(wù)的相關(guān)信息。 第三章 提出了系統(tǒng)的設(shè)計(jì)和結(jié)構(gòu),其中包括總體架構(gòu)、數(shù)據(jù)庫(kù)的設(shè)計(jì)、工程包的設(shè)計(jì)和詳細(xì)的流程設(shè)計(jì)。 Heritrix[9]是一個(gè)比較靈活、可擴(kuò)展性強(qiáng)的網(wǎng)絡(luò)爬蟲(chóng)開(kāi)源框架,目前,已經(jīng)有很多應(yīng)用在該框架上進(jìn)行開(kāi)發(fā),例如基于 Heritrix 的面向電子商務(wù)網(wǎng)站的信息抓取,該應(yīng)用就是在 Heritrix 網(wǎng)絡(luò)爬蟲(chóng)開(kāi)源框架的基礎(chǔ)上進(jìn)行擴(kuò)展、修改 [10],并建立特有的抓取策略來(lái)抓取網(wǎng)絡(luò)上的電子商務(wù)信息 [11]。數(shù)據(jù)庫(kù)表定義如下: 天津大學(xué) 2021屆 本科生畢業(yè)設(shè)計(jì)(論文) 7 表 31 webServiceDetail 表 屬性名 數(shù)據(jù)類型 非空 自增長(zhǎng) 默認(rèn)值 wsdlAddress VARCHAR(255) √ Provider VARCHAR(30) monitoredSince VARCHAR(50) server VARCHAR(50) availability VARCHAR(50)
點(diǎn)擊復(fù)制文檔內(nèi)容
畢業(yè)設(shè)計(jì)相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1