freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

畢業(yè)論文-面向webservice的網(wǎng)絡(luò)爬蟲設(shè)計(jì)與實(shí)現(xiàn)-wenkub.com

2025-05-31 05:12 本頁面
   

【正文】 要實(shí)現(xiàn)一個(gè)抓取流程和提取頁面內(nèi)容方法就可以抓取互聯(lián)網(wǎng)上所有的服務(wù)WSDL 文檔及服務(wù)信息,可以讓服務(wù)提供者把服務(wù)相關(guān)的信息寫入 WSDL 文檔。 存在的問題和展望 因?yàn)榛ヂ?lián)網(wǎng)上服務(wù)分布情況比較復(fù)雜,服務(wù)的發(fā)布地點(diǎn)不同,提供的詳細(xì)信息也不同,所以抓取互聯(lián)網(wǎng)上的服務(wù) WSDL 文檔及服務(wù)信息就不可能采用同一個(gè)抓取流程和提取頁面內(nèi)容方法。本文首先分 析了網(wǎng)絡(luò)上服務(wù)的分布情況:一部分網(wǎng)站提供了服務(wù)詳細(xì)信息,其他網(wǎng)站只提供了 Web 服務(wù)的 WSDL 文檔的 URL。 heritrix/ + 在 from: 處,修改為: 在 maxretries:處,修改為 5,在 retrydelayseconds 處,修改為 60。 4. 在頁面 中輸入 Name of new job, description, seeds,如圖 47 所示: 圖 47 新任務(wù)設(shè)置頁面 天津大學(xué) 2021屆 本科生畢業(yè)設(shè)計(jì)(論文) 26 5. 然后點(diǎn)擊 Modules 標(biāo)簽,進(jìn)入新頁面,如圖 48 和 49 所示: 在 select crawl scope 選項(xiàng)中,選擇 BroadScope,并點(diǎn)擊 change 按鈕。 } 結(jié)果展示 下面介紹爬蟲啟動(dòng)過 程及爬蟲抓取的中間結(jié)果,最后介紹爬蟲最終抓取結(jié)果。 FileOutputStream fos = new FileOutputStream(tf)。 } 下載 WSDL 文檔 在爬蟲抓取過程中,如果抓取到了服務(wù) WSDL 文檔的 URL,就下載 WSDL文檔,具體過程是: 首先得到利用 HTTPClient 工具對(duì) WSDL 文檔進(jìn)行連接,并得到 inputStream。 i ()。 } catch (ParserException e) { 天津大學(xué) 2021屆 本科生畢業(yè)設(shè)計(jì)(論文) 24 ()。 } 2. 為需要尋找的 標(biāo)簽設(shè)置 FIlter, 以下代碼就是要找出所有 a標(biāo)簽。由其它處理鏈來處理。 } 同理可分析服務(wù)用戶描述、服務(wù)標(biāo)簽內(nèi)容的 HTML 代碼結(jié)構(gòu)。 beginIndex = (percent_available\/ ()。height:12px alt=98%availabletitle=98%availablesrc= percent_available/ (% since 五月 2021))中。 beginIndex = (\)。 服 務(wù) 注 冊(cè) 時(shí) 間 在 這 段 源 代 碼 ( dtMonitored since:/dtddabbr title=20210516T00:00:00Z 2021516/abbr/dd)中。 content = (baseIndex)。 url = (beginIndex+7, endIndex)。 baseIndex = (input type=\hidden\ name=uri)。i++){ String url= (i).toHtml()。 天津大學(xué) 2021屆 本科生畢業(yè)設(shè)計(jì)(論文) 20 } 5. 得到所有 li標(biāo)簽后,就把標(biāo)簽中的 URL提取出來,并加入到待訪問隊(duì)列中。 nodelist = null。 (()+ next :+str)。 } 3. 如果該頁面不是最后一頁,提取下一頁的 URL,并加入到帶訪問隊(duì)列中。 NodeFilter attributes_filter = new AndFilter(new TagNameFilter(li) ,new HasAttributeFilter(class,next))。 } catch (ParserException e) { return。的 li 標(biāo)簽中。 } 通過以上步驟,就 可以得到服務(wù)提供商集合頁面的所有提供商頁面 URL,并把這些 URL 加入到爬蟲待訪問隊(duì)列中,爬蟲在后續(xù)的抓取過程中,會(huì)對(duì)這些提供商頁面 URL 進(jìn)行再抓取并提取內(nèi)容。 url += /?tab=servicelistamp。 (extractor: condition1: + url)。 for (int i = 0。 try { nodelist1 = (nodefiter1)。 NodeFilter nodefiter1 = new TagNameFilter(a)。 return。 NodeFilter attributes_filter = new AndFilter(new TagNameFilter(ul), new HasAttributeFilter(class, providerlist))。 天津大學(xué) 2021屆 本科生畢業(yè)設(shè)計(jì)(論文) 16 程序流程如圖 42 所示: 圖 42 服務(wù)提供商集合頁面內(nèi)容提取流程圖 部分代碼如下: 1. 首先新建一個(gè)解析類 Parser 實(shí)例, Parser parser = null。 下面分別介紹四種頁面的內(nèi)容提取實(shí)現(xiàn)方式。 網(wǎng)頁信息的代碼結(jié)構(gòu)可能很復(fù)雜,那么就需要編寫一個(gè)很復(fù)雜的正則表達(dá)式才能從代碼中提取信息。 //執(zhí)行操作 2 condition2(content,curi)。 通過以上的結(jié)論,本系統(tǒng)在過濾鏈中判斷頁面類型的代碼如下: if((/providers/alphabetic/)){ //該頁面時(shí)提供商集合頁面 (url+ 進(jìn)入 提供商集合頁面 )。 2. 是服務(wù)提供商 的頁面 URL, 名 /?tab=servicelistamp。 得到網(wǎng)站服務(wù)分布結(jié)構(gòu)后,通過分析不同類型頁面的 URL,用正則表達(dá)式來過濾無關(guān)網(wǎng)頁和判斷網(wǎng)頁類型。通過以上分析,得出以下結(jié)論: 針對(duì) seekda 網(wǎng)站的抓取策略是先得到所有的提供商集合,然后進(jìn)入每個(gè)提供商頁面,在提供商頁面,得到該提供商的所有服務(wù)。 3. 網(wǎng)站按照提供商來進(jìn)行分類,用戶可以查找每一個(gè)提供商,然后就查找 到了每個(gè)提供商下的每個(gè)服務(wù)。 天津大學(xué) 2021屆 本科生畢業(yè)設(shè)計(jì)(論文) 13 第四章 面向 web service 的聚焦網(wǎng)絡(luò)爬蟲的技術(shù)實(shí)現(xiàn) 分析網(wǎng)站服務(wù)分布結(jié)構(gòu) 針對(duì)第一種情況,首先要分析網(wǎng)站服務(wù)的分布結(jié)構(gòu)。 如果該頁面是其他網(wǎng)站的頁面,提取鏈就忽略該頁面。直到?jīng)]有空 閑線程或者待訪問隊(duì)列中沒有多余的鏈接為止。 ,就進(jìn)入了寫鏈,如果是服務(wù)詳細(xì)信息頁面,在數(shù)據(jù)庫中標(biāo) 記該頁面類型為 true,表示該 數(shù)據(jù)庫記錄是 一個(gè)提供商服務(wù)集合頁面相 關(guān)的內(nèi)容。 4. 鏈接進(jìn)入了提取鏈,提取鏈直到了過濾鏈對(duì)鏈接頁 面類型的判斷后,對(duì) 頁面進(jìn)行不同策略的分析和提取。 流程設(shè)計(jì) 針對(duì)第一種情況,爬蟲抓取過程如圖 34 所示: 天津大學(xué) 2021屆 本科生畢業(yè)設(shè)計(jì)(論文) 9 圖 34 第一種情況爬蟲抓取流程圖 1. 向爬蟲程序提供一個(gè)初始 URL,該 URL 是服務(wù)提供商集合頁面的 URL, 該 URL 被加入到待訪問隊(duì)列中。 ? 是提取鏈模塊的程序文件包,主要負(fù)責(zé)對(duì)各種頁面進(jìn)行信息提取。 系統(tǒng)結(jié)構(gòu)圖如下: 圖 32 抓取沒有詳細(xì)信息服務(wù)的系統(tǒng)結(jié)構(gòu) 圖 數(shù)據(jù) 庫設(shè)計(jì) 本系統(tǒng)的數(shù)據(jù)庫較簡(jiǎn)單,只有一個(gè)表 webServiceDetail,在兩種情況下,都需要存儲(chǔ)服務(wù) WSDL 文檔的 URL,在第一種情況下,需要存儲(chǔ)服務(wù)相關(guān)信息,這些相關(guān)信息包括:服務(wù)提供商、服務(wù)注冊(cè)時(shí)間、服務(wù)可用率、服務(wù)用戶描述、服務(wù)服務(wù)器等,但是在第二種情況下,不需要存儲(chǔ)服務(wù)相關(guān)信息,只存儲(chǔ)服務(wù)WSDL 文檔的 URL。 系統(tǒng)結(jié)構(gòu)圖如下 : 圖 31 抓取詳細(xì)信息情況下的系統(tǒng)結(jié)構(gòu) 圖 天津大學(xué) 2021屆 本科生畢業(yè)設(shè)計(jì)(論文) 6 針對(duì)網(wǎng)站只提供了服務(wù) WSDL 文檔的 URL,本系統(tǒng)的設(shè)計(jì)是:處理鏈保留過濾鏈、提取鏈和寫鏈,并對(duì)過濾鏈、提取鏈和寫鏈功能進(jìn)行了重新設(shè)定。本系統(tǒng)針對(duì)兩類網(wǎng)站進(jìn)行了處理鏈修改及擴(kuò)展。 2. 下載 WSDL 文檔 提取了 Web服務(wù)詳細(xì)信息后,根據(jù) Web服務(wù) WSDL文檔的 URL,下載 WSDL文檔,并把文檔內(nèi)容存放到數(shù)據(jù)庫中。 Web 服務(wù)有其特定結(jié)構(gòu), Web 服務(wù)網(wǎng)絡(luò)爬蟲不僅僅遍歷網(wǎng)頁,并建立索引,而且在遍歷網(wǎng)頁過程中,利用網(wǎng)頁分析工具解析網(wǎng) 頁 [7],把 Web 服務(wù)相關(guān)信息抓取下來,如:注冊(cè)標(biāo)簽、提供商、注冊(cè)時(shí)間、可用率、服務(wù)器等。 [2]現(xiàn)有的網(wǎng)絡(luò)爬蟲可以分為以下幾種類型[3]:通用網(wǎng)絡(luò)爬蟲 [12]、聚焦網(wǎng)絡(luò)爬蟲 [15]、增量式網(wǎng)絡(luò)爬蟲 [4]、 Deep Web 爬蟲 [14]。還有其它一些服務(wù)注冊(cè)網(wǎng)站,例如: 、。 天津大學(xué) 2021屆 本科生畢業(yè)設(shè)計(jì)(論文) 3 第二章 相關(guān)工作和需求分析 相關(guān)工作 隨著 Web 服務(wù)開發(fā)者數(shù)量的增加,互聯(lián)網(wǎng)上的 Web 服務(wù)數(shù)量以爆炸方式增長(zhǎng)。 第二章 介紹了互聯(lián)網(wǎng)上的服務(wù)的分布情況和相關(guān)爬蟲技術(shù),并對(duì)需求進(jìn)行分析,包括功能說明和運(yùn)行環(huán)境。針對(duì)第二種情況,主要的研究?jī)?nèi)容如下: 重新改寫 Heritrix 框架處理流程中的寫鏈,以下載搜索到的 WSDL 文檔。 天津大學(xué) 2021屆 本科生畢業(yè)設(shè)計(jì)(論文) 2 c. 對(duì) Web 服務(wù)詳細(xì)信息頁面進(jìn)行分析,分析出 Web 服務(wù)信息的 table表格結(jié)構(gòu)。 b. 重新改寫 Heritrix 框架處理流程的提取鏈,提取網(wǎng)頁包含的信息。所以本論文的目的是:通過爬蟲抓取,得到互聯(lián)網(wǎng)上的 Web 服務(wù)信息,并把服務(wù)信息存放到數(shù)據(jù)庫中。另外, Web 服務(wù)的發(fā)展也產(chǎn)生了另外一個(gè)應(yīng)用模式:組合應(yīng)用 (Mushup),把不同的 Web 服務(wù)進(jìn)行組合,滿足用戶需求。 Web 服務(wù)的出現(xiàn)有效的解決了以上難題。 關(guān)鍵詞: 爬蟲 ;網(wǎng)絡(luò)服務(wù); WSDL; ABSTRACT The number of services on the Inter Increase quickly,the information sites provide about services is also different, leading to that it is difficult for users to correctly and quickly find the right services, in order to solve the above problems, needing to capture and store the service39。 3)下載 WSDL 文檔:在抓取到了服務(wù) WSDL 的 URL 后,使用HtmlClient 下載 WSDL 文檔。 2. 概念抽象,對(duì)于 web services 爬蟲的分析和設(shè)計(jì), 至 。并且網(wǎng)站的分布結(jié)構(gòu)十分清晰,有利于我們?cè)O(shè)計(jì)簡(jiǎn)單有效地搜索策略。 5. 提取下一個(gè)類別 URL。 分析網(wǎng)站結(jié)構(gòu)過程如下: 1. 提供一個(gè)包含所有 Web service 類別的網(wǎng)頁的 URL,分析該網(wǎng)頁,用以上分析頁面的方法提取出所有的類別頁面的 URL,取出一個(gè)服務(wù)類別頁面 URL。 3. 由于 Heritrix 框架提供了完善的 UI 界面操作,但是沒有提供完整的代碼啟動(dòng)程序,同時(shí)本課題需要把爬蟲啟動(dòng)操作嵌入到其他程序中,所以需 要編寫 Heritrix 的代碼啟動(dòng)模塊。利用 Client 編寫下載 wsdl 程序。 通過對(duì)網(wǎng)站結(jié)構(gòu)的分析,可以得到網(wǎng)站中服務(wù)分布的一顆樹,并用形式化語言描述這棵樹。 c. 重新改寫 Heritrix框架處理流程中的寫鏈,以下載搜索到的 wsdl 文檔。 三、 目標(biāo)和內(nèi)容: 我的研究目標(biāo)是:把互聯(lián)網(wǎng)上廣泛分布的 Web Service 搜集起來,把相關(guān)信息存入數(shù)據(jù)庫,存在兩種情況: 第一種情況:網(wǎng)站上的服務(wù)提供了關(guān)于服務(wù)的相關(guān)信息,那么本系統(tǒng)需要在抓取服務(wù) wsdl 文檔的同時(shí),獲取服務(wù)的相關(guān)信息。和其他開源的爬蟲程序相比, Heritrix 的優(yōu)勢(shì)在于它的擴(kuò)展性,開發(fā)者可以擴(kuò)展它的組件,來實(shí)現(xiàn)自己的抓取邏輯 [6]。因?yàn)榫劢咕W(wǎng)絡(luò)爬蟲技術(shù)能最快的,最準(zhǔn)確的搜索 Web 服務(wù)信息。 聚焦網(wǎng)絡(luò)爬蟲 (Focused Crawler),又稱主題網(wǎng)絡(luò)
點(diǎn)擊復(fù)制文檔內(nèi)容
畢業(yè)設(shè)計(jì)相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1