freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

畢業(yè)論文(設(shè)計):面向web service的網(wǎng)絡(luò)爬蟲設(shè)計與實現(xiàn)(文件)

2025-06-29 01:32 上一頁面

下一頁面
 

【正文】 編寫代碼時,會用一些空格來調(diào)整內(nèi)容 的長度,根據(jù)內(nèi)容的不同,空格的長度也不同。 服務(wù)提供商集合頁面內(nèi)容提取 分析服務(wù)提供商集合頁面 HTML 代碼后,可以得知所有的服務(wù)提供商頁面URL 都在一個屬性 Class = “ providerlist”的 ul 標簽中。 try { parser = new Parser(content)。 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(論文) 17 NodeList nodelist = null。 } 3. 得到了 class=providerlist的 ul標簽后,把這部分內(nèi)容轉(zhuǎn)換為 String,并新建一個 Filter,目的是為了找到 ul標簽下所有 a標簽。 try { parser = new Parser(content1)。 } catch (ParserException e) { ()。 i ()。 int end = (。p=0。 服務(wù)提供商頁面內(nèi)容提取 服務(wù)提供商頁面的提取過程比較特殊, 因為 某提供商注冊的服務(wù)比較多,需要分頁顯示,所以在抓取服務(wù)詳細信息頁面 URL 的同時,也要抓取下一頁的URL,并把這些 URL 加入到待訪問隊列中。根據(jù)以上分析,提取服務(wù)提供商頁面內(nèi)容流程圖如 43 所示: 圖 43 服務(wù)提供商頁面內(nèi)容提取流程圖 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(論文) 19 部分的代碼實現(xiàn)如下: 1. 新建一個解析類 Parser 實例。 } 2. 首先通過新 建一個 Filter,在頁面中查找屬性 class=39。 NodeList nodelist = null。 if(() != 0){ Node linode = (0)。 } 4. 接下來就是提取該頁面中服務(wù)詳細信息頁面的 URL,所以新建一個 Filter,目的是為了得到屬性 class=39。 ()。 if(() == 0) return。 (the wsdl page is: +url)。 content = (baseIndex)。 服務(wù)提供商在這段源代碼( dtProvider:/dtdda href= ./a)中。 beginIndex = (\)。提取服務(wù)注冊時間代碼如下: int beginIndex,endIndex,baseIndex。 endIndex = (/abbr)。提取服務(wù)可用率代碼如下: int beginIndex,endIndex,baseIndex。 endIndex = (since)。并編寫代碼提取內(nèi)容。具體的過程如圖 45 所示: 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(論文) 23 45 頁面鏈接提取流程圖 部分代碼如下: 1. 首先新建一個解析類 Parser 實例, Parser parser = null。 NodeFilter attributes_filter = new TagNameFilter(a)。 return。 i++) { LinkTag aNode = (LinkTag) ((i))。然后就是在本地磁盤上新建一個文件,最后把流中的內(nèi)容寫入文件中。 try { //把返回的 WSDL文檔內(nèi)容寫入硬盤文件中 (fos)。首先介紹爬蟲啟動過程: 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(論文) 25 jar 文件,彈出命令行窗口,顯示爬蟲版本信息。 在 Select Extractors 選項中,依次刪除 ExtractorHTML, ExtractorCSS, ExtractorJS, ExtractorSWF。 執(zhí)行完以上 6 步后,點擊 submit job, 然后 在 console 頁面,點擊 start 按鈕,爬蟲就開始運行了。 根據(jù)分析結(jié)果,本系統(tǒng)采用的抓取方法包括以下兩種: 第一種,對于提供了服務(wù)詳細信息的網(wǎng)站,首先分析得到注冊網(wǎng)站的服務(wù)分布結(jié)構(gòu),然后,爬蟲根據(jù)服務(wù)分布結(jié)構(gòu)依次循環(huán)遍歷網(wǎng)站,在遍歷過程中,把服務(wù)詳細信息抓取下來,并存入數(shù)據(jù)庫。本論文是對每個網(wǎng)站制作一 個抓取流程和提取頁面內(nèi)容方法。因為 WSDL 的 URL 絕大部分是以 ?wsdl 結(jié)尾的,那么爬蟲程序就可以遍歷所有網(wǎng)站,只抓取 WSDL 的 URL,就不需要根據(jù)網(wǎng)頁結(jié)構(gòu)來提取服務(wù)詳細信息,服務(wù)詳細信息從 WSDL 文檔中就可以 得到。 如果服務(wù)注冊網(wǎng)站數(shù)量不斷增加,那么本系統(tǒng)也要不斷擴展,并不能實現(xiàn)全自動抓取任務(wù)。 本系統(tǒng)對 Seekda 網(wǎng)站上的服務(wù)進行抓取,大概用了 2 天時間,抓取了 21273個服務(wù),下載了 17255 個 WSDL 文檔,并把服務(wù)相關(guān)信息存入數(shù)據(jù)庫。如圖 411所示: 圖 411 數(shù)據(jù)庫存儲內(nèi)容展示 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(論文) 29 第五章 總結(jié)和展望 論文總結(jié) 本系統(tǒng)的目標是搜集網(wǎng)絡(luò)上的服務(wù),包括服務(wù) WSDL 文檔、服務(wù)提供商、服務(wù)可用率等信息。 圖 48 設(shè)置 module頁面 1 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(論文) 27 圖 49 設(shè)置 module頁面 2 6. 點擊 setting 標簽,進入?yún)?shù)設(shè)置頁面: 在 useragent: 處,修改為 Mozilla/ (patible。 圖 46 成功登陸后的頁面 3. 點擊 Jobs 標簽,在新頁面點擊 with defaults,顯示新任務(wù)設(shè)置頁面。 ()。 //在硬盤中新建一個文 件 File tf = new File(())。 addLinkFromString(curi, , url, )。 for (int i = 0。 try { nodelist = (attributes_filter)。 } catch (ParserException e) { return。對所有的頁面來說,提取所有 a 標簽中的 url,并把 url 加入到處理鏈中。 }else{ url = (beginIndex+27, endIndex2)。 content = (baseIndex)。 服務(wù)可用率在這段源代碼( ddimg style=width:29px。 content = (baseIndex)。 url = (beginIndex+2, endIndex)。 baseIndex = (dtProvider:/dt)。 endIndex = (\/)。 } 服務(wù)詳細信息頁面內(nèi)容提取 在服務(wù)詳細信息頁面中,服務(wù)的詳細信息是在一個 table 表格中的,例如:在服務(wù) QueryService 詳細信息頁面中,服務(wù)的信息在標簽 table /table中,提取內(nèi)容的流程如圖 44 所示: 圖 44 服務(wù)詳細信息頁面內(nèi)容提取流程圖 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(論文) 21 提取服務(wù)信息的部分內(nèi)容的實現(xiàn)如下: 服務(wù) WSDL URL 在 這 段 源 代 碼 ( input type=hidden name=uri value= 提取 WSDL URL 代碼如下: int beginIndex,endIndex,baseIndex。i()。 } catch (ParserException e) { return。的 li標簽, NodeFilter attributes_filter1 = new AndFilter(new TagNameFilter(li) ,new HasAttributeFilter(class,web_service))。 addLinkFromString(curi, , str, )。 } catch (ParserException e) { return。的 li標簽。 try { parser = new Parser(content)。next39。 addLinkFromString(curi, , url, )。 if (end != 1) url = (0, end)。 String url = ()。 } a標簽集合,這些集合都存儲在 nodelist1中,循環(huán)遍歷集合,得到每個服務(wù)提供商頁面的 URL,并把 URL通過 addLinkFromString() 函數(shù)加入到爬蟲待訪問隊列中。 } NodeList nodelist1 = null。 ()。 } catch (ParserException e) { ()。 } 2. 為需要尋找的標簽設(shè)置 FIlter, 以下代碼就是要找出屬性 class=providerlist的 ul標簽。因為 class = “ providerlist”的 ul 在這個頁面中是唯一的,所以使用 HTMLParser 比較簡單。所以在提取的過程中,主要利用 HtmlParser 網(wǎng)頁解析工具對 HTML 代碼進行解析,該工具能根據(jù) HTML 代碼中的標簽屬性找到標簽的全部內(nèi)容。 } 網(wǎng)頁內(nèi)容提取 經(jīng)過過濾鏈后,就進入提取鏈,在提取鏈中,需要根據(jù)網(wǎng)頁類型對網(wǎng)頁進行信息提取。p=)){ //該頁面時服務(wù)提供商頁面 (url+ 進入 提供商頁面 )。 3. 是服務(wù)詳細信息頁面, 是相同的部分, 是提供商名, QueryService 是服務(wù)名,根據(jù)這個規(guī)律,我得出結(jié)論:所有天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(論文) 15 以 ....../providers/*結(jié)尾的 URL 就是服務(wù)詳細信息頁面。 1. 是一個服務(wù)提供商集合頁面 URL,作為爬蟲的初始 URL,由人外界輸入的。我 主要用了正則表達式來判斷這些頁面URL。方式 3:爬蟲可以得到所有的提供商,也就可以得到所有的服務(wù)。 2. 網(wǎng)站把同一類標簽的服務(wù),以標簽的方式顯示在首頁,用戶可以根據(jù)標 簽來找服務(wù),但是只是服務(wù)數(shù)量較多的標簽會顯示。 5. 如果鏈接能夠進入了寫鏈,該鏈接是服務(wù) WSDL 文檔的鏈接,所以先下 載該 WSDL 文檔,并在數(shù)據(jù)庫中添加一條記錄,并在字段 type 中標記為 false,說明該服務(wù)是沒有詳細信息的。 如果該頁面是本網(wǎng)站的其他頁面,提取鏈就對該頁面進行鏈接抓取, 并把這些鏈接加入到待訪問隊列中,并跳過寫鏈。 2. 爬蟲線程管理器 TreadPool 詢問 Frontier,檢查待訪問隊列中是否存在鏈 接,如果存在, TreadPool 獲得該鏈接,并分配給 一個線程。 如果該頁面是服務(wù)詳細信息頁面,提取鏈就對該頁面進行服務(wù)詳細 信息進行抓取。 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(論文) 10 3. 爬蟲線程獲得鏈接后,首先經(jīng)過過濾鏈的處理,判斷鏈接頁面的類型, 并決定如何解析該頁面。 ? 是負責(zé)管理爬蟲線程的程序文件包,線程獲取鏈接,并訪問網(wǎng)頁的。 程序包設(shè)計 本系統(tǒng)主要包括 5 大模塊,分別是: 1. 過濾鏈模塊 2. 提取鏈模塊 3. 寫鏈模塊 4. 管理訪問鏈接模塊 5. 管理爬蟲多線程模塊 相對應(yīng)的程序包設(shè)計圖如下: 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(論文) 8 圖 33 程序包設(shè)計圖 ? 是過濾鏈模塊的程序文件包,主要負責(zé)過 濾無關(guān)的網(wǎng)頁鏈接。寫鏈主要負責(zé)根據(jù)服務(wù) WSDL 文檔的 URL 下載服務(wù) WSDL 文檔。 ? 提取鏈主要負責(zé)解析頁面信息,提取的內(nèi)容包括: ; 細信息內(nèi)容; ? 寫鏈主要負責(zé)把服務(wù)信息存儲到數(shù)據(jù)庫中,下載 WSDL 文檔。 Heritrix 框架的多線程管理池可以提供 50 個線程同時進行抓取工 作, Frontier調(diào)度器負責(zé)調(diào)度鏈接, Frontier 把新鏈接加入到待訪問隊列中,把未訪問鏈接傳遞給線程。詳細信息包括:服務(wù)描述文檔 WSDL URL、服務(wù)提供商、服務(wù)注冊時間、服務(wù)可用率、服務(wù)運行服務(wù)器、服務(wù)標簽等。 聚焦網(wǎng)絡(luò)爬蟲也稱為主題爬蟲 [13],大量的應(yīng)用于互聯(lián)網(wǎng)中,例如基于聚焦爬蟲的手機天氣預(yù)報系統(tǒng) [6],就是應(yīng)用了聚焦網(wǎng)絡(luò)爬蟲,通過計
點擊復(fù)制文檔內(nèi)容
畢業(yè)設(shè)計相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1