freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

畢業(yè)論文-面向webservice的網(wǎng)絡(luò)爬蟲設(shè)計與實現(xiàn)-免費閱讀

2025-07-06 05:12 上一頁面

下一頁面
  

【正文】 但是,當(dāng)對新的服務(wù)注冊網(wǎng)站進(jìn)行抓取時,就需要重新編寫抓取流程和抓取頁面內(nèi)容方法。爬蟲運行的中間結(jié)果如圖 410 所示: 天津大學(xué) 2021屆 本科生畢業(yè)設(shè)計(論文) 28 圖 410 爬蟲運行中間結(jié)果 爬蟲運行最終結(jié)果是: seekda網(wǎng)站的抓取過程花費了大約 2天的時間,抓取到了 21273個服務(wù),這些服務(wù)中,能夠下載 WSDL文檔的服務(wù)有 17255個,下載的服務(wù)信息存儲在數(shù)據(jù)庫中。 2. 打 開 瀏 覽 器, 輸 入 : 并 輸 入 用 戶名 和 密 碼( admin|admin) ,登陸成功進(jìn)入操作頁面。代碼如下: //得到遠(yuǎn)程服務(wù)器返回 WSDL 文檔的輸入流 ReplayInputStream replayis = ()。 } 3. 得到了所 有的 a標(biāo)簽集合,這些集合都存儲在 nodelist中,循環(huán)遍歷集合,得到 URL,并把 URL通過 addLinkFromString() 函數(shù)加入到爬蟲待訪問隊列中。 try { parser = new Parser(content)。 if(beginIndex == 1 || endIndex == 1){ url = null。 url = (beginIndex+3, endIndex)。 endIndex = (/a)。 beginIndex = (value=\)。 for(int i=0。web_service39。 try { nodelist = (attributes_filter)。 Parser parser = null。 天津大學(xué) 2021屆 本科生畢業(yè)設(shè)計(論文) 18 (extractor 抓取了 url: + url)。 i++) { LinkTag aNode = (LinkTag) ((i))。 } catch (ParserException e1) { ()。 try { nodelist = (attributes_filter)。在這個 ul 標(biāo)簽中,每個服務(wù)提供商頁面 URL 都在一 個 a 標(biāo)簽中。 //執(zhí)行操作 3 condition3(content,curi)。p=*結(jié)尾的 URL 就是服務(wù)提供商頁面。 網(wǎng)站服務(wù)分部結(jié)構(gòu)如圖 41 所示: 天津大學(xué) 2021屆 本科生畢業(yè)設(shè)計(論文) 14 圖 41 網(wǎng)站服務(wù)分布結(jié)構(gòu)圖 要把網(wǎng)站結(jié)構(gòu)應(yīng)用于爬蟲中,就需要知道哪些頁面是服務(wù)詳細(xì)信息頁面、服務(wù)提供商頁面、服務(wù)提供商集合頁面。所以我 對 seekda 網(wǎng)站的具體分析如下: 用戶在 Seekda 網(wǎng)站上有三種方式可以查找服務(wù): 1. 網(wǎng)站提供了強(qiáng)大的搜索功能,用戶可以在搜索頁面輸入服務(wù)名、服務(wù)標(biāo) 簽、服務(wù)注冊時間等信息進(jìn)行搜索。 天津大學(xué) 2021屆 本科生畢業(yè)設(shè)計(論文) 12 4. 鏈接進(jìn)入了提取鏈,提取鏈知道了過濾鏈對鏈接頁面類型的判斷后,對 頁面進(jìn)行不同策略的分析和提取。 如果該頁面是提供商服務(wù)集合頁面,提取鏈就對該頁面進(jìn)行服務(wù)詳 細(xì)信息頁面鏈接的抓取,并把這些鏈接加入到待訪問隊列中。 ? 是負(fù)責(zé)管理待訪問隊列的鏈接的程序文件包,向線程傳遞鏈接。提取鏈主要負(fù)責(zé)解析網(wǎng)頁內(nèi)容,提取服務(wù) WSDL 文檔的 URL。 運行環(huán)境 要求程序能夠運行在如下環(huán)境中:操作系統(tǒng): Windows XP;運行平臺:MyEclipse 以上; java 虛擬機(jī): JVM 以上;數(shù)據(jù)庫: 天津大學(xué) 2021屆 本科生畢業(yè)設(shè)計(論文) 5 第三章 面向 web service 的網(wǎng)絡(luò)爬蟲的詳細(xì)設(shè)計 總體架構(gòu) 本系統(tǒng)采用的是廣度優(yōu)先策略,利用網(wǎng)絡(luò)爬蟲開源框架 Heritrix 的多線程管理、鏈接調(diào)度器模塊,擴(kuò)展了 Heritrix 的處理鏈流程。最后在這些網(wǎng)頁信息上建立搜索引擎,向用戶提供統(tǒng)一的訪問網(wǎng)頁的窗口 [5]。 其中, seekda[1]網(wǎng)站是現(xiàn)有的最大的服務(wù)注冊網(wǎng)站,一共有 7663 個服務(wù)提供商在該網(wǎng)站上注冊,據(jù)統(tǒng)計,大約有 2 萬多個服務(wù)在該網(wǎng)站上進(jìn)行發(fā)布。 全文安排 全文共分為六章。 a. 對網(wǎng)站 Web 服務(wù)的分類頁面進(jìn)行分析,分析出含有所有 Web 服務(wù)的種類 URL 的 table 表格結(jié)構(gòu)和 URL 的結(jié)構(gòu)。但是通過主動式的爬取,獲得并存儲互聯(lián)網(wǎng)上的服務(wù),對服務(wù)進(jìn)行集中管理,有利于對用戶提供統(tǒng)一的訪問方式,有利于對互聯(lián)網(wǎng)服務(wù)的分析,提高組合的效率。 2) Page information extraction: According to the manual analysis that which information in which paper needs to be captured, then using HtmlParser tools to capture the information in the page。 選題是否合適: 是□ 否□ 課題能否實現(xiàn): 能□ 不能□ 指導(dǎo)教師 (簽字) 年 月 日 選題是否合適: 是□ 否□ 課題能否實現(xiàn): 能□ 不能□ 審題小組組長(簽字) 年 月 日 摘 要 互聯(lián)網(wǎng)上的服務(wù)數(shù)量增長快速,網(wǎng)站提供的關(guān)于服務(wù)的信息也各異,導(dǎo)致用戶難以正確、快速的找到合適的服務(wù),為了解決以上問題,需要獲取和保存服務(wù)的 WSDL 的 URL 和相關(guān)的服務(wù)信息。 爬蟲無限循環(huán)執(zhí)行對頁面的分析,直到?jīng)]有未訪問過的 URL 存在。利用該插件,我們可以準(zhǔn)確無誤的獲取服務(wù)的所有詳細(xì)信息。 第二種情況:網(wǎng)站上只提供了服務(wù)的 wsdl文檔的 url,沒有其它信息,那么本系統(tǒng)就只需要抓取服務(wù)的 wsdl文檔,也就不需要分析網(wǎng)站服務(wù)分部結(jié)構(gòu)。 a. 重新改寫 Heritrix 框架處理流程中的過濾鏈,以過濾不需要訪問的網(wǎng)頁。 現(xiàn)有的網(wǎng)絡(luò)爬蟲框架有很多,例如: Heritrix、 Nutch、 Larbin、 JSpider 等。通用網(wǎng)絡(luò)爬蟲 [2]又稱全網(wǎng)爬蟲 (Scalable Web Crawler),爬行對象從一些種子 URL 擴(kuò)充到整個 Web ,主要為門戶站點搜索引擎和大型 Web 服務(wù)提供商采集數(shù)據(jù)。 當(dāng)服務(wù)網(wǎng)站沒有提供服務(wù)的信息,只提供了 WSDL 文檔的 URL,那么就遍歷網(wǎng)站中所有的本網(wǎng)站的網(wǎng)頁,并判斷網(wǎng)頁中的鏈接是否是 WSDL 文檔的 URL, 如果是,就下載該 WSDL 文檔。微計算機(jī)信息, Microputer Information。所以 Web Services 技術(shù)成為了網(wǎng)絡(luò)上的主流技術(shù)之一,隨之也來的是大量的開發(fā)人員開始開發(fā) Web 服務(wù),隨著時間的推移,網(wǎng)絡(luò)上出現(xiàn)了大量的 Web 服務(wù)。 Web Services 技術(shù)是可以改變軟件產(chǎn)業(yè)面貌和軟件應(yīng)用模式的技術(shù)之一。Computer Knowledge and Technology 電腦知識與技術(shù) 。 ? 把搜索到的 Web 服務(wù)相關(guān)信息存入數(shù)據(jù)庫中。 二、 國內(nèi)外發(fā)展?fàn)顩r: 收集互聯(lián)網(wǎng)上的信息的系統(tǒng)被稱為網(wǎng)絡(luò)爬蟲 (又被稱為網(wǎng)頁蜘蛛,網(wǎng)絡(luò)機(jī)器人,在 FOAF 社區(qū)中間 ,更經(jīng)常的稱為網(wǎng)頁追逐者 ),它是一種按照一定的規(guī)則 ,自動的抓取萬維網(wǎng)信息的程序或者 腳本 。 本課題研究的是針對 Web 服務(wù)的聚焦網(wǎng)絡(luò)爬蟲技術(shù)。 由以上對爬蟲類型和爬蟲框架的發(fā)展現(xiàn)狀分析,本課題使用 Heritrix 開源框架,并通過分析網(wǎng)絡(luò)上分布 Web 服務(wù)的網(wǎng)站的樹形結(jié)構(gòu)的架構(gòu),實現(xiàn)針對 Web服務(wù)主題的網(wǎng)絡(luò)爬蟲。 c. 對 Web Service 詳細(xì)信息頁面進(jìn)行分析,分析出包含所有與該 Web Service 相關(guān)的信息的 table 表格結(jié)構(gòu)。解決該問題時,我們用到了 HTTPClient 插件,該插件能夠?qū)崿F(xiàn)下載遠(yuǎn)程服務(wù)器上的文檔,還可以設(shè)定連接時間等。 4. 把這些相關(guān)信息存入到數(shù)據(jù)庫中。 六、 進(jìn)度安排: 1. 學(xué)習(xí)與爬蟲相關(guān)的基本知識, 至 。為服務(wù)的使用和開發(fā)提供更加便利的平臺環(huán)境。服務(wù)數(shù)量的增長,使得用戶查找服務(wù)變得困難。 a. 重新改寫 Heritrix 框架處理流程的過濾鏈,過濾不需要訪問的網(wǎng)頁。 第二種情況:網(wǎng)站上只提供了服務(wù) WSDL文檔的 URL,本系統(tǒng)只抓取服務(wù)WSDL文檔,不需要分析網(wǎng)站服務(wù)分部結(jié)構(gòu)。 第五章 是對全文工作的總結(jié),指出并分析了現(xiàn)階段存在的問題并展望了未來的發(fā)展前景。 網(wǎng)絡(luò)信息抓取的主要工具是網(wǎng)絡(luò)爬蟲,網(wǎng)絡(luò)爬蟲是一種按照一定的規(guī)則,自動的抓起萬維網(wǎng)信息的程序或者腳本。詳細(xì)信息包括:服務(wù)描述文檔 WSDL URL、服務(wù)提供商、服務(wù)注冊時間、服務(wù)可用率、服務(wù)運行服務(wù)器、服務(wù)標(biāo)簽等。 ? 提取鏈主要負(fù)責(zé)解析頁面信息,提取的內(nèi)容包括: ; 細(xì)信息內(nèi)容; ? 寫鏈主要負(fù)責(zé)把服務(wù)信息存儲到數(shù)據(jù)庫中,下載 WSDL 文檔。 程序包設(shè)計 本系統(tǒng)主要包括 5 大模塊,分別是: 1. 過濾鏈模塊 2. 提取鏈模塊 3. 寫鏈模塊 4. 管理訪問鏈接模塊 5. 管理爬蟲多線程模塊 相對應(yīng)的程序包設(shè)計圖如下: 天津大學(xué) 2021屆 本科生畢業(yè)設(shè)計(論文) 8 圖 33 程序包設(shè)計圖 ? 是過濾鏈模塊的程序文件包,主要負(fù)責(zé)過 濾無關(guān)的網(wǎng)頁鏈接。 天津大學(xué) 2021屆 本科生畢業(yè)設(shè)計(論文) 10 3. 爬蟲線程獲得鏈接后,首先經(jīng)過過濾鏈的處理,判斷鏈接頁面的類型, 并決定如何解析該頁面。 2. 爬蟲線程管理器 TreadPool 詢問 Frontier,檢查待訪問隊列中是否存在鏈 接,如果存在, TreadPool 獲得該鏈接,并分配給 一個線程。 5. 如果鏈接能夠進(jìn)入了寫鏈,該鏈接是服務(wù) WSDL 文檔的鏈接,所以先下 載該 WSDL 文檔,并在數(shù)據(jù)庫中添加一條記錄,并在字段 type 中標(biāo)記為 false,說明該服務(wù)是沒有詳細(xì)信息的。方式 3:爬蟲可以得到所有的提供商,也就可以得到所有的服務(wù)。 1. 是一個服務(wù)提供商集合頁面 URL,作為爬蟲的初始 URL,由人外界輸入的。p=)){ //該頁面時服務(wù)提供商頁面 (url+ 進(jìn)入 提供商頁面 )。所以在提取的過程中,主要利用 HtmlParser 網(wǎng)頁解析工具對 HTML 代碼進(jìn)行解析,該工具能根據(jù) HTML 代碼中的標(biāo)簽屬性找到標(biāo)簽的全部內(nèi)容。 } 2. 為需要尋找的標(biāo)簽設(shè)置 FIlter, 以下代碼就是要找出屬性 class=providerlist的 ul標(biāo)簽。 ()。 } a標(biāo)簽集合,這些集合都存儲在 nodelist1中,循環(huán)遍歷集合,得到每個服務(wù)提供商頁面的 URL,并把 URL通過 addLinkFromString() 函數(shù)加入到爬蟲待訪問隊列中。 if (end != 1) url = (0, end)。next39。的 li標(biāo)簽。 addLinkFromString(curi, , str, )。 } catch (ParserException e) { return。 } 服務(wù)詳細(xì)信息頁面內(nèi)容提取 在服務(wù)詳細(xì)信息頁面中,服務(wù)的詳細(xì)信息是在一個 table 表格中的,例如:在服務(wù) QueryService 詳細(xì)信息頁面中,服務(wù)的信息在標(biāo)簽 table /table中,提取內(nèi)容的流程如圖 44 所示: 圖 44 服務(wù)詳細(xì)信息頁面內(nèi)容提取流程圖 天津大學(xué) 2021屆 本科生畢業(yè)設(shè)計(論文) 21 提取服務(wù)信息的部分內(nèi)容的實現(xiàn)如下: 服務(wù) WSDL URL 在 這 段 源 代 碼 ( input type=hidden name=uri value= 提取 WSDL URL 代碼如下: int beginIndex,endIndex,baseIndex。 baseIndex = (dtProvider:/dt)。 content = (baseIndex)。 content = (baseIndex)。對所有的頁面來說,提取所有 a 標(biāo)簽中的 url,并把 url 加入到處理鏈中。 try { nodelist = (attributes_filter)。 addLinkFromString(curi, , url, )。 ()。 圖 48 設(shè)置 module頁面 1 天津大學(xué) 2
點擊復(fù)制文檔內(nèi)容
畢業(yè)設(shè)計相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1