freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

畢業(yè)論文-面向webservice的網(wǎng)絡(luò)爬蟲設(shè)計與實現(xiàn)-預(yù)覽頁

2025-02-09 23:58 上一頁面

下一頁面
 

【正文】 page。正因為 Web 服務(wù)的有效的解決了以上問題,互聯(lián)網(wǎng)上的服務(wù)發(fā)展迅速,服務(wù)數(shù)量飛 速增長。但是通過主動式的爬取,獲得并存儲互聯(lián)網(wǎng)上的服務(wù),對服務(wù)進行集中管理,有利于對用戶提供統(tǒng)一的訪問方式,有利于對互聯(lián)網(wǎng)服務(wù)的分析,提高組合的效率。針對這種情況,研究內(nèi)容如下: Heritrix 的擴展 因為現(xiàn)有的開源爬蟲框架 Heritrix 提供了網(wǎng)絡(luò)搜索的基本結(jié)構(gòu),所以,我會擴展 Heritrix 框架,使該框架適用于本系統(tǒng)。 a. 對網(wǎng)站 Web 服務(wù)的分類頁面進行分析,分析出含有所有 Web 服務(wù)的種類 URL 的 table 表格結(jié)構(gòu)和 URL 的結(jié)構(gòu)。采用數(shù)據(jù)結(jié)構(gòu)中的樹結(jié)構(gòu)來描述網(wǎng)站服務(wù)的分布樹,擴展后的爬蟲得到根節(jié)點 URL,通過根節(jié)點對整棵樹進行遍歷,抓起網(wǎng)站所有的 Web服務(wù)。 全文安排 全文共分為六章。 第四章 在第三章得基礎(chǔ)上給出了具體的實現(xiàn)方法,其中主要包括分析網(wǎng)站服務(wù)分部結(jié)構(gòu)、頁面內(nèi)容提取、下載 WSDL 文檔以及結(jié)果展示。 其中, seekda[1]網(wǎng)站是現(xiàn)有的最大的服務(wù)注冊網(wǎng)站,一共有 7663 個服務(wù)提供商在該網(wǎng)站上注冊,據(jù)統(tǒng)計,大約有 2 萬多個服務(wù)在該網(wǎng)站上進行發(fā)布。其服務(wù)信息很豐富,需要把網(wǎng)絡(luò)上的服務(wù)抓取和集中管理。最后在這些網(wǎng)頁信息上建立搜索引擎,向用戶提供統(tǒng)一的訪問網(wǎng)頁的窗口 [5]。 天津大學(xué) 2022 屆本科生畢業(yè)設(shè)計(論文) 4 功能說明 本系統(tǒng)包含以下功能: 如果網(wǎng)站提供了詳細的服務(wù)信息,那么功能如下: 1. 存儲服務(wù)的詳細信息 遍歷網(wǎng)站結(jié)構(gòu)過程中,如果頁面是服務(wù)詳細信息頁面,需要對頁面進行解析,把服務(wù)的詳細信息提取出來,并存入數(shù)據(jù)庫。 運行環(huán)境 要求程序能夠運行在如下環(huán)境中:操作系統(tǒng): Windows XP;運行平臺:MyEclipse 以上; java 虛擬機: JVM 以上;數(shù)據(jù)庫: 天津大學(xué) 2022 屆本科生畢業(yè)設(shè)計(論文) 5 第三章 面向 web service 的網(wǎng)絡(luò)爬蟲的詳細設(shè)計 總體架構(gòu) 本系統(tǒng)采用的是廣度優(yōu)先策略,利用網(wǎng)絡(luò)爬蟲開源框架 Heritrix 的多線程管理、鏈接調(diào)度 器模塊,擴展了 Heritrix 的處理鏈流程。 ? 過濾鏈主要負責(zé)根據(jù)網(wǎng)站服務(wù)分部結(jié)構(gòu)過濾掉不相關(guān)的鏈接。提取鏈主要負責(zé)解析網(wǎng)頁內(nèi)容,提取服務(wù) WSDL 文檔的 URL。 type 字段為 true 時,表示該服務(wù)有相關(guān)服務(wù)信息,為 false 時,表示該服務(wù)沒有相關(guān)的服務(wù)信息。 ? 是負責(zé)管理待訪問隊列的鏈接的程序文件包,向線程傳遞鏈接。直到?jīng)]有空 閑線程都在工作或者待訪問隊列中沒有多余的鏈接為止。 如果該頁面是提供商服務(wù)集合頁面,提取鏈就對該頁面進行服務(wù)詳 細信息頁面鏈接的抓取,并把這些鏈接加入到待訪問隊列中。 針對第二種情況,爬蟲抓取過程如圖 35 所示: 天津大學(xué) 2022 屆本科生畢業(yè)設(shè)計(論文) 11 圖 35 第二種情況爬蟲抓取流程圖 1. 向爬蟲程序提供一個初始 URL,該 URL 是待抓取網(wǎng)站的首頁 URL,該 URL 被加入到待訪問隊列中。 天津大學(xué) 2022 屆本科生畢業(yè)設(shè)計(論文) 12 4. 鏈接進入了提取鏈,提取鏈知道了過濾鏈對鏈接頁面類型的判斷后,對 頁面進行不同策略的分析和提取。 如果該頁面是服務(wù) WSDL 文檔的 URL,提取鏈就把該鏈接提交給寫 鏈。所以我 對 seekda 網(wǎng)站的具體分析如下: 用戶在 Seekda 網(wǎng)站上有三種方式可以查找服務(wù): 1. 網(wǎng)站提供了強大的搜索功能,用戶可以在搜索頁面輸入服務(wù)名、服務(wù)標(biāo) 簽、服務(wù)注冊時間等信息進行搜索。方式 2:只有服務(wù)數(shù)量比較多的標(biāo)簽會顯示,對于爬蟲來說,無法得到服務(wù)數(shù)量少的標(biāo)簽。 網(wǎng)站服務(wù)分部結(jié)構(gòu)如圖 41 所示: 天津大學(xué) 2022 屆本科生畢業(yè)設(shè)計(論文) 14 圖 41 網(wǎng)站 服務(wù)分布結(jié)構(gòu)圖 要把網(wǎng)站結(jié)構(gòu)應(yīng)用于爬蟲中,就需要知道哪些頁面是服務(wù)詳細信息頁面、服務(wù)提供商頁面、服務(wù)提供商集合頁面。下面就以 提供商的 QueryService 服務(wù)為例,說明三種網(wǎng)頁的 URL 的特點。p=*結(jié)尾的 URL 就是服務(wù)提供商頁面。 }else if((/?tab=servicelistamp。 //執(zhí)行操作 3 condition3(content,curi)。如果用正則表達式來做,需要考慮很多情況。在這個 ul 標(biāo)簽中,每個服務(wù)提供商頁面 URL 都在一個 a 標(biāo)簽中。 } catch (ParserException e) { return。 try { nodelist = (attributes_filter)。 String content1 = (0).toHtml()。 } catch (ParserException e1) { ()。 return。 i++) { LinkTag aNode = (LinkTag) ((i))。)。 天津大學(xué) 2022 屆本科生畢業(yè)設(shè)計(論文) 18 (extractor 抓取了 url: + url)。 分析該頁面的 HTML 代碼,可以得出:服務(wù)詳細信息頁面的 URL 在屬性class=“ web_service”的 li 標(biāo)簽中,服務(wù)列表的下一頁 URL 在屬性 class=39。 Parser parser = null。next39。 try { nodelist = (attributes_filter)。 String str = ()。web_service39。 try { nodelist = (attributes_filter1)。 for(int i=0。 addLinkFromString(curi, , url, )。 beginIndex = (value=\)。提取服務(wù)提供商代碼如下: int beginIndex,endIndex,baseIndex。 endIndex = (/a)。 baseIndex = (dtMonitored since:/dt)。 url = (beginIndex+3, endIndex)。 天津大學(xué) 2022 屆本科生畢業(yè)設(shè)計(論文) 22 baseIndex = (dtAvailability: /dt)。 if(beginIndex == 1 || endIndex == 1){ url = null。 頁面鏈接提取 該部分是針對沒有提供詳細服務(wù)信息的網(wǎng)站的抓取過程中對頁面中鏈接的提取的。 try { parser = new Parser(content)。 NodeList nodelist = null。 } 3. 得到了所有的 a標(biāo)簽集合,這些集合都存儲在 nodelist中,循環(huán)遍歷集合,得到 URL,并把 URL通過 addLinkFromString() 函數(shù)加入到爬蟲待訪問隊列中。 String url = ()。代碼如下: //得到遠程服務(wù)器返回 WSDL 文檔的輸入流 ReplayInputStream replayis = ()。 } finally { //關(guān)閉返回輸入流和文件流 ()。 2. 打開瀏覽器,輸入: 并 輸 入 用 戶 名 和 密 碼( admin|admin) ,登陸成功進入操作頁面。 在 Select Extractors 選項中,添加 在 Select Post Processors 選項 中,刪除 FrontierScheduler,并添加 FrontierSchedulerForSeekda。爬蟲運行的中間結(jié)果如圖 410 所示: 天津大學(xué) 2022 屆本科生畢業(yè)設(shè)計(論文) 28 圖 410 爬蟲運行中間結(jié)果 爬蟲運行最終結(jié)果是: seekda網(wǎng)站的抓取過程花費了大約 2天的時間,抓取到了 21273個服 務(wù),這些服務(wù)中,能夠下載 WSDL文檔的服務(wù)有 17255個,下載的服務(wù)信息存儲在數(shù)據(jù)庫中。 第二種,對于沒有提供服務(wù)詳細信息的網(wǎng)站,把網(wǎng)站首頁作為爬蟲源 URL,爬蟲線程對每一個待訪問隊列中的 URL 進行 3 個處理鏈的處理,從網(wǎng)頁中提取所有 a 標(biāo)簽中的 url,并排除非本網(wǎng)站的 URL,把剩下的 URL 加入到待訪問隊列中,當(dāng)遇到服務(wù) WSDL 的 URL 時,下載該 WSDL 文檔,當(dāng)待訪問隊列為空時,爬蟲抓取過程結(jié)束。但是,當(dāng)對新的服務(wù)注冊網(wǎng)站進行抓取時,就需要重新編寫抓取流程和抓取頁面內(nèi)容方法。 天津大學(xué) 2022 屆本科生畢業(yè)設(shè)計(論文) 30 參考文獻 [1]seeda 網(wǎng)站 [EB/OL]. [2]網(wǎng)絡(luò)爬蟲 [EB/OL]. [3]孫立偉,何國輝,吳禮發(fā) . 網(wǎng)絡(luò)爬蟲技術(shù)研究 [J]. Computer Knowledge and Technology 電腦知識與技術(shù) . ,May 2022, [4]J. Cho, H. GarciaMolina. The evolution of the web and implications for an incremental crawler [C]. In Proceedings of the 26th International Conference on Very Large Database, Cairo, Egypt, 2022. [5]Roberston, L. Anecdotes [Google search engine] [J]. Annals of the History of Computing, 2022, Volume 27: 9697. [6]陳汶濱 ,夏學(xué)梅 . 基于聚焦爬蟲的手機天氣預(yù)報系 統(tǒng) [J]. 今日科苑 . 2022年第 2期 . [7]鄭力明,易平 . Design of Crawler Based on HTML Parser Information Extraction[J]. 微計算機 信息, Microputer Information . 09,June,2022. [8]楊頌 ,歐陽柳波 . 基于 Heritrix 的面向電子商務(wù)網(wǎng)站增量爬蟲研究 [J]. 軟件導(dǎo)刊 . 2022 年 7月 . [9]Heritrix 官方網(wǎng)站 [EB/OL]. [10]邱哲 , 符滔滔 . 開發(fā)自己的搜索引擎 Lucene +Heritrix. 人民郵電出版社 , 20224. [11]羅剛 . 自己動手寫網(wǎng)絡(luò)爬蟲 . 清華大學(xué)出版社 . 2022101; [12]李盛韜 , 余智華 , 程學(xué)旗 . Web 信息采集研究進展 [J]. 計算機科學(xué) , 2022 [13]S. Chakrabarti, M. van den Berg and B. Dom. Focused Crawling: A New Approach to TopicSpecific Web Resource Discovery [C]. In Proceedings of the 8th International World Wide Web Conference, Toronto, Canada, 1999. [14]曾偉輝,李淼 . 深層網(wǎng)絡(luò)爬蟲研究綜述 [J]. 計算機系統(tǒng)應(yīng)用 , 2022. [15]周立柱 ,林 玲 . 聚焦爬蟲技術(shù)研究綜述 [J].計算機應(yīng)用 , 2022 年 9 月 . 外文資料 WSCE: A Crawler Engine for LargeScale Discovery of Web Services Eyhab AlMasri and Qusay H. Mahmoud Abstract This paper addresses issues relating to the efficient access and discovery of Web services across multiple UDDI Business Registries (UBRs). The ability to explore Web services across multiple UBRs is being a challenge particularly as size and magnitude of these r
點擊復(fù)制文檔內(nèi)容
規(guī)章制度相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1