freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

畢業(yè)論文-面向webservice的網(wǎng)絡爬蟲設計與實現(xiàn)-資料下載頁

2025-01-16 23:58本頁面
  

【正文】 itle=98%availablesrc= percent_available/ (% since 五月 2022))中。提取服務可用率代碼如下: int beginIndex,endIndex,baseIndex。 天津大學 2022 屆本科生畢業(yè)設計(論文) 22 baseIndex = (dtAvailability: /dt)。 content = (baseIndex)。 beginIndex = (percent_available\/ ()。 endIndex = (since)。 if(beginIndex == 1 || endIndex == 1){ url = null。 }else{ url = (beginIndex+27, endIndex2)。 } 同理可分析服務用戶描述、服務標簽內容的 HTML 代碼結構。并編寫代碼提取內容。 頁面鏈接提取 該部分是針對沒有提供詳細服務信息的網(wǎng)站的抓取過程中對頁面中鏈接的提取的。對所有的頁面來說,提取所有 a 標簽中的 url,并把 url 加入到處理鏈中。由其它處理鏈來處理。具體的過程如圖 45 所示: 天津大學 2022 屆本科生畢業(yè)設計(論文) 23 45 頁面鏈接提取流程圖 部分代碼如下: 1. 首先新 建一個解析類 Parser 實例, Parser parser = null。 try { parser = new Parser(content)。 } catch (ParserException e) { return。 } 2. 為需要尋找的標簽設置 FIlter, 以下代碼就是要找出所有 a標簽。 NodeFilter attributes_filter = new TagNameFilter(a)。 NodeList nodelist = null。 try { nodelist = (attributes_filter)。 } catch (ParserException e) { 天津大學 2022 屆本科生畢業(yè)設計(論文) 24 ()。 return。 } 3. 得到了所有的 a標簽集合,這些集合都存儲在 nodelist中,循環(huán)遍歷集合,得到 URL,并把 URL通過 addLinkFromString() 函數(shù)加入到爬蟲待訪問隊列中。 for (int i = 0。 i ()。 i++) { LinkTag aNode = (LinkTag) ((i))。 String url = ()。 addLinkFromString(curi, , url, )。 } 下載 WSDL 文檔 在爬蟲抓取過程中,如果抓取到了服務 WSDL 文檔的 URL,就下載 WSDL文檔,具體過程是: 首先得到利用 HTTPClient 工具對 WSDL 文檔進行連接,并得到 inputStream。然后就是在本地磁盤上新建一個文件,最后把流中的內容寫入文件中。代碼如下: //得到遠程服務器返回 WSDL 文檔的輸入流 ReplayInputStream replayis = ()。 //在硬盤中新建一個文件 File tf = new File(())。 FileOutputStream fos = new FileOutputStream(tf)。 try { //把返 回的 WSDL文檔內容寫入硬盤文件中 (fos)。 } finally { //關閉返回輸入流和文件流 ()。 ()。 } 結果展示 下面介紹爬蟲啟動過程及爬蟲抓取的中間結果,最后介紹爬蟲最終抓取結果。首先介紹爬蟲啟動過程: 天津大學 2022 屆本科生畢業(yè)設計(論文) 25 jar 文件,彈出命令行窗口,顯示爬蟲版本信息。 2. 打開瀏覽器,輸入: 并 輸 入 用 戶 名 和 密 碼( admin|admin) ,登陸成功進入操作頁面。 圖 46 成功登陸后的頁面 3. 點擊 Jobs 標簽,在新頁面點擊 with defaults,顯示新任務設置頁面。 4. 在頁面中輸入 Name of new job, description, seeds,如圖 47 所示: 圖 47 新任務設置頁面 天津大學 2022 屆本科生畢業(yè)設計(論文) 26 5. 然后點擊 Modules 標簽,進入新頁面,如圖 48 和 49 所示: 在 select crawl scope 選項中,選擇 BroadScope,并點擊 change 按鈕。 在 Select Extractors 選項中,依次刪除 ExtractorHTML, ExtractorCSS, ExtractorJS, ExtractorSWF。 在 Select Extractors 選項中,添加 在 Select Post Processors 選項 中,刪除 FrontierScheduler,并添加 FrontierSchedulerForSeekda。 圖 48 設置 module 頁面 1 天津大學 2022 屆本科生畢業(yè)設計(論文) 27 圖 49 設置 module 頁面 2 6. 點擊 setting 標簽,進入?yún)?shù)設置頁面: 在 useragent: 處,修改為 Mozilla/ (patible。 heritrix/ + 在 from: 處,修改為 : 在 maxretries:處,修改為 5,在 retrydelayseconds 處,修改為 60。 執(zhí)行完以上 6 步后,點擊 submit job, 然后 在 console 頁面,點擊 start 按鈕,爬蟲就開始運行了。爬蟲運行的中間結果如圖 410 所示: 天津大學 2022 屆本科生畢業(yè)設計(論文) 28 圖 410 爬蟲運行中間結果 爬蟲運行最終結果是: seekda網(wǎng)站的抓取過程花費了大約 2天的時間,抓取到了 21273個服 務,這些服務中,能夠下載 WSDL文檔的服務有 17255個,下載的服務信息存儲在數(shù)據(jù)庫中。如圖 411所示: 圖 411 數(shù)據(jù)庫存儲內容展示 天津大學 2022 屆本科生畢業(yè)設計(論文) 29 第五章 總結和展望 論文總結 本系統(tǒng)的目標是搜集網(wǎng)絡上的服務,包括服務 WSDL 文檔、服務提供商、服務可用率等信息。本文首先分析了網(wǎng)絡上服務的分布情況:一部分網(wǎng)站提供了服務詳細信息,其他網(wǎng)站只提供了 Web 服務的 WSDL 文檔的 URL。 根據(jù)分析結果,本系統(tǒng)采用的抓取方法包括以下兩種: 第一種,對于提供了服務詳細信息的網(wǎng)站,首先分析得到注冊網(wǎng)站的 服務分布結構,然后,爬蟲根據(jù)服務分布結構依次循環(huán)遍歷網(wǎng)站,在遍歷過程中,把服務詳細信息抓取下來,并存入數(shù)據(jù)庫。 第二種,對于沒有提供服務詳細信息的網(wǎng)站,把網(wǎng)站首頁作為爬蟲源 URL,爬蟲線程對每一個待訪問隊列中的 URL 進行 3 個處理鏈的處理,從網(wǎng)頁中提取所有 a 標簽中的 url,并排除非本網(wǎng)站的 URL,把剩下的 URL 加入到待訪問隊列中,當遇到服務 WSDL 的 URL 時,下載該 WSDL 文檔,當待訪問隊列為空時,爬蟲抓取過程結束。 本系統(tǒng)對 Seekda 網(wǎng)站上的服務進行抓取,大概用了 2 天時間,抓取了 21273個服務, 下載了 17255 個 WSDL 文檔,并把服務相關信息存入數(shù)據(jù)庫。 存在的問題和展望 因為互聯(lián)網(wǎng)上服務分布情況比較復雜,服務的發(fā)布地點不同,提供的詳細信息也不同,所以抓取互聯(lián)網(wǎng)上的服務 WSDL 文檔及服務信息就不可能采用同一個抓取流程和提取頁面內容方法。本論文是對每個網(wǎng)站制作一個抓取流程和提取頁面內容方法。但是,當對新的服務注冊網(wǎng)站進行抓取時,就需要重新編寫抓取流程和抓取頁面內容方法。 如果服務注冊網(wǎng)站數(shù)量不斷增加,那么本系統(tǒng)也要不斷擴展,并不能實現(xiàn)全自動抓取任務。 要實現(xiàn)一個抓取流程和提取頁面內容 方法就可以抓取互聯(lián)網(wǎng)上所有的服務WSDL 文檔及服務信息,可以讓服務提供者把服務相關的信息寫入 WSDL 文檔。因為 WSDL 的 URL 絕大部分是以 ?wsdl 結尾的,那么爬蟲程序就可以遍歷所有網(wǎng)站,只抓取 WSDL 的 URL,就不需要根據(jù)網(wǎng)頁結構來提取服務詳細信息,服務詳細信息從 WSDL 文檔中就可以得到。 天津大學 2022 屆本科生畢業(yè)設計(論文) 30 參考文獻 [1]seeda 網(wǎng)站 [EB/OL]. [2]網(wǎng)絡爬蟲 [EB/OL]. [3]孫立偉,何國輝,吳禮發(fā) . 網(wǎng)絡爬蟲技術研究 [J]. Computer Knowledge and Technology 電腦知識與技術 . ,May 2022, [4]J. Cho, H. GarciaMolina. The evolution of the web and implications for an incremental crawler [C]. In Proceedings of the 26th International Conference on Very Large Database, Cairo, Egypt, 2022. [5]Roberston, L. Anecdotes [Google search engine] [J]. Annals of the History of Computing, 2022, Volume 27: 9697. [6]陳汶濱 ,夏學梅 . 基于聚焦爬蟲的手機天氣預報系 統(tǒng) [J]. 今日科苑 . 2022年第 2期 . [7]鄭力明,易平 . Design of Crawler Based on HTML Parser Information Extraction[J]. 微計算機 信息, Microputer Information . 09,June,2022. [8]楊頌 ,歐陽柳波 . 基于 Heritrix 的面向電子商務網(wǎng)站增量爬蟲研究 [J]. 軟件導刊 . 2022 年 7月 . [9]Heritrix 官方網(wǎng)站 [EB/OL]. [10]邱哲 , 符滔滔 . 開發(fā)自己的搜索引擎 Lucene +Heritrix. 人民郵電出版社 , 20224. [11]羅剛 . 自己動手寫網(wǎng)絡爬蟲 . 清華大學出版社 . 2022101; [12]李盛韜 , 余智華 , 程學旗 . Web 信息采集研究進展 [J]. 計算機科學 , 2022 [13]S. Chakrabarti, M. van den Berg and B. Dom. Focused Crawling: A New Approach to TopicSpecific Web Resource Discovery [C]. In Proceedings of the 8th International World Wide Web Conference, Toronto, Canada, 1999. [14]曾偉輝,李淼 . 深層網(wǎng)絡爬蟲研究綜述 [J]. 計算機系統(tǒng)應用 , 2022. [15]周立柱 ,林 玲 . 聚焦爬蟲技術研究綜述 [J].計算機應用 , 2022 年 9 月 . 外文資料 WSCE: A Crawler Engine for LargeScale Discovery of Web Services Eyhab AlMasri and Qusay H. Mahmoud Abstract This paper addresses issues relating to the efficient access and discovery of Web services across multiple UDDI Business Registries (UBRs). The ability to explore Web services across multiple UBRs is being a challenge particularly as size and magnitude of these
點擊復制文檔內容
規(guī)章制度相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1