freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

軟件工程專業(yè)畢業(yè)論文--面向web service的網(wǎng)絡(luò)爬蟲設(shè)計(jì)與實(shí)現(xiàn) 任務(wù)書 開題報(bào)告 外文翻譯-全文預(yù)覽

2024-12-31 16:58 上一頁面

下一頁面
  

【正文】 try nodelist parserparse attributes_filter catch ParserException e eprintStackTrace return 3 得到了所有的 a 標(biāo)簽集合這些集合都存儲(chǔ)在 nodelist 中循環(huán)遍歷集合得到 URL并把 URL通過 addLinkFromStringfor int i 0 i nodelistsize i LinkTag aNode LinkTag nodelistelementAt i String url aNodegetLink addLinkFromString curi url LinkNAVLINK_HOP 43 下 載 WSDL 文檔 在爬蟲抓取過程中如果抓取到了服務(wù) WSDL文檔的 URL就下載 WSDL文檔具體過程是首先得到利用 HTTPClient工具對(duì) WSDL文檔進(jìn)行連接并得到 inputStream然后就是在本地磁盤上新建一個(gè)文件最后把流中的內(nèi)容寫入文件中代碼如下 得到遠(yuǎn)程服務(wù)器返回 WSDL 文檔的輸入流 ReplayInputStream replayis recisgetContentReplayInputStream 在硬盤中新建一個(gè)文件 File tf new File destgetPath FileOutputStream fos new FileOutputStream tf try 把返回的 WSDL 文檔內(nèi)容寫入硬盤文件中 replayisreadFullyTo fos finally 關(guān)閉返回輸入流和文件流 fosclose replayisclose 44 結(jié)果展示 下面介紹爬蟲啟動(dòng)過程及爬蟲抓取的中間結(jié)果最后介紹爬蟲最終抓取結(jié)果首先介紹爬蟲啟動(dòng)過程 1 點(diǎn)擊 jar 文件彈出命令行窗 口顯示爬蟲版本信息 2 打開瀏覽器輸入 localhost8080 并 輸 入 用戶 名 和 密 碼adminadmin 3 點(diǎn)擊 Jobs 標(biāo)簽在新頁面點(diǎn)擊 with defaults 顯示新任務(wù)設(shè)置頁面 4 在頁面中輸入 Name of new jobdescriptionseeds 5 然后點(diǎn)擊 Modules 標(biāo)簽進(jìn)入新頁面如圖 48 和 49 所示 51 在 select crawl scope 選項(xiàng)中選擇 BroadScope 并點(diǎn)擊 change按鈕 52 在 Select Extractors 選項(xiàng)中依次刪除 ExtractorHTML ExtractorCSSExtractorJSExtractorSWF 53 在 Select Extractors 選項(xiàng)中添加 daExtractor 54 在 Select Post Processors 選項(xiàng)中刪除 FrontierScheduler并添加 FrontierSchedulerForSeekda 圖 48 設(shè)置 module 頁面 1 圖 49 設(shè)置 module 頁 面 2 6. setting 標(biāo)簽進(jìn)入?yún)?shù)設(shè)置頁面 61 在 useragent 處修改為 Mozilla50 patible heritrix 1 62 在 from 處修改為 useruser 63 在 retries處修改為 5 在 retrydelayseconds處修改為 60 執(zhí)行完以上 6 步后點(diǎn)擊 submit jobconsole 頁面點(diǎn)擊 start 按鈕爬蟲就開始運(yùn)行了爬蟲運(yùn)行的中間結(jié)果如圖 410 所示 圖 410 爬蟲運(yùn)行中間結(jié)果 爬蟲運(yùn)行最終結(jié)果是 seekda 網(wǎng)站的抓取過程花費(fèi)了大約 2 天的時(shí)間抓取到了 21273 個(gè)服務(wù)這些服務(wù)中能夠下載 WSDL 文檔的服務(wù)有 17255 個(gè)下載的服務(wù)信息存儲(chǔ)在數(shù)據(jù)庫中如圖 411 所示 圖 411 數(shù)據(jù)庫存儲(chǔ)內(nèi)容展示 第五章 總結(jié)和展望 51 論文總結(jié) 本系統(tǒng)的目標(biāo)是搜集網(wǎng)絡(luò)上的服務(wù)包括服務(wù) WSDL 文檔服務(wù)提供商服務(wù)可用率等信息本文首先分析了網(wǎng)絡(luò)上服務(wù)的分布情況一部分網(wǎng)站提供了服務(wù)詳細(xì)信息其他網(wǎng)站只提供了 Web 服務(wù)的 WSDL 文檔的 URL 根據(jù)分析結(jié)果本系統(tǒng)采用的抓取方 法包括以下兩種 第一種對(duì)于提供了服務(wù)詳細(xì)信息的網(wǎng)站首先分析得到注冊(cè)網(wǎng)站的服務(wù)分布結(jié)構(gòu)然后爬蟲根據(jù)服務(wù)分布結(jié)構(gòu)依次循環(huán)遍歷網(wǎng)站在遍歷過程中把服務(wù)詳細(xì)信息抓取下來并存入數(shù)據(jù)庫 第二種對(duì)于沒有提供服務(wù)詳細(xì)信息的網(wǎng)站把網(wǎng)站首頁作為爬蟲源 URL爬蟲線程對(duì)每一個(gè)待訪問隊(duì)列中的 URL進(jìn)行 3個(gè)處理鏈的處理從網(wǎng)頁中提取所有a 標(biāo)簽中的 url 并排除非本網(wǎng)站的 URL 把剩下的 URL 加入到待訪問隊(duì)列中當(dāng)遇到服務(wù) WSDL 的 URL 時(shí)下載該 WSDL 文檔當(dāng)待訪問隊(duì)列為空時(shí)爬蟲抓取過程結(jié)束 本系統(tǒng)對(duì) Seekda 網(wǎng)站上的服務(wù)進(jìn)行抓 取大概用了 2 天時(shí)間抓取了 21273 個(gè)服務(wù)下載了 17255 個(gè) WSDL 文檔并把服務(wù)相關(guān)信息存入數(shù)據(jù)庫 52 存在的問題和展望 因?yàn)榛ヂ?lián)網(wǎng)上服務(wù)分布情況比較復(fù)雜服務(wù)的發(fā)布地點(diǎn)不同提供的詳細(xì)信息也不同所以抓取互聯(lián)網(wǎng)上的服務(wù) WSDL 文檔及服務(wù)信息就不可能采用同一個(gè)抓取流程和提取頁面內(nèi)容方法本論文是對(duì)每個(gè)網(wǎng)站制作一個(gè)抓取流程和提取頁面內(nèi)容方法但是當(dāng)對(duì)新的服務(wù)注冊(cè)網(wǎng)站進(jìn)行抓取時(shí)就需要重新編寫抓取流程和抓取頁面內(nèi)容方法 如果服務(wù)注冊(cè)網(wǎng)站數(shù)量不斷增加那么本系統(tǒng)也要不斷擴(kuò)展并不能實(shí)現(xiàn)全自動(dòng)抓取任務(wù) 要實(shí)現(xiàn)一個(gè)抓取流程和 提取頁面內(nèi)容方法就可以抓取互聯(lián)網(wǎng)上所有的服務(wù)WSDL 文檔及服務(wù)信息可以讓服務(wù)提供者把服務(wù)相關(guān)的信息寫入 WSDL 文檔因?yàn)閃SDL的 URL絕大部分是以 wsdl結(jié)尾的那么爬蟲程序就可以遍歷所有網(wǎng)站只抓取WSDL的 URL就不需要根據(jù)網(wǎng)頁結(jié)構(gòu)來提取服務(wù)詳細(xì)信息服務(wù)詳細(xì)信息從 WSDL文檔中就可以得到 參考文獻(xiàn) [1]seeda 網(wǎng)站 webserv [2]網(wǎng)絡(luò)爬蟲 [EBOL] bview284853htm [3]孫立偉何國輝吳禮發(fā)網(wǎng)絡(luò)爬蟲技術(shù)研究 Computer Knowledge and Technology 電腦知識(shí)與技術(shù) Vol4No15May 2021pp41124115 [4]J Cho H GarciaMolina The evolution of the web and implications for an incremental crawler [C] In Proceedings of the 26th International Conference on Very Large Database Cairo Egypt 2021 [5]Roberston L Anecdotes [Google search engine] [J] Annals of the History of Computing 2021 Volume 27 9697 [6]陳汶濱基于聚焦爬蟲的手機(jī)天氣預(yù)報(bào)系統(tǒng)今日科苑 2021 年第 2 期 []鄭力明易平 Design of Crawler Based on HTML Parser Information Extraction[J] 微計(jì)算機(jī) 信息 Microputer Information09June2021 [8]楊頌 歐陽柳波 基于 Heritrix 的面向電子商務(wù)網(wǎng)站增量爬蟲研究 軟件導(dǎo)刊 2021 年 7 月 [9]Heritrix 官方網(wǎng)站 [EBOL] cra [10]邱哲符滔滔開發(fā)自己的搜索引擎 Lucene 20Heritrix 人民郵電出版社 [11]羅剛 自己動(dòng)手寫網(wǎng)絡(luò)爬蟲 清華大學(xué)出版社 2021101 [12]李盛韜 余智華 程學(xué)旗 Web 信息采集研究進(jìn)展 [J] 計(jì)算機(jī)科學(xué) 2021 [13]S Chakrabarti M van den Berg and B Dom Focused Crawling A New Approach to TopicSpecific Web Resource Discovery [C] In Proceedings of the 8th International World Wide Web Conference Toronto Canada 1999 [14]曾偉輝李淼 深層網(wǎng)絡(luò)爬蟲研究綜述 [J] 計(jì)算機(jī)系統(tǒng)應(yīng)用 2021 WSCE A Crawler Engine for LargeScale Discovery of Web Services Eyhab AlMasri and Qusay H Mahmoud Abstract This paper addresses issues relating to the efficient access and discovery of Web services across multiple UDDI Business Registries UBRs The ability to explore Web services across multiple UBRs is being a challenge particularly as size and magnitude of these registries increase As Web services proliferate finding an appropriate Web service across one or more service registries using existing registry APIs ie UDDI APIs raises a number of concerns such as performance efficiency endtoend reliability and most importantly quality of returned results Clients do not have to endlessly search accessible UBRs for finding appropriate Web services particularly when operating via mobile devices Finding relevant Webservices should be time effective and highly productive In an attempt to enhance the efficiency of searching for businesses and Web services across multiple UBRs we propose a novel exploration engine the Web Service Crawler Engine WSCE WSCE is capable of crawling multiple UBRs and enables for the establishment of a centralized Web services 抮 epository which can be used for largescale discovery of Web services The paper presents experimental validation results and analysis of the presented ideas 1 Introduction The co ntinuous growth and propagation of the inter have been some of the main factors for information overload which at many instances act as deterrents for quick and easy discovery of information Web services are interbased modular applications and the automatic discovery and position of Web services are an emerging technology of choice for building understandable applications used for businesstobusiness integration and are of an immense interest to governments businesses as well as individuals As Web services proliferate the same dilemma
點(diǎn)擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1