freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

軟件工程專業(yè)畢業(yè)論文--面向webservice的網(wǎng)絡爬蟲設計與實現(xiàn)任務書開題報告外文翻譯(參考版)

2024-12-07 16:58本頁面
  

【正文】 軟件工程專業(yè)畢業(yè)論文 面向 web service 的網(wǎng)絡爬蟲設計與實現(xiàn) +任務書 +開題報告 +外文翻譯 面向 web service 的網(wǎng)絡爬蟲設計與實現(xiàn) 學生姓名 學院名稱 專 業(yè) 軟件工程 學 號 指導教師 職 稱 任務書 原始依據(jù)包括設計或論文的工作基 礎研究條件應用環(huán) 境工作目的等 Web Services 技術是一種基于 XML 語言和標準的網(wǎng)絡協(xié)議實現(xiàn)的分布式計算技術 Web Services 技術是可以改變軟件產(chǎn)業(yè)面貌和軟件應用模式的技術之一 Web Services 技術可以將 Inter 上的各種信息資源和服務功能整合在一起在任何時間任何地點向用戶提供優(yōu)質(zhì)的服務 Web Services 技術還有助于改變企業(yè)對 IT系統(tǒng)的應用方式和依賴程度所以 Web Services技術成為了網(wǎng)絡上的主流技術之一隨之也來的是大量的開發(fā)人員開始開發(fā) Web 服務隨著時間的推移網(wǎng)絡上出現(xiàn)了大量的 Web 服務 但是大量的 Web 服務分布在網(wǎng)絡中的各個地方給用戶尋找特定功能的服務造成了不小的麻煩也給服務開發(fā)者在原有的服務上進行再次開發(fā)造成了不便本課題的任務就是研究如何把網(wǎng)絡上分散的 Web 服務搜集在一起 參考文獻 [1]孫立偉何國輝吳禮發(fā)網(wǎng)絡爬蟲技術研究 Computer Knowledge and Technology 電腦知識與技術 Vol4No15May 2021pp41124115 李盛韜余智華程學旗 Web 信息采集研究進展 J 計算機科學 2021 SChakrabartiMvan den Berg and sed Crawling A New Approach to TopicSpecifi Web Resource Discovery[C]In Proceedings of the 8th International World Wide Web Conference Toronto Canada 1999 [4]鄭力明易平 Design of Crawler Based on 6HTML Parser Information Extraction 微計算機信息 Microputer Information09June2021 J Cho H GarciaMolina The evolution of the web and implications for an incremental crawler [C] In Proceedings of the 26th International Conference on Very Large Database Cairo Egypt 2021 [6]李文澤個性化垂直搜索引擎研究河南大學 20211107 []曾偉輝李淼 深層網(wǎng)絡爬蟲研究綜述 [J] 計算機系統(tǒng)應用 2021 []周立柱 林 玲 聚焦爬蟲技術研究綜述 [J]計算機應用 2021 年 9 月 [9]S Chakrabarti M van den Berg and B Dom Focused Crawling A New Approach to TopicSpecific Web Resource Discovery [C] In Proceedings of the 8th International World Wide Web Conference Toronto Canada 1999 [10]陳汶濱夏學梅 基于聚焦爬蟲的手機天氣預報系統(tǒng) [J] 今日科苑 2021年第 2 期 [1]邱哲符滔滔 開發(fā)自己的搜索引擎 Lucene 20Heritrix 人民郵電出版社 20214 [1]羅剛 自己動手寫網(wǎng)絡爬蟲 清華大學出版社 2021101 []Heritrix 官方網(wǎng)站 [EBOL] cra [1]seeda 網(wǎng)站 [EBOL] webserv []網(wǎng)絡爬蟲 [EBOL] bview284853htmWeb 服務的網(wǎng)站地址 根 據(jù)種子地址搜索種子網(wǎng)站上的 Web 服務 把搜索到的 Web 服務相關信息存入數(shù)據(jù)庫中 為了達到以上目的本系統(tǒng)將對 Heritrix 開源框架進行擴展并針對服務網(wǎng)站上服務的特點選擇合適的爬蟲抓取過程 當服務網(wǎng)站提供了詳細的服務信息且網(wǎng)站服務的分布結(jié)構是有規(guī)律的那么通過對網(wǎng)站結(jié)構的分析可以得到網(wǎng)站中服務分布的一顆樹并用形式化語言描述這棵樹而經(jīng)過擴展之后的爬蟲對這顆樹進行遍歷就實現(xiàn)了抓起網(wǎng)絡上分布的Web Service 當服務網(wǎng)站沒有提供服務的信息只提供了 WSDL 文檔的 URL 那么就遍歷網(wǎng)站中所有的本網(wǎng)站的網(wǎng)頁并判斷網(wǎng)頁中 的鏈接是否是 WSDL 文檔的 URL 如果是就下載該 WSDL 文檔 指導教師簽字 年 月 日 審題小組組長簽字 年 月 日 本科生畢業(yè)設計論文開題報告 課題名稱 Web Services 網(wǎng)絡爬蟲 學院名稱 軟件學院 專業(yè)名稱 軟件工程 學生姓名 指導教師 課題來源及意義 互聯(lián)網(wǎng)上的服務數(shù)量正快速的增長分布在不同的網(wǎng)站上導致服務的用戶需要在不同的網(wǎng)站之間尋找一個或者多個符合自己需求的服務對于服務開發(fā)者來說他們無法快速準確的得知現(xiàn)有的服務開發(fā)現(xiàn)狀服務開發(fā)者無法重用現(xiàn)有的服務重 復開發(fā)已有的服務導致一個糟糕的服務開發(fā)環(huán)境 本課題的任務是抓取互聯(lián)網(wǎng)上分散的服務具有重要意義本系統(tǒng)把互聯(lián)網(wǎng)上的服務都收集起來并存儲在本地數(shù)據(jù)庫用戶或者服務開發(fā)者就可以在基于該本系統(tǒng)數(shù)據(jù)庫的搜索引擎中查找到所有的互聯(lián)網(wǎng)上大部分的服務節(jié)省了在不同網(wǎng)站間查找服務的時間服務用戶可以快速準確的找到符合自己需求的服務服務開發(fā)者可以快速得知服務開發(fā)現(xiàn)狀避免重復開發(fā)并且可以利用現(xiàn)有服務進行組合開發(fā)等 國內(nèi)外發(fā)展狀況 收集互聯(lián)網(wǎng)上的信息的系統(tǒng)被稱為網(wǎng)絡爬蟲 又被稱為網(wǎng)頁蜘蛛網(wǎng)絡機器人在 FOAF 社區(qū)中間更經(jīng)常的 稱為網(wǎng)頁追逐者 它是一種按照一定的規(guī)則自動的抓取萬維網(wǎng)信息的程序或者腳本另外一些不常使用的名字還有螞蟻自動索引模擬程序或者蠕蟲 網(wǎng)絡爬蟲按照系統(tǒng)結(jié)構和實現(xiàn)技術大致可以分為以下幾種類型 [1]通用網(wǎng)絡爬蟲聚焦網(wǎng)絡爬蟲增量式網(wǎng)絡爬蟲通用網(wǎng)絡爬蟲 [2]又稱全網(wǎng)爬蟲 Scalable Web Crawler 爬行對象從一些種子 URL 擴充到整個 Web 主要為門戶站點搜索引擎和大型 Web 服務提供商采集數(shù)據(jù)通用的網(wǎng)絡爬蟲大多應用于大型門戶網(wǎng)站或類似于 google 這樣的搜索引擎 聚焦網(wǎng)絡爬蟲 Focused Crawler 又稱主題網(wǎng)絡爬蟲 Topical Crawler 是指選擇性地爬行那些與預先定義好的主題相關頁面的網(wǎng)絡爬蟲 [3]隨著垂直搜索的蓬勃發(fā)展聚焦網(wǎng)絡也就是主題網(wǎng)絡爬蟲成為研究的前言 [4]提出通過深入分析生活類網(wǎng)站網(wǎng)址的樹形結(jié)構的架構開發(fā)了收集種子頁面的 URL 的模擬搜集齊并基于 HTMLParser 的信息提取方法從種子與頁面中提取出與生活類主題相關的目標 URL 增量式網(wǎng)絡爬蟲 Incremental Web Crawler [5]是指對已下載網(wǎng)頁采取增 量式更新和只爬行新產(chǎn)生的或者已經(jīng)發(fā)生變化網(wǎng)頁 的爬蟲它能夠在一定程度上 保證所爬行的頁面是盡可能新的頁面 本課題研究的是針對 Web 服務的聚焦網(wǎng)絡爬蟲技術因為聚焦網(wǎng)絡爬蟲技術能最快的最準確的搜索 Web 服務信息本課題并不是重新開發(fā)一個爬蟲程序而是在現(xiàn)有爬蟲開源框架的基礎上進行擴展現(xiàn)有的網(wǎng)絡爬蟲框架有很多例如HeritrixNutchLarbinJSpider 等 Heritrix 是一個由 Java 開發(fā)的開源的 Web 網(wǎng)絡信息采集程序和其他開源的爬蟲程序相比 Heritrix 的優(yōu)勢在于它的擴展性開發(fā)者可以擴展它的組件來實現(xiàn)自己的抓取邏輯 [6]基于聚焦爬蟲的手機天氣 預報系統(tǒng) 由以上對爬蟲類型和爬蟲框架的發(fā)展現(xiàn)狀分析本課題使用 Heritrix 開源框架并通過分析網(wǎng)絡上分布 Web 服務的網(wǎng)站的樹形結(jié)構的架構實現(xiàn)針對 Web服務主題的網(wǎng)絡爬蟲 第二種情況網(wǎng)站上只提供了服務的 wsdl 文檔的 url沒有其它信息那么本系統(tǒng)就只需要抓取服務的 wsdl 文檔也就不需要分析網(wǎng)站服務分部結(jié)構針對第二種情況主要的研究內(nèi)容如下 重新改寫 Heritrix 框架處理流程中的寫鏈以下載搜索到的 wsdl 文檔利用 Client 編寫下載 wsdl 程序 方法和手段 在擴展 Heritrix 框架的過程中遇 到的問題或者使用的插件如下 在改寫 Heritrix 框架的提取鏈時需要從分析網(wǎng)站結(jié)構中得到需要遍歷 的網(wǎng)頁 URL 在改寫 Heritrix框架的寫鏈時涉及到訪問遠程服務器下載 wsdl文檔解決該問題時我們用到了 HTTPClient 插件該插件能夠?qū)崿F(xiàn)下載遠程服務器上的文檔還可以設定連接時間等 由于 Heritrix框架提供了完善的 UI界面操作但是沒有提供完整的代碼啟動程序同時本課題需要把爬蟲啟動操作嵌入到其他程序中所以需 要編寫 Heritrix 的代碼啟動模塊 在分析網(wǎng)站結(jié)構時需要用到 HTMLParser 插件該插件能夠 實現(xiàn)對網(wǎng)頁的詳細分析包括獲取所有網(wǎng)頁標簽信息等功能利用該插件我們可以準確無誤的獲取服務的所有詳細信息在分析網(wǎng)頁結(jié)構時需要人工對網(wǎng)頁的包含信息的 標簽進行分析得到該 下信息分布的情況然后使用 HTMLParser 準確定位到需求信息的位置并提取信息 分析網(wǎng)站結(jié)構過程如下 提供一個包含所有 Web service類別的網(wǎng)頁的 URL分析該網(wǎng)頁用以上分析頁面的方法提取出所有的類別頁面的 URL 取出一個服務類別頁面 URL 并對該類別頁面進行分析提取出所有的 Web service 詳細信息頁面的 URL 對詳細信息頁面進行分析提取 出所有與 Web service 相關的信息 把這些相關信息存入到數(shù)據(jù)庫中 提取下一個類別 URL 并重復 2 步驟 爬蟲無限循環(huán)執(zhí)行對頁面的分析直到?jīng)]有未訪問過的 URL 存在 五可行性分析 網(wǎng)絡上 Web服務的飛速增長例如 webser站的服務數(shù)量達到了 2萬多個且服務的種類很多為本系統(tǒng)提供了非常好的搜索源并且網(wǎng)站的分布結(jié)構十分清晰有利于我們設計簡單有效地搜索策略同時網(wǎng)絡爬蟲技術的飛速發(fā)展各種爬蟲開源框架的出現(xiàn)為我們的爬蟲系統(tǒng)提供了良好的技術基礎在開源框架的基礎上結(jié)合對 Web 服務網(wǎng)站的結(jié)構分析就可以實現(xiàn)對網(wǎng)絡上 分布的 Web 服務抓取 進度安排 1 學習與爬蟲相關的基本知識 2 概念抽象對于 web services 爬蟲的分析和設計 3 構建 web services 爬蟲 4 編程實現(xiàn)與爬蟲測試 5 基于此系統(tǒng)完成論文提出自己的主張 610 參考文獻 孫立偉何 國輝吳 禮發(fā)網(wǎng)絡 爬蟲技 術研究 Computer Knowledge and Technology 電腦知識與技術 Vol4No15May 2021pp41124115 李盛韜余智華程學旗 Web 信息采 集研究進展 J 計算機科學 2021 SChakrabartiMvan den Berg and sed Crawling A New Approach to TopicSpecifi Web Resource Discovery[C]In Proceedings of the 8th International World Wide Web Conference Toronto Canada 1999 [4]鄭力明易平 Design of Crawler Based on HTML Parser Information Extraction 微計算機信息 Microputer Information09June2021 J Cho H GarciaMolina The evolution of the web and implications for an incremental crawler [C] In Proceedings of the 26th International Conference on Very Large Database Cairo Egypt 2021 [6]李文澤個性化垂直搜索引擎研究河南大學 20211107 []曾偉輝李淼 深層網(wǎng)絡爬蟲研究綜述 [J] 計算機系統(tǒng)應用 2021 []周立柱 林 玲 聚焦爬蟲技術研究綜述 [J]計算機應用 2021 年 9 月 [9]S Chakrabarti M van den Berg and B Dom Focused Crawling A New Approach to TopicSpecific Web Resource Discovery [C] In Proceedings of the 8th International World Wide Web Conference Toronto Ca
點擊復制文檔內(nèi)容
公司管理相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1