正文內(nèi)容

軟件工程專業(yè)畢業(yè)論文--面向webservice的網(wǎng)絡爬蟲設計與實現(xiàn)任務書開題報告外文翻譯(參考版)

2024-12-07 16:58本頁面

　　

【正文】軟件工程專業(yè)畢業(yè)論文面向 web service 的網(wǎng)絡爬蟲設計與實現(xiàn) +任務書 +開題報告 +外文翻譯面向 web service 的網(wǎng)絡爬蟲設計與實現(xiàn) 學生姓名學院名稱專業(yè) 軟件工程學號指導教師職稱任務書原始依據(jù)包括設計或論文的工作基礎研究條件應用環(huán) 境工作目的等 Web Services 技術是一種基于 XML 語言和標準的網(wǎng)絡協(xié)議實現(xiàn)的分布式計算技術 Web Services 技術是可以改變軟件產(chǎn)業(yè)面貌和軟件應用模式的技術之一 Web Services 技術可以將 Inter 上的各種信息資源和服務功能整合在一起在任何時間任何地點向用戶提供優(yōu)質(zhì)的服務 Web Services 技術還有助于改變企業(yè)對 IT系統(tǒng)的應用方式和依賴程度所以 Web Services技術成為了網(wǎng)絡上的主流技術之一隨之也來的是大量的開發(fā)人員開始開發(fā) Web 服務隨著時間的推移網(wǎng)絡上出現(xiàn)了大量的 Web 服務但是大量的 Web 服務分布在網(wǎng)絡中的各個地方給用戶尋找特定功能的服務造成了不小的麻煩也給服務開發(fā)者在原有的服務上進行再次開發(fā)造成了不便本課題的任務就是研究如何把網(wǎng)絡上分散的 Web 服務搜集在一起參考文獻 [1]孫立偉何國輝吳禮發(fā)網(wǎng)絡爬蟲技術研究 Computer Knowledge and Technology 電腦知識與技術 Vol4No15May 2021pp41124115 李盛韜余智華程學旗 Web 信息采集研究進展 J 計算機科學 2021 SChakrabartiMvan den Berg and sed Crawling A New Approach to TopicSpecifi Web Resource Discovery[C]In Proceedings of the 8th International World Wide Web Conference Toronto Canada 1999 [4]鄭力明易平 Design of Crawler Based on 6HTML Parser Information Extraction 微計算機信息 Microputer Information09June2021 J Cho H GarciaMolina The evolution of the web and implications for an incremental crawler [C] In Proceedings of the 26th International Conference on Very Large Database Cairo Egypt 2021 [6]李文澤個性化垂直搜索引擎研究河南大學 20211107 []曾偉輝李淼深層網(wǎng)絡爬蟲研究綜述 [J] 計算機系統(tǒng)應用 2021 []周立柱林玲聚焦爬蟲技術研究綜述 [J]計算機應用 2021 年 9 月 [9]S Chakrabarti M van den Berg and B Dom Focused Crawling A New Approach to TopicSpecific Web Resource Discovery [C] In Proceedings of the 8th International World Wide Web Conference Toronto Canada 1999 [10]陳汶濱夏學梅基于聚焦爬蟲的手機天氣預報系統(tǒng) [J] 今日科苑 2021年第 2 期 [1]邱哲符滔滔開發(fā)自己的搜索引擎 Lucene 20Heritrix 人民郵電出版社 20214 [1]羅剛自己動手寫網(wǎng)絡爬蟲清華大學出版社 2021101 []Heritrix 官方網(wǎng)站 [EBOL] cra [1]seeda 網(wǎng)站 [EBOL] webserv []網(wǎng)絡爬蟲 [EBOL] bview284853htmWeb 服務的網(wǎng)站地址根據(jù)種子地址搜索種子網(wǎng)站上的 Web 服務把搜索到的 Web 服務相關信息存入數(shù)據(jù)庫中為了達到以上目的本系統(tǒng)將對 Heritrix 開源框架進行擴展并針對服務網(wǎng)站上服務的特點選擇合適的爬蟲抓取過程當服務網(wǎng)站提供了詳細的服務信息且網(wǎng)站服務的分布結(jié)構是有規(guī)律的那么通過對網(wǎng)站結(jié)構的分析可以得到網(wǎng)站中服務分布的一顆樹并用形式化語言描述這棵樹而經(jīng)過擴展之后的爬蟲對這顆樹進行遍歷就實現(xiàn)了抓起網(wǎng)絡上分布的Web Service 當服務網(wǎng)站沒有提供服務的信息只提供了 WSDL 文檔的 URL 那么就遍歷網(wǎng)站中所有的本網(wǎng)站的網(wǎng)頁并判斷網(wǎng)頁中的鏈接是否是 WSDL 文檔的 URL 如果是就下載該 WSDL 文檔指導教師簽字年月日審題小組組長簽字年月日本科生畢業(yè)設計論文開題報告課題名稱 Web Services 網(wǎng)絡爬蟲學院名稱軟件學院專業(yè)名稱軟件工程學生姓名指導教師課題來源及意義互聯(lián)網(wǎng)上的服務數(shù)量正快速的增長分布在不同的網(wǎng)站上導致服務的用戶需要在不同的網(wǎng)站之間尋找一個或者多個符合自己需求的服務對于服務開發(fā)者來說他們無法快速準確的得知現(xiàn)有的服務開發(fā)現(xiàn)狀服務開發(fā)者無法重用現(xiàn)有的服務重復開發(fā)已有的服務導致一個糟糕的服務開發(fā)環(huán)境本課題的任務是抓取互聯(lián)網(wǎng)上分散的服務具有重要意義本系統(tǒng)把互聯(lián)網(wǎng)上的服務都收集起來并存儲在本地數(shù)據(jù)庫用戶或者服務開發(fā)者就可以在基于該本系統(tǒng)數(shù)據(jù)庫的搜索引擎中查找到所有的互聯(lián)網(wǎng)上大部分的服務節(jié)省了在不同網(wǎng)站間查找服務的時間服務用戶可以快速準確的找到符合自己需求的服務服務開發(fā)者可以快速得知服務開發(fā)現(xiàn)狀避免重復開發(fā)并且可以利用現(xiàn)有服務進行組合開發(fā)等國內(nèi)外發(fā)展狀況收集互聯(lián)網(wǎng)上的信息的系統(tǒng)被稱為網(wǎng)絡爬蟲又被稱為網(wǎng)頁蜘蛛網(wǎng)絡機器人在 FOAF 社區(qū)中間更經(jīng)常的稱為網(wǎng)頁追逐者它是一種按照一定的規(guī)則自動的抓取萬維網(wǎng)信息的程序或者腳本另外一些不常使用的名字還有螞蟻自動索引模擬程序或者蠕蟲網(wǎng)絡爬蟲按照系統(tǒng)結(jié)構和實現(xiàn)技術大致可以分為以下幾種類型 [1]通用網(wǎng)絡爬蟲聚焦網(wǎng)絡爬蟲增量式網(wǎng)絡爬蟲通用網(wǎng)絡爬蟲 [2]又稱全網(wǎng)爬蟲 Scalable Web Crawler 爬行對象從一些種子 URL 擴充到整個 Web 主要為門戶站點搜索引擎和大型 Web 服務提供商采集數(shù)據(jù)通用的網(wǎng)絡爬蟲大多應用于大型門戶網(wǎng)站或類似于 google 這樣的搜索引擎聚焦網(wǎng)絡爬蟲 Focused Crawler 又稱主題網(wǎng)絡爬蟲 Topical Crawler 是指選擇性地爬行那些與預先定義好的主題相關頁面的網(wǎng)絡爬蟲 [3]隨著垂直搜索的蓬勃發(fā)展聚焦網(wǎng)絡也就是主題網(wǎng)絡爬蟲成為研究的前言 [4]提出通過深入分析生活類網(wǎng)站網(wǎng)址的樹形結(jié)構的架構開發(fā)了收集種子頁面的 URL 的模擬搜集齊并基于 HTMLParser 的信息提取方法從種子與頁面中提取出與生活類主題相關的目標 URL 增量式網(wǎng)絡爬蟲 Incremental Web Crawler [5]是指對已下載網(wǎng)頁采取增量式更新和只爬行新產(chǎn)生的或者已經(jīng)發(fā)生變化網(wǎng)頁的爬蟲它能夠在一定程度上保證所爬行的頁面是盡可能新的頁面本課題研究的是針對 Web 服務的聚焦網(wǎng)絡爬蟲技術因為聚焦網(wǎng)絡爬蟲技術能最快的最準確的搜索 Web 服務信息本課題并不是重新開發(fā)一個爬蟲程序而是在現(xiàn)有爬蟲開源框架的基礎上進行擴展現(xiàn)有的網(wǎng)絡爬蟲框架有很多例如HeritrixNutchLarbinJSpider 等 Heritrix 是一個由 Java 開發(fā)的開源的 Web 網(wǎng)絡信息采集程序和其他開源的爬蟲程序相比 Heritrix 的優(yōu)勢在于它的擴展性開發(fā)者可以擴展它的組件來實現(xiàn)自己的抓取邏輯 [6]基于聚焦爬蟲的手機天氣預報系統(tǒng) 由以上對爬蟲類型和爬蟲框架的發(fā)展現(xiàn)狀分析本課題使用 Heritrix 開源框架并通過分析網(wǎng)絡上分布 Web 服務的網(wǎng)站的樹形結(jié)構的架構實現(xiàn)針對 Web服務主題的網(wǎng)絡爬蟲第二種情況網(wǎng)站上只提供了服務的 wsdl 文檔的 url沒有其它信息那么本系統(tǒng)就只需要抓取服務的 wsdl 文檔也就不需要分析網(wǎng)站服務分部結(jié)構針對第二種情況主要的研究內(nèi)容如下重新改寫 Heritrix 框架處理流程中的寫鏈以下載搜索到的 wsdl 文檔利用 Client 編寫下載 wsdl 程序方法和手段在擴展 Heritrix 框架的過程中遇到的問題或者使用的插件如下在改寫 Heritrix 框架的提取鏈時需要從分析網(wǎng)站結(jié)構中得到需要遍歷的網(wǎng)頁 URL 在改寫 Heritrix框架的寫鏈時涉及到訪問遠程服務器下載 wsdl文檔解決該問題時我們用到了 HTTPClient 插件該插件能夠?qū)崿F(xiàn)下載遠程服務器上的文檔還可以設定連接時間等由于 Heritrix框架提供了完善的 UI界面操作但是沒有提供完整的代碼啟動程序同時本課題需要把爬蟲啟動操作嵌入到其他程序中所以需要編寫 Heritrix 的代碼啟動模塊在分析網(wǎng)站結(jié)構時需要用到 HTMLParser 插件該插件能夠實現(xiàn)對網(wǎng)頁的詳細分析包括獲取所有網(wǎng)頁標簽信息等功能利用該插件我們可以準確無誤的獲取服務的所有詳細信息在分析網(wǎng)頁結(jié)構時需要人工對網(wǎng)頁的包含信息的標簽進行分析得到該下信息分布的情況然后使用 HTMLParser 準確定位到需求信息的位置并提取信息分析網(wǎng)站結(jié)構過程如下提供一個包含所有 Web service類別的網(wǎng)頁的 URL分析該網(wǎng)頁用以上分析頁面的方法提取出所有的類別頁面的 URL 取出一個服務類別頁面 URL 并對該類別頁面進行分析提取出所有的 Web service 詳細信息頁面的 URL 對詳細信息頁面進行分析提取出所有與 Web service 相關的信息把這些相關信息存入到數(shù)據(jù)庫中提取下一個類別 URL 并重復 2 步驟爬蟲無限循環(huán)執(zhí)行對頁面的分析直到?jīng)]有未訪問過的 URL 存在五可行性分析網(wǎng)絡上 Web服務的飛速增長例如 webser站的服務數(shù)量達到了 2萬多個且服務的種類很多為本系統(tǒng)提供了非常好的搜索源并且網(wǎng)站的分布結(jié)構十分清晰有利于我們設計簡單有效地搜索策略同時網(wǎng)絡爬蟲技術的飛速發(fā)展各種爬蟲開源框架的出現(xiàn)為我們的爬蟲系統(tǒng)提供了良好的技術基礎在開源框架的基礎上結(jié)合對 Web 服務網(wǎng)站的結(jié)構分析就可以實現(xiàn)對網(wǎng)絡上分布的 Web 服務抓取進度安排 1 學習與爬蟲相關的基本知識 2 概念抽象對于 web services 爬蟲的分析和設計 3 構建 web services 爬蟲 4 編程實現(xiàn)與爬蟲測試 5 基于此系統(tǒng)完成論文提出自己的主張 610 參考文獻孫立偉何國輝吳禮發(fā)網(wǎng)絡爬蟲技術研究 Computer Knowledge and Technology 電腦知識與技術 Vol4No15May 2021pp41124115 李盛韜余智華程學旗 Web 信息采集研究進展 J 計算機科學 2021 SChakrabartiMvan den Berg and sed Crawling A New Approach to TopicSpecifi Web Resource Discovery[C]In Proceedings of the 8th International World Wide Web Conference Toronto Canada 1999 [4]鄭力明易平 Design of Crawler Based on HTML Parser Information Extraction 微計算機信息 Microputer Information09June2021 J Cho H GarciaMolina The evolution of the web and implications for an incremental crawler [C] In Proceedings of the 26th International Conference on Very Large Database Cairo Egypt 2021 [6]李文澤個性化垂直搜索引擎研究河南大學 20211107 []曾偉輝李淼深層網(wǎng)絡爬蟲研究綜述 [J] 計算機系統(tǒng)應用 2021 []周立柱林玲聚焦爬蟲技術研究綜述 [J]計算機應用 2021 年 9 月 [9]S Chakrabarti M van den Berg and B Dom Focused Crawling A New Approach to TopicSpecific Web Resource Discovery [C] In Proceedings of the 8th International World Wide Web Conference Toronto Ca

點擊復制文檔內(nèi)容

公司管理相關推薦

軟件工程專業(yè)畢業(yè)論文--面向webservice的網(wǎng)絡爬蟲設計與實現(xiàn)任務書開題報告外文翻譯(參考版)

【摘要】軟件工程專業(yè)畢業(yè)論文--面向webservice的網(wǎng)絡爬蟲設計與實現(xiàn)+任務書+開題報告+外文翻譯面向webservice的網(wǎng)絡爬蟲設計與實現(xiàn)學生姓名學院名稱專業(yè)軟件工程學

2024-12-07 16:58

畢業(yè)論文-面向webservice的網(wǎng)絡爬蟲設計與實現(xiàn)(參考版)

【摘要】畢業(yè)設計（論文）說明書學院軟件學院專業(yè)軟件工程年級07級姓名梁其烜

2025-06-08 05:12

畢業(yè)論文設計：面向webservice的網(wǎng)絡爬蟲設計與實現(xiàn)(參考版)

【摘要】畢業(yè)設計（論文）說明書學院軟件學院專業(yè)軟件工程年級07級姓名梁其烜

2025-06-09 01:32

畢業(yè)論文-面向webservice的網(wǎng)絡爬蟲設計與實現(xiàn)(參考版)

【摘要】畢業(yè)設計（論文）說明書學院軟件學院專業(yè)軟件工程年級07級姓名梁其烜

2025-01-19 23:58

畢業(yè)論文設計：面向webservice的網(wǎng)絡爬蟲設計與實現(xiàn)(參考版)

【摘要】畢業(yè)設計（論文）說明書學院軟件學院專業(yè)軟件工程年級07級姓名梁其烜

2025-01-19 21:22

軟件工程畢業(yè)設計_網(wǎng)絡爬蟲設計與實現(xiàn)(參考版)

【摘要】evaluationofscientificdevelopment.Naturesecuritytype--naturesecurityistomaintenancepeopleofhealthvaluefortarget,throughstrengtheningsecuritybased

2024-12-07 16:56

網(wǎng)絡爬蟲的設計與實現(xiàn)畢業(yè)論文(參考版)

【摘要】摘要Ⅰ摘要網(wǎng)絡爬蟲是一種自動搜集互聯(lián)網(wǎng)信息的程序。通過網(wǎng)絡爬蟲不僅能夠為搜索引擎采集網(wǎng)絡信息，而且可以作為定向信息采集器，定向采集某些網(wǎng)站下的特定信息，如招聘信息，租房信息等。本文通過JAVA實現(xiàn)了一個基于廣度優(yōu)先算法的多線程爬蟲程序。本論文闡述了網(wǎng)絡爬蟲實現(xiàn)中一些主要問題：為何使用廣度優(yōu)先的爬行策略，以及如何實現(xiàn)廣度優(yōu)先爬行；為何要使用多線程，以及如何實現(xiàn)多

2025-06-26 02:26

畢業(yè)論文任務書、文獻與開題報告(參考版)

【摘要】畢業(yè)論文（設計）任務書題　　目：　　　　嘉興中小企業(yè)稅收籌劃相關問題研究　　　　一、主要任務與目標：（一）主要任務在南湖學院規(guī)定的畢業(yè)論文撰寫期間內(nèi)，根據(jù)師生共同商定的畢業(yè)論文選題《嘉興中小企業(yè)稅收籌劃相關問題研究》，綜合運用本科階段所學財務管理專業(yè)知識和相關學科知識，撰寫一篇具有一定的理論價值和應用價值、篇幅不少于8000字的畢業(yè)論文。（二）目標論文的主要目標是要在對國

2025-07-01 10:29

網(wǎng)絡爬蟲的設計與實現(xiàn)畢業(yè)論文正稿(參考版)

【摘要】........摘要網(wǎng)絡爬蟲是一種自動搜集互聯(lián)網(wǎng)信息的程序。通過網(wǎng)絡爬蟲不僅能夠為搜索引擎采集網(wǎng)絡信息，而且可以作為定向信息采集器，定向采集某些網(wǎng)站下的特定信息，如招聘信息，租房信息等。本文通過JAVA實現(xiàn)了一個基于廣度優(yōu)先算法的多線程爬蟲程

2025-07-01 21:18

畢業(yè)論文開題報告和任務書(參考版)

【摘要】畢業(yè)設計（論文）開題報告論文題目：學生：指導教師：所在分院：

2025-07-01 11:34

軟件工程專業(yè)畢業(yè)論文倉庫貨物管理系統(tǒng)的設計與實現(xiàn)(參考版)

【摘要】畢業(yè)設計（論文）題目：倉庫貨物管理系統(tǒng)設計與實現(xiàn)倉庫貨物管理系統(tǒng)的設計與實現(xiàn)摘要倉庫貨物管理系統(tǒng)是一個企業(yè)不可或缺的一部分，其高效快捷的管理功能與是企業(yè)的管理者和決策者來說都是至關重要的。本文論述倉庫貨物管理系統(tǒng)的設計與實現(xiàn)過程，主要完成倉庫貨物管理

2025-06-27 22:06

軟件工程專業(yè)外文翻譯(參考版)

【摘要】54英文原文SSHisSpring+struts+Hibernateanintegrationframework,isoneofthemorepopularaWebapplicationframework.SpringLightweight--fromtwoaspectsintermsofsize

2024-10-25 11:10