正文內容

畢業(yè)論文-面向webservice的網絡爬蟲設計與實現-文庫吧資料

2025-06-12 05:12本頁面

　　

【正文】， TreadPool 獲得該鏈接，并分配給一個線程。 ? 是負責管理爬蟲線程的程序文件包，線程獲取鏈接，并訪問網頁的。 ? 是寫鏈模塊的程序文件包，主要負責下載 WSDL 文檔。程序包設計本系統主要包括 5 大模塊，分別是： 1. 過濾鏈模塊 2. 提取鏈模塊 3. 寫鏈模塊 4. 管理訪問鏈接模塊 5. 管理爬蟲多線程模塊相對應的程序包設計圖如下：天津大學 2021屆本科生畢業(yè)設計（論文） 8 圖 33 程序包設計圖 ? 是過濾鏈模塊的程序文件包，主要負責過濾無關的網頁鏈接。數據庫表定義如下：天津大學 2021屆本科生畢業(yè)設計（論文） 7 表 31 webServiceDetail 表屬性名數據類型非空自增長默認值 wsdlAddress VARCHAR(255) √ Provider VARCHAR(30) monitoredSince VARCHAR(50) server VARCHAR(50) availability VARCHAR(50) description VARCHAR(5000) descriptionByUser VARCHAR(1000) fileAddress VARCHAR(255) date datatime state VARCHAR(50) type Boolean √ 重要字段說明： wsdlAddress 字段為主鍵，因為每個服務 WSDL 文檔的 URL 是唯一的。寫鏈主要負責根據服務 WSDL 文檔的 URL 下載服務 WSDL 文檔。過濾鏈主要負責過濾非本網站鏈接，爬蟲抓取的范圍局限于主網站，所有其他指向網站的鏈接都會過濾。 ? 提取鏈主要負責解析頁面信息，提取的內容包括：；細信息內容； ? 寫鏈主要負責把服務信息存儲到數據庫中，下載 WSDL 文檔。針對提供了詳細信息的服務網站，裁掉了一些 Heritrix 原有處理鏈，只保留了過濾鏈，提取鏈，寫鏈，并對三個處理鏈功能進行重新設定。 Heritrix 框架的多線程管理池可以提供 50 個線程同時進行抓取工作， Frontier調度器負責調度鏈接， Frontier 把新鏈接加入到待訪問隊列中，把未訪問鏈接傳遞給線程。如果網站只提供了 Web 服務 WSDL 文檔的 URL，那么系統在抓取網站過程中，只提取 Web 服務 WSDL 的 URL，把該 URL 存入數據庫，并下載 Web 服務的 WSDL 文檔。詳細信息包括：服務描述文檔 WSDL URL、服務提供商、服務注冊時間、服務可用率、服務運行服務器、服務標簽等。 Heritrix[9]是一個比較靈活、可擴展性強的網絡爬蟲開源框架，目前，已經有很多應用在該框架上進行開發(fā)，例如基于 Heritrix 的面向電子商務網站的信息抓取，該應用就是在 Heritrix 網絡爬蟲開源框架的基礎上進行擴展、修改 [10]，并建立特有的抓取策略來抓取網絡上的電子商務信息 [11]。聚焦網絡爬蟲也稱為主題爬蟲 [13]，大量的應用于互聯網中，例如基于聚焦爬蟲的手機天氣預報系統 [6]，就是應用了聚焦網絡爬蟲，通過計算頁面與天氣主題的相關度，抓取網絡上與天氣相關的頁面信息，并把對頁面進行索引，并向用戶提供統一訪問窗口。其應用也十分廣泛，如 :Google 搜索引擎的爬蟲模塊就是一個通用網絡爬蟲，Google 的爬蟲通過遍歷互聯網上的網頁，并提取網頁的信息，例如關鍵字、類型、網頁超鏈接等，然后建立網頁索引。網絡信息抓取的主要工具是網絡爬蟲，網絡爬蟲是一種按照一定的規(guī)則，自動的抓起萬維網信息的程序或者腳本。盡管這些網站的數量不及 seekda 的多，但這些網站上的服務對用戶來說，也是有巨大意義的。而且該網站上的服務發(fā)布信息比較齊全，提供了服務的可用率，用戶標簽，提供商，發(fā)布服務器等信息。伴隨著 Web Service 的數量的增長，越來越多的網站關注于如何吸引開發(fā)者把服務發(fā)布在他們的網站中，這些網站采用了服務開發(fā)者在該網站上注冊服務的方式來發(fā)布服務。第五章是對全文工作的總結，指出并分析了現階段存在的問題并展望了未來的發(fā)展前景。第三章提出了系統的設計和結構，其中包括總體架構、數據庫的設計、工程包的設計和詳細的流程設計。第一章主要介紹本課題研究背景，以及研究意義，明確課題主要研究內容，給出全文的組織結構。利用 HttpClient 編寫下載 WSDL 程序。第二種情況：網站上只提供了服務 WSDL文檔的 URL，本系統只抓取服務WSDL文檔，不需要分析網站服務分部結構。通過對網站結構的分析，可以得到網站中服務分布的一顆樹，并用形式化語言描述這棵樹。 b. 對某類別 Web Service 頁面進行分析，分析出含有所有該類別 Web服務的詳細信息頁面 URL 的 table 表格結構和 URL 的結構。 c. 重新改寫 Heritrix 框架處理流程的寫鏈，下載搜索到的 wsdl 文檔。 a. 重新改寫 Heritrix 框架處理流程的過濾鏈，過濾不需要訪問的網頁。為了實現該目的，本論文的主要研究內容包括：第一種情況：網站上的服務提供了關于服務的相關信息，那么本系統抓取服務 WSDL 文檔的同時，獲取服務的相關信息。研究目的和主要內容為了對互聯網服務進行集中管理，需要將互聯網上的服務信息存放到數據庫中。現在，互聯網上存在許多被動的，集中式的服務注冊網站，這類網站上的服務可能大部分來源于網站國家的開發(fā)者，服務功能針對某一領域。服務數量的增長，使得用戶查找服務變得困難。 Web 服務允許應用開發(fā)者對不同語言，不同平臺的應用程序進行集成，允許在程序中調用 Web 服務。 3) Downloading the WSDL document: capturing the service WSDL URL, and then using HtmlClient to download the WSDL ) Loading service information into the database: store the information about the service into the database. After Crawling the Web service, users can access Web services through a unified portal , rather than blindly searching on the a more convenient platform environment for the use and development of services. Key words： Crawler； Web service； WSDL；天津大學 2021屆本科生畢業(yè)設計（論文） 1 目錄第一章緒論 ........................................ 1 問題的背景和意義 .................................. 1 研究目標和目的 .................................... 1 全文安排 ......................................... 2 第二章相關工作和需求分析 .......................... 3 相關工作 ......................................... 3 功能說明 ......................................... 4 運行環(huán)境 ......................................... 4 第三章面向 web service 的網絡爬蟲詳細設計 ............ 5 總體架構 ......................................... 5 數據庫設計 ........................................ 6 程序包設計 ........................................ 7 流程設計 ......................................... 8 第四章面向 web service 的聚焦網絡爬蟲技術實現 ....... 13 分析網站服務分布結構 ............................. 13 網頁內容提取 ..................................... 15 服務提供商集合頁面內容提取 .................. 15 服務提供商頁面內容提取 ...................... 18 服務詳細信息頁面內容提取 .................... 20 頁面鏈接提取 ................................ 22 天津大學 2021屆本科生畢業(yè)設計（論文） 2 下載 WSDL 文檔 .................................... 24 結果展示 ........................................ 24 第五章總結和展望 ................................. 29 論文總結 ........................................ 29 存在的問題和展望 ................................. 29 參考文獻 .......................................... 30 外文資料中文譯文致謝天津大學 2021屆本科生畢業(yè)設計（論文） 1 第一章緒論問題的背景和意義隨著互聯網的飛速發(fā)展，應用程序的集成，軟件和數據的重用成為互聯網發(fā)展的障礙。s WSDL URL and related service information. This paper pleted a Web Crawler about Web service information analysis and main research and development contents are: 1) Analysis Service Web site structure: before capturing the services on a Web site, needing to manually analyze which pages of the site need to be captured, and which information in which pages needs to be captured。為服務的使用和開發(fā)提供更加便利的平臺環(huán)境。 4）加載服務信息到數據庫：把在頁面信息提取中得到的關于服務的信息存入數據庫中。本文完成了一個 Web 服務信息分析、抓取的網絡爬蟲，主要研究開發(fā)內容有： 1）分析服務網站結構：在抓取某個網站上的服務前，要人工的分析出該網站哪些頁面需要抓取，哪些頁面中哪些信息需要抓取； 2）頁面信息提?。焊鶕斯し治龀龅哪男╉撁嬷心男┬畔⑿枰ト〉慕Y構，使用 HtmlParser 工具抓取頁面中的信息。 3. 構建 web services 爬蟲，至。六、進度安排： 1. 學習與爬蟲相關的基本知識，至。同時網絡爬蟲技術的飛速發(fā)展，各種爬蟲開源框架的出現，為我們的爬蟲系統提供了良好的技術基礎。五、可行性分析：網絡上 Web服務的飛速增長，例如到了 2萬多個，且服務的種類很多，為本系統提供了非常好的搜索源。并重復 2 步驟。 4. 把這些相關信息存入到數據庫中。 2. 并對該類別頁面進行分析，提取出所有的 Web service 詳細信息頁面的URL。在分析網頁結構時，需要人工對網頁的包含信息的table標簽進行分析，得到該 table下信息分布的情況，然后使用 HTMLParser準確定位到需求信息的位置，并提取信息。在分析網站結構時，需要用到 HTMLParser 插件，該插件能夠實現對網頁的詳細分析，包括獲取所有網頁標簽信息等功能。解決該問題時，我們用到了 HTTPClient 插件，該插件能夠實現下載遠程服務器上的文檔，還可以設定連接時間等。四、方法和手段：在擴展 Heritrix 框架的過程中，遇到的問題或者使用的插件如下： 1. 在改寫 Heritrix 框架的提取鏈時，需要從分析

點擊復制文檔內容

畢業(yè)設計相關推薦

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

畢業(yè)論文-面向webservice的網絡爬蟲設計與實現-文庫吧資料

畢業(yè)論文設計：面向webservice的網絡爬蟲設計與實現-文庫吧資料

軟件工程專業(yè)畢業(yè)論文--面向webservice的網絡爬蟲設計與實現任務書開題報告外文翻譯-文庫吧資料

網絡爬蟲的設計與實現畢業(yè)論文-文庫吧資料

網絡爬蟲的設計與實現畢業(yè)論文正稿-文庫吧資料

基于多線程的網絡爬蟲的設計與實現畢業(yè)論文-文庫吧資料

網絡爬蟲設計與實現畢業(yè)設計論文-文庫吧資料

新聞爬蟲系統的設計與實現畢業(yè)論文-文庫吧資料

畢業(yè)設計---網絡爬蟲的設計與實現-文庫吧資料

畢業(yè)設計---網絡爬蟲設計與實現-文庫吧資料

網絡爬蟲的設計與實現-文庫吧資料

基于網絡爬蟲的搜索引擎設計與實現—畢業(yè)設計論文-文庫吧資料

基于web的網絡課堂的設計與實現計算機畢業(yè)論文-文庫吧資料

基于web的成績管理設計與實現畢業(yè)論文-文庫吧資料

基于web的虛擬校園設計與實現畢業(yè)論文-文庫吧資料

基于web的選課系統設計與實現畢業(yè)論文-文庫吧資料

畢業(yè)論文-面向webservice的網絡爬蟲設計與實現-文庫吧

畢業(yè)論文-面向webservice的網絡爬蟲設計與實現-wenkub

畢業(yè)論文-面向webservice的網絡爬蟲設計與實現(已修改)

畢業(yè)論文-面向webservice的網絡爬蟲設計與實現(編輯修改稿)