freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

畢業(yè)論文-面向webservice的網絡爬蟲設計與實現-文庫吧資料

2025-06-12 05:12本頁面
  

【正文】 , TreadPool 獲得該鏈接,并分配給一個線程。 ? 是負責管理爬蟲線程的程序文件包,線程獲取鏈接,并訪問網頁的。 ? 是寫鏈模塊的程序文件包,主要負責下載 WSDL 文檔。 程序包設計 本系統主要包括 5 大模塊,分別是: 1. 過濾鏈模塊 2. 提取鏈模塊 3. 寫鏈模塊 4. 管理訪問鏈接模塊 5. 管理爬蟲多線程模塊 相對應的程序包設計圖如下: 天津大學 2021屆 本科生畢業(yè)設計(論文) 8 圖 33 程序包設計圖 ? 是過濾鏈模塊的程序文件包,主要負責過 濾無關的網頁鏈接。數據庫表定義如下: 天津大學 2021屆 本科生畢業(yè)設計(論文) 7 表 31 webServiceDetail 表 屬性名 數據類型 非空 自增長 默認值 wsdlAddress VARCHAR(255) √ Provider VARCHAR(30) monitoredSince VARCHAR(50) server VARCHAR(50) availability VARCHAR(50) description VARCHAR(5000) descriptionByUser VARCHAR(1000) fileAddress VARCHAR(255) date datatime state VARCHAR(50) type Boolean √ 重要字段說明: wsdlAddress 字段為主鍵,因為每個服務 WSDL 文檔的 URL 是唯一的。寫鏈主要負責根據服務 WSDL 文檔的 URL 下載服務 WSDL 文檔。 過濾鏈主要負責過濾非本網站鏈接,爬蟲抓取的范圍局限于主網站,所有其他指向網站的鏈接都會過濾。 ? 提取鏈主要負責解析頁面信息,提取的內容包括: ; 細信息內容; ? 寫鏈主要負責把服務信息存儲到數據庫中,下載 WSDL 文檔。 針對提供了詳細信息的服務網站,裁掉了一些 Heritrix 原有處理鏈,只保留了過濾鏈,提取鏈,寫鏈,并對三個處理鏈功能進行重新設定。 Heritrix 框架的多線程管理池可以提供 50 個線程同時進行抓取工 作, Frontier調度器負責調度鏈接, Frontier 把新鏈接加入到待訪問隊列中,把未訪問鏈接傳遞給線程。 如果網站只提供了 Web 服務 WSDL 文檔的 URL,那么系統在抓取網站過程中,只提取 Web 服務 WSDL 的 URL,把該 URL 存入數據庫,并下載 Web 服務的 WSDL 文檔。詳細信息包括:服務描述文檔 WSDL URL、服務提供商、服務注冊時間、服務可用率、服務運行服務器、服務標簽等。 Heritrix[9]是一個比較靈活、可擴展性強的網絡爬蟲開源框架,目前,已經有很多應用在該框架上進行開發(fā),例如基于 Heritrix 的面向電子商務網站的信息抓取,該應用就是在 Heritrix 網絡爬蟲開源框架的基礎上進行擴展、修改 [10],并建立特有的抓取策略來抓取網絡上的電子商務信息 [11]。 聚焦網絡爬蟲也稱為主題爬蟲 [13],大量的應用于互聯網中,例如基于聚焦爬蟲的手機天氣預報系統 [6],就是應用了聚焦網絡爬蟲,通過計算頁面與天氣主題的相關度,抓取網絡上與天氣相關的頁面信息,并把對頁面進行索引,并向用戶提供統一訪問窗口。其應用也十分廣泛,如 :Google 搜索引擎的爬蟲模塊就是一個通用網絡爬蟲,Google 的爬蟲通過 遍歷互聯網上的網頁,并提取網頁的信息,例如關鍵字、類型、網頁超鏈接等,然后建立網頁索引。 網絡信息抓取的主要工具是網絡爬蟲,網絡爬蟲是一種按照一定的規(guī)則,自動的抓起萬維網信息的程序或者腳本。盡管這些網站的數量不及 seekda 的多,但這些網站上的服務對用戶來說,也是有巨大意義的。而且該網站上的服務發(fā)布信息比較齊全,提供了服務的可用率,用戶標簽,提供商,發(fā)布服務器等信息。伴隨著 Web Service 的數量的增長,越來越多的網站關注于如何吸引開發(fā)者把服務發(fā)布在他們的網站中,這些網站采用了服務開發(fā)者在該網站上注冊服務的方式來發(fā)布服務。 第五章 是對全文工作的總結,指出并分析了現階段存在的問題并展望了未來的發(fā)展前景。 第三章 提出了系統的設計和結構,其中包括總體架構、數據庫的設計、工程包的設計和詳細的流程設計。 第一章 主要介紹本課題研究背景,以及研究意義,明確課題主要研究 內容,給出全文的組織結構。利用 HttpClient 編寫下載 WSDL 程序。 第二種情況:網站上只提供了服務 WSDL文檔的 URL,本系統只抓取服務WSDL文檔,不需要分析網站服務分部結構。 通過對網站結構的分析,可以得到網站中服務分布的一顆樹,并用形式化 語言描述這棵樹。 b. 對某類別 Web Service 頁面進行分析,分析出含有所有該類別 Web服務的詳細信息頁面 URL 的 table 表格結構和 URL 的結構。 c. 重新改 寫 Heritrix 框架處理流程的寫鏈,下載搜索到的 wsdl 文檔。 a. 重新改寫 Heritrix 框架處理流程的過濾鏈,過濾不需要訪問的網頁。 為了 實現該目的,本論文的主要研究內容包括: 第一種情況:網站上的服務提供了關于服務的相關信息,那么本系統抓取服務 WSDL 文檔的同時,獲取服務的相關信息。 研究目的和主要內容 為了對互聯網服務進行集中管理,需要將互聯網上的服務信息存放到數據庫中。 現在,互聯網上存在許多被動的,集中式的服務注冊網站,這類網站上的服務可能大部分來源于網站國家的開發(fā)者,服務功能針對某一領域。服務數量的增長,使得用戶查找服務變得困難。 Web 服務允許應用開發(fā)者對不同語言,不同平臺的應用程序進行集成,允許在程序中調用 Web 服務。 3) Downloading the WSDL document: capturing the service WSDL URL, and then using HtmlClient to download the WSDL ) Loading service information into the database: store the information about the service into the database. After Crawling the Web service, users can access Web services through a unified portal , rather than blindly searching on the a more convenient platform environment for the use and development of services. Key words: Crawler; Web service; WSDL; 天津大學 2021屆本科生畢業(yè)設計(論文) 1 目 錄 第一章 緒論 ........................................ 1 問題的背景和意義 .................................. 1 研究目標和目的 .................................... 1 全文安排 ......................................... 2 第二章 相關工作和需求分析 .......................... 3 相關工作 ......................................... 3 功能說明 ......................................... 4 運行環(huán)境 ......................................... 4 第三章 面向 web service 的網絡爬蟲詳細設計 ............ 5 總體架構 ......................................... 5 數據庫設計 ........................................ 6 程序包設計 ........................................ 7 流程設計 ......................................... 8 第四章 面向 web service 的聚焦網絡爬蟲技術實現 ....... 13 分析網站服務分布結構 ............................. 13 網頁內容提取 ..................................... 15 服務提供商集合頁面內容提取 .................. 15 服務提供商頁面內容提取 ...................... 18 服務詳細信息頁面內容提取 .................... 20 頁面鏈接提取 ................................ 22 天津大學 2021屆本科生畢業(yè)設計(論文) 2 下載 WSDL 文檔 .................................... 24 結果展示 ........................................ 24 第五章 總結和展望 ................................. 29 論文總結 ........................................ 29 存在的問題和展望 ................................. 29 參考文獻 .......................................... 30 外文資料 中文譯文 致 謝 天津大學 2021屆 本科生畢業(yè)設計(論文) 1 第一章 緒論 問題的背景和意義 隨著互聯網的飛速發(fā)展,應用程序的集成,軟件和數據的重用成為互聯網發(fā)展的障礙。s WSDL URL and related service information. This paper pleted a Web Crawler about Web service information analysis and main research and development contents are: 1) Analysis Service Web site structure: before capturing the services on a Web site, needing to manually analyze which pages of the site need to be captured, and which information in which pages needs to be captured。為服務的使用和開發(fā)提供更加便利的平臺環(huán)境。 4)加載服務信息到數據庫:把在頁面信息提取中得到的關于服務的信息存入數據庫中。 本文完成了一個 Web 服務信息分析、抓取的網絡爬蟲,主要研究開發(fā)內容有: 1)分析服務網站結構:在抓取某個網站上的服務前,要人工的分析出該網站哪些頁面需要抓取,哪些頁面中哪些信息需要抓取; 2)頁面信息提?。焊鶕斯し治龀龅哪男╉撁嬷心男┬畔⑿枰ト〉慕Y構,使用 HtmlParser 工具抓取頁面中的信息。 3. 構建 web services 爬蟲, 至 。 六、 進度安排: 1. 學習與爬蟲相關的基本知識, 至 。同時網絡爬蟲技術的飛速發(fā)展,各種爬蟲開源框架的出現,為我們的爬蟲系統提供了良好的 技術基礎。 五、可行性分析: 網絡上 Web服務的飛速增長,例如 到了 2萬多個,且服務的種類很多,為本系統提供了非常好的搜索源。并重復 2 步驟。 4. 把這些相關信息存入到數據庫中。 2. 并對該類別頁面進行分析,提取出所有的 Web service 詳細信息頁面的URL。 在分析網頁結構時,需要人工對網頁的包含信息的table標簽進行分析,得到該 table下信息分布的情況,然后使用 HTMLParser準確定位到需求信息的位置,并提取信息。 在分析網站結構時,需要用到 HTMLParser 插件,該插件能夠實現對網頁的詳細分析,包括獲取所有網頁標簽 信息等功能。解決該問題時,我們用到了 HTTPClient 插件,該插件能夠實現下載遠程服務器上的文檔,還可以設定連接時間等。 四、 方法和手段: 在擴展 Heritrix 框架的過程中,遇到的問題或者使用的插件如下: 1. 在改寫 Heritrix 框架的提取鏈時,需要從 分析
點擊復制文檔內容
畢業(yè)設計相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1