freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

軟件工程專業(yè)畢業(yè)論文--面向webservice的網(wǎng)絡(luò)爬蟲設(shè)計與實現(xiàn)任務書開題報告外文翻譯(存儲版)

2025-01-12 16:58上一頁面

下一頁面
  

【正文】 nada 1999 [10]陳汶濱夏學梅 基于聚焦爬蟲的手機天氣預報系統(tǒng) [J] 今日科苑 2021年第 2 期 [1]邱哲符滔滔 開發(fā)自己的搜索引擎 Lucene 20Heritrix 人民郵電出版社 20214 [1]羅剛 自己動手寫網(wǎng)絡(luò)爬蟲 清華大學出版社 2021101 []Heritrix 官方網(wǎng)站 [EBOL] cra []網(wǎng)絡(luò)爬蟲 [EBOL] bview284853htm []Roberston L Anecdotes [Google search engine] [J] Annals of the History of Computing 2021 Volume 27 9697 選題是否合適 是□ 否□ 課題能否實現(xiàn) 能□ 不能□ 指導教師簽字 年 月 日 選題是否合適 是□ 否□ 課題能否實現(xiàn) 能□ 不能□ 審題小組組長簽字 年 月 日 摘 要 互聯(lián)網(wǎng)上的服務數(shù)量增長快速網(wǎng)站提供的關(guān)于服務的信息也各異導致用戶難以正確快速的找到合適的服務為了 解決以上問題需要獲取和保存服務的 WSDL的 URL 和相關(guān)的服務信息 本文完成了一個 Web 服務信息分析抓取的網(wǎng)絡(luò)爬蟲主要研究開發(fā)內(nèi)容有 1分析服務網(wǎng)站結(jié)構(gòu)在抓取某個網(wǎng)站上的服務前要人工的分析出該網(wǎng)站哪些頁面需要抓取哪些頁面中哪些信息需要抓取 2 頁面信息提取根據(jù)人工分析出的哪些頁面中哪些信息需要抓取的結(jié)構(gòu)使用 HtmlParser 工具抓取頁面中的信息 3 下載WSDL 文檔在抓取到了服務 WSDL 的 URL 后使用 HtmlClient 下載 WSDL 文檔 4 加載服務信息到數(shù)據(jù)庫把在頁面信息提取中得到的關(guān)于服務的信息存入數(shù)據(jù)庫中 通過對 Web 服務的抓取用戶可以通過統(tǒng)一的入口來訪問這些服務而不用在互聯(lián)網(wǎng)上盲目搜索為服務的使用和開發(fā)提供更加便利的平臺環(huán)境 關(guān)鍵詞爬蟲網(wǎng)絡(luò)服務 WSDL ABSTRACT The number of services on the Inter Increase quicklythe information sites provide about services is also different leading to that it is difficult for users to correctly and quickly find the right services in order to solve the above problems needing to capture and store the services WSDL URL and related service information This paper pleted a Web Crawler about Web service information analysis and crawlThe main research and development contents are 1 Analysis Service Web site structure before capturing the services on a Web site needing to manually analyze which pages of the site need to be captured and which information in which pages needs to be captured 2 Page information extraction According to the manual analysis that which information in which paper needs to be captured then using HtmlParser tools to capture the information in the page 3 Downloading the WSDL document capturing the service WSDL URL and then using HtmlClient to download the WSDL document4 Loading service information into the database store the information about the service into the database After Crawling the Web service users can access Web services through a unified portal rather than blindly searching on the InterProviding a more convenient platform environment for the use and development of services Key words 第一章 緒論 1 11 問題的背景和意義 1 12 研究目標和目的 1 13 全文安排 2 第二章 相關(guān)工作和需求分析 3 21 相關(guān)工作 3 22 功能說明 4 23 運行環(huán)境 4 第三章 面向 web service 的網(wǎng)絡(luò)爬蟲詳細 設(shè)計 5 31 總體架構(gòu) 5 32 數(shù)據(jù)庫設(shè)計 6 33 程序包設(shè)計 7 34 流程設(shè)計 8 第四章 面向 web service 的聚焦網(wǎng)絡(luò)爬蟲技術(shù)實現(xiàn) 13 41 分析網(wǎng)站服務分布結(jié)構(gòu) 13 42 網(wǎng)頁內(nèi)容提取 15 服務提供商集合頁面內(nèi)容提取 15 服務提供商頁面內(nèi)容提取 18 服務詳細信息頁面內(nèi)容提取 20 頁面鏈接提取 22 43 下載 WSDL 文檔 24 44 結(jié)果展示 24 第五章 總結(jié)和展望 29 51 論文總結(jié) 29 52 存在的問題和展望 29 參考文獻 30 外文資料 中文譯文 致 謝 緒論 11 問題的背景和意義 隨著互聯(lián)網(wǎng)的飛速發(fā)展應用程序的集成軟件和數(shù)據(jù)的重用成為互聯(lián)網(wǎng)發(fā)展的障礙 Web 服務的出現(xiàn)有效的解決了以上難題 Web 服務允許應用開發(fā)者對不同語言不同平臺的應用程序進行集成允許在程序中調(diào)用 Web 服務正因為 Web服務的有效的解決了以上問題互聯(lián)網(wǎng)上的服務發(fā)展迅速服務數(shù)量飛速增長服務數(shù)量的增長使得用戶查找服務變得困難另外 Web 服務的發(fā)展也產(chǎn)生了另外一個應用模式組合應用 Mushup 把不同的 Web 服務進行組合滿足用戶需求 現(xiàn)在互聯(lián)網(wǎng)上存在 許多被動的集中式的服務注冊網(wǎng)站這類網(wǎng)站上的服務可能大部分來源于網(wǎng)站國家的開發(fā)者服務功能針對某一領(lǐng)域但是通過主動式的爬取獲得并存儲互聯(lián)網(wǎng)上的服務對服務進行集中管理有利于對用戶提供統(tǒng)一的訪問方式有利于對互聯(lián)網(wǎng)服務的分析提高組合的效率 12 研究目的和主要內(nèi)容 為了對互聯(lián)網(wǎng)服務進行集中管理需要將互聯(lián)網(wǎng)上的服務信息存放到數(shù)據(jù)庫中所以本論文的目的是通過爬蟲抓取得到互聯(lián)網(wǎng)上的 Web 服務信息并把服務信息存放到數(shù)據(jù)庫中 為了實現(xiàn)該目的本論文的主要研究內(nèi)容包括 第一種情況網(wǎng)站上的服務提供了關(guān)于服務的相關(guān)信息那么本系統(tǒng)抓取服務WSDL 文檔的同時獲取服務的相關(guān)信息針對這種情況研究內(nèi)容如下 1 開源框架 Heritrix 的擴展 因為現(xiàn)有的開源爬蟲框架 Heritrix 提供了網(wǎng)絡(luò)搜索的基本結(jié)構(gòu)所以我會擴展 Heritrix 框架使該框架適用于本系統(tǒng) a 重新改寫 Heritrix 框架處理流程的過濾鏈過濾不需要訪問的網(wǎng)頁 b 重新改寫 Heritrix 框架處理流程的提取鏈提取網(wǎng)頁包含的信息 c 重新改寫 Heritrix 框架處理流程的寫鏈下載搜索到的 wsdl 文檔 2 對網(wǎng)站服務分布結(jié)構(gòu)的分析 a 對網(wǎng)站 Web 服務的分類頁面進行分析分 析出含有所有 Web 服務的種類URL 的 table 表格結(jié)構(gòu)和 URL 的結(jié)構(gòu) b 對某類別 Web Service 頁面進行分析分析出含有所有該類別 Web 服務的詳細信息頁面 URL 的 table 表格結(jié)構(gòu)和 URL 的結(jié)構(gòu) c 對 Web 服務詳細信息頁面進行分析分析出 Web 服務信息的 table 表格結(jié)構(gòu) 通過對網(wǎng)站結(jié)構(gòu)的分析可以得到網(wǎng)站中服務分布的一顆樹并用形式化語言描述這棵樹采用數(shù)據(jù)結(jié)構(gòu)中的樹結(jié)構(gòu)來描述網(wǎng)站服務的分布樹擴展后的爬蟲得到根節(jié)點 URL 通過根節(jié)點對整棵樹進行遍歷抓起網(wǎng)站所有的 Web 服務 第二種情況網(wǎng)站上只提供了服務 WSDL 文檔的 URL 本系統(tǒng)只抓取服務 WSDL文檔不需要分析網(wǎng)站服務分部結(jié)構(gòu)針對第二種情況主要的研究內(nèi)容如下 重新改寫 Heritrix 框架處理流程中的寫鏈以下載搜索到的 WSDL 文檔利用HttpClient 編寫下載 WSDL 程序 13 全文安排 全文共分為六章 主要介紹本課題研究背景以及研究意義明確課題主要研究內(nèi)容給出全文的組織結(jié)構(gòu) 介紹了互聯(lián)網(wǎng)上的服務的分布情況和相關(guān)爬蟲技術(shù)并對需求進行分析包括功能說明和運行環(huán)境 提出了系統(tǒng)的設(shè)計和結(jié)構(gòu)其中包括總體架構(gòu)數(shù)據(jù)庫的設(shè)計工程包的設(shè)計和詳細的流程設(shè)計 在第三章得基礎(chǔ)上 給出了具體的實現(xiàn)方法其中主要包括分析網(wǎng)站服務分部結(jié)構(gòu)頁面內(nèi)容提取下載 WSDL 文檔以及結(jié)果展示 是對全文工作的總結(jié)指出并分析了現(xiàn)階段存在的問題并展望了未來的發(fā)展前景 第二章 相關(guān)工作和需求分析 21 相關(guān)工作 隨著 Web服務開發(fā)者數(shù)量的增加互聯(lián)網(wǎng)上的 Web服務數(shù)量以爆炸方式增長伴隨著 Web Service的數(shù)量的增長越來越多的網(wǎng)站關(guān)注于如何吸引開發(fā)者把服務發(fā)布在他們的網(wǎng)站中這些網(wǎng)站采用了服務開發(fā)者在該網(wǎng)站上注冊服務的方式來發(fā)布服務 其中 seekda[1]網(wǎng)站是現(xiàn)有的最大的服務注冊網(wǎng)站一共有 7663 個服務提供商在該網(wǎng)站上注冊據(jù)統(tǒng)計大約有 2 萬多個服務在該網(wǎng)站上進行發(fā)布而且該網(wǎng)站上的服務發(fā)布信息比較齊全提供了服務的可用率用戶標簽提供商發(fā)布服務器等信息還有其它一些服務注冊網(wǎng)站例如 盡管這些網(wǎng)站的數(shù)量不及seekda 的多但這些網(wǎng)站上的服務對用戶來說也是有巨大意義的其服務信息很豐富需要把網(wǎng)絡(luò)上的服務抓取和集中管理 網(wǎng)絡(luò)信息抓取的主要工具是網(wǎng)絡(luò)爬蟲網(wǎng)絡(luò)爬蟲是一種按照一定的規(guī)則自動的抓起萬維網(wǎng)信息的程序或者腳本 [2]現(xiàn)有的網(wǎng)絡(luò)爬蟲可以分為以下幾種類型 [3]通用網(wǎng)絡(luò)爬蟲 [12]聚焦網(wǎng)絡(luò)爬蟲 [15]增量式網(wǎng)絡(luò)爬蟲 [4]Deep Web 爬蟲 [14]其應用也十分廣泛如 Google搜索引擎的爬蟲模塊就是一個通用網(wǎng)絡(luò)爬蟲 Google的爬蟲通過遍歷互聯(lián)網(wǎng)上的網(wǎng)頁并提取網(wǎng)頁的信息例如關(guān)鍵字類型網(wǎng)頁超鏈接等然后建立網(wǎng)頁索引最后在這些網(wǎng)頁信息上建立搜索引擎向用戶提供統(tǒng)一的訪問網(wǎng)頁的窗口 [5] 聚焦網(wǎng)絡(luò)爬蟲也稱為主題爬蟲 [13]大量的應用于互聯(lián)網(wǎng)中例如基于聚焦爬蟲的手機天氣預報系統(tǒng) [6]就是應用了聚焦網(wǎng)絡(luò)爬蟲通過計算頁面與天氣主題的相關(guān)度抓取網(wǎng)絡(luò)上與天氣相關(guān)的頁面信息并把對頁面進行索引并向用戶提供統(tǒng)一訪問窗口 Web服務有其特定結(jié)構(gòu) Web服務網(wǎng)絡(luò)爬蟲不僅僅遍歷網(wǎng)頁并建立索引而且在遍歷網(wǎng)頁過程中利用網(wǎng)頁分析工具解析網(wǎng)頁 [7]把 Web 服務相關(guān)信息抓取下來如注冊標簽提供商注冊時間可用率服務器等 Heritrix[9]是一個比較靈活可擴展性強的網(wǎng)絡(luò)爬蟲開源框架目前已經(jīng)有很多應用在該框架上進行開發(fā)例如基于 Heritrix 的面向電子商務網(wǎng)站的信息抓取該應用就是在 Heritrix 網(wǎng)絡(luò)爬蟲開源框架的基礎(chǔ)上進行擴展修改 [10]并建立特有的抓取策略來抓取網(wǎng)絡(luò)上的電子商務信息 [11] 22 功能說明 本系統(tǒng)包含以下功能 如 果網(wǎng)站提供了詳細的服務信息那么功能如下 存儲服務的詳細信息 遍歷網(wǎng)站結(jié)構(gòu)過程中如果頁面是服務詳細信息頁面需要對頁面進行解析把服務的詳細信息提取出來并存入數(shù)據(jù)庫詳細信息包括服務描述文檔 WSDL URL 服務提供商服務注冊時間服務可用率服務運行服務器服務標簽等 下載 WSDL 文檔 提取了 Web服務詳細信息后根據(jù) Web服務 WSDL文檔的 URL下載 WSDL文檔并把文檔內(nèi)容存放到數(shù)據(jù)庫中 如果網(wǎng)站只提供了 Web 服務 WSDL 文檔的 URL 那么系統(tǒng)在抓取網(wǎng)站過程中只提取 Web 服務 WSDL 的 URL 把該 URL 存入數(shù)據(jù)庫并下 載 Web 服務的 WSDL 文檔 23 運行環(huán)境 要求程序能夠運行在如下環(huán)境中操作系統(tǒng) Windows XP 運行平臺 MyEclipse 65 以上 java 虛擬機 JVM 數(shù)據(jù)庫 MySQL51 第三章 面向 web service 的網(wǎng)絡(luò)爬蟲的詳細設(shè)計第四章 面向 web service 的聚焦網(wǎng)絡(luò)爬蟲的技術(shù)實現(xiàn) if urlcontains providersalphabetic 該頁面時提供商集合頁面 Sytln url 進入 執(zhí)行操作 1 condition1 contentcuri else if urlcon
點擊復制文檔內(nèi)容
公司管理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1