freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

畢業(yè)論文設計:面向webservice的網絡爬蟲設計與實現(xiàn)-免費閱讀

2025-07-07 01:32 上一頁面

下一頁面
  

【正文】 但是,當對新的服務注冊網站進行抓取時,就需要重新編寫抓取流程和抓取頁面內容方法。爬蟲運行的中間結果如圖 410 所示: 天津大學 2021屆本科生畢業(yè)設計(論文) 28 圖 410 爬蟲運行中間結果 爬蟲運行最終結果是: seekda網站的抓取過程花費了大約 2天的時間,抓取到了 21273個服務,這些服務中,能夠下載 WSDL文檔的服務有 17255個,下載的服務信息存儲在數據庫中。 2. 打 開 瀏 覽 器, 輸 入 : 并 輸 入 用 戶名 和 密 碼( admin|admin) ,登陸成功進入操作頁面。代碼如下: //得到遠程服務器返回 WSDL 文檔的輸入流 ReplayInputStream replayis = ()。 } 3. 得到了所 有的 a標簽集合,這些集合都存儲在 nodelist中,循環(huán)遍歷集合,得到 URL,并把 URL通過 addLinkFromString() 函數加入到爬蟲待訪問隊列中。 try { parser = new Parser(content)。 if(beginIndex == 1 || endIndex == 1){ url = null。 url = (beginIndex+3, endIndex)。 endIndex = (/a)。 beginIndex = (value=\)。 for(int i=0。web_service39。 try { nodelist = (attributes_filter)。 Parser parser = null。 天津大學 2021屆本科生畢業(yè)設計(論文) 18 (extractor 抓取了 url: + url)。 i++) { LinkTag aNode = (LinkTag) ((i))。 } catch (ParserException e1) { ()。 try { nodelist = (attributes_filter)。在這個 ul 標簽中,每個服務提供商頁面 URL 都在一 個 a 標簽中。 //執(zhí)行操作 3 condition3(content,curi)。p=*結尾的 URL 就是服務提供商頁面。 網站服務分部結構如圖 41 所示: 天津大學 2021屆本科生畢業(yè)設計(論文) 14 圖 41 網站服務分布結構圖 要把網站結構應用于爬蟲中,就需要知道哪些頁面是服務詳細信息頁面、服務提供商頁面、服務提供商集合頁面。所以我 對 seekda 網站的具體分析如下: 用戶在 Seekda 網站上有三種方式可以查找服務: 1. 網站提供了強大的搜索功能,用戶可以在搜索頁面輸入服務名、服務標 簽、服務注冊時間等信息進行搜索。 天津大學 2021屆本科生畢業(yè)設計(論文) 12 4. 鏈接進入了提取鏈,提取鏈知道了過濾鏈對鏈接頁面類型的判斷后,對 頁面進行不同策略的分析和提取。 如果該頁面是提供商服務集合頁面,提取鏈就對該頁面進行服務詳 細信息頁面鏈接的抓取,并把這些鏈接加入到待訪問隊列中。 ? 是負責管理待訪問隊列的鏈接的程序文件包,向線程傳遞鏈接。提取鏈主要負責解析網頁內容,提取服務 WSDL 文檔的 URL。 運行環(huán)境 要求程序能夠運行在如下環(huán)境中:操作系統(tǒng): Windows XP;運行平臺:MyEclipse 以上; java 虛擬機: JVM 以上;數據庫: 天津大學 2021屆本科生畢業(yè)設計(論文) 5 第三章 面向 web service 的網絡爬蟲的詳細設計 總體架構 本系統(tǒng)采用的是廣度優(yōu)先策略,利用網絡爬蟲開源框架 Heritrix 的多線程管理、鏈接調度器模塊,擴展了 Heritrix 的處理鏈流程。最后在這些網頁信息上建立搜索引擎,向用戶提供統(tǒng)一的訪問網頁的窗口 [5]。 其中, seekda[1]網站是現(xiàn)有的最大的服務注冊網站,一共有 7663 個服務提供商在該網站上注冊,據統(tǒng)計,大約有 2 萬多個服務在該網站上進行發(fā)布。 全文安排 全文共分為六章。 a. 對網站 Web 服務的分類頁面進行分析,分析出含有所有 Web 服務的種類 URL 的 table 表格結構和 URL 的結構。但是通過主動式的爬取,獲得并存儲互聯(lián)網上的服務,對服務進行集中管理,有利于對用戶提供統(tǒng)一的訪問方式,有利于對互聯(lián)網服務的分析,提高組合的效率。 2) Page information extraction: According to the manual analysis that which information in which paper needs to be captured, then using HtmlParser tools to capture the information in the page。 選題是否合適: 是□ 否□ 課題能否實現(xiàn): 能□ 不能□ 指導教師 (簽字) 年 月 日 選題是否合適: 是□ 否□ 課題能否實現(xiàn): 能□ 不能□ 審題小組組長(簽字) 年 月 日 摘 要 互聯(lián)網上的服務數量增長快速,網站提供的關于服務的信息也各異,導致用戶難以正確、快速的找到合適的服務,為了解決以上問題,需要獲取和保存服務的 WSDL 的 URL 和相關的服務信息。 爬蟲無限循環(huán)執(zhí)行對頁面的分析,直到沒有未訪問過的 URL 存在。利用該插件,我們可以準確無誤的獲取服務的所有詳細信息。 第二種情況:網站上只提供了服務的 wsdl文檔的 url,沒有其它信息,那么本系統(tǒng)就只需要抓取服務的 wsdl文檔,也就不需要分析網站服務分部結構。 a. 重新改寫 Heritrix 框架處理流程中的過濾鏈,以過濾不需要訪問的網頁。 現(xiàn)有的網絡爬蟲框架有很多,例如:Heritrix、 Nutch、 Larbin、 JSpider 等。通用網絡爬蟲 [2]又稱全網爬蟲 (Scalable Web Crawler),爬行對象從一些種子 URL 擴充到整個 Web ,主要為門戶站點搜索引擎和大型 Web 服務提供商采集數據。 當服務網站沒有提供服務的信息,只提供了 WSDL 文檔的 URL,那么就遍歷網站中所有的本網站的網頁,并判斷網頁中的鏈接是否是 WSDL 文檔的 URL, 如果是,就下載該 WSDL 文檔。微計算機信息, Microputer Information。所以 Web Services 技術成為了網絡上的主流技術之一,隨之也來的是大量的開發(fā)人員開始開發(fā) Web 服務,隨著時間的推移,網絡上出現(xiàn)了大量的 Web 服務。 Web Services 技術是可以改變軟件產業(yè)面貌和軟件應用模式的技術之一。Computer Knowledge and Technology 電腦知識與技術 。 ? 把搜索到的 Web 服務相關信息存入數據庫中。 二、 國內外發(fā)展狀況: 收集互聯(lián)網上的信息的系統(tǒng)被稱為網絡爬蟲 (又被稱為網頁蜘蛛,網絡機器人,在 FOAF 社區(qū)中間 ,更經常的稱為網頁追逐者 ),它是一種按照一定的規(guī)則 ,自動的抓取萬維網信息的程序或者 腳本 。 本課題研究的是針對 Web 服務的聚焦網絡爬蟲技術。 由以上對爬蟲類型和爬蟲框架的發(fā)展現(xiàn)狀分析,本課題使用 Heritrix 開源框架,并通過分析網絡上分布 Web 服務的網站的樹形結構的架構,實現(xiàn)針對 Web服務主題的網絡爬蟲。 c. 對 Web Service 詳細信息頁面進行分析,分析出包含所有與該 Web Service 相關的信息的 table 表格結構。解決該問題時,我們用到了 HTTPClient 插件,該插件能夠實現(xiàn)下載遠程服務器上的文檔,還可以設定連接時間等。 4. 把這些相關信息存入到數據庫中。 六、 進度安排: 1. 學習與爬蟲相關的基本知識, 至 。為服務的使用和開發(fā)提供更加便利的平臺環(huán)境。服務數量的增長,使得用戶查找服務變得困難。 a. 重新改寫 Heritrix 框架處理流程的過濾鏈,過濾不需要訪問的網頁。 第二種情況:網站上只提供了服務 WSDL文檔的 URL,本系統(tǒng)只抓取服務WSDL文檔,不需要分析網站服務分部結構。 第五章 是對全文工作的總結,指出并分析了現(xiàn)階段存在的問題并展望了未來的發(fā)展前景。 網絡信息抓取的主要工具是網絡爬蟲,網絡爬蟲是一種按照一定的規(guī)則,自動的抓起萬維網信息的程序或者腳本。詳細信息包括:服務描述文檔 WSDL URL、服務提供商、服務注冊時間、服務可用率、服務運行服務器、服務標簽等。 ? 提取鏈主要負責解析頁面信息,提取的內容包括: ; 細信息內容; ? 寫鏈主要負責把服務信息存儲到數據庫中,下載 WSDL 文檔。 程序包設計 本系統(tǒng)主要包括 5 大模塊,分別是: 1. 過濾鏈模塊 2. 提取鏈模塊 3. 寫鏈模塊 4. 管理訪問鏈接模塊 5. 管理爬蟲多線程模塊 相對應的程序包設計圖如下: 天津大學 2021屆本科生畢業(yè)設計(論文) 8 圖 33 程序包設計圖 ? 是過濾鏈模塊的程序文件包,主要負責過 濾無關的網頁鏈接。 天津大學 2021屆本科生畢業(yè)設計(論文) 10 3. 爬蟲線程獲得鏈接后,首先經過過濾鏈的處理,判斷鏈接頁面的類型, 并決定如何解析該頁面。 2. 爬蟲線程管理器 TreadPool 詢問 Frontier,檢查待訪問隊列中是否存在鏈 接,如果存在, TreadPool 獲得該鏈接,并分配給 一個線程。 5. 如果鏈接能夠進入了寫鏈,該鏈接是服務 WSDL 文檔的鏈接,所以先下 載該 WSDL 文檔,并在數據庫中添加一條記錄,并在字段 type 中標記為 false,說明該服務是沒有詳細信息的。方式 3:爬蟲可以得到所有的提供商,也就可以得到所有的服務。 1. 是一個服務提供商集合頁面 URL,作為爬蟲的初始 URL,由人外界輸入的。p=)){ //該頁面時服務提供商頁面 (url+ 進入 提供商頁面 )。所以在提取的過程中,主要利用 HtmlParser 網頁解析工具對 HTML 代碼進行解析,該工具能根據 HTML 代碼中的標簽屬性找到標簽的全部內容。 } 2. 為需要尋找的標簽設置 FIlter, 以下代碼就是要找出屬性 class=providerlist的 ul標簽。 ()。 } a標簽集合,這些集合都存儲在 nodelist1中,循環(huán)遍歷集合,得到每個服務提供商頁面的 URL,并把 URL通過 addLinkFromString() 函數加入到爬蟲待訪問隊列中。 if (end != 1) url = (0, end)。next39。的 li標簽。 addLinkFromString(curi, , str, )。 } catch (ParserException e) { return。 } 服務詳細信息頁面內容提取 在服務詳細信息頁面中,服務的詳細信息是在一個 table 表格中的,例如:在服務 QueryService 詳細信息頁面中,服務的信息在標簽 table /table中,提取內容的流程如圖 44 所示: 圖 44 服務詳細信息頁面內容提取流程圖 天津大學 2021屆本科生畢業(yè)設計(論文) 21 提取服務信息的部分內容的實現(xiàn)如下: 服務 WSDL URL 在 這 段 源 代 碼 ( input type=hidden name=uri value= 提取 WSDL URL 代碼如下: int beginIndex,endIndex,baseIndex。 baseIndex = (dtProvider:/dt)。 content = (baseIndex)。 content = (baseIndex)。對所有的頁面來說,提取所有 a 標簽中的 url,并把 url 加入到處理鏈中。 try { nodelist = (attributes_filter)。 addLinkFromString(curi, , url, )。 ()。 圖 48 設置 module頁面 1 天津大學 2021屆本科生畢業(yè)
點擊復制文檔內容
畢業(yè)設計相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1