freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

畢業(yè)論文-面向webservice的網(wǎng)絡(luò)爬蟲(chóng)設(shè)計(jì)與實(shí)現(xiàn)-展示頁(yè)

2025-06-16 05:12本頁(yè)面
  

【正文】 網(wǎng)站結(jié)構(gòu)中得到需要遍歷 的網(wǎng)頁(yè) URL。針對(duì)第二種情況,主要的研究?jī)?nèi)容如下: 重新改寫(xiě) Heritrix 框架處理流程中的寫(xiě)鏈,以下載搜索到的 wsdl 文檔。 采用數(shù)據(jù)結(jié)構(gòu)中的樹(shù)結(jié)構(gòu)來(lái)描述網(wǎng)站服務(wù)的分布樹(shù),而經(jīng)過(guò)擴(kuò)展之后的爬蟲(chóng)得到根節(jié)點(diǎn), 并通過(guò)根節(jié)點(diǎn)對(duì)整棵樹(shù)進(jìn)行遍歷,就實(shí)現(xiàn)了抓起網(wǎng)絡(luò)上分布的 Web Service。 c. 對(duì) Web Service 詳細(xì)信息頁(yè)面進(jìn)行分析,分析出包含所有與該 Web Service 相關(guān)的信息的 table 表格結(jié)構(gòu)。 a. 對(duì)網(wǎng)站所有 Web Service 的分類(lèi)頁(yè)面進(jìn)行分析,分析出含有 所有 Web Service 的種類(lèi) URl 的 table 表格結(jié)構(gòu)和 URL 的結(jié)構(gòu)。 b. 重新改寫(xiě) Heritrix 框架處理流程中的提取鏈,以提取網(wǎng)頁(yè)包含的信息。針對(duì)這種情況,主要的研究?jī)?nèi)容如下: Heritrix 的擴(kuò)展 因?yàn)楝F(xiàn)有的開(kāi)源爬蟲(chóng)框架 Heritrix 提供了網(wǎng)絡(luò)搜索的基本結(jié)構(gòu),所以,我會(huì)擴(kuò)展 Heritrix 框架,使該框架適用于本系統(tǒng)。 由以上對(duì)爬蟲(chóng)類(lèi)型和爬蟲(chóng)框架的發(fā)展現(xiàn)狀分析,本課題使用 Heritrix 開(kāi)源框架,并通過(guò)分析網(wǎng)絡(luò)上分布 Web 服務(wù)的網(wǎng)站的樹(shù)形結(jié)構(gòu)的架構(gòu),實(shí)現(xiàn)針對(duì) Web服務(wù)主題的網(wǎng)絡(luò)爬蟲(chóng)。 現(xiàn)已有很多應(yīng)用是在 Heritrix 上開(kāi)發(fā)的。 Heritrix[13]是一個(gè)由 Java 開(kāi)發(fā)的、開(kāi)源的 Web 網(wǎng)絡(luò)信息采集程序。本課題并不是重新開(kāi)發(fā)一個(gè)爬蟲(chóng)程序,而是在現(xiàn)有爬蟲(chóng)開(kāi)源框架的基礎(chǔ)上進(jìn)行擴(kuò)展 。 本課題研究的是針對(duì) Web 服務(wù)的聚焦網(wǎng)絡(luò)爬蟲(chóng)技術(shù)。隨著垂直搜索的蓬勃發(fā)展,聚焦網(wǎng)絡(luò),也就是主題網(wǎng)絡(luò)爬蟲(chóng)成為研究的前言 , [4]提出通過(guò)深入分析生活類(lèi)網(wǎng)站網(wǎng)址的樹(shù)形結(jié)構(gòu)的架構(gòu),開(kāi)發(fā)了收 集種子頁(yè)面的 URL 的模擬搜集齊,并基于 HTMLParser 的信息提取方法,從種子與頁(yè)面中提取出與生活類(lèi)主題相關(guān)的目標(biāo) URL。通用的網(wǎng)絡(luò)爬蟲(chóng)大多應(yīng)用于大型門(mén)戶網(wǎng)站或類(lèi)似于 google 這樣的搜索引擎 [15]。 網(wǎng)絡(luò)爬蟲(chóng)按照系統(tǒng)結(jié)構(gòu)和實(shí)現(xiàn)技術(shù),大致可以分為以下幾種類(lèi)型 [1]:通用網(wǎng)絡(luò)爬蟲(chóng) [2]、聚焦網(wǎng)絡(luò)爬蟲(chóng) [8]、增量式網(wǎng)絡(luò)爬蟲(chóng) [5]、 Deep Web 爬蟲(chóng) [7]。 二、 國(guó)內(nèi)外發(fā)展?fàn)顩r: 收集互聯(lián)網(wǎng)上的信息的系統(tǒng)被稱為網(wǎng)絡(luò)爬蟲(chóng) (又被稱為網(wǎng)頁(yè)蜘蛛,網(wǎng)絡(luò)機(jī)器人,在 FOAF 社區(qū)中間 ,更經(jīng)常的稱為網(wǎng)頁(yè)追逐者 ),它是一種按照一定的規(guī)則 ,自動(dòng)的抓取萬(wàn)維網(wǎng)信息的程序或者 腳本 。用戶或者服務(wù)開(kāi)發(fā)者就可以在基于該本系統(tǒng)數(shù)據(jù)庫(kù)的搜索引擎中查找到所有的互聯(lián)網(wǎng)上大部分的服務(wù),節(jié)省了在不同網(wǎng)站間查找服務(wù)的時(shí)間。 指導(dǎo)教師(簽字) 年 月 日 審題小組組長(zhǎng)(簽字) 年 月 日 天津大學(xué)本科生畢業(yè)設(shè)計(jì)(論文)開(kāi)題報(bào)告 課題名稱 Web Services 網(wǎng)絡(luò)爬蟲(chóng) 學(xué)院名稱 軟件學(xué)院 專業(yè)名稱 軟件工程 學(xué)生姓名 梁其烜 指導(dǎo)教師 馮志勇 一、 課題來(lái)源及意義: 互聯(lián)網(wǎng)上的服務(wù)數(shù)量正快速的增長(zhǎng),分布在不同的網(wǎng)站上,導(dǎo)致服務(wù)的用戶需要在不同的網(wǎng)站之間尋找一個(gè)或者多個(gè)符合自己需求的服務(wù),對(duì)于服務(wù)開(kāi)發(fā)者來(lái)說(shuō),他們無(wú)法快速、準(zhǔn)確的得知現(xiàn)有的服務(wù)開(kāi)發(fā)現(xiàn)狀,服務(wù)開(kāi)發(fā)者無(wú)法重用現(xiàn)有的服務(wù),重復(fù)開(kāi)發(fā)已有的服務(wù),導(dǎo)致一個(gè)糟糕的服務(wù)開(kāi)發(fā)環(huán)境。 當(dāng)服務(wù)網(wǎng)站提供了詳細(xì)的服務(wù)信息,且網(wǎng)站服務(wù)的分布結(jié)構(gòu)是有規(guī)律的,那么通過(guò) 對(duì)網(wǎng)站結(jié)構(gòu)的分析,可以得到網(wǎng)站中服務(wù)分布的一顆樹(shù),并用形式化語(yǔ)言描述這棵樹(shù),而經(jīng)過(guò)擴(kuò)展之后的爬蟲(chóng)對(duì)這顆樹(shù)進(jìn)行遍歷,就實(shí)現(xiàn)了抓起網(wǎng)絡(luò)上分布的 Web Service。 ? 把搜索到的 Web 服務(wù)相關(guān)信息存入數(shù)據(jù)庫(kù)中。) 本系統(tǒng)將要達(dá)到以下目標(biāo): ? 提供給用戶一個(gè)種子文件,用戶可以設(shè)置抓取 Web 服務(wù)的網(wǎng)站地址。09,June, 2021。Design of Crawler Based on HTML Parser Information Extraction。Computer Knowledge and Technology 電腦知識(shí)與技術(shù) 。 二、 參考文獻(xiàn) [1]孫立偉,何國(guó)輝,吳禮發(fā) 。 但是,大量的 Web 服務(wù)分布在網(wǎng)絡(luò)中的各個(gè)地方,給用戶尋找特定功能的服務(wù)造成了不小的麻煩,也給服務(wù)開(kāi)發(fā)者在原有的服務(wù)上進(jìn)行再次開(kāi)發(fā)造成了不便。 Web Services 技術(shù)還有助于改變企業(yè)對(duì) IT 系統(tǒng)的應(yīng)用方式和依賴程度。 Web Services 技術(shù)是可以改變軟件產(chǎn)業(yè)面貌和軟件應(yīng)用模式的技術(shù)之一。 畢業(yè)設(shè)計(jì)(論文)說(shuō)明書(shū) 學(xué) 院 軟件學(xué)院 專 業(yè) 軟件工程 年 級(jí) 07 級(jí) 姓 名 梁其烜 指導(dǎo)教師 馮志勇 2021 年 6 月 15 日 畢業(yè)設(shè)計(jì)(論文)任務(wù)書(shū) 題目:面向 web service 的網(wǎng)絡(luò)爬蟲(chóng)設(shè)計(jì)與實(shí)現(xiàn) 學(xué)生姓名 梁其烜 學(xué)院名稱 軟件學(xué)院 專 業(yè) 軟件工 程 學(xué) 號(hào) 3007218123 指導(dǎo)教師 馮志勇 職 稱 教授 一、 原始依據(jù)(包括設(shè)計(jì)或論文的工作基礎(chǔ)、研究條件、應(yīng)用環(huán) 境、工作目的等。) Web Services 技術(shù)是一種基于 XML語(yǔ)言和標(biāo)準(zhǔn)的網(wǎng)絡(luò)協(xié)議實(shí)現(xiàn)的分布式計(jì)算技術(shù)。 Web Services 技術(shù)可以將 Inter 上的各種信息資源和服務(wù)功能整合在一起,在任何時(shí)間、任何地點(diǎn)向用戶提供優(yōu)質(zhì)的服務(wù) 。所以 Web Services 技術(shù)成為了網(wǎng)絡(luò)上的主流技術(shù)之一,隨之也來(lái)的是大量的開(kāi)發(fā)人員開(kāi)始開(kāi)發(fā) Web 服務(wù),隨著時(shí)間的推移,網(wǎng)絡(luò)上出現(xiàn)了大量的 Web 服務(wù)。本課題的任務(wù)就是研究如何把網(wǎng)絡(luò)上分散的 Web 服務(wù)搜集在一起。網(wǎng)絡(luò)爬蟲(chóng)技術(shù)研究 。,May 2021, [2]李盛韜,余智華,程學(xué)旗 .Web 信息采集研究進(jìn)展【 J】 .計(jì)算機(jī)科學(xué), 2021. [3], den Berg and Crawling: A New Approach to TopicSpecifi Web Resource Discovery[C].In Proceedings of the 8th International World Wide Web Conference, Toronto, Canada, 1999. [4]鄭力明,易平 。微計(jì)算機(jī)信息, Microputer Information。 [5]J. Cho, H. GarciaMolina. The evolution of the web and implications for an incremental crawler [C]. In Proceedings of the 26th International Conference on Very Large Database, Cairo, Egypt, 2021. [6]李文澤;個(gè)性化垂直搜索引擎研究;河南大學(xué); 20211107; [7]曾偉輝,李淼 . 深層網(wǎng)絡(luò)爬蟲(chóng)研究綜述 [J]. 計(jì)算機(jī)系統(tǒng)應(yīng)用 , 2021. [8]周立柱 ,林 玲 . 聚焦爬蟲(chóng)技術(shù)研究綜述 [J].計(jì)算機(jī)應(yīng)用 , 2021 年 9 月 . [9]S. Chakrabarti, M. van den Berg and B. Dom. Focused Crawling: A New Approach to TopicSpecific Web Resource Discovery [C]. In Proceedings of the 8th International World Wide Web Conference, Toronto, Canada, 1999. [10]陳汶濱,夏學(xué)梅 . 基于聚焦爬蟲(chóng)的手機(jī)天氣預(yù)報(bào)系統(tǒng) [J]. 今日科苑 . 2021年第2期 . [11]邱哲,符滔滔 . 開(kāi)發(fā)自己的搜索引擎 Lucene +Heritrix. 人民郵電出版社 , 20214. [12]羅剛 . 自己動(dòng)手寫(xiě)網(wǎng)絡(luò)爬蟲(chóng) . 清華大學(xué)出版社 . 2021101; [13]Heritrix 官方網(wǎng)站 [EB/OL]. [14]seeda 網(wǎng)站 [EB/OL]. [15]網(wǎng)絡(luò)爬蟲(chóng) [EB/OL]. 三、設(shè)計(jì)(研究)內(nèi)容和要求(包括設(shè)計(jì)或研究?jī)?nèi)容、主要指標(biāo) 與技術(shù)參數(shù),并根據(jù)課題性質(zhì)對(duì)學(xué)生提出具體要求。 ? 根據(jù)種子地址,搜索種子網(wǎng)站上的 Web 服務(wù)。 為了達(dá)到以上目的,本系統(tǒng)將對(duì) Heritrix 開(kāi)源框架進(jìn)行擴(kuò)展 ,并針對(duì)服務(wù)網(wǎng)站上服務(wù)的特點(diǎn)選擇合適 的爬蟲(chóng)抓取過(guò)程。 當(dāng)服務(wù)網(wǎng)站沒(méi)有提供服務(wù)的信息,只提供了 WSDL 文檔的 URL,那么就遍歷網(wǎng)站中所有的本網(wǎng)站的網(wǎng)頁(yè),并判斷網(wǎng)頁(yè)中的鏈接是否是 WSDL 文檔的 URL, 如果是,就下載該 WSDL 文檔。 本課題的任務(wù)是抓取 互聯(lián)網(wǎng)上分散的服務(wù),具有重要意義:本系統(tǒng)把互聯(lián)網(wǎng)上的服務(wù)都收集起來(lái),并存儲(chǔ)在本地?cái)?shù)據(jù)庫(kù)。服務(wù)用戶可以快速、準(zhǔn)確的找到符合自己需求的服務(wù),服務(wù)開(kāi)發(fā)者可以快速得知服務(wù)開(kāi)發(fā)現(xiàn)狀,避免重復(fù)開(kāi)發(fā),并且可以利用現(xiàn)有服務(wù)進(jìn)行組合開(kāi)發(fā)等。另外一些不常使用的名字還有螞蟻,自動(dòng)索引,模擬程序或者 蠕蟲(chóng) 。通用網(wǎng)絡(luò)爬蟲(chóng) [2]又稱全網(wǎng)爬蟲(chóng) (Scalable Web Crawler),爬行對(duì)象從一些種子 URL 擴(kuò)充到整個(gè) Web ,主要為門(mén)戶站點(diǎn)搜索引擎和大型 Web 服務(wù)提供商采集數(shù)據(jù)。 聚焦網(wǎng)絡(luò)爬蟲(chóng) (Focused Crawler),又稱主題網(wǎng)絡(luò)爬蟲(chóng) (Topical Crawler ),是指選擇性地爬行那些與預(yù)先定義好的主題相關(guān)頁(yè)面的網(wǎng)絡(luò)爬蟲(chóng) [3]。 增量式網(wǎng)絡(luò)爬蟲(chóng) (Incremental Web Crawler) [5]是指對(duì)已下載網(wǎng)頁(yè)采取增 量式更新和只爬行新產(chǎn)生的或者已經(jīng)發(fā)生變化網(wǎng)頁(yè)的爬蟲(chóng),它能夠在一定程度上 保證所爬行的頁(yè)面是盡可能新的頁(yè)面 。因?yàn)榫劢咕W(wǎng)絡(luò)爬蟲(chóng)技術(shù)能最快的,最準(zhǔn)確的搜索 Web 服務(wù)信息。 現(xiàn)有的網(wǎng)絡(luò)爬蟲(chóng)框架有很多,例如: Heritrix、 Nutch、 Larbin、 JSpider 等。和其他開(kāi)源的爬蟲(chóng)程序相比, Heritrix 的優(yōu)勢(shì)在于它的擴(kuò)展性,開(kāi)發(fā)者可以擴(kuò)展它的組件,來(lái)實(shí)現(xiàn)自己的抓取邏輯 [6]。例如: 基于聚焦爬蟲(chóng)的手機(jī)天氣預(yù)報(bào)系統(tǒng) ,它是在 Heritrix 的基本功能上進(jìn)行擴(kuò)展 [11]和修改 [12]。 三、 目標(biāo)和內(nèi)容: 我的研究目標(biāo)是:把互聯(lián)網(wǎng)上廣泛分布的 Web Service 搜集起來(lái),把相關(guān)信息存入數(shù)據(jù)庫(kù),存在兩種情況: 第一種情況:網(wǎng)站上的服務(wù)提供了關(guān)于服務(wù)的相關(guān)信息,那么本系統(tǒng)需要在抓取服務(wù) wsdl 文檔的同時(shí),獲取服務(wù)的相關(guān)信息。 a. 重新改寫(xiě) Heritrix 框架處理流程中的過(guò)濾鏈,以過(guò)濾不需要訪問(wèn)的網(wǎng)頁(yè)。 c. 重新改寫(xiě) Heritrix框架處理流程中的寫(xiě)鏈,以下載搜索到的 wsdl 文檔。 b. 對(duì)某類(lèi)別 Web Service 頁(yè)面進(jìn)行分析,分析出含有所有該類(lèi)別 Web Service 的詳細(xì)信息頁(yè)面 URL 的 table 表格結(jié)構(gòu)和 URL 的結(jié)構(gòu)。 通過(guò)對(duì)網(wǎng)站結(jié)構(gòu)的分析,可以得到網(wǎng)站中服務(wù)分布的一顆樹(shù),并用形式化語(yǔ)言描述這棵樹(shù)。 第二種情況:網(wǎng)站上只提供了服務(wù)的 wsdl文檔的 url,沒(méi)有其它信息,那么本系統(tǒng)就只需要抓取服務(wù)的 wsdl文檔,也就不需要分析網(wǎng)站服務(wù)分部結(jié)構(gòu)。利用 Client 編寫(xiě)下載 wsdl 程序。 2. 在改寫(xiě) Heritrix 框架的寫(xiě)鏈時(shí),涉及到訪問(wèn)遠(yuǎn)程服務(wù)器,下載 wsdl 文檔。 3. 由于 Heritrix 框架提供了完善的 UI 界面操作,但是沒(méi)有提供完整的代碼啟動(dòng)程序,同時(shí)本課題需要把爬蟲(chóng)啟動(dòng)操作嵌入到其他程序中,所以需 要編寫(xiě) Heritrix 的代碼啟動(dòng)模塊。利用該插件,我們可以準(zhǔn)確無(wú)誤的獲取服務(wù)的所有詳細(xì)信息。 分析網(wǎng)站結(jié)構(gòu)過(guò)程如下: 1. 提供一個(gè)包含所有 Web service 類(lèi)別的網(wǎng)頁(yè)的 URL,分析該網(wǎng)頁(yè),用以上分析頁(yè)面的方法提取出所有的類(lèi)別頁(yè)面的 URL,取出一個(gè)服務(wù)類(lèi)別頁(yè)面 URL。 3. 對(duì)詳細(xì)信息頁(yè) 面進(jìn)行分析,提取出所有與 Web service 相關(guān)的信息。 5. 提取下一個(gè)類(lèi)別 URL。 爬蟲(chóng)無(wú)限循環(huán)執(zhí)行對(duì)頁(yè)面的分析,直到?jīng)]有未訪問(wèn)過(guò)的 URL 存在。并且網(wǎng)站的分
點(diǎn)擊復(fù)制文檔內(nèi)容
畢業(yè)設(shè)計(jì)相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1