freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

畢業(yè)論文設(shè)計(jì):面向webservice的網(wǎng)絡(luò)爬蟲設(shè)計(jì)與實(shí)現(xiàn)-文庫(kù)吧資料

2025-06-13 01:32本頁(yè)面
  

【正文】 ol 獲得該鏈接,并分配給一個(gè)線程。 ? 是負(fù)責(zé)管理爬蟲線程的程序文件包,線程獲取鏈接,并訪問網(wǎng)頁(yè)的。 ? 是寫鏈模塊的程序文件包,主要負(fù)責(zé)下載 WSDL 文檔。 程序包設(shè)計(jì) 本系統(tǒng)主要包括 5 大模塊,分別是: 1. 過濾鏈模塊 2. 提取鏈模塊 3. 寫鏈模塊 4. 管理訪問鏈接模塊 5. 管理爬蟲多線程模塊 相對(duì)應(yīng)的程序包設(shè)計(jì)圖如下: 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(jì)(論文) 8 圖 33 程序包設(shè)計(jì)圖 ? 是過濾鏈模塊的程序文件包,主要負(fù)責(zé)過 濾無關(guān)的網(wǎng)頁(yè)鏈接。數(shù)據(jù)庫(kù)表定義如下: 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(jì)(論文) 7 表 31 webServiceDetail表 屬性名 數(shù)據(jù)類型 非空 自增長(zhǎng) 默認(rèn)值 wsdlAddress VARCHAR(255) √ Provider VARCHAR(30) monitoredSince VARCHAR(50) server VARCHAR(50) availability VARCHAR(50) description VARCHAR(5000) descriptionByUser VARCHAR(1000) fileAddress VARCHAR(255) date datatime state VARCHAR(50) type Boolean √ 重要字段說明: wsdlAddress 字段為主鍵,因?yàn)槊總€(gè)服務(wù) WSDL 文檔的 URL 是唯一的。寫鏈主要負(fù)責(zé)根據(jù)服務(wù) WSDL 文檔的 URL 下載服務(wù) WSDL 文檔。 過濾鏈主要負(fù)責(zé)過濾非本網(wǎng)站鏈接,爬蟲抓取的范圍局限于主網(wǎng)站,所有其他指向網(wǎng)站的鏈接都會(huì)過濾。 ? 提取鏈主要負(fù)責(zé)解析頁(yè)面信息,提取的內(nèi)容包括: ; 細(xì)信息內(nèi)容; ? 寫鏈主要負(fù)責(zé)把服務(wù)信息存儲(chǔ)到數(shù)據(jù)庫(kù)中,下載 WSDL 文檔。 針對(duì)提供了詳細(xì)信息的服務(wù)網(wǎng)站,裁掉了一些 Heritrix 原有處理鏈,只保留了過濾鏈,提取鏈,寫鏈,并對(duì)三個(gè)處理鏈功能進(jìn)行重新設(shè)定。 Heritrix 框架的多線程管理池可以提供 50 個(gè)線程同時(shí)進(jìn)行抓取工 作, Frontier調(diào)度器負(fù)責(zé)調(diào)度鏈接, Frontier 把新鏈接加入到待訪問隊(duì)列中,把未訪問鏈接傳遞給線程。 如果網(wǎng)站只提供了 Web 服務(wù) WSDL 文檔的 URL,那么系統(tǒng)在抓取網(wǎng)站過程中,只提取 Web 服務(wù) WSDL 的 URL,把該 URL 存入數(shù)據(jù)庫(kù),并下載 Web 服務(wù)的 WSDL 文檔。詳細(xì)信息包括:服務(wù)描述文檔 WSDL URL、服務(wù)提供商、服務(wù)注冊(cè)時(shí)間、服務(wù)可用率、服務(wù)運(yùn)行服務(wù)器、服務(wù)標(biāo)簽等。 Heritrix[9]是一個(gè)比較靈活、可擴(kuò)展性強(qiáng)的網(wǎng)絡(luò)爬蟲開源框架,目前,已經(jīng)有很多應(yīng)用在該框架上進(jìn)行開發(fā),例如基于 Heritrix 的面向電子商務(wù)網(wǎng)站的信息抓取,該應(yīng)用就是在 Heritrix 網(wǎng)絡(luò)爬蟲開源框架的基礎(chǔ)上進(jìn)行擴(kuò)展、修改 [10],并建立特有的抓取策略來抓取網(wǎng)絡(luò)上的電子商務(wù)信息 [11]。 聚焦網(wǎng)絡(luò)爬蟲也稱為主題爬蟲 [13],大量的應(yīng)用于互聯(lián)網(wǎng)中,例如基于聚焦爬蟲的手機(jī)天氣預(yù)報(bào)系統(tǒng) [6],就是應(yīng)用了聚焦網(wǎng)絡(luò)爬蟲,通過計(jì)算頁(yè)面與天氣主題的相關(guān)度,抓取網(wǎng)絡(luò)上與天氣相關(guān)的頁(yè)面信息,并把對(duì)頁(yè)面進(jìn)行索引,并向用戶提供統(tǒng)一訪問窗口。其應(yīng)用也十分廣泛,如 :Google 搜索引擎的爬蟲模塊就是一個(gè)通用網(wǎng)絡(luò)爬蟲,Google 的爬蟲通過 遍歷互聯(lián)網(wǎng)上的網(wǎng)頁(yè),并提取網(wǎng)頁(yè)的信息,例如關(guān)鍵字、類型、網(wǎng)頁(yè)超鏈接等,然后建立網(wǎng)頁(yè)索引。 網(wǎng)絡(luò)信息抓取的主要工具是網(wǎng)絡(luò)爬蟲,網(wǎng)絡(luò)爬蟲是一種按照一定的規(guī)則,自動(dòng)的抓起萬維網(wǎng)信息的程序或者腳本。盡管這些網(wǎng)站的數(shù)量不及 seekda 的多,但這些網(wǎng)站上的服務(wù)對(duì)用戶來說,也是有巨大意義的。而且該網(wǎng)站上的服務(wù)發(fā)布信息比較齊全,提供了服務(wù)的可用率,用戶標(biāo)簽,提供商,發(fā)布服務(wù)器等信息。伴隨著 Web Service 的數(shù)量的增長(zhǎng),越來越多的網(wǎng)站關(guān)注于如何吸引開發(fā)者把服務(wù)發(fā)布在他們的網(wǎng)站中,這些網(wǎng)站采用了服務(wù)開發(fā)者在該網(wǎng)站上注冊(cè)服務(wù)的方式來發(fā)布服務(wù)。 第五章 是對(duì)全文工作的總結(jié),指出并分析了現(xiàn)階段存在的問題并展望了未來的發(fā)展前景。 第三章 提出了系統(tǒng)的設(shè)計(jì)和結(jié)構(gòu),其中包括總體架構(gòu)、數(shù)據(jù)庫(kù)的設(shè)計(jì)、工程包的設(shè)計(jì)和詳細(xì)的流程設(shè)計(jì)。 第一章 主要介紹本課題研究背景,以及研究意義,明確課題主要研究 內(nèi)容,給出全文的組織結(jié)構(gòu)。利用 HttpClient 編寫下載 WSDL 程序。 第二種情況:網(wǎng)站上只提供了服務(wù) WSDL文檔的 URL,本系統(tǒng)只抓取服務(wù)WSDL文檔,不需要分析網(wǎng)站服務(wù)分部結(jié)構(gòu)。 通過對(duì)網(wǎng)站結(jié)構(gòu)的分析,可以得到網(wǎng)站中服務(wù)分布的一顆樹,并用形式化 語(yǔ)言描述這棵樹。 b. 對(duì)某類別 Web Service 頁(yè)面進(jìn)行分析,分析出含有所有該類別 Web服務(wù)的詳細(xì)信息頁(yè)面 URL 的 table 表格結(jié)構(gòu)和 URL 的結(jié)構(gòu)。 c. 重新改 寫 Heritrix 框架處理流程的寫鏈,下載搜索到的 wsdl 文檔。 a. 重新改寫 Heritrix 框架處理流程的過濾鏈,過濾不需要訪問的網(wǎng)頁(yè)。 為了 實(shí)現(xiàn)該目的,本論文的主要研究?jī)?nèi)容包括: 第一種情況:網(wǎng)站上的服務(wù)提供了關(guān)于服務(wù)的相關(guān)信息,那么本系統(tǒng)抓取服務(wù) WSDL 文檔的同時(shí),獲取服務(wù)的相關(guān)信息。 研究目的和主要內(nèi)容 為了對(duì)互聯(lián)網(wǎng)服務(wù)進(jìn)行集中管理,需要將互聯(lián)網(wǎng)上的服務(wù)信息存放到數(shù)據(jù)庫(kù)中。 現(xiàn)在,互聯(lián)網(wǎng)上存在許多被動(dòng)的,集中式的服務(wù)注冊(cè)網(wǎng)站,這類網(wǎng)站上的服務(wù)可能大部分來源于網(wǎng)站國(guó)家的開發(fā)者,服務(wù)功能針對(duì)某一領(lǐng)域。服務(wù)數(shù)量的增長(zhǎng),使得用戶查找服務(wù)變得困難。 Web 服務(wù)允許應(yīng)用開發(fā)者對(duì)不同語(yǔ)言,不同平臺(tái)的應(yīng)用程序進(jìn)行集成,允許在程序中調(diào)用 Web 服務(wù)。 3) Downloading the WSDL document: capturing the service WSDL URL, and then using HtmlClient to download the WSDL ) Loading service information into the database: store the information about the service into the database. After Crawling the Web service, users can access Web services through a unified portal , rather than blindly searching on the a more convenient platform environment for the use and development of services. Key words: Crawler; Web service; WSDL; 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(jì)(論文) 1 目 錄 第一章 緒論 ........................................ 1 問題的背景和意義 .................................. 1 研究目標(biāo)和目的 .................................... 1 全文安排 ......................................... 2 第二章 相關(guān)工作和需求分析 .......................... 3 相關(guān)工作 ......................................... 3 功能說明 ......................................... 4 運(yùn)行環(huán)境 ......................................... 4 第三章 面向 web service 的網(wǎng)絡(luò)爬蟲詳細(xì)設(shè)計(jì) ............ 5 總體架構(gòu) ......................................... 5 數(shù)據(jù)庫(kù)設(shè)計(jì) ........................................ 6 程序包設(shè)計(jì) ........................................ 7 流程設(shè)計(jì) ......................................... 8 第四章 面向 web service 的聚焦網(wǎng)絡(luò)爬蟲技術(shù)實(shí)現(xiàn) ....... 13 分析網(wǎng)站服務(wù)分布結(jié)構(gòu) ............................. 13 網(wǎng)頁(yè)內(nèi)容提取 ..................................... 15 服務(wù)提供商集合頁(yè)面內(nèi)容提取 .................. 15 服務(wù)提供商頁(yè)面內(nèi)容提取 ...................... 18 服務(wù)詳細(xì)信息頁(yè)面內(nèi)容提取 .................... 20 頁(yè)面鏈接提取 ................................ 22 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(jì)(論文) 2 下載 WSDL 文檔 .................................... 24 結(jié)果展示 ........................................ 24 第五章 總結(jié)和展望 ................................. 29 論文總結(jié) ........................................ 29 存在的問題和展望 ................................. 29 參考文獻(xiàn) .......................................... 30 外文資料 中文譯文 致 謝 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(jì)(論文) 1 第一章 緒論 問題的背景和意義 隨著互聯(lián)網(wǎng)的飛速發(fā)展,應(yīng)用程序的集成,軟件和數(shù)據(jù)的重用成為互聯(lián)網(wǎng)發(fā)展的障礙。s WSDL URL and related service information. This paper pleted a Web Crawler about Web service information analysis and main research and development contents are: 1) Analysis Service Web site structure: before capturing the services on a Web site, needing to manually analyze which pages of the site need to be captured, and which information in which pages needs to be captured。為服務(wù)的使用和開發(fā)提供更加便利的平臺(tái)環(huán)境。 4)加載服務(wù)信息到數(shù)據(jù)庫(kù):把在頁(yè)面信息提取中得到的關(guān)于服務(wù)的信息存入數(shù)據(jù)庫(kù)中。 本文完成了一個(gè) Web 服務(wù)信息分析、抓取的網(wǎng)絡(luò)爬蟲,主要研究開發(fā)內(nèi)容有:1)分析服務(wù)網(wǎng)站結(jié)構(gòu):在抓取某個(gè)網(wǎng)站上的服務(wù)前,要人工的分析出該網(wǎng)站哪些頁(yè)面需要抓取,哪些頁(yè)面中哪些信息需要抓?。?2)頁(yè)面信息提?。焊鶕?jù)人工分析出的哪些頁(yè)面中哪些信息需要抓取的結(jié)構(gòu),使用 HtmlParser 工具抓取頁(yè)面中的信息。 3. 構(gòu)建 web services 爬蟲, 至 。 六、 進(jìn)度安排: 1. 學(xué)習(xí)與爬蟲相關(guān)的基本知識(shí), 至 。同時(shí)網(wǎng)絡(luò)爬蟲技術(shù)的飛速發(fā)展,各種爬蟲開源框架的出現(xiàn),為我們的爬蟲系統(tǒng)提供了良好的 技術(shù)基礎(chǔ)。 五、可行性分析: 網(wǎng)絡(luò)上 Web服務(wù)的飛速增長(zhǎng),例如 了 2萬多個(gè),且服務(wù)的種類很多,為本系統(tǒng)提供了非常好的搜索源。并重復(fù) 2 步驟。 4. 把這些相關(guān)信息存入到數(shù)據(jù)庫(kù)中。 2. 并對(duì)該類別頁(yè)面進(jìn)行分析,提取出所有的 Web service 詳細(xì)信息頁(yè)面的URL。 在分析網(wǎng)頁(yè)結(jié)構(gòu)時(shí),需要人工對(duì)網(wǎng)頁(yè)的包含信息的table標(biāo)簽進(jìn)行分析,得到該 table下信息分布的情況,然后使用 HTMLParser準(zhǔn)確定位到需求信息的位置,并提取信息。 在分析網(wǎng)站結(jié)構(gòu)時(shí),需要用到 HTMLParser 插件,該插件能夠?qū)崿F(xiàn)對(duì)網(wǎng)頁(yè)的詳細(xì)分析,包括獲取所有網(wǎng)頁(yè)標(biāo)簽 信息等功能。解決該問題時(shí),我們用到了 HTTPClient 插件,該插件能夠?qū)崿F(xiàn)下載遠(yuǎn)程服務(wù)器上的文檔,還可以設(shè)定連接時(shí)間等。 四、 方法和手段: 在擴(kuò)展 Heritrix 框架的過程中,遇到的問題或者使用的插件如下: 1. 在改寫 Heritrix 框架的提取鏈時(shí),需要從 分析網(wǎng)站結(jié)構(gòu)中得到需要遍歷 的網(wǎng)
點(diǎn)擊復(fù)制文檔內(nèi)容
畢業(yè)設(shè)計(jì)相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1