freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

畢業(yè)論文(設(shè)計(jì)):面向web service的網(wǎng)絡(luò)爬蟲(chóng)設(shè)計(jì)與實(shí)現(xiàn)-文庫(kù)吧

2025-05-16 01:32 本頁(yè)面


【正文】 頁(yè)結(jié)構(gòu)時(shí),需要人工對(duì)網(wǎng)頁(yè)的包含信息的table標(biāo)簽進(jìn)行分析,得到該 table下信息分布的情況,然后使用 HTMLParser準(zhǔn)確定位到需求信息的位置,并提取信息。 分析網(wǎng)站結(jié)構(gòu)過(guò)程如下: 1. 提供一個(gè)包含所有 Web service 類別的網(wǎng)頁(yè)的 URL,分析該網(wǎng)頁(yè),用以上分析頁(yè)面的方法提取出所有的類別頁(yè)面的 URL,取出一個(gè)服務(wù)類別頁(yè)面URL。 2. 并對(duì)該類別頁(yè)面進(jìn)行分析,提取出所有的 Web service 詳細(xì)信息頁(yè)面的URL。 3. 對(duì)詳細(xì)信息頁(yè) 面進(jìn)行分析,提取出所有與 Web service 相關(guān)的信息。 4. 把這些相關(guān)信息存入到數(shù)據(jù)庫(kù)中。 5. 提取下一個(gè)類別 URL。并重復(fù) 2 步驟。 爬蟲(chóng)無(wú)限循環(huán)執(zhí)行對(duì)頁(yè)面的分析,直到?jīng)]有未訪問(wèn)過(guò)的 URL 存在。 五、可行性分析: 網(wǎng)絡(luò)上 Web服務(wù)的飛速增長(zhǎng),例如 了 2萬(wàn)多個(gè),且服務(wù)的種類很多,為本系統(tǒng)提供了非常好的搜索源。并且網(wǎng)站的分布結(jié)構(gòu)十分清晰,有利于我們?cè)O(shè)計(jì)簡(jiǎn)單有效地搜索策略。同時(shí)網(wǎng)絡(luò)爬蟲(chóng)技術(shù)的飛速發(fā)展,各種爬蟲(chóng)開(kāi)源框架的出現(xiàn),為我們的爬蟲(chóng)系統(tǒng)提供了良好的 技術(shù)基礎(chǔ)。在開(kāi)源框架的基礎(chǔ)上,結(jié)合對(duì) Web服務(wù)網(wǎng)站的結(jié)構(gòu)分析,就可以實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)上分布的 Web服務(wù)抓取。 六、 進(jìn)度安排: 1. 學(xué)習(xí)與爬蟲(chóng)相關(guān)的基本知識(shí), 至 。 2. 概念抽象,對(duì)于 web services 爬蟲(chóng)的分析和設(shè)計(jì), 至 。 3. 構(gòu)建 web services 爬蟲(chóng), 至 。 選題是否合適: 是□ 否□ 課題能否實(shí)現(xiàn): 能□ 不能□ 指導(dǎo)教師 (簽字) 年 月 日 選題是否合適: 是□ 否□ 課題能否實(shí)現(xiàn): 能□ 不能□ 審題小組組長(zhǎng)(簽字) 年 月 日 摘 要 互聯(lián)網(wǎng)上的服務(wù)數(shù)量增長(zhǎng)快速,網(wǎng)站提供的關(guān)于服務(wù)的信息也各異,導(dǎo)致用戶難以正確、快速的找到合適的服務(wù),為了解決以上問(wèn)題,需要獲取和保存服務(wù)的 WSDL 的 URL 和相關(guān)的服務(wù)信息。 本文完成了一個(gè) Web 服務(wù)信息分析、抓取的網(wǎng)絡(luò)爬蟲(chóng),主要研究開(kāi)發(fā)內(nèi)容有:1)分析服務(wù)網(wǎng)站結(jié)構(gòu):在抓取某個(gè)網(wǎng)站上的服務(wù)前,要人工的分析出該網(wǎng)站哪些頁(yè)面需要抓取,哪些頁(yè)面中哪些信息需要抓??; 2)頁(yè)面信息提?。焊鶕?jù)人工分析出的哪些頁(yè)面中哪些信息需要抓取的結(jié)構(gòu),使用 HtmlParser 工具抓取頁(yè)面中的信息。 3)下載 WSDL 文檔:在抓取到了服務(wù) WSDL 的 URL 后,使用 HtmlClient 下載 WSDL 文檔。 4)加載服務(wù)信息到數(shù)據(jù)庫(kù):把在頁(yè)面信息提取中得到的關(guān)于服務(wù)的信息存入數(shù)據(jù)庫(kù)中。 通過(guò)對(duì) Web 服務(wù)的抓取,用戶可以通過(guò)統(tǒng)一的入口來(lái)訪問(wèn)這些服務(wù),而不用在互聯(lián)網(wǎng)上盲目搜索。為服務(wù)的使用和開(kāi)發(fā)提供更加便利的平臺(tái)環(huán)境。 關(guān)鍵詞: 爬蟲(chóng) ;網(wǎng)絡(luò)服務(wù); WSDL; ABSTRACT The number of services on the Inter Increase quickly,the information sites provide about services is also different, leading to that it is difficult for users to correctly and quickly find the right services, in order to solve the above problems, needing to capture and store the service39。s WSDL URL and related service information. This paper pleted a Web Crawler about Web service information analysis and main research and development contents are: 1) Analysis Service Web site structure: before capturing the services on a Web site, needing to manually analyze which pages of the site need to be captured, and which information in which pages needs to be captured。 2) Page information extraction: According to the manual analysis that which information in which paper needs to be captured, then using HtmlParser tools to capture the information in the page。 3) Downloading the WSDL document: capturing the service WSDL URL, and then using HtmlClient to download the WSDL ) Loading service information into the database: store the information about the service into the database. After Crawling the Web service, users can access Web services through a unified portal , rather than blindly searching on the a more convenient platform environment for the use and development of services. Key words: Crawler; Web service; WSDL; 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(jì)(論文) 1 目 錄 第一章 緒論 ........................................ 1 問(wèn)題的背景和意義 .................................. 1 研究目標(biāo)和目的 .................................... 1 全文安排 ......................................... 2 第二章 相關(guān)工作和需求分析 .......................... 3 相關(guān)工作 ......................................... 3 功能說(shuō)明 ......................................... 4 運(yùn)行環(huán)境 ......................................... 4 第三章 面向 web service 的網(wǎng)絡(luò)爬蟲(chóng)詳細(xì)設(shè)計(jì) ............ 5 總體架構(gòu) ......................................... 5 數(shù)據(jù)庫(kù)設(shè)計(jì) ........................................ 6 程序包設(shè)計(jì) ........................................ 7 流程設(shè)計(jì) ......................................... 8 第四章 面向 web service 的聚焦網(wǎng)絡(luò)爬蟲(chóng)技術(shù)實(shí)現(xiàn) ....... 13 分析網(wǎng)站服務(wù)分布結(jié)構(gòu) ............................. 13 網(wǎng)頁(yè)內(nèi)容提取 ..................................... 15 服務(wù)提供商集合頁(yè)面內(nèi)容提取 .................. 15 服務(wù)提供商頁(yè)面內(nèi)容提取 ...................... 18 服務(wù)詳細(xì)信息頁(yè)面內(nèi)容提取 .................... 20 頁(yè)面鏈接提取 ................................ 22 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(jì)(論文) 2 下載 WSDL 文檔 .................................... 24 結(jié)果展示 ........................................ 24 第五章 總結(jié)和展望 ................................. 29 論文總結(jié) ........................................ 29 存在的問(wèn)題和展望 ................................. 29 參考文獻(xiàn) .......................................... 30 外文資料 中文譯文 致 謝 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(jì)(論文) 1 第一章 緒論 問(wèn)題的背景和意義 隨著互聯(lián)網(wǎng)的飛速發(fā)展,應(yīng)用程序的集成,軟件和數(shù)據(jù)的重用成為互聯(lián)網(wǎng)發(fā)展的障礙。 Web 服務(wù)的出現(xiàn)有效的解決了以上難題。 Web 服務(wù)允許應(yīng)用開(kāi)發(fā)者對(duì)不同語(yǔ)言,不同平臺(tái)的應(yīng)用程序進(jìn)行集成,允許在程序中調(diào)用 Web 服務(wù)。正因?yàn)?Web 服務(wù)的有效的解決了以上問(wèn)題,互聯(lián)網(wǎng)上的服務(wù)發(fā)展迅速,服務(wù)數(shù)量飛速增長(zhǎng)。服務(wù)數(shù)量的增長(zhǎng),使得用戶查找服務(wù)變得困難。另外, Web 服務(wù)的發(fā)展也產(chǎn)生了另外一個(gè)應(yīng)用模式:組合應(yīng)用 (Mushup),把不同的 Web 服務(wù)進(jìn)行組合,滿足用戶需求。 現(xiàn)在,互聯(lián)網(wǎng)上存在許多被動(dòng)的,集中式的服務(wù)注冊(cè)網(wǎng)站,這類網(wǎng)站上的服務(wù)可能大部分來(lái)源于網(wǎng)站國(guó)家的開(kāi)發(fā)者,服務(wù)功能針對(duì)某一領(lǐng)域。但是通過(guò)主動(dòng)式的爬取,獲得并存儲(chǔ)互聯(lián)網(wǎng)上的服務(wù),對(duì)服務(wù)進(jìn)行集中管理,有利于對(duì)用戶提供統(tǒng)一的訪問(wèn)方式,有利于對(duì)互聯(lián)網(wǎng)服務(wù)的分析,提高組合的效率。 研究目的和主要內(nèi)容 為了對(duì)互聯(lián)網(wǎng)服務(wù)進(jìn)行集中管理,需要將互聯(lián)網(wǎng)上的服務(wù)信息存放到數(shù)據(jù)庫(kù)中。所以本論文的目的是:通過(guò)爬蟲(chóng)抓取,得到互聯(lián)網(wǎng)上的 Web 服務(wù)信息,并把服務(wù)信息存放到數(shù)據(jù)庫(kù)中。 為了 實(shí)現(xiàn)該目的,本論文的主要研究?jī)?nèi)容包括: 第一種情況:網(wǎng)站上的服務(wù)提供了關(guān)于服務(wù)的相關(guān)信息,那么本系統(tǒng)抓取服務(wù) WSDL 文檔的同時(shí),獲取服務(wù)的相關(guān)信息。針對(duì)這種情況,研究?jī)?nèi)容如下: Heritrix 的擴(kuò)展 因?yàn)楝F(xiàn)有的開(kāi)源爬蟲(chóng)框架 Heritrix 提供了網(wǎng)絡(luò)搜索的基本結(jié)構(gòu),所以,我會(huì)擴(kuò)展 Heritrix 框架,使該框架適用于本系統(tǒng)。 a. 重新改寫(xiě) Heritrix 框架處理流程的過(guò)濾鏈,過(guò)濾不需要訪問(wèn)的網(wǎng)頁(yè)。 b. 重新改寫(xiě) Heritrix 框架處理流程的提取鏈,提取網(wǎng)頁(yè)包含的信息。 c. 重新改 寫(xiě) Heritrix 框架處理流程的寫(xiě)鏈,下載搜索到的 wsdl 文檔。 a. 對(duì)網(wǎng)站 Web 服務(wù)的分類頁(yè)面進(jìn)行分析,分析出含有所有 Web 服務(wù)的種類 URL 的 table 表格結(jié)構(gòu)和 URL 的結(jié)構(gòu)。 b. 對(duì)某類別 Web Service 頁(yè)面進(jìn)行分析,分析出含有所有該類別 Web服務(wù)的詳細(xì)信息頁(yè)面 URL 的 table 表格結(jié)構(gòu)和 URL 的結(jié)構(gòu)。 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(jì)(論文) 2 c. 對(duì) Web 服務(wù)詳細(xì)信息頁(yè)面進(jìn)行分析,分析出 Web 服務(wù)信息的 table表格結(jié)構(gòu)。 通過(guò)對(duì)網(wǎng)站結(jié)構(gòu)的分析,可以得到網(wǎng)站中服務(wù)分布的一顆樹(shù),并用形式化 語(yǔ)言描述這棵樹(shù)。采用數(shù)據(jù)結(jié)構(gòu)中的樹(shù)結(jié)構(gòu)來(lái)描述網(wǎng)站服務(wù)的分布樹(shù),擴(kuò)展后的爬蟲(chóng)得到根節(jié)點(diǎn) URL,通過(guò)根節(jié)點(diǎn)對(duì)整棵樹(shù)進(jìn)行遍歷,抓起網(wǎng)站所有的 Web服務(wù)。 第二種情況:網(wǎng)站上只提供了服務(wù) WSDL文檔的 URL,本系統(tǒng)只抓取服務(wù)WSDL文檔,不需要分析網(wǎng)站服務(wù)分部結(jié)構(gòu)。針對(duì)第二種情況,主要的研究?jī)?nèi)容如下: 重新改寫(xiě) Heritrix 框架處理流程中的寫(xiě)鏈,以下載搜索到的 WSDL 文檔。利用 HttpClient 編寫(xiě)下載 WSDL 程序。 全文安排 全文共分為六章。 第一章 主要介紹本課題研究背景,以及研究意義,明確課題主要研究 內(nèi)容,給出全文的組織結(jié)構(gòu)。 第二章 介紹了互聯(lián)網(wǎng)上的服務(wù)的分布情況和相關(guān)爬蟲(chóng)技術(shù),并對(duì)需求進(jìn)行分析,包括功能說(shuō)明和運(yùn)行環(huán)境。 第三章 提出了系統(tǒng)的設(shè)計(jì)和結(jié)構(gòu),其中包括總體架構(gòu)、數(shù)據(jù)庫(kù)的設(shè)計(jì)、工程包的設(shè)計(jì)和詳細(xì)的流程設(shè)計(jì)。 第四章 在第三章得基礎(chǔ)上給出了具體的實(shí)現(xiàn)方法,其中主要包括分析網(wǎng)站服務(wù)分部結(jié)構(gòu)、頁(yè)面內(nèi)容提取、下載 WSDL 文檔以及結(jié)果展示。 第五章 是對(duì)全文工作的總結(jié),指出并分析了現(xiàn)階段存在的問(wèn)題并展望了
點(diǎn)擊復(fù)制文檔內(nèi)容
畢業(yè)設(shè)計(jì)相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1