freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

畢業(yè)論文(設(shè)計):面向web service的網(wǎng)絡(luò)爬蟲設(shè)計與實現(xiàn)-文庫吧

2025-05-16 01:32 本頁面


【正文】 頁結(jié)構(gòu)時,需要人工對網(wǎng)頁的包含信息的table標(biāo)簽進(jìn)行分析,得到該 table下信息分布的情況,然后使用 HTMLParser準(zhǔn)確定位到需求信息的位置,并提取信息。 分析網(wǎng)站結(jié)構(gòu)過程如下: 1. 提供一個包含所有 Web service 類別的網(wǎng)頁的 URL,分析該網(wǎng)頁,用以上分析頁面的方法提取出所有的類別頁面的 URL,取出一個服務(wù)類別頁面URL。 2. 并對該類別頁面進(jìn)行分析,提取出所有的 Web service 詳細(xì)信息頁面的URL。 3. 對詳細(xì)信息頁 面進(jìn)行分析,提取出所有與 Web service 相關(guān)的信息。 4. 把這些相關(guān)信息存入到數(shù)據(jù)庫中。 5. 提取下一個類別 URL。并重復(fù) 2 步驟。 爬蟲無限循環(huán)執(zhí)行對頁面的分析,直到?jīng)]有未訪問過的 URL 存在。 五、可行性分析: 網(wǎng)絡(luò)上 Web服務(wù)的飛速增長,例如 了 2萬多個,且服務(wù)的種類很多,為本系統(tǒng)提供了非常好的搜索源。并且網(wǎng)站的分布結(jié)構(gòu)十分清晰,有利于我們設(shè)計簡單有效地搜索策略。同時網(wǎng)絡(luò)爬蟲技術(shù)的飛速發(fā)展,各種爬蟲開源框架的出現(xiàn),為我們的爬蟲系統(tǒng)提供了良好的 技術(shù)基礎(chǔ)。在開源框架的基礎(chǔ)上,結(jié)合對 Web服務(wù)網(wǎng)站的結(jié)構(gòu)分析,就可以實現(xiàn)對網(wǎng)絡(luò)上分布的 Web服務(wù)抓取。 六、 進(jìn)度安排: 1. 學(xué)習(xí)與爬蟲相關(guān)的基本知識, 至 。 2. 概念抽象,對于 web services 爬蟲的分析和設(shè)計, 至 。 3. 構(gòu)建 web services 爬蟲, 至 。 選題是否合適: 是□ 否□ 課題能否實現(xiàn): 能□ 不能□ 指導(dǎo)教師 (簽字) 年 月 日 選題是否合適: 是□ 否□ 課題能否實現(xiàn): 能□ 不能□ 審題小組組長(簽字) 年 月 日 摘 要 互聯(lián)網(wǎng)上的服務(wù)數(shù)量增長快速,網(wǎng)站提供的關(guān)于服務(wù)的信息也各異,導(dǎo)致用戶難以正確、快速的找到合適的服務(wù),為了解決以上問題,需要獲取和保存服務(wù)的 WSDL 的 URL 和相關(guān)的服務(wù)信息。 本文完成了一個 Web 服務(wù)信息分析、抓取的網(wǎng)絡(luò)爬蟲,主要研究開發(fā)內(nèi)容有:1)分析服務(wù)網(wǎng)站結(jié)構(gòu):在抓取某個網(wǎng)站上的服務(wù)前,要人工的分析出該網(wǎng)站哪些頁面需要抓取,哪些頁面中哪些信息需要抓取; 2)頁面信息提?。焊鶕?jù)人工分析出的哪些頁面中哪些信息需要抓取的結(jié)構(gòu),使用 HtmlParser 工具抓取頁面中的信息。 3)下載 WSDL 文檔:在抓取到了服務(wù) WSDL 的 URL 后,使用 HtmlClient 下載 WSDL 文檔。 4)加載服務(wù)信息到數(shù)據(jù)庫:把在頁面信息提取中得到的關(guān)于服務(wù)的信息存入數(shù)據(jù)庫中。 通過對 Web 服務(wù)的抓取,用戶可以通過統(tǒng)一的入口來訪問這些服務(wù),而不用在互聯(lián)網(wǎng)上盲目搜索。為服務(wù)的使用和開發(fā)提供更加便利的平臺環(huán)境。 關(guān)鍵詞: 爬蟲 ;網(wǎng)絡(luò)服務(wù); WSDL; ABSTRACT The number of services on the Inter Increase quickly,the information sites provide about services is also different, leading to that it is difficult for users to correctly and quickly find the right services, in order to solve the above problems, needing to capture and store the service39。s WSDL URL and related service information. This paper pleted a Web Crawler about Web service information analysis and main research and development contents are: 1) Analysis Service Web site structure: before capturing the services on a Web site, needing to manually analyze which pages of the site need to be captured, and which information in which pages needs to be captured。 2) Page information extraction: According to the manual analysis that which information in which paper needs to be captured, then using HtmlParser tools to capture the information in the page。 3) Downloading the WSDL document: capturing the service WSDL URL, and then using HtmlClient to download the WSDL ) Loading service information into the database: store the information about the service into the database. After Crawling the Web service, users can access Web services through a unified portal , rather than blindly searching on the a more convenient platform environment for the use and development of services. Key words: Crawler; Web service; WSDL; 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(論文) 1 目 錄 第一章 緒論 ........................................ 1 問題的背景和意義 .................................. 1 研究目標(biāo)和目的 .................................... 1 全文安排 ......................................... 2 第二章 相關(guān)工作和需求分析 .......................... 3 相關(guān)工作 ......................................... 3 功能說明 ......................................... 4 運(yùn)行環(huán)境 ......................................... 4 第三章 面向 web service 的網(wǎng)絡(luò)爬蟲詳細(xì)設(shè)計 ............ 5 總體架構(gòu) ......................................... 5 數(shù)據(jù)庫設(shè)計 ........................................ 6 程序包設(shè)計 ........................................ 7 流程設(shè)計 ......................................... 8 第四章 面向 web service 的聚焦網(wǎng)絡(luò)爬蟲技術(shù)實現(xiàn) ....... 13 分析網(wǎng)站服務(wù)分布結(jié)構(gòu) ............................. 13 網(wǎng)頁內(nèi)容提取 ..................................... 15 服務(wù)提供商集合頁面內(nèi)容提取 .................. 15 服務(wù)提供商頁面內(nèi)容提取 ...................... 18 服務(wù)詳細(xì)信息頁面內(nèi)容提取 .................... 20 頁面鏈接提取 ................................ 22 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(論文) 2 下載 WSDL 文檔 .................................... 24 結(jié)果展示 ........................................ 24 第五章 總結(jié)和展望 ................................. 29 論文總結(jié) ........................................ 29 存在的問題和展望 ................................. 29 參考文獻(xiàn) .......................................... 30 外文資料 中文譯文 致 謝 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(論文) 1 第一章 緒論 問題的背景和意義 隨著互聯(lián)網(wǎng)的飛速發(fā)展,應(yīng)用程序的集成,軟件和數(shù)據(jù)的重用成為互聯(lián)網(wǎng)發(fā)展的障礙。 Web 服務(wù)的出現(xiàn)有效的解決了以上難題。 Web 服務(wù)允許應(yīng)用開發(fā)者對不同語言,不同平臺的應(yīng)用程序進(jìn)行集成,允許在程序中調(diào)用 Web 服務(wù)。正因為 Web 服務(wù)的有效的解決了以上問題,互聯(lián)網(wǎng)上的服務(wù)發(fā)展迅速,服務(wù)數(shù)量飛速增長。服務(wù)數(shù)量的增長,使得用戶查找服務(wù)變得困難。另外, Web 服務(wù)的發(fā)展也產(chǎn)生了另外一個應(yīng)用模式:組合應(yīng)用 (Mushup),把不同的 Web 服務(wù)進(jìn)行組合,滿足用戶需求。 現(xiàn)在,互聯(lián)網(wǎng)上存在許多被動的,集中式的服務(wù)注冊網(wǎng)站,這類網(wǎng)站上的服務(wù)可能大部分來源于網(wǎng)站國家的開發(fā)者,服務(wù)功能針對某一領(lǐng)域。但是通過主動式的爬取,獲得并存儲互聯(lián)網(wǎng)上的服務(wù),對服務(wù)進(jìn)行集中管理,有利于對用戶提供統(tǒng)一的訪問方式,有利于對互聯(lián)網(wǎng)服務(wù)的分析,提高組合的效率。 研究目的和主要內(nèi)容 為了對互聯(lián)網(wǎng)服務(wù)進(jìn)行集中管理,需要將互聯(lián)網(wǎng)上的服務(wù)信息存放到數(shù)據(jù)庫中。所以本論文的目的是:通過爬蟲抓取,得到互聯(lián)網(wǎng)上的 Web 服務(wù)信息,并把服務(wù)信息存放到數(shù)據(jù)庫中。 為了 實現(xiàn)該目的,本論文的主要研究內(nèi)容包括: 第一種情況:網(wǎng)站上的服務(wù)提供了關(guān)于服務(wù)的相關(guān)信息,那么本系統(tǒng)抓取服務(wù) WSDL 文檔的同時,獲取服務(wù)的相關(guān)信息。針對這種情況,研究內(nèi)容如下: Heritrix 的擴(kuò)展 因為現(xiàn)有的開源爬蟲框架 Heritrix 提供了網(wǎng)絡(luò)搜索的基本結(jié)構(gòu),所以,我會擴(kuò)展 Heritrix 框架,使該框架適用于本系統(tǒng)。 a. 重新改寫 Heritrix 框架處理流程的過濾鏈,過濾不需要訪問的網(wǎng)頁。 b. 重新改寫 Heritrix 框架處理流程的提取鏈,提取網(wǎng)頁包含的信息。 c. 重新改 寫 Heritrix 框架處理流程的寫鏈,下載搜索到的 wsdl 文檔。 a. 對網(wǎng)站 Web 服務(wù)的分類頁面進(jìn)行分析,分析出含有所有 Web 服務(wù)的種類 URL 的 table 表格結(jié)構(gòu)和 URL 的結(jié)構(gòu)。 b. 對某類別 Web Service 頁面進(jìn)行分析,分析出含有所有該類別 Web服務(wù)的詳細(xì)信息頁面 URL 的 table 表格結(jié)構(gòu)和 URL 的結(jié)構(gòu)。 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(論文) 2 c. 對 Web 服務(wù)詳細(xì)信息頁面進(jìn)行分析,分析出 Web 服務(wù)信息的 table表格結(jié)構(gòu)。 通過對網(wǎng)站結(jié)構(gòu)的分析,可以得到網(wǎng)站中服務(wù)分布的一顆樹,并用形式化 語言描述這棵樹。采用數(shù)據(jù)結(jié)構(gòu)中的樹結(jié)構(gòu)來描述網(wǎng)站服務(wù)的分布樹,擴(kuò)展后的爬蟲得到根節(jié)點(diǎn) URL,通過根節(jié)點(diǎn)對整棵樹進(jìn)行遍歷,抓起網(wǎng)站所有的 Web服務(wù)。 第二種情況:網(wǎng)站上只提供了服務(wù) WSDL文檔的 URL,本系統(tǒng)只抓取服務(wù)WSDL文檔,不需要分析網(wǎng)站服務(wù)分部結(jié)構(gòu)。針對第二種情況,主要的研究內(nèi)容如下: 重新改寫 Heritrix 框架處理流程中的寫鏈,以下載搜索到的 WSDL 文檔。利用 HttpClient 編寫下載 WSDL 程序。 全文安排 全文共分為六章。 第一章 主要介紹本課題研究背景,以及研究意義,明確課題主要研究 內(nèi)容,給出全文的組織結(jié)構(gòu)。 第二章 介紹了互聯(lián)網(wǎng)上的服務(wù)的分布情況和相關(guān)爬蟲技術(shù),并對需求進(jìn)行分析,包括功能說明和運(yùn)行環(huán)境。 第三章 提出了系統(tǒng)的設(shè)計和結(jié)構(gòu),其中包括總體架構(gòu)、數(shù)據(jù)庫的設(shè)計、工程包的設(shè)計和詳細(xì)的流程設(shè)計。 第四章 在第三章得基礎(chǔ)上給出了具體的實現(xiàn)方法,其中主要包括分析網(wǎng)站服務(wù)分部結(jié)構(gòu)、頁面內(nèi)容提取、下載 WSDL 文檔以及結(jié)果展示。 第五章 是對全文工作的總結(jié),指出并分析了現(xiàn)階段存在的問題并展望了
點(diǎn)擊復(fù)制文檔內(nèi)容
畢業(yè)設(shè)計相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1