正文內(nèi)容

畢業(yè)論文-面向webservice的網(wǎng)絡(luò)爬蟲設(shè)計(jì)與實(shí)現(xiàn)(留存版)

2025-08-03 05:12上一頁面

下一頁面

　　

【正文】 vices 技術(shù)可以將 Inter 上的各種信息資源和服務(wù)功能整合在一起，在任何時(shí)間、任何地點(diǎn)向用戶提供優(yōu)質(zhì)的服務(wù) 。為了達(dá)到以上目的，本系統(tǒng)將對(duì) Heritrix 開源框架進(jìn)行擴(kuò)展 ,并針對(duì)服務(wù)網(wǎng)站上服務(wù)的特點(diǎn)選擇合適的爬蟲抓取過程。因?yàn)榫劢咕W(wǎng)絡(luò)爬蟲技術(shù)能最快的，最準(zhǔn)確的搜索 Web 服務(wù)信息。通過對(duì)網(wǎng)站結(jié)構(gòu)的分析，可以得到網(wǎng)站中服務(wù)分布的一顆樹，并用形式化語言描述這棵樹。 5. 提取下一個(gè)類別 URL。關(guān)鍵詞：爬蟲；網(wǎng)絡(luò)服務(wù)； WSDL； ABSTRACT The number of services on the Inter Increase quickly,the information sites provide about services is also different, leading to that it is difficult for users to correctly and quickly find the right services, in order to solve the above problems, needing to capture and store the service39。 b. 重新改寫 Heritrix 框架處理流程的提取鏈，提取網(wǎng)頁包含的信息。天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(jì)（論文） 3 第二章相關(guān)工作和需求分析相關(guān)工作隨著 Web 服務(wù)開發(fā)者數(shù)量的增加，互聯(lián)網(wǎng)上的 Web 服務(wù)數(shù)量以爆炸方式增長(zhǎng)。 2. 下載 WSDL 文檔提取了 Web服務(wù)詳細(xì)信息后，根據(jù) Web服務(wù) WSDL文檔的 URL，下載 WSDL文檔，并把文檔內(nèi)容存放到數(shù)據(jù)庫中。 ? 是提取鏈模塊的程序文件包，主要負(fù)責(zé)對(duì)各種頁面進(jìn)行信息提取。直到?jīng)]有空閑線程或者待訪問隊(duì)列中沒有多余的鏈接為止。通過以上分析，得出以下結(jié)論：針對(duì) seekda 網(wǎng)站的抓取策略是先得到所有的提供商集合，然后進(jìn)入每個(gè)提供商頁面，在提供商頁面，得到該提供商的所有服務(wù)。 //執(zhí)行操作 2 condition2(content,curi)。 NodeFilter attributes_filter = new AndFilter(new TagNameFilter(ul), new HasAttributeFilter(class, providerlist))。 for (int i = 0。的 li 標(biāo)簽中。 (()+ next :+str)。 baseIndex = (input type=\hidden\ name=uri)。 beginIndex = (\)。由其它處理鏈來處理。 } 下載 WSDL 文檔在爬蟲抓取過程中，如果抓取到了服務(wù) WSDL 文檔的 URL，就下載 WSDL文檔，具體過程是：首先得到利用 HTTPClient 工具對(duì) WSDL 文檔進(jìn)行連接，并得到 inputStream。 heritrix/ + 在 from: 處，修改為：在 maxretries:處，修改為 5，在 retrydelayseconds 處，修改為 60。要實(shí)現(xiàn)一個(gè)抓取流程和提取頁面內(nèi)容方法就可以抓取互聯(lián)網(wǎng)上所有的服務(wù)WSDL 文檔及服務(wù)信息，可以讓服務(wù)提供者把服務(wù)相關(guān)的信息寫入 WSDL 文檔。 4. 在頁面中輸入 Name of new job， description， seeds，如圖 47 所示：圖 47 新任務(wù)設(shè)置頁面天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(jì)（論文） 26 5. 然后點(diǎn)擊 Modules 標(biāo)簽，進(jìn)入新頁面，如圖 48 和 49 所示：在 select crawl scope 選項(xiàng)中，選擇 BroadScope,并點(diǎn)擊 change 按鈕。 i ()。 } 同理可分析服務(wù)用戶描述、服務(wù)標(biāo)簽內(nèi)容的 HTML 代碼結(jié)構(gòu)。服務(wù) 注冊(cè) 時(shí) 間在這段源代碼（ dtMonitored since:/dtddabbr title=20210516T00:00:00Z 2021516/abbr/dd）中。i++){ String url= (i).toHtml()。 } 3. 如果該頁面不是最后一頁，提取下一頁的 URL，并加入到帶訪問隊(duì)列中。 } 通過以上步驟，就可以得到服務(wù)提供商集合頁面的所有提供商頁面 URL，并把這些 URL 加入到爬蟲待訪問隊(duì)列中，爬蟲在后續(xù)的抓取過程中，會(huì)對(duì)這些提供商頁面 URL 進(jìn)行再抓取并提取內(nèi)容。 try { nodelist1 = (nodefiter1)。天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(jì)（論文） 16 程序流程如圖 42 所示：圖 42 服務(wù)提供商集合頁面內(nèi)容提取流程圖部分代碼如下： 1. 首先新建一個(gè)解析類 Parser 實(shí)例， Parser parser = null。通過以上的結(jié)論，本系統(tǒng)在過濾鏈中判斷頁面類型的代碼如下： if((/providers/alphabetic/)){ //該頁面時(shí)提供商集合頁面 (url+ 進(jìn)入提供商集合頁面 )。 3. 網(wǎng)站按照提供商來進(jìn)行分類，用戶可以查找每一個(gè)提供商，然后就查找到了每個(gè)提供商下的每個(gè)服務(wù)。，就進(jìn)入了寫鏈，如果是服務(wù)詳細(xì)信息頁面，在數(shù)據(jù)庫中標(biāo) 記該頁面類型為 true，表示該數(shù)據(jù)庫記錄是一個(gè)提供商服務(wù)集合頁面相關(guān)的內(nèi)容。系統(tǒng)結(jié)構(gòu)圖如下：圖 32 抓取沒有詳細(xì)信息服務(wù)的系統(tǒng)結(jié)構(gòu) 圖數(shù)據(jù) 庫設(shè)計(jì) 本系統(tǒng)的數(shù)據(jù)庫較簡(jiǎn)單，只有一個(gè)表 webServiceDetail，在兩種情況下，都需要存儲(chǔ)服務(wù) WSDL 文檔的 URL，在第一種情況下，需要存儲(chǔ)服務(wù)相關(guān)信息，這些相關(guān)信息包括：服務(wù)提供商、服務(wù)注冊(cè)時(shí)間、服務(wù)可用率、服務(wù)用戶描述、服務(wù)服務(wù)器等，但是在第二種情況下，不需要存儲(chǔ)服務(wù)相關(guān)信息，只存儲(chǔ)服務(wù)WSDL 文檔的 URL。 Web 服務(wù)有其特定結(jié)構(gòu)， Web 服務(wù)網(wǎng)絡(luò)爬蟲不僅僅遍歷網(wǎng)頁，并建立索引，而且在遍歷網(wǎng)頁過程中，利用網(wǎng)頁分析工具解析網(wǎng) 頁 [7]，把 Web 服務(wù)相關(guān)信息抓取下來，如：注冊(cè)標(biāo)簽、提供商、注冊(cè)時(shí)間、可用率、服務(wù)器等。第二章介紹了互聯(lián)網(wǎng)上的服務(wù)的分布情況和相關(guān)爬蟲技術(shù)，并對(duì)需求進(jìn)行分析，包括功能說明和運(yùn)行環(huán)境。所以本論文的目的是：通過爬蟲抓取，得到互聯(lián)網(wǎng)上的 Web 服務(wù)信息，并把服務(wù)信息存放到數(shù)據(jù)庫中。 3）下載 WSDL 文檔：在抓取到了服務(wù) WSDL 的 URL 后，使用HtmlClient 下載 WSDL 文檔。分析網(wǎng)站結(jié)構(gòu)過程如下： 1. 提供一個(gè)包含所有 Web service 類別的網(wǎng)頁的 URL，分析該網(wǎng)頁，用以上分析頁面的方法提取出所有的類別頁面的 URL，取出一個(gè)服務(wù)類別頁面 URL。 c. 重新改寫 Heritrix框架處理流程中的寫鏈，以下載搜索到的 wsdl 文檔。聚焦網(wǎng)絡(luò)爬蟲 (Focused Crawler)，又稱主題網(wǎng)絡(luò)爬蟲 (Topical Crawler )，是指選擇性地爬行那些與預(yù)先定義好的主題相關(guān)頁面的網(wǎng)絡(luò)爬蟲 [3]。 [5]J. Cho, H. GarciaMolina. The evolution of the web and implications for an incremental crawler [C]. In Proceedings of the 26th International Conference on Very Large Database, Cairo, Egypt, 2021. [6]李文澤；個(gè)性化垂直搜索引擎研究；河南大學(xué)； 20211107； [7]曾偉輝，李淼 . 深層網(wǎng)絡(luò)爬蟲研究綜述 [J]. 計(jì)算機(jī)系統(tǒng)應(yīng)用 , 2021. [8]周立柱 ,林玲 . 聚焦爬蟲技術(shù)研究綜述 [J].計(jì)算機(jī)應(yīng)用 , 2021 年 9 月 . [9]S. Chakrabarti, M. van den Berg and B. Dom. Focused Crawling: A New Approach to TopicSpecific Web Resource Discovery [C]. In Proceedings of the 8th International World Wide Web Conference, Toronto, Canada, 1999. [10]陳汶濱，夏學(xué)梅 . 基于聚焦爬蟲的手機(jī)天氣預(yù)報(bào)系統(tǒng) [J]. 今日科苑 . 2021年第2期 . [11]邱哲，符滔滔 . 開發(fā)自己的搜索引擎 Lucene +Heritrix. 人民郵電出版社 , 20214. [12]羅剛 . 自己動(dòng)手寫網(wǎng)絡(luò)爬蟲 . 清華大學(xué)出版社 . 2021101； [13]Heritrix 官方網(wǎng)站 [EB/OL]. [14]seeda 網(wǎng)站 [EB/OL]. [15]網(wǎng)絡(luò)爬蟲 [EB/OL]. 三、設(shè)計(jì)（研究）內(nèi)容和要求（包括設(shè)計(jì)或研究?jī)?nèi)容、主要指標(biāo) 與技術(shù)參數(shù)，并根據(jù)課題性質(zhì)對(duì)學(xué)生提出具體要求。畢業(yè)設(shè)計(jì)（論文）說明書學(xué) 院軟件學(xué)院專業(yè) 軟件工程年級(jí) 07 級(jí) 姓名梁其烜指導(dǎo)教師馮志勇 2021 年 6 月 15 日畢業(yè)設(shè)計(jì)（論文）任務(wù)書題目：面向 web service 的網(wǎng)絡(luò)爬蟲設(shè)計(jì)與實(shí)現(xiàn) 學(xué)生姓名梁其烜學(xué)院名稱軟件學(xué)院專業(yè) 軟件工程學(xué) 號(hào) 3007218123 指導(dǎo)教師馮志勇職稱教授一、原始依據(jù)（包括設(shè)計(jì)或論文的工作基礎(chǔ)、研究條件、應(yīng)用環(huán) 境、工作目的等。）本系統(tǒng)將要達(dá)到以下目標(biāo)： ? 提供給用戶一個(gè)種子文件，用戶可以設(shè)置抓取 Web 服務(wù)的網(wǎng)站地址。隨著垂直搜索的蓬勃發(fā)展，聚焦網(wǎng)絡(luò)，也就是主題網(wǎng)絡(luò)爬蟲成為研究的前言， [4]提出通過深入分析生活類網(wǎng)站網(wǎng)址的樹形結(jié)構(gòu)的架構(gòu)，開發(fā)了收集種子頁面的 URL 的模擬搜集齊，并基于 HTMLParser 的信息提取方法，從種子與頁面中提取出與生活類主題相關(guān)的目標(biāo) URL。 a. 對(duì)網(wǎng)站所有 Web Service 的分類頁面進(jìn)行分析，分析出含有所有 Web Service 的種類 URl 的 table 表格結(jié)構(gòu)和 URL 的結(jié)構(gòu)。 2. 并對(duì)該類別頁面進(jìn)行分析，提取出所有的 Web service 詳細(xì)信息頁面的URL。 4）加載服務(wù)信息到數(shù)據(jù)庫：把在頁面信息提取中得到的關(guān)于服務(wù)的信息存入數(shù)據(jù)庫中。為了實(shí)現(xiàn)該目的，本論文的主要研究?jī)?nèi)容包括：第一種情況：網(wǎng)站上的服務(wù)提供了關(guān)于服務(wù)的相關(guān)信息，那么本系統(tǒng)抓取服務(wù) WSDL 文檔的同時(shí)，獲取服務(wù)的相關(guān)信息。第三章提出了系統(tǒng)的設(shè)計(jì)和結(jié)構(gòu)，其中包括總體架構(gòu)、數(shù)據(jù)庫的設(shè)計(jì)、工程包的設(shè)計(jì)和詳細(xì)的流程設(shè)計(jì)。 Heritrix[9]是一個(gè)比較靈活、可擴(kuò)展性強(qiáng)的網(wǎng)絡(luò)爬蟲開源框架，目前，已經(jīng)有很多應(yīng)用在該框架上進(jìn)行開發(fā)，例如基于 Heritrix 的面向電子商務(wù)網(wǎng)站的信息抓取，該應(yīng)用就是在 Heritrix 網(wǎng)絡(luò)爬蟲開源框架的基礎(chǔ)上進(jìn)行擴(kuò)展、修改 [10]，并建立特有的抓取策略來抓取網(wǎng)絡(luò)上的電子商務(wù)信息 [11]。數(shù)據(jù)庫表定義如下：天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(jì)（論文） 7 表 31 webServiceDetail 表屬性名數(shù)據(jù)類型非空自增長(zhǎng) 默認(rèn)值 wsdlAddress VARCHAR(255) √ Provider VARCHAR(30) monitoredSince VARCHAR(50) server VARCHAR(50) availability VARCHAR(50)

點(diǎn)擊復(fù)制文檔內(nèi)容

畢業(yè)設(shè)計(jì)相關(guān)推薦

基于旁路的web訪問監(jiān)控系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)論文-資料下載頁

【摘要】論文題目：基于旁路的Web訪問監(jiān)控系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)學(xué)生姓名：指導(dǎo)教師：摘要在實(shí)驗(yàn)室或者辦公室，管理員總是希望學(xué)生或員工可以專心自己的任務(wù)，而不去瀏覽觀看與學(xué)習(xí)或工作無關(guān)的網(wǎng)頁或網(wǎng)站。因而，當(dāng)學(xué)生或員工輸入無關(guān)網(wǎng)址時(shí)，管理員的服務(wù)器可以搶在其打開網(wǎng)頁前與其進(jìn)行“握手”并發(fā)送管理員提前準(zhǔn)備好的頁面，從而阻止了其正常訪問，提高了學(xué)習(xí)工作效率。首先介紹了不良網(wǎng)站對(duì)于正常網(wǎng)絡(luò)的入侵

2025-06-27 20:33

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

畢業(yè)論文-面向webservice的網(wǎng)絡(luò)爬蟲設(shè)計(jì)與實(shí)現(xiàn)(留存版)

基于旁路的web訪問監(jiān)控系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)論文-資料下載頁

畢業(yè)論文-基于web的學(xué)生綜合測(cè)評(píng)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)-資料下載頁

基于web的深藍(lán)科技網(wǎng)站的設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)論文-資料下載頁

畢業(yè)論文-面向webservice的網(wǎng)絡(luò)爬蟲設(shè)計(jì)與實(shí)現(xiàn)-全文預(yù)覽

畢業(yè)論文-面向webservice的網(wǎng)絡(luò)爬蟲設(shè)計(jì)與實(shí)現(xiàn)-預(yù)覽頁

畢業(yè)論文-面向webservice的網(wǎng)絡(luò)爬蟲設(shè)計(jì)與實(shí)現(xiàn)-免費(fèi)閱讀

畢業(yè)論文-面向webservice的網(wǎng)絡(luò)爬蟲設(shè)計(jì)與實(shí)現(xiàn)(存儲(chǔ)版)

畢業(yè)論文-面向webservice的網(wǎng)絡(luò)爬蟲設(shè)計(jì)與實(shí)現(xiàn)-文庫吧在線文庫