正文內(nèi)容

分布式網(wǎng)絡(luò)爬蟲-總體設(shè)計(jì)(更新版)

2025-08-07 20:52上一頁面

下一頁面

　　

【正文】 der，一個(gè)Spider只能有個(gè)一個(gè)Downloaderspider .setDownloader(new SeleniumDownloader())get(String)同步調(diào)用，并直接取得結(jié)果ResultItems result = spider .get()getAll(String…)同步調(diào)用，并直接取得一堆結(jié)果ListResultItems results = spider .getAll(, )對(duì)站點(diǎn)本身的一些配置信息，例如編碼、HTTP頭、超時(shí)時(shí)間、重試策略等、代理等，都可以通過設(shè)置Site對(duì)象來進(jìn)行配置。Brin和Page注意到：運(yùn)行一個(gè)針對(duì)超過50萬服務(wù)器的爬蟲，會(huì)產(chǎn)生很多的郵件和電話。按照這個(gè)速度，如果一個(gè)站點(diǎn)有超過10萬的頁面，即使我們擁有零延遲和無窮帶寬的完美連接，它也會(huì)需要兩個(gè)月的時(shí)間來下載整個(gè)站點(diǎn)，并且，這個(gè)服務(wù)器中的資源，只有一小部分可以使用。216。平衡禮貌策略爬蟲相比于人，可以有更快的檢索速度和更深的層次，所以，他們可能使一個(gè)站點(diǎn)癱瘓。對(duì)于這種結(jié)果的解釋是：當(dāng)一個(gè)頁面變化太快的時(shí)候，爬蟲將會(huì)將會(huì)在不斷的嘗試重新抓取而浪費(fèi)很多時(shí)間，但是卻還是不能保證頁面的新鮮度。在這個(gè)模型下，每一個(gè)顧客在投票系統(tǒng)的平均時(shí)間，相當(dāng)于爬蟲的平均過時(shí)性。抓取網(wǎng)絡(luò)上的一小部分內(nèi)容可能會(huì)花費(fèi)真的很長(zhǎng)的時(shí)間，通常用周或者月來衡量。這些頁面通常只有在向數(shù)據(jù)庫提交查詢的時(shí)候才可以訪問到，如果沒有鏈接指向他們的話，一般的爬蟲是不能訪問到這些頁面的。網(wǎng)絡(luò)爬蟲嘗試下載相似頁面，可以稱為聚焦檢索或者主題檢索。這種策略會(huì)導(dǎo)致很多的html資源在無意中錯(cuò)過，一種相似的策略是將網(wǎng)絡(luò)資源的擴(kuò)展名同已知是html文件類型的一組擴(kuò)展名（,.htm,.asp,.php,.aspx,反斜杠）進(jìn)行比較。BaezaYates等人(BaezaYates et al., 2005) ，比較若干個(gè)抓取策略?！盇biteboul (Abiteboul 等人, 2003)，設(shè)計(jì)了一種基于OPIC（在線頁面重要指數(shù)）的抓取戰(zhàn)略。Cho等人（Cho et al，1998）做了第一份抓取策略的研究。正如愛德華等人所說的：“用于檢索的帶寬不是無限的，也不是免費(fèi)的；所以，如果引入衡量爬蟲抓取質(zhì)量或者新鮮度的有效指標(biāo)的話，不但伸縮性，連有效性都將變得十分必要”（愛德華等人，2001年）。它快速的更新頻率；216。網(wǎng)頁的內(nèi)容從原來的以超文本為主，發(fā)展到后來動(dòng)態(tài)頁面（或稱為Hidden Web）數(shù)據(jù)為主，后者的數(shù)據(jù)量約為直接可見頁面數(shù)據(jù)（PIW，Publicly Indexable Web）的400~500倍。文獻(xiàn)[18]證明，利用分布式的SiteRank計(jì)算，不僅大大降低了單機(jī)站點(diǎn)的算法代價(jià)，而且克服了單獨(dú)站點(diǎn)對(duì)整個(gè)網(wǎng)絡(luò)覆蓋率有限的缺點(diǎn)?；阪溄拥淖ト〉膯栴}是相關(guān)頁面主題團(tuán)之間的隧道現(xiàn)象，即很多在抓取路徑上偏離主題的網(wǎng)頁也指向目標(biāo)網(wǎng)頁，局部評(píng)價(jià)策略中斷了在當(dāng)前路徑上的抓取行為。其基本思想是認(rèn)為與初始URL在一定鏈接距離內(nèi)的網(wǎng)頁具有主題相關(guān)性的概率很大。Selenium是一個(gè)模擬瀏覽器進(jìn)行頁面渲染的工具，WebMagic依賴Selenium進(jìn)行動(dòng)態(tài)頁面的抓取。包括注解格式定義爬蟲、JSON、分布式等支持。這四大組件對(duì)應(yīng)爬蟲生命周期中的下載、處理、管理和持久化等功能。搜索引擎己成為一個(gè)新的研究、開發(fā)領(lǐng)域。例如那些用戶注冊(cè)后內(nèi)容才可見的網(wǎng)頁就屬于 Deep Web。焦網(wǎng)絡(luò)爬蟲聚焦網(wǎng)絡(luò)爬蟲（Focused Crawler），又稱主題網(wǎng)絡(luò)爬蟲（Topical Crawler），是指選擇性地爬行那些與預(yù)先定義好的主題相關(guān)頁面的網(wǎng)絡(luò)爬蟲[8]?？刂破骺刂破魇蔷W(wǎng)絡(luò)爬蟲的中央控制器，它主要是負(fù)責(zé)根據(jù)系統(tǒng)傳過來的URL鏈接，分配一線程，然后啟動(dòng)線程調(diào)用爬蟲爬取網(wǎng)頁的過程。(4)通用搜索引擎大多提供基于關(guān)鍵字的檢索，難以支持根據(jù)語義信息提出的查詢。關(guān)鍵詞：網(wǎng)絡(luò)爬蟲；Java；多線程；MySQL；Webmagic；CsdnblogABSTRACTWeb Crawler, usually called Crawler for short, is an important part of search engine. With the highspeed development of information, Web Crawler the search engine can not lack of which is a hot research topic those years. The quality of a search engine is mostly depended on the quality of a Web Crawler. Nowadays, the direction of researching Web Crawler mainly divides into two parts: one is the searching strategy to web pages。隨著信息技術(shù)的飛速進(jìn)步，作為搜索引擎的一個(gè)組成部分——網(wǎng)絡(luò)爬蟲，一直是研究的熱點(diǎn)，它的好壞會(huì)直接決定搜索引擎的未來。產(chǎn)生背景隨著網(wǎng)絡(luò)的迅速發(fā)展，萬維網(wǎng)成為大量信息的載體，如何有效地提取并利用這些信息成為一個(gè)巨大的挑戰(zhàn)。與通用爬蟲(general purpose web crawler)不同，聚焦爬蟲并不追求大的覆蓋，而將目標(biāo)定為抓取與某一特定主題內(nèi)容相關(guān)的網(wǎng)頁，為面向主題的用戶查詢準(zhǔn)備數(shù)據(jù)資源。中大型的數(shù)據(jù)庫產(chǎn)品有：Oracle、Sql Server等。和周期性爬行和刷新頁面的網(wǎng)絡(luò)爬蟲相比，增量式爬蟲只會(huì)在需要的時(shí)候爬行新產(chǎn)生或發(fā)生更新的頁面，并不重新下載沒有發(fā)生變化的頁面，可有效減少數(shù)據(jù)下載量，及時(shí)更新已爬行的網(wǎng)頁，減小時(shí)間和空間上的耗費(fèi)，但是增加了爬行算法的復(fù)雜度和實(shí)現(xiàn)難度?；陉P(guān)鍵字匹配的搜索技術(shù)有較大的局限性：首先，它不能區(qū)分同形異義。 Java版本及配置圖1 Java版本號(hào)圖2 Java配置一圖3Java配置二圖4 Java配置三 Eclipse配置下載Eclipse壓縮包，并將Eclipse壓縮包解壓圖5解壓后 Maven配置下載maven的bin，在apache官方網(wǎng)站可以下載。WebMagic總體架構(gòu)圖如下：圖11 WebMagic總體架構(gòu) Webmagic項(xiàng)目組成WebMagic項(xiàng)目代碼包括幾個(gè)部分，在根目錄下以不同目錄名分開。webmagicsamples這里是作者早期編寫的一些爬蟲的例子。webmagicavalonwebmagicavalon是一個(gè)特殊的項(xiàng)目，它想基于WebMagic實(shí)現(xiàn)一個(gè)產(chǎn)品化的工具，涵蓋爬蟲的創(chuàng)建、爬蟲的管理等后臺(tái)工具。拓?fù)浞治鏊惴ɑ诰W(wǎng)頁之間的鏈接，通過已知的網(wǎng)頁或數(shù)據(jù)，來對(duì)與其有直接或間接鏈接關(guān)系的對(duì)象（可以是網(wǎng)頁或網(wǎng)站等）作出評(píng)價(jià)的算法。網(wǎng)站粒度的爬蟲抓取的關(guān)鍵之處在于站點(diǎn)的劃分和站點(diǎn)等級(jí)(SiteRank)的計(jì)算。但是，在PageRank和HITS算法中，沒有對(duì)這些鏈接作區(qū)分，因此常常給網(wǎng)頁分析帶來廣告等噪聲鏈接的干擾。本節(jié)根據(jù)網(wǎng)頁數(shù)據(jù)形式的不同，將基于網(wǎng)頁內(nèi)容的分析算法，歸納以下三類：第一種針對(duì)以文本和超鏈接為主的無結(jié)構(gòu)或結(jié)構(gòu)很簡(jiǎn)單的網(wǎng)頁；第二種針對(duì)從結(jié)構(gòu)化的數(shù)據(jù)源（如RDBMS）動(dòng)態(tài)生成的頁面，其數(shù)據(jù)不能直接批量訪問；第三種針對(duì)的數(shù)據(jù)界于第一和第二類數(shù)據(jù)之間，具有較好的結(jié)構(gòu)，顯示遵循一定模式或風(fēng)格，且可以直接訪問。巨大的數(shù)據(jù)量暗示了爬蟲，在給定的時(shí)間內(nèi)，只可以抓取所下載網(wǎng)絡(luò)的一部分，所以，它需要對(duì)它的抓取頁面設(shè)置優(yōu)先級(jí)；快速的更新頻率說明在爬蟲抓取下載某網(wǎng)站一個(gè)網(wǎng)頁的時(shí)候，很有可能在這個(gè)站點(diǎn)又有新的網(wǎng)頁被添加進(jìn)來，或者這個(gè)頁面被更新或者刪除了。? 選擇策略，決定所要下載的頁面；? 重新訪問策略，決定什么時(shí)候檢查頁面的更新變化；? 平衡禮貌策略，指出怎樣避免站點(diǎn)超載；? 并行策略，指出怎么協(xié)同達(dá)到分布式抓取的效果；選擇策略：就現(xiàn)在網(wǎng)絡(luò)資源的大小而言，即使很大的搜索引擎也只能獲取網(wǎng)絡(luò)上可得到資源的一小部分。計(jì)算顯示，如果你想要優(yōu)先下載pagerank高的頁面，那么，部分PageRank策略是比較好的，其次是廣度優(yōu)先和后鏈計(jì)數(shù)。OPIC的程序首先抓取獲取權(quán)值最大的頁面，實(shí)驗(yàn)在10萬個(gè)冪指分布的模擬頁面中進(jìn)行。它們從來自不同社區(qū)的高PageRank頁面開始檢索的方法，迭代次數(shù)明顯小于使用隨機(jī)種子的檢索。Cothey(Cothey,2004)引入了一種路徑檢索的爬蟲，它會(huì)嘗試抓取需要檢索資源的所有URL。聚焦檢索的主要問題是網(wǎng)頁爬蟲的使用環(huán)境，我們希望在實(shí)際下載頁面之前，就可以知道給定頁面和查詢之間的相似度。一些爬蟲僅僅抓取形如a href=”url”鏈接。最常使用的成本函數(shù)，是新鮮度和過時(shí)性（2000年，Cho 和GarciaMolina）新鮮度：這是一個(gè)衡量抓取內(nèi)容是不是準(zhǔn)確的二元值。兩種最簡(jiǎn)單的重新訪問策略是由Cho和GarciaMolina研究的（Cho 和GarciaMolina，2003）：統(tǒng)一策略：使用相同的頻率，重新訪問收藏中的所有的鏈接，而不考慮他們更新頻率。兩種情況下，最佳的策略較正比策略，都更接近統(tǒng)一策略。就像Koster（Koster，1995）所注意的那樣，爬蟲的使用對(duì)很多工作都是很有用的，但是對(duì)一般的社區(qū)，也需要付出代價(jià)。個(gè)人爬蟲，如果過多的人使用，可能導(dǎo)致網(wǎng)絡(luò)或者服務(wù)器阻塞。MercatorWeb(Heydon 和Najork, 1999)爬蟲使用了一種自適應(yīng)的平衡策略：如果從某一服務(wù)器下載一個(gè)文檔需要t秒鐘，爬蟲就等待10t秒的時(shí)間，然后開始下一個(gè)頁面。它的目標(biāo)是最大化下載的速度，同時(shí)盡量減少并行的開銷和下載重復(fù)的頁面。 //執(zhí)行這個(gè)main方法，即可在控制臺(tái)看到抓取結(jié)果。另外，對(duì)于JSON格式的內(nèi)容，可使用JsonPath進(jìn)行解析。如果大家做過前端開發(fā)，肯定知道$(39。WebMagic中使用的JsonPath格式可以參考這里：鏈接的發(fā)現(xiàn)有了處理頁面的邏輯，我們的爬蟲就接近完工了！但是現(xiàn)在還有一個(gè)問題：一個(gè)站點(diǎn)的頁面是很多的，一開始我們不可能全部列舉出來，于是如何發(fā)現(xiàn)后續(xù)的鏈接，是一個(gè)爬蟲不可缺少的一部分。import 。]).links()// 限定文章列表獲取區(qū)域 .regex(/ + username + /article/details/\\d+) .replace(/ + username + /, + username + /)// 巧用替換給把相對(duì)url轉(zhuǎn)換成絕對(duì)url .all())。article_title39。article_r39。]/a/allText()).all()))。]) .regex((\\d+)人閱讀).get()))。 // 把對(duì)象輸出控制臺(tái) (csdnBlog)。 } public static void main(String[] args) { long startTime, endTime。import 。 int temp=1。 } } //process（過程） public void process(Page page) { //()來保存抽取結(jié)果 //().xpath()則是按照某個(gè)規(guī)則對(duì)結(jié)果進(jìn)行抽取，這里抽取支持鏈?zhǔn)秸{(diào)用 ListString pages=().xpath([class=39。 //()方法來增加要抓取的URL (links)。MySQL是一種關(guān)系數(shù)據(jù)庫管理系統(tǒng)，關(guān)系數(shù)據(jù)庫將數(shù)據(jù)保存在不同的表中，而不是將所有數(shù)據(jù)放在一個(gè)大倉庫內(nèi)，這樣就增加了速度并提高了靈活性。值得注意的是用命令安裝的MySQL在Windows系統(tǒng)下默認(rèn)服務(wù)名為mysql，默認(rèn)密碼為空。該軟件支持Windows和Linux系統(tǒng)。// 閱讀人數(shù) private int ments。 } public void setTitle(String title) { = title。 } public void setView(int view) { = view。 public CsdnBlogDao() { try { ()。 } catch (SQLException e) { ()。 (6, (

點(diǎn)擊復(fù)制文檔內(nèi)容

試題試卷相關(guān)推薦

分布式防火墻設(shè)計(jì)—免費(fèi)畢業(yè)設(shè)計(jì)論文-資料下載頁

【摘要】分布式防火墻設(shè)計(jì)摘要隨著Interent的飛速發(fā)展，網(wǎng)絡(luò)安全問題越來越受到人們的關(guān)注，防火墻己經(jīng)成網(wǎng)絡(luò)安全的重要產(chǎn)品，邊界防火墻作為一種有效的網(wǎng)絡(luò)安全技術(shù)，提供了對(duì)企業(yè)內(nèi)部網(wǎng)絡(luò)的保護(hù)，但在不斷擴(kuò)大的網(wǎng)絡(luò)規(guī)模和日益多樣化的網(wǎng)絡(luò)技術(shù)面前，邊界防火墻的缺也日益突出，它很難實(shí)現(xiàn)網(wǎng)絡(luò)的安全性和網(wǎng)絡(luò)性能之間的均衡。為了克服傳統(tǒng)防火墻的缺陷，

2024-11-23 19:43

sqmaaa第8章-分布式測(cè)控網(wǎng)絡(luò)技術(shù)-資料下載頁

【摘要】第8章分布式測(cè)控網(wǎng)絡(luò)技術(shù)數(shù)據(jù)通信是工業(yè)測(cè)控網(wǎng)絡(luò)和分散型測(cè)控系統(tǒng)的關(guān)鍵技術(shù)。如果把不同地理位置和不同功能的計(jì)算機(jī)按照統(tǒng)一的協(xié)議連接起來就構(gòu)成了計(jì)算機(jī)分散測(cè)控網(wǎng)絡(luò)系統(tǒng)本章主要介紹工業(yè)網(wǎng)絡(luò)和通信技術(shù)、分布式控制系統(tǒng)、現(xiàn)場(chǎng)總線技術(shù)、綜合自動(dòng)化技術(shù)和分布式測(cè)控網(wǎng)絡(luò)設(shè)計(jì)舉例。工業(yè)網(wǎng)絡(luò)技術(shù)分布式控制系統(tǒng)(

2025-08-04 10:05

汽車總體設(shè)計(jì)-資料下載頁

【摘要】汽車總體設(shè)計(jì)1.?概述汽車性能的優(yōu)劣不僅取決于組成汽車的各部件的性能，而且在很大程度上取決于各部件的協(xié)調(diào)和配合，取決于總體布置；總體設(shè)計(jì)水平的高低對(duì)汽車的設(shè)計(jì)質(zhì)量、使用性能和產(chǎn)品的生命力起決定性的影響。汽車是一個(gè)系統(tǒng)，這是基于汽車只有如下屬性而具備組成系統(tǒng)的條件：①?汽車是由多個(gè)要素（子系統(tǒng)及連接零件）組成的整體，每個(gè)要素對(duì)整體的行為有影響；②

2025-06-30 06:30

分布式溫度控制系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)-資料下載頁

【摘要】分布式溫度控制系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)目錄第一章緒論----------------------------------------------------------1問題的提出-------------------------------------------------------2課題相關(guān)的背景知識(shí)設(shè)計(jì)目的及系統(tǒng)功能3第二章硬件電路設(shè)計(jì)3基本硬件設(shè)計(jì)思路3基

2025-08-04 14:16

基于分布式的媒體資產(chǎn)管理系統(tǒng)的設(shè)計(jì)-資料下載頁

【摘要】碩士學(xué)位論文（專業(yè)學(xué)位）基于分布式的媒體資產(chǎn)管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)姓名：李佳佳學(xué)號(hào)：1021170344所在院系：軟件學(xué)院職業(yè)類型：工程碩士專業(yè)領(lǐng)域：軟件工程指導(dǎo)教師：張林副指導(dǎo)教師：凌堅(jiān)二〇一三年九月

2025-06-25 13:58

1總體設(shè)計(jì)-資料下載頁

【摘要】編譯原理綜合設(shè)計(jì)報(bào)告1目錄1．總體設(shè)計(jì)···························&

2025-03-03 11:23

基于vb的分布式監(jiān)控系統(tǒng)通信設(shè)計(jì)-資料下載頁

【摘要】主頁：基于VB的分布式監(jiān)控系統(tǒng)通信設(shè)計(jì)郭愛文(武漢大學(xué)動(dòng)力工程系自動(dòng)化專業(yè))王靜(武漢大學(xué)電力工程系通訊專業(yè))武漢430072摘要本文介紹了利用VB的多種通信手段實(shí)現(xiàn)分布式監(jiān)控系統(tǒng)的多種通信功能，對(duì)每一種通信手段給出其原理和應(yīng)用實(shí)例。關(guān)鍵詞VB通信串行口控件D

2025-06-01 22:32

分布式光伏發(fā)電系統(tǒng)設(shè)計(jì)方案(專業(yè))-資料下載頁

【摘要】某學(xué)校512K分布式光伏發(fā)電系統(tǒng)設(shè)計(jì)方案2013年10月10日項(xiàng)目編號(hào)：XXX目錄1工程概述 3工程名稱 3地理簡(jiǎn)介 3氣象資料…………………………………………………………………………...32太陽能并網(wǎng)發(fā)電系統(tǒng)介紹 4太陽能并網(wǎng)發(fā)電系統(tǒng)工作原理

2025-04-22 22:56

微服務(wù)架構(gòu)分布式事務(wù)設(shè)計(jì)方案-資料下載頁

【摘要】微服務(wù)–分布式事務(wù)概念澄清·事務(wù)補(bǔ)償機(jī)制:在事務(wù)鏈中的任何一個(gè)正向事務(wù)操作,都必須存在一個(gè)完全符合回滾規(guī)則的可逆事務(wù).·CAP理論:CAP(Consistency,Availability,PartitionTolerance),闡述了一個(gè)分布式系統(tǒng)的三個(gè)主要方面,只能同時(shí)擇其二進(jìn)行實(shí)現(xiàn).常見的有CP系統(tǒng),AP系統(tǒng).·冪等性

2025-05-10 05:16

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片