freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

分布式網(wǎng)絡(luò)爬蟲-總體設(shè)計(jì)-文庫吧

2025-06-14 20:52 本頁面


【正文】 圖1 Java版本號(hào)圖2 Java配置一圖3Java配置二圖4 Java配置三 Eclipse配置下載Eclipse壓縮包,并將Eclipse壓縮包解壓圖5解壓后 Maven配置下載maven的bin,在apache官方網(wǎng)站可以下載。版本類型下載下來之后,解壓,找個(gè)路徑放進(jìn)去, 把bin的位置設(shè)在環(huán)境變量里,新建環(huán)境變量MAVEN_HOME圖6 環(huán)境變量配置一在PATH里加入maven的bin的路徑圖7 環(huán)境變量配置二配置完畢后,在Windows命令提示符下,輸入mvn v測(cè)試一下,配置成功顯示如圖:圖8 配置成功配置成功后開始在Eclipse中配置Maven,點(diǎn)擊eclipse菜單欄HelpEclipse Marketplace搜索關(guān)鍵字maven到插件Maven Integration for Eclipse 并點(diǎn)擊安裝即可,如下圖:圖 9 在Eclipse中配置maven重啟后,為了使得Eclipse中安裝的Maven插件,同windows中安裝的那個(gè)相同,需要讓eclipse中的maven重新定位一下,點(diǎn)擊Window Preference Maven Installation Add進(jìn)行設(shè)置圖10 配置二 框架webmagic WebMagic概覽WebMagic項(xiàng)目代碼分為核心和擴(kuò)展兩部分。核心部分(webmagiccore)是一個(gè)精簡的、模塊化的爬蟲實(shí)現(xiàn),而擴(kuò)展部分則包括一些便利的、實(shí)用性的功能。WebMagic的架構(gòu)設(shè)計(jì)參照了Scrapy,目標(biāo)是盡量的模塊化,并體現(xiàn)爬蟲的功能特點(diǎn)。 Webmagic總體架構(gòu)WebMagic的結(jié)構(gòu)分為Downloader、PageProcessor、Scheduler、Pipeline四大組件,并由Spider將它們彼此組織起來。這四大組件對(duì)應(yīng)爬蟲生命周期中的下載、處理、管理和持久化等功能。WebMagic的設(shè)計(jì)參考了Scapy,但是實(shí)現(xiàn)方式更Java化一些。而Spider則將這幾個(gè)組件組織起來,讓它們可以互相交互,流程化的執(zhí)行,可以認(rèn)為Spider是一個(gè)大的容器,它也是WebMagic邏輯的核心。WebMagic總體架構(gòu)圖如下:圖11 WebMagic總體架構(gòu) Webmagic項(xiàng)目組成WebMagic項(xiàng)目代碼包括幾個(gè)部分,在根目錄下以不同目錄名分開。它們都是獨(dú)立的Maven項(xiàng)目。主要部分WebMagic主要包括兩個(gè)包,這兩個(gè)包經(jīng)過廣泛實(shí)用,已經(jīng)比較成熟:webmagiccorewebmagiccore是WebMagic核心部分,只包含爬蟲基本模塊和基本抽取器。WebMagiccore的目標(biāo)是成為網(wǎng)頁爬蟲的一個(gè)教科書般的實(shí)現(xiàn)。webmagicextensionwebmagicextension是WebMagic的主要擴(kuò)展模塊,提供一些更方便的編寫爬蟲的工具。包括注解格式定義爬蟲、JSON、分布式等支持。外圍功能除此之外,WebMagic項(xiàng)目里還有幾個(gè)包,這些都是一些實(shí)驗(yàn)性的功能,目的只是提供一些與外圍工具整合的樣例。因?yàn)榫τ邢?,這些包沒有經(jīng)過廣泛的使用和測(cè)試,推薦使用方式是自行下載源碼,遇到問題后再修改。webmagicsamples這里是作者早期編寫的一些爬蟲的例子。因?yàn)闀r(shí)間有限,這些例子有些使用的仍然是老版本的API,也可能有一些因?yàn)槟繕?biāo)頁面的結(jié)構(gòu)變化不再可用了。最新的、精選過的例子,webmagicscriptsWebMagic對(duì)于爬蟲規(guī)則腳本化的一些嘗試,目標(biāo)是讓開發(fā)者脫離Java語言,來進(jìn)行簡單、快速的開發(fā)。同時(shí)強(qiáng)調(diào)腳本的共享。webmagicseleniumWebmMgic與Selenium結(jié)合的模塊。Selenium是一個(gè)模擬瀏覽器進(jìn)行頁面渲染的工具,WebMagic依賴Selenium進(jìn)行動(dòng)態(tài)頁面的抓取。webmagicsaxonWebMagic與Saxon結(jié)合的模塊。Saxon是一個(gè)XPath、XSLT的解析工具。webmagicavalonwebmagicavalon是一個(gè)特殊的項(xiàng)目,它想基于WebMagic實(shí)現(xiàn)一個(gè)產(chǎn)品化的工具,涵蓋爬蟲的創(chuàng)建、爬蟲的管理等后臺(tái)工具。 網(wǎng)頁搜索策略廣度優(yōu)先搜索策略是指在抓取過程中,在完成當(dāng)前層次的搜索后,才進(jìn)行下一層次的搜索。該算法的設(shè)計(jì)和實(shí)現(xiàn)相對(duì)簡單。在目前為覆蓋盡可能多的網(wǎng)頁,一般使用廣度優(yōu)先搜索方法。也有很多研究將廣度優(yōu)先搜索策略應(yīng)用于聚焦爬蟲中。其基本思想是認(rèn)為與初始URL在一定鏈接距離內(nèi)的網(wǎng)頁具有主題相關(guān)性的概率很大。另外一種方法是將廣度優(yōu)先搜索與網(wǎng)頁過濾技術(shù)結(jié)合使用,先用廣度優(yōu)先策略抓取網(wǎng)頁,再將其中無關(guān)的網(wǎng)頁過濾掉。這些方法的缺點(diǎn)在于,隨著抓取網(wǎng)頁的增多,大量的無關(guān)網(wǎng)頁將被下載并過濾,算法的效率將變低。 拓?fù)浞治鏊惴ɑ诰W(wǎng)頁之間的鏈接,通過已知的網(wǎng)頁或數(shù)據(jù),來對(duì)與其有直接或間接鏈接關(guān)系的對(duì)象(可以是網(wǎng)頁或網(wǎng)站等)作出評(píng)價(jià)的算法。又分為網(wǎng)頁粒度、網(wǎng)站粒度和網(wǎng)頁塊粒度這三種。1 網(wǎng)頁(Webpage)粒度的分析算法PageRank和HITS算法是最常見的鏈接分析算法,兩者都是通過對(duì)網(wǎng)頁間鏈接度的遞歸和規(guī)范化計(jì)算,得到每個(gè)網(wǎng)頁的重要度評(píng)價(jià)。PageRank算法雖然考慮了用戶訪問行為的隨機(jī)性和Sink網(wǎng)頁的存在,但忽略了絕大多數(shù)用戶訪問時(shí)帶有目的性,即網(wǎng)頁和鏈接與查詢主題的相關(guān)性。針對(duì)這個(gè)問題,HITS算法提出了兩個(gè)關(guān)鍵的概念:權(quán)威型網(wǎng)頁(authority)和中心型網(wǎng)頁(hub)。基于鏈接的抓取的問題是相關(guān)頁面主題團(tuán)之間的隧道現(xiàn)象,即很多在抓取路徑上偏離主題的網(wǎng)頁也指向目標(biāo)網(wǎng)頁,局部評(píng)價(jià)策略中斷了在當(dāng)前路徑上的抓取行為。文獻(xiàn)[21]提出了一種基于反向鏈接(BackLink)的分層式上下文模型(Context Model),用于描述指向目標(biāo)網(wǎng)頁一定物理跳數(shù)半徑內(nèi)的網(wǎng)頁拓?fù)鋱D的中心Layer0為目標(biāo)網(wǎng)頁,將網(wǎng)頁依據(jù)指向目標(biāo)網(wǎng)頁的物理跳數(shù)進(jìn)行層次劃分,從外層網(wǎng)頁指向內(nèi)層網(wǎng)頁的鏈接稱為反向鏈接。2 網(wǎng)站粒度的分析算法網(wǎng)站粒度的資源發(fā)現(xiàn)和管理策略也比網(wǎng)頁粒度的更簡單有效。網(wǎng)站粒度的爬蟲抓取的關(guān)鍵之處在于站點(diǎn)的劃分和站點(diǎn)等級(jí)(SiteRank)的計(jì)算。SiteRank的計(jì)算方法與PageRank類似,但是需要對(duì)網(wǎng)站之間的鏈接作一定程度抽象,并在一定的模型下計(jì)算鏈接的權(quán)重。網(wǎng)站劃分情況分為按域名劃分和按IP地址劃分兩種。文獻(xiàn)[18]討論了在分布式情況下,通過對(duì)同一個(gè)域名下不同主機(jī)、服務(wù)器的IP地址進(jìn)行站點(diǎn)劃分,構(gòu)造站點(diǎn)圖,利用類似PageRank的方法評(píng)價(jià)SiteRank。同時(shí),根據(jù)不同文件在各個(gè)站點(diǎn)上的分布情況,構(gòu)造文檔圖,結(jié)合SiteRank分布式計(jì)算得到DocRank。文獻(xiàn)[18]證明,利用分布式的SiteRank計(jì)算,不僅大大降低了單機(jī)站點(diǎn)的算法代價(jià),而且克服了單獨(dú)站點(diǎn)對(duì)整個(gè)網(wǎng)絡(luò)覆蓋率有限的缺點(diǎn)。附帶的一個(gè)優(yōu)點(diǎn)是,常見PageRank 造假難以對(duì)SiteRank進(jìn)行欺騙。3 網(wǎng)頁塊粒度的分析算法在一個(gè)頁面中,往往含有多個(gè)指向其他頁面的鏈接,這些鏈接中只有一部分是指向主題相關(guān)網(wǎng)頁的,或根據(jù)網(wǎng)頁的鏈接錨文本表明其具有較高重要性。但是,在PageRank和HITS算法中,沒有對(duì)這些鏈接作區(qū)分,因此常常給網(wǎng)頁分析帶來廣告等噪聲鏈接的干擾。在網(wǎng)頁塊級(jí)別(Block level)進(jìn)行鏈接分析的算法的基本思想是通過VIPS網(wǎng)頁分割算法將網(wǎng)頁分為不同的網(wǎng)頁塊(page block),然后對(duì)這些網(wǎng)頁塊建立page to block和block to page的鏈接矩陣,分別記為Z和X。于是,在page to page圖上的網(wǎng)頁塊級(jí)別的PageRank為?Wp=XZ;在block to block圖上的BlockRank為Wb=ZX。已經(jīng)有人實(shí)現(xiàn)了塊級(jí)別的PageRank和HITS算法,并通過實(shí)驗(yàn)證明,效率和準(zhǔn)確率都比傳統(tǒng)的對(duì)應(yīng)算法要好。 網(wǎng)頁內(nèi)容分析算法基于網(wǎng)頁內(nèi)容的分析算法指的是利用網(wǎng)頁內(nèi)容(文本、數(shù)據(jù)等資源)特征進(jìn)行的網(wǎng)頁評(píng)價(jià)。網(wǎng)頁的內(nèi)容從原來的以超文本為主,發(fā)展到后來動(dòng)態(tài)頁面(或稱為Hidden Web)數(shù)據(jù)為主,后者的數(shù)據(jù)量約為直接可見頁面數(shù)據(jù)(PIW,Publicly Indexable Web)的400~500倍。另一方面,多媒體數(shù)據(jù)、Web Service等各種網(wǎng)絡(luò)資源形式也日益豐富。因此,基于網(wǎng)頁內(nèi)容的分析算法也從原來的較為單純的文本檢索方法,發(fā)展為涵蓋網(wǎng)頁數(shù)據(jù)抽取、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、語義理解等多種方法的綜合應(yīng)用。本節(jié)根據(jù)網(wǎng)頁數(shù)據(jù)形式的不同,將基于網(wǎng)頁內(nèi)容的分析算法,歸納以下三類:第一種針對(duì)以文本和超鏈接為主的無結(jié)構(gòu)或結(jié)構(gòu)很簡單的網(wǎng)頁;第二種針對(duì)從結(jié)構(gòu)化的數(shù)據(jù)源(如RDBMS)動(dòng)態(tài)生成的頁面,其數(shù)據(jù)不能直接批量訪問;第三種針對(duì)的數(shù)據(jù)界于第一和第二類數(shù)據(jù)之間,具有較好的結(jié)構(gòu),顯示遵循一定模式或風(fēng)格,且可以直接訪問。基于文本的網(wǎng)頁分析算法1) 純文本分類與聚類算法很大程度上借用了文本檢索的技術(shù)。文本分析算法可以快速有效的對(duì)網(wǎng)頁進(jìn)行分類和聚類,但是由于忽略了網(wǎng)頁間和網(wǎng)頁內(nèi)部的結(jié)構(gòu)信息,很少單獨(dú)使用。2) 超文本分類和聚類算法根據(jù)網(wǎng)頁鏈接網(wǎng)頁的相關(guān)類型對(duì)網(wǎng)頁進(jìn)行分類,依靠相關(guān)聯(lián)的網(wǎng)頁推測(cè)該網(wǎng)頁的類型 爬行策略下述的三種網(wǎng)絡(luò)特征,造成了設(shè)計(jì)網(wǎng)頁爬蟲抓取策略變得很難:216。 它巨大的數(shù)據(jù)量;216。 它快速的更新頻率;216。動(dòng)態(tài)頁面的產(chǎn)生它們?nèi)齻€(gè)特征一起產(chǎn)生了很多種類的爬蟲抓取鏈接。巨大的數(shù)據(jù)量暗示了爬蟲,在給定的時(shí)間內(nèi),只可以抓取所下載網(wǎng)絡(luò)的一部分,所以,它需要對(duì)它的抓取頁面設(shè)置優(yōu)先級(jí);快速的更新頻率說明在爬蟲抓取下載某網(wǎng)站一個(gè)網(wǎng)頁的時(shí)候,很有可能在這個(gè)站點(diǎn)又有新的網(wǎng)頁被添加進(jìn)來,或者這個(gè)頁面被更新或者刪除了。最近新增的很多頁面都是通過服務(wù)器端腳本語言產(chǎn)生的,無窮的參數(shù)組合也增加了爬蟲抓取的難度,只有一小部分這種組合會(huì)返回一些獨(dú)特的內(nèi)容。例如,一個(gè)很小照片存儲(chǔ)庫僅僅通過get方式可能提供就給用戶三種操作方式。如果這里存著四種分類方式,三種縮略圖方式,兩種文件格式,和一個(gè)禁止用戶提供內(nèi)容的選項(xiàng),那么,同樣的內(nèi)容就可以通過48種方式訪問。這種數(shù)學(xué)組合給網(wǎng)絡(luò)爬蟲創(chuàng)造的難處就是,為了獲取不同的內(nèi)容,他們必須篩選無窮僅有微小變化的組合。正如愛德華等人所說的:“用于檢索的帶寬不是無限的,也不是免費(fèi)的;所以,如果引入衡量爬蟲抓取質(zhì)量或者新鮮度的有效指標(biāo)的話,不但伸縮性,連有效性都將變得十分必要”(愛德華等人,2001年)。一個(gè)爬蟲就必須小心的選擇下一步要訪問什么頁面。網(wǎng)頁爬蟲的行為通常是四種策略組合的結(jié)果。? 選擇策略,決定所要下載的頁面;? 重新訪問策略,決定什么時(shí)候檢查頁面的更新變化;? 平衡禮貌策略,指出怎樣避免站點(diǎn)超載;? 并行策略,指出怎么協(xié)同達(dá)到分布式抓取的效果;選擇策略:就現(xiàn)在網(wǎng)絡(luò)資源的大小而言,即使很大的搜索引擎也只能獲取網(wǎng)絡(luò)上可得到資源的一小部分。由勞倫斯河蓋爾斯共同做的一項(xiàng)研究指出,沒有一個(gè)搜索引擎抓取的內(nèi)容達(dá)到網(wǎng)絡(luò)的16%(勞倫斯河蓋爾斯,2001)。網(wǎng)絡(luò)爬蟲通常僅僅下載網(wǎng)頁內(nèi)容的一部分,但是大家都還是強(qiáng)烈要求下載的部分包括最多的相關(guān)頁面,而不僅僅是一個(gè)隨機(jī)的簡單的站點(diǎn)。這就要求一個(gè)公共標(biāo)準(zhǔn)來區(qū)分網(wǎng)頁的重要程度,一個(gè)頁面的重要程度與他自身的質(zhì)量有關(guān),與按照鏈接數(shù)、訪問數(shù)得出的受歡迎程度有關(guān),甚至與他本身的網(wǎng)址(后來出現(xiàn)的把搜索放在一個(gè)頂級(jí)域名或者一個(gè)固定頁面上的垂直搜索)有關(guān)。設(shè)計(jì)一個(gè)好的搜索策略還有額外的困難,它必須在不完全信息下工作,因?yàn)檎麄€(gè)頁面的集合在抓取時(shí)是未知的。Cho等人(Cho et al,1998)做了第一份抓取策略的研究。他們的數(shù)據(jù)是斯坦福大學(xué)網(wǎng)站中的18萬個(gè)頁面,使用不同的策略分別模仿抓取。排序的方法使用了廣度優(yōu)先,后鏈計(jì)數(shù),和部分pagerank算法。計(jì)算顯示,如果你想要優(yōu)先下載pagerank高的頁面,那么,部分PageRank策略是比較好的,其次是廣度優(yōu)先和后鏈計(jì)數(shù)。并且,這樣的結(jié)果僅僅是針對(duì)一個(gè)站點(diǎn)的。Najork和Wiener (Najork and Wiener, 2001)采用實(shí)際的爬蟲,采用廣度優(yōu)先研究。他們發(fā)現(xiàn)廣度優(yōu)先會(huì)較早的抓到PageRank高的頁面(但是他們沒有采用其他策略進(jìn)行研究)。作者給出的解釋是:“最重要的頁面會(huì)有很多的主機(jī)連接到他們,并且那些鏈接會(huì)較早的發(fā)現(xiàn),而不用考慮從哪一個(gè)主機(jī)開始?!盇biteboul (Abiteboul 等人, 2003),設(shè)計(jì)了一種基于OPIC(在線頁面重要指數(shù))的抓取戰(zhàn)略。在OPIC中,每一個(gè)頁面都有一個(gè)相等
點(diǎn)擊復(fù)制文檔內(nèi)容
試題試卷相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1