freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

分布式網(wǎng)絡(luò)爬蟲(chóng)-總體設(shè)計(jì)-文庫(kù)吧資料

2025-07-05 20:52本頁(yè)面
  

【正文】 如何從中抽取到你想要的信息?WebMagic里主要使用了三種抽取技術(shù):XPath、正則表達(dá)式和CSS選擇器。 ()。 try { //添加到JMT監(jiān)控中 ().register(oschinaSpider)。webmagic默認(rèn)有3秒抓取間隔,請(qǐng)耐心等待。 int temp=1。表1 爬蟲(chóng)函數(shù)及其功能表方法說(shuō)明示例create(PageProcessor)創(chuàng)建Spider(new GithubRepoProcessor())addUrl(String…)添加初始的URLspider .addUrl()addRequest(Request...)添加初始的Requestspider .addRequest()thread(n)開(kāi)啟n個(gè)線程(5)run()啟動(dòng),會(huì)阻塞當(dāng)前線程執(zhí)行()start()/runAsync()異步啟動(dòng),當(dāng)前線程繼續(xù)執(zhí)行()stop()停止爬蟲(chóng)()test(String)抓取一個(gè)頁(yè)面進(jìn)行測(cè)試spider .test()addPipeline(Pipeline)添加一個(gè)Pipeline,一個(gè)Spider可以有多個(gè)Pipelinespider .addPipeline(new ConsolePipeline())setScheduler(Scheduler)設(shè)置Scheduler,一個(gè)Spider只能有個(gè)一個(gè)Scheduler(new RedisScheduler())setDownloader(Downloader)設(shè)置Downloader,一個(gè)Spider只能有個(gè)一個(gè)Downloaderspider .setDownloader(new SeleniumDownloader())get(String)同步調(diào)用,并直接取得結(jié)果ResultItems result = spider .get()getAll(String…)同步調(diào)用,并直接取得一堆結(jié)果ListResultItems results = spider .getAll(, )對(duì)站點(diǎn)本身的一些配置信息,例如編碼、HTTP頭、超時(shí)時(shí)間、重試策略等、代理等,都可以通過(guò)設(shè)置Site對(duì)象來(lái)進(jìn)行配置。在啟動(dòng)爬蟲(chóng)之前,我們需要使用一個(gè)PageProcessor創(chuàng)建一個(gè)Spider對(duì)象,然后使用run()進(jìn)行啟動(dòng)。為了避免下載一個(gè)頁(yè)面兩次,爬蟲(chóng)系統(tǒng)需要策略來(lái)處理爬蟲(chóng)運(yùn)行時(shí)新發(fā)現(xiàn)的URL,因?yàn)橥粋€(gè)URL地址,可能被不同的爬蟲(chóng)進(jìn)程抓到。(Brin和Page,1998)并行策略一個(gè)并行爬蟲(chóng)是并行運(yùn)行多個(gè)進(jìn)程的爬蟲(chóng)。Brin和Page注意到:運(yùn)行一個(gè)針對(duì)超過(guò)50萬(wàn)服務(wù)器的爬蟲(chóng),會(huì)產(chǎn)生很多的郵件和電話。訪問(wèn)記錄顯示已知爬蟲(chóng)的訪問(wèn)間隔從20秒鐘到34分鐘不等。Dill等人 (Dill et al., 2002) 使用1秒。Cho(Cho和GarciaMolina, 2003)使用10秒作為訪問(wèn)的間隔時(shí)間,WIRE爬蟲(chóng)(BaezaYates and Castillo, 2002)使用15秒作為默認(rèn)間隔。按照這個(gè)速度,如果一個(gè)站點(diǎn)有超過(guò)10萬(wàn)的頁(yè)面,即使我們擁有零延遲和無(wú)窮帶寬的完美連接,它也會(huì)需要兩個(gè)月的時(shí)間來(lái)下載整個(gè)站點(diǎn),并且,這個(gè)服務(wù)器中的資源,只有一小部分可以使用。最近的商業(yè)搜索軟件,如Ask Jeeves, “Crawldelay”參數(shù)來(lái)指明請(qǐng)求之間的延遲。對(duì)這些問(wèn)題的一個(gè)部分解決方法是漫游器排除協(xié)議(Robots exclusion protocol),(Koster,1996),這份協(xié)議對(duì)于管理員指明網(wǎng)絡(luò)服務(wù)器的那一部分不能到達(dá)是一個(gè)標(biāo)準(zhǔn)。216。216。216。使用爬蟲(chóng)的代價(jià)包括:216。一個(gè)服務(wù)器也會(huì)很難響應(yīng)多線程爬蟲(chóng)的請(qǐng)求。平衡禮貌策略爬蟲(chóng)相比于人,可以有更快的檢索速度和更深的層次,所以,他們可能使一個(gè)站點(diǎn)癱瘓。(Cho和GarciaMolina,2003a)指出指數(shù)變化是描述頁(yè)面變化的好方法,同時(shí)(Ipeirotis等人,2005)指出了怎么使用統(tǒng)計(jì)工具去發(fā)現(xiàn)適合這些變化的參數(shù)。正如Coffman等人(Edward ,1998)所注意到的:“為了最小化頁(yè)面過(guò)時(shí)的時(shí)間,對(duì)任一個(gè)頁(yè)面的訪問(wèn)都應(yīng)該盡可能的均勻間隔地訪問(wèn)。最佳的重新訪問(wèn)策略既不是統(tǒng)一策略,也不是正比策略;保持平均頁(yè)面新鮮度高的最佳方法策略包括忽略那些變化太快的頁(yè)面,而保持頁(yè)面平均過(guò)時(shí)性低的方法則是對(duì)每一頁(yè)按照頁(yè)面變化率單調(diào)變化的策略訪問(wèn)。對(duì)于這種結(jié)果的解釋是:當(dāng)一個(gè)頁(yè)面變化太快的時(shí)候,爬蟲(chóng)將會(huì)將會(huì)在不斷的嘗試重新抓取而浪費(fèi)很多時(shí)間,但是卻還是不能保證頁(yè)面的新鮮度。(兩種情況下,爬蟲(chóng)的重新抓取都可以采用隨機(jī)方式,或者固定的順序)Cho和GarciaMolina證明了一個(gè)出人意料的結(jié)果。正比策略:對(duì)變化越多的網(wǎng)頁(yè),重新訪問(wèn)的頻率也越高。這一目標(biāo)并不是完全一樣的,第一種情況,爬蟲(chóng)關(guān)心的是有多少頁(yè)面時(shí)過(guò)時(shí)的;在第二種情況,爬蟲(chóng)關(guān)心的頁(yè)面過(guò)時(shí)了多少。在這個(gè)模型下,每一個(gè)顧客在投票系統(tǒng)的平均時(shí)間,相當(dāng)于爬蟲(chóng)的平均過(guò)時(shí)性。他們指出網(wǎng)絡(luò)爬行的問(wèn)題就相當(dāng)于多個(gè)隊(duì)列,一個(gè)投票系統(tǒng);這里,爬蟲(chóng)是服務(wù)器,不同的站點(diǎn)是隊(duì)列。在時(shí)間t內(nèi),倉(cāng)庫(kù)中頁(yè)面p的新鮮度是這樣定義的:新鮮度過(guò)時(shí)性:這是一個(gè)衡量本地已抓取的內(nèi)容過(guò)時(shí)程度的指標(biāo)。從搜索引擎的角度來(lái)看,不檢測(cè)這些事件是有成本的,成本就是我們僅僅擁有一份過(guò)時(shí)的資源。抓取網(wǎng)絡(luò)上的一小部分內(nèi)容可能會(huì)花費(fèi)真的很長(zhǎng)的時(shí)間,通常用周或者月來(lái)衡量。第三代檢索技術(shù)將建立在人機(jī)巧妙的聯(lián)系的基礎(chǔ)上。某些情況下,例如Googlebot,WEB抓取的是所有超文本所包含的內(nèi)容,標(biāo)簽和文本。深層頁(yè)面抓取器增加了抓取網(wǎng)頁(yè)的鏈接數(shù)。這些頁(yè)面通常只有在向數(shù)據(jù)庫(kù)提交查詢的時(shí)候才可以訪問(wèn)到,如果沒(méi)有鏈接指向他們的話,一般的爬蟲(chóng)是不能訪問(wèn)到這些頁(yè)面的。一個(gè)聚焦查詢的表現(xiàn)的好壞主要依賴于查詢主題內(nèi)容的豐富程度,通常還會(huì)依賴頁(yè)面查詢引擎提供的查詢起點(diǎn)。一個(gè)可能的方法就是在鏈接之中設(shè)置錨點(diǎn),這就是在早期時(shí)候,Pinkerton(Pinkerton,1994)曾經(jīng)在一個(gè)爬蟲(chóng)中采用的策略。 Menczer and Belew, 1998)和Chakrabarti等人首先提出來(lái)的(Chakrabarti et al., 1999)。網(wǎng)絡(luò)爬蟲(chóng)嘗試下載相似頁(yè)面,可以稱為聚焦檢索或者主題檢索。一些路徑檢索的爬蟲(chóng)也被稱為收割機(jī)軟件,因?yàn)樗麄兺ǔS糜谑崭罨蛘呤占械膬?nèi)容,可能是從特定的頁(yè)面或者主機(jī)收集相冊(cè)的照片。例如,給定一個(gè)種子地址:它將會(huì)嘗試檢索/hamster/menkey/,/hamster/和/ 。路徑檢索一些爬蟲(chóng)會(huì)盡可能多的嘗試下載一個(gè)特定站點(diǎn)的資源。這種策略會(huì)導(dǎo)致很多的html資源在無(wú)意中錯(cuò)過(guò),一種相似的策略是將網(wǎng)絡(luò)資源的擴(kuò)展名同已知是html文件類型的一組擴(kuò)展名(,.htm,.asp,.php,.aspx,反斜杠)進(jìn)行比較。為了僅僅得到html的資源,一個(gè)爬蟲(chóng)可以首先做一個(gè) head的請(qǐng)求,以在使用request方法獲取所有的資源之前,決定這個(gè)網(wǎng)絡(luò)文件的類型。使用這種方式,可以從以前抓取頁(yè)面之中找到好的種子,使用這些種子是十分有效的。Daneshpajouh等人(Daneshpajouh et al., 2008)設(shè)計(jì)了一個(gè)用于尋找好種子的社區(qū)。BaezaYates等人(BaezaYates et al., 2005) ,比較若干個(gè)抓取策略。比較的基礎(chǔ)是真實(shí)頁(yè)面pageRank值和計(jì)算出來(lái)的pageRank值的接近程度。并且,實(shí)驗(yàn)沒(méi)有和其它策略進(jìn)行比較,也沒(méi)有在真正的WEB頁(yè)面測(cè)試。這種算法與Pagerank相似,但是他的速度很快,并且可以一次完成?!盇biteboul (Abiteboul 等人, 2003),設(shè)計(jì)了一種基于OPIC(在線頁(yè)面重要指數(shù))的抓取戰(zhàn)略。他們發(fā)現(xiàn)廣度優(yōu)先會(huì)較早的抓到PageRank高的頁(yè)面(但是他們沒(méi)有采用其他策略進(jìn)行研究)。并且,這樣的結(jié)果僅僅是針對(duì)一個(gè)站點(diǎn)的。排序的方法使用了廣度優(yōu)先,后鏈計(jì)數(shù),和部分pagerank算法。Cho等人(Cho et al,1998)做了第一份抓取策略的研究。這就要求一個(gè)公共標(biāo)準(zhǔn)來(lái)區(qū)分網(wǎng)頁(yè)的重要程度,一個(gè)頁(yè)面的重要程度與他自身的質(zhì)量有關(guān),與按照鏈接數(shù)、訪問(wèn)數(shù)得出的受歡迎程度有關(guān),甚至與他本身的網(wǎng)址(后來(lái)出現(xiàn)的把搜索放在一個(gè)頂級(jí)域名或者一個(gè)固定頁(yè)面上的垂直搜索)有關(guān)。由勞倫斯河蓋爾斯共同做的一項(xiàng)研究指出,沒(méi)有一個(gè)搜索引擎抓取的內(nèi)容達(dá)到網(wǎng)絡(luò)的16%(勞倫斯河蓋爾斯,2001)。網(wǎng)頁(yè)爬蟲(chóng)的行為通常是四種策略組合的結(jié)果。正如愛(ài)德華等人所說(shuō)的:“用于檢索的帶寬不是無(wú)限的,也不是免費(fèi)的;所以,如果引入衡量爬蟲(chóng)抓取質(zhì)量或者新鮮度的有效指標(biāo)的話,不但伸縮性,連有效性都將變得十分必要”(愛(ài)德華等人,2001年)。如果這里存著四種分類方式,三種縮略圖方式,兩種文件格式,和一個(gè)禁止用戶提供內(nèi)容的選項(xiàng),那么,同樣的內(nèi)容就可以通過(guò)48種方式訪問(wèn)。最近新增的很多頁(yè)面都是通過(guò)服務(wù)器端腳本語(yǔ)言產(chǎn)生的,無(wú)窮的參數(shù)組合也增加了爬蟲(chóng)抓取的難度,只有一小部分這種組合會(huì)返回一些獨(dú)特的內(nèi)容。動(dòng)態(tài)頁(yè)面的產(chǎn)生它們?nèi)齻€(gè)特征一起產(chǎn)生了很多種類的爬蟲(chóng)抓取鏈接。 它快速的更新頻率;216。2) 超文本分類和聚類算法根據(jù)網(wǎng)頁(yè)鏈接網(wǎng)頁(yè)的相關(guān)類型對(duì)網(wǎng)頁(yè)進(jìn)行分類,依靠相關(guān)聯(lián)的網(wǎng)頁(yè)推測(cè)該網(wǎng)頁(yè)的類型 爬行策略下述的三種網(wǎng)絡(luò)特征,造成了設(shè)計(jì)網(wǎng)頁(yè)爬蟲(chóng)抓取策略變得很難:216?;谖谋镜木W(wǎng)頁(yè)分析算法1) 純文本分類與聚類算法很大程度上借用了文本檢索的技術(shù)。因此,基于網(wǎng)頁(yè)內(nèi)容的分析算法也從原來(lái)的較為單純的文本檢索方法,發(fā)展為涵蓋網(wǎng)頁(yè)數(shù)據(jù)抽取、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、語(yǔ)義理解等多種方法的綜合應(yīng)用。網(wǎng)頁(yè)的內(nèi)容從原來(lái)的以超文本為主,發(fā)展到后來(lái)動(dòng)態(tài)頁(yè)面(或稱為Hidden Web)數(shù)據(jù)為主,后者的數(shù)據(jù)量約為直接可見(jiàn)頁(yè)面數(shù)據(jù)(PIW,Publicly Indexable Web)的400~500倍。已經(jīng)有人實(shí)現(xiàn)了塊級(jí)別的PageRank和HITS算法,并通過(guò)實(shí)驗(yàn)證明,效率和準(zhǔn)確率都比傳統(tǒng)的對(duì)應(yīng)算法要好。在網(wǎng)頁(yè)塊級(jí)別(Block level)進(jìn)行鏈接分析的算法的基本思想是通過(guò)VIPS網(wǎng)頁(yè)分割算法將網(wǎng)頁(yè)分為不同的網(wǎng)頁(yè)塊(page block),然后對(duì)這些網(wǎng)頁(yè)塊建立page to block和block to page的鏈接矩陣,分別記為Z和X。3 網(wǎng)頁(yè)塊粒度的分析算法在一個(gè)頁(yè)面中,往往含有多個(gè)指向其他頁(yè)面的鏈接,這些鏈接中只有一部分是指向主題相關(guān)網(wǎng)頁(yè)的,或根據(jù)網(wǎng)頁(yè)的鏈接錨文本表明其具有較高重要性。文獻(xiàn)[18]證明,利用分布式的SiteRank計(jì)算,不僅大大降低了單機(jī)站點(diǎn)的算法代價(jià),而且克服了單獨(dú)站點(diǎn)對(duì)整個(gè)網(wǎng)絡(luò)覆蓋率有限的缺點(diǎn)。文獻(xiàn)[18]討論了在分布式情況下,通過(guò)對(duì)同一個(gè)域名下不同主機(jī)、服務(wù)器的IP地址進(jìn)行站點(diǎn)劃分,構(gòu)造站點(diǎn)圖,利用類似PageRank的方法評(píng)價(jià)SiteRank。SiteRank的計(jì)算方法與PageRank類似,但是需要對(duì)網(wǎng)站之間的鏈接作一定程度抽象,并在一定的模型下計(jì)算鏈接的權(quán)重。2 網(wǎng)站粒度的分析算法網(wǎng)站粒度的資源發(fā)現(xiàn)和管理策略也比網(wǎng)頁(yè)粒度的更簡(jiǎn)單有效。基于鏈接的抓取的問(wèn)題是相關(guān)頁(yè)面主題團(tuán)之間的隧道現(xiàn)象,即很多在抓取路徑上偏離主題的網(wǎng)頁(yè)也指向目標(biāo)網(wǎng)頁(yè),局部評(píng)價(jià)策略中斷了在當(dāng)前路徑上的抓取行為。PageRank算法雖然考慮了用戶訪問(wèn)行為的隨機(jī)性和Sink網(wǎng)頁(yè)的存在,但忽略了絕大多數(shù)用戶訪問(wèn)時(shí)帶有目的性,即網(wǎng)頁(yè)和鏈接與查詢主題的相關(guān)性。又分為網(wǎng)頁(yè)粒度、網(wǎng)站粒度和網(wǎng)頁(yè)塊粒度這三種。這些方法的缺點(diǎn)在于,隨著抓取網(wǎng)頁(yè)的增多,大量的無(wú)關(guān)網(wǎng)頁(yè)將被下載并過(guò)濾,算法的效率將變低。其基本思想是認(rèn)為與初始URL在一定鏈接距離內(nèi)的網(wǎng)頁(yè)具有主題相關(guān)性的概率很大。在目前為覆蓋盡可能多的網(wǎng)頁(yè),一般使用廣度優(yōu)先搜索方法。 網(wǎng)頁(yè)搜索策略廣度優(yōu)先搜索策略是指在抓取過(guò)程中,在完成當(dāng)前層次的搜索后,才進(jìn)行下一層次的搜索。Saxon是一個(gè)XPath、XSLT的解析工具。Selenium是一個(gè)模擬瀏覽器進(jìn)行頁(yè)面渲染的工具,WebMagic依賴Selenium進(jìn)行動(dòng)態(tài)頁(yè)面的抓取。同時(shí)強(qiáng)調(diào)腳本的共享。因?yàn)闀r(shí)間有限,這些例子有些使用的仍然是老版本的API,也可能有一些因?yàn)槟繕?biāo)頁(yè)面的結(jié)構(gòu)變化不再可用了。因?yàn)榫τ邢蓿@些包沒(méi)有經(jīng)過(guò)廣泛的使用和測(cè)試,推薦使用方式是自行下載源碼,遇到問(wèn)題后再修改。包括注解格式定義爬蟲(chóng)、JSON、分布式等支持。WebMagiccore的目標(biāo)是成為網(wǎng)頁(yè)爬蟲(chóng)的一個(gè)教科書(shū)般的實(shí)現(xiàn)。它們都是獨(dú)立的Maven項(xiàng)目。而Spider則將這幾個(gè)組件組織
點(diǎn)擊復(fù)制文檔內(nèi)容
試題試卷相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1