freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

分布式網(wǎng)絡(luò)爬蟲(chóng)-總體設(shè)計(jì)-在線瀏覽

2024-08-09 20:52本頁(yè)面
  

【正文】 爬蟲(chóng)相比,增量式爬蟲(chóng)只會(huì)在需要的時(shí)候爬行新產(chǎn)生或發(fā)生更新的頁(yè)面 ,并不重新下載沒(méi)有發(fā)生變化的頁(yè)面,可有效減少數(shù)據(jù)下載量,及時(shí)更新已爬行的網(wǎng)頁(yè),減小時(shí)間和空間上的耗費(fèi),但是增加了爬行算法的復(fù)雜度和實(shí)現(xiàn)難度。 Deep Web 爬蟲(chóng)Web 頁(yè)面按存在方式可以分為表層網(wǎng)頁(yè)(Surface Web)和深層網(wǎng)頁(yè)(Deep Web,也稱 Invisible Web Pages 或 Hidden Web)。Deep Web 是那些大部分內(nèi)容不能通過(guò)靜態(tài)鏈接獲取的、隱藏在搜索表單后的,只有用戶提交一些關(guān)鍵詞才能獲得的 Web 頁(yè)面。 2000 年 Bright Planet 指出:Deep Web 中可訪問(wèn)信息容量是 Surface Web 的幾百倍,是互聯(lián)網(wǎng)上最大、發(fā)展最快的新型信息資源?;陉P(guān)鍵字匹配的搜索技術(shù)有較大的局限性:首先,它不能區(qū)分同形異義。 Web商業(yè)化至今,搜索引擎始終保持著網(wǎng)絡(luò)上被使用最多的服務(wù)項(xiàng)目的地位,然而,隨著網(wǎng)上內(nèi)容的爆炸式增長(zhǎng)和內(nèi)容形式花樣的不斷翻新,搜索引擎越來(lái)越不能滿足挑剔的網(wǎng)民們的各種信息需求。所以,傳統(tǒng)的引擎不能適應(yīng)信息 技術(shù)的高速發(fā)展,新一代智能搜索引擎作為一種高效搜索引擎技術(shù)的在當(dāng)今的網(wǎng)絡(luò)信息時(shí)代日益引起業(yè)界人士的關(guān)注。因 為它要用到信息檢索、人工智能、計(jì)算機(jī)網(wǎng)絡(luò)、分布式處理、數(shù)據(jù)庫(kù)、數(shù)據(jù)挖掘、數(shù)字圖書(shū)館、自然語(yǔ)言處理等多領(lǐng)域的理論和技術(shù),所以具有綜合性和挑戰(zhàn)性。 Java版本及配置圖1 Java版本號(hào)圖2 Java配置一圖3Java配置二圖4 Java配置三 Eclipse配置下載Eclipse壓縮包,并將Eclipse壓縮包解壓圖5解壓后 Maven配置下載maven的bin,在apache官方網(wǎng)站可以下載。核心部分(webmagiccore)是一個(gè)精簡(jiǎn)的、模塊化的爬蟲(chóng)實(shí)現(xiàn),而擴(kuò)展部分則包括一些便利的、實(shí)用性的功能。 Webmagic總體架構(gòu)WebMagic的結(jié)構(gòu)分為Downloader、PageProcessor、Scheduler、Pipeline四大組件,并由Spider將它們彼此組織起來(lái)。WebMagic的設(shè)計(jì)參考了Scapy,但是實(shí)現(xiàn)方式更Java化一些。WebMagic總體架構(gòu)圖如下:圖11 WebMagic總體架構(gòu) Webmagic項(xiàng)目組成WebMagic項(xiàng)目代碼包括幾個(gè)部分,在根目錄下以不同目錄名分開(kāi)。主要部分WebMagic主要包括兩個(gè)包,這兩個(gè)包經(jīng)過(guò)廣泛實(shí)用,已經(jīng)比較成熟:webmagiccorewebmagiccore是WebMagic核心部分,只包含爬蟲(chóng)基本模塊和基本抽取器。webmagicextensionwebmagicextension是WebMagic的主要擴(kuò)展模塊,提供一些更方便的編寫(xiě)爬蟲(chóng)的工具。外圍功能除此之外,WebMagic項(xiàng)目里還有幾個(gè)包,這些都是一些實(shí)驗(yàn)性的功能,目的只是提供一些與外圍工具整合的樣例。webmagicsamples這里是作者早期編寫(xiě)的一些爬蟲(chóng)的例子。最新的、精選過(guò)的例子,webmagicscriptsWebMagic對(duì)于爬蟲(chóng)規(guī)則腳本化的一些嘗試,目標(biāo)是讓開(kāi)發(fā)者脫離Java語(yǔ)言,來(lái)進(jìn)行簡(jiǎn)單、快速的開(kāi)發(fā)。webmagicseleniumWebmMgic與Selenium結(jié)合的模塊。webmagicsaxonWebMagic與Saxon結(jié)合的模塊。webmagicavalonwebmagicavalon是一個(gè)特殊的項(xiàng)目,它想基于WebMagic實(shí)現(xiàn)一個(gè)產(chǎn)品化的工具,涵蓋爬蟲(chóng)的創(chuàng)建、爬蟲(chóng)的管理等后臺(tái)工具。該算法的設(shè)計(jì)和實(shí)現(xiàn)相對(duì)簡(jiǎn)單。也有很多研究將廣度優(yōu)先搜索策略應(yīng)用于聚焦爬蟲(chóng)中。另外一種方法是將廣度優(yōu)先搜索與網(wǎng)頁(yè)過(guò)濾技術(shù)結(jié)合使用,先用廣度優(yōu)先策略抓取網(wǎng)頁(yè),再將其中無(wú)關(guān)的網(wǎng)頁(yè)過(guò)濾掉。 拓?fù)浞治鏊惴ɑ诰W(wǎng)頁(yè)之間的鏈接,通過(guò)已知的網(wǎng)頁(yè)或數(shù)據(jù),來(lái)對(duì)與其有直接或間接鏈接關(guān)系的對(duì)象(可以是網(wǎng)頁(yè)或網(wǎng)站等)作出評(píng)價(jià)的算法。1 網(wǎng)頁(yè)(Webpage)粒度的分析算法PageRank和HITS算法是最常見(jiàn)的鏈接分析算法,兩者都是通過(guò)對(duì)網(wǎng)頁(yè)間鏈接度的遞歸和規(guī)范化計(jì)算,得到每個(gè)網(wǎng)頁(yè)的重要度評(píng)價(jià)。針對(duì)這個(gè)問(wèn)題,HITS算法提出了兩個(gè)關(guān)鍵的概念:權(quán)威型網(wǎng)頁(yè)(authority)和中心型網(wǎng)頁(yè)(hub)。文獻(xiàn)[21]提出了一種基于反向鏈接(BackLink)的分層式上下文模型(Context Model),用于描述指向目標(biāo)網(wǎng)頁(yè)一定物理跳數(shù)半徑內(nèi)的網(wǎng)頁(yè)拓?fù)鋱D的中心Layer0為目標(biāo)網(wǎng)頁(yè),將網(wǎng)頁(yè)依據(jù)指向目標(biāo)網(wǎng)頁(yè)的物理跳數(shù)進(jìn)行層次劃分,從外層網(wǎng)頁(yè)指向內(nèi)層網(wǎng)頁(yè)的鏈接稱為反向鏈接。網(wǎng)站粒度的爬蟲(chóng)抓取的關(guān)鍵之處在于站點(diǎn)的劃分和站點(diǎn)等級(jí)(SiteRank)的計(jì)算。網(wǎng)站劃分情況分為按域名劃分和按IP地址劃分兩種。同時(shí),根據(jù)不同文件在各個(gè)站點(diǎn)上的分布情況,構(gòu)造文檔圖,結(jié)合SiteRank分布式計(jì)算得到DocRank。附帶的一個(gè)優(yōu)點(diǎn)是,常見(jiàn)PageRank 造假難以對(duì)SiteRank進(jìn)行欺騙。但是,在PageRank和HITS算法中,沒(méi)有對(duì)這些鏈接作區(qū)分,因此常常給網(wǎng)頁(yè)分析帶來(lái)廣告等噪聲鏈接的干擾。于是,在page to page圖上的網(wǎng)頁(yè)塊級(jí)別的PageRank為?Wp=XZ;在block to block圖上的BlockRank為Wb=ZX。 網(wǎng)頁(yè)內(nèi)容分析算法基于網(wǎng)頁(yè)內(nèi)容的分析算法指的是利用網(wǎng)頁(yè)內(nèi)容(文本、數(shù)據(jù)等資源)特征進(jìn)行的網(wǎng)頁(yè)評(píng)價(jià)。另一方面,多媒體數(shù)據(jù)、Web Service等各種網(wǎng)絡(luò)資源形式也日益豐富。本節(jié)根據(jù)網(wǎng)頁(yè)數(shù)據(jù)形式的不同,將基于網(wǎng)頁(yè)內(nèi)容的分析算法,歸納以下三類:第一種針對(duì)以文本和超鏈接為主的無(wú)結(jié)構(gòu)或結(jié)構(gòu)很簡(jiǎn)單的網(wǎng)頁(yè);第二種針對(duì)從結(jié)構(gòu)化的數(shù)據(jù)源(如RDBMS)動(dòng)態(tài)生成的頁(yè)面,其數(shù)據(jù)不能直接批量訪問(wèn);第三種針對(duì)的數(shù)據(jù)界于第一和第二類數(shù)據(jù)之間,具有較好的結(jié)構(gòu),顯示遵循一定模式或風(fēng)格,且可以直接訪問(wèn)。文本分析算法可以快速有效的對(duì)網(wǎng)頁(yè)進(jìn)行分類和聚類,但是由于忽略了網(wǎng)頁(yè)間和網(wǎng)頁(yè)內(nèi)部的結(jié)構(gòu)信息,很少單獨(dú)使用。 它巨大的數(shù)據(jù)量;216。巨大的數(shù)據(jù)量暗示了爬蟲(chóng),在給定的時(shí)間內(nèi),只可以抓取所下載網(wǎng)絡(luò)的一部分,所以,它需要對(duì)它的抓取頁(yè)面設(shè)置優(yōu)先級(jí);快速的更新頻率說(shuō)明在爬蟲(chóng)抓取下載某網(wǎng)站一個(gè)網(wǎng)頁(yè)的時(shí)候,很有可能在這個(gè)站點(diǎn)又有新的網(wǎng)頁(yè)被添加進(jìn)來(lái),或者這個(gè)頁(yè)面被更新或者刪除了。例如,一個(gè)很小照片存儲(chǔ)庫(kù)僅僅通過(guò)get方式可能提供就給用戶三種操作方式。這種數(shù)學(xué)組合給網(wǎng)絡(luò)爬蟲(chóng)創(chuàng)造的難處就是,為了獲取不同的內(nèi)容,他們必須篩選無(wú)窮僅有微小變化的組合。一個(gè)爬蟲(chóng)就必須小心的選擇下一步要訪問(wèn)什么頁(yè)面。? 選擇策略,決定所要下載的頁(yè)面;? 重新訪問(wèn)策略,決定什么時(shí)候檢查頁(yè)面的更新變化;? 平衡禮貌策略,指出怎樣避免站點(diǎn)超載;? 并行策略,指出怎么協(xié)同達(dá)到分布式抓取的效果;選擇策略:就現(xiàn)在網(wǎng)絡(luò)資源的大小而言,即使很大的搜索引擎也只能獲取網(wǎng)絡(luò)上可得到資源的一小部分。網(wǎng)絡(luò)爬蟲(chóng)通常僅僅下載網(wǎng)頁(yè)內(nèi)容的一部分,但是大家都還是強(qiáng)烈要求下載的部分包括最多的相關(guān)頁(yè)面,而不僅僅是一個(gè)隨機(jī)的簡(jiǎn)單的站點(diǎn)。設(shè)計(jì)一個(gè)好的搜索策略還有額外的困難,它必須在不完全信息下工作,因?yàn)檎麄€(gè)頁(yè)面的集合在抓取時(shí)是未知的。他們的數(shù)據(jù)是斯坦福大學(xué)網(wǎng)站中的18萬(wàn)個(gè)頁(yè)面,使用不同的策略分別模仿抓取。計(jì)算顯示,如果你想要優(yōu)先下載pagerank高的頁(yè)面,那么,部分PageRank策略是比較好的,其次是廣度優(yōu)先和后鏈計(jì)數(shù)。Najork和Wiener (Najork and Wiener, 2001)采用實(shí)際的爬蟲(chóng),采用廣度優(yōu)先研究。作者給出的解釋是:“最重要的頁(yè)面會(huì)有很多的主機(jī)連接到他們,并且那些鏈接會(huì)較早的發(fā)現(xiàn),而不用考慮從哪一個(gè)主機(jī)開(kāi)始。在OPIC中,每一個(gè)頁(yè)面都有一個(gè)相等的初始權(quán)值,并把這些權(quán)值平均分給它所指向的頁(yè)面。OPIC的程序首先抓取獲取權(quán)值最大的頁(yè)面,實(shí)驗(yàn)在10萬(wàn)個(gè)冪指分布的模擬頁(yè)面中進(jìn)行。Boldi等人(Boldi et al., 2004)的模擬檢索實(shí)驗(yàn)進(jìn)行在 ,測(cè)試廣度優(yōu)先和深度優(yōu)先,隨機(jī)序列和有序序列。令人驚奇的是,一些計(jì)算pageRank很快的頁(yè)面(特別明顯的是廣度優(yōu)先策略和有序序列)僅僅可以達(dá)到很小的接近程度。結(jié)果顯示OPIC策略和站點(diǎn)隊(duì)列長(zhǎng)度,都比廣度優(yōu)先要好;并且如果可行的話,使用之前的爬行抓取結(jié)果來(lái)指導(dǎo)這次抓取,總是十分有效的。它們從來(lái)自不同社區(qū)的高PageRank頁(yè)面開(kāi)始檢索的方法,迭代次數(shù)明顯小于使用隨機(jī)種子的檢索。限定訪問(wèn)鏈接一個(gè)爬蟲(chóng)可能僅僅想找到html頁(yè)面的種子而避免其他的文件類型。為了避免要發(fā)送過(guò)多的head請(qǐng)求,爬蟲(chóng)可以交替的檢查url并且僅僅對(duì)以html,htm和反斜杠結(jié)尾的文件發(fā)送資源請(qǐng)求。一些爬蟲(chóng)也會(huì)限制對(duì)任何含有“?”的資源(這些是動(dòng)態(tài)生成的)進(jìn)行獲取請(qǐng)求,以避免蜘蛛爬行在某一個(gè)站點(diǎn)中陷入下載無(wú)窮無(wú)盡的URL的困境。Cothey(Cothey,2004)引入了一種路徑檢索的爬蟲(chóng),它會(huì)嘗試抓取需要檢索資源的所有URL。Cothey發(fā)現(xiàn)路徑檢索對(duì)發(fā)現(xiàn)獨(dú)立資源,或者一些通常爬蟲(chóng)檢索不到的的連接是非常有效的。聚焦抓取爬蟲(chóng)所抓取頁(yè)面的重要程度也可以表述成它與給定查詢之間相似程度的函數(shù)。關(guān)于主題檢索和聚焦檢索的概念,最早是由Menczer(Menczer 1997。聚焦檢索的主要問(wèn)題是網(wǎng)頁(yè)爬蟲(chóng)的使用環(huán)境,我們希望在實(shí)際下載頁(yè)面之前,就可以知道給定頁(yè)面和查詢之間的相似度。Diligenti等人(Diligenti等人,2000)建議使用已經(jīng)抓取頁(yè)面的內(nèi)容去推測(cè)查詢和未訪問(wèn)頁(yè)的相似度。抓取深層的網(wǎng)頁(yè)很多的頁(yè)面隱藏的很深或隱藏在在看不到的網(wǎng)絡(luò)之中。谷歌站點(diǎn)地圖協(xié)議和mod oai(Nelson等人,2005)嘗試允許發(fā)現(xiàn)這些深層次的資源。一些爬蟲(chóng)僅僅抓取形如a href=”url”鏈接。,可以概括為語(yǔ)義網(wǎng)絡(luò)和網(wǎng)站模板解析的概念。重新訪問(wèn)策略網(wǎng)絡(luò)具有動(dòng)態(tài)性很強(qiáng)的特性。當(dāng)爬蟲(chóng)完成它的抓取的任務(wù)以后,很多操作是可能會(huì)發(fā)生的,這些操作包括新建,更新和刪除。最常使用的成本函數(shù),是新鮮度和過(guò)時(shí)性(2000年,Cho 和GarciaMolina)新鮮度:這是一個(gè)衡量抓取內(nèi)容是不是準(zhǔn)確的二元值。在時(shí)間t時(shí),倉(cāng)庫(kù)中頁(yè)面p的時(shí)效性的定義如下:過(guò)時(shí)性在頁(yè)面抓取中,新鮮度和過(guò)時(shí)性的發(fā)展Coffman等人(Edward G. Coffman,1998)是從事爬蟲(chóng)對(duì)象定義的,他們提出了一個(gè)相當(dāng)于新鮮度的概念,但是使用了不同的措詞:他們建議爬蟲(chóng)必須最小化過(guò)時(shí)頁(yè)面部分。頁(yè)面修改是到達(dá)的顧客,頁(yè)面切換的時(shí)間是頁(yè)面進(jìn)入一個(gè)單一站點(diǎn)的間隔。爬蟲(chóng)的目標(biāo)是盡可能高的提高頁(yè)面的新鮮度,同時(shí)降低頁(yè)面的過(guò)時(shí)性。兩種最簡(jiǎn)單的重新訪問(wèn)策略是由Cho和GarciaMolina研究的(Cho 和GarciaMolina,2003):統(tǒng)一策略:使用相同的頻率,重新訪問(wèn)收藏中的所有的鏈接,而不考慮他們更新頻率。網(wǎng)頁(yè)訪問(wèn)的頻率和網(wǎng)頁(yè)變化的頻率直接相關(guān)。以平均新鮮度方式衡量,統(tǒng)一策略在模擬頁(yè)面和真實(shí)的網(wǎng)絡(luò)抓取中都比正比策略出色。為了提高頁(yè)面的新鮮度,我們應(yīng)該宣判變化太快的頁(yè)面死罪(Cho和GarciaMolina, 2003a)。兩種情況下,最佳的策略較正比策略,都更接近統(tǒng)一策略?!睂?duì)于重新訪問(wèn)的詳盡的策略在大體上是不可以達(dá)到的,但是他們可以從數(shù)學(xué)上得到,因?yàn)樗麄円蕾囉陧?yè)面的變化。注意在這里的重新訪問(wèn)策略認(rèn)為每一個(gè)頁(yè)面都是相同的(網(wǎng)絡(luò)上所有的頁(yè)面價(jià)值都是一樣的)這不是現(xiàn)實(shí)的情況,所以,為了獲取更好的抓取策略,更多有關(guān)網(wǎng)頁(yè)質(zhì)量的信息應(yīng)該考慮進(jìn)去。不需要說(shuō)一個(gè)單獨(dú)的爬蟲(chóng)一秒鐘要執(zhí)行多條請(qǐng)求,下載大的文件。就像Koster(Koster,1995)所注意的那樣,爬蟲(chóng)的使用對(duì)很多工作都是很有用的,但是對(duì)一般的社區(qū),也需要付出代價(jià)。 網(wǎng)絡(luò)資源:在很長(zhǎng)一段時(shí)間,爬蟲(chóng)使用相當(dāng)?shù)膸捀叨炔⑿械毓ぷ鳌?服務(wù)器超載:尤其是對(duì)給定服務(wù)器的訪問(wèn)過(guò)高時(shí)。 質(zhì)量糟糕的爬蟲(chóng),可能導(dǎo)致服務(wù)器或者路由器癱瘓,或者會(huì)嘗試下載自己無(wú)法處理的頁(yè)面。 個(gè)人爬蟲(chóng),如果過(guò)多的人使用,可能導(dǎo)致網(wǎng)絡(luò)或者服務(wù)器阻塞。這個(gè)標(biāo)準(zhǔn)沒(méi)有包括重新訪問(wèn)一臺(tái)服務(wù)器的間隔的建議,雖然訪問(wèn)間隔是避免服務(wù)器超載的最有效的辦法。對(duì)連接間隔時(shí)間的第一個(gè)建議由Koster 1993年給出,時(shí)間是60秒。這似乎是不可以接受的。MercatorWeb(Heydon 和Najork, 1999)爬蟲(chóng)使用了一種自適應(yīng)的平衡策略:如果從某一服務(wù)器下載一個(gè)文檔需要t秒鐘,爬蟲(chóng)就等待10t秒的時(shí)間,然后開(kāi)始下一個(gè)頁(yè)面。對(duì)于那些使用爬蟲(chóng)用于研究目的的,一個(gè)更詳細(xì)的成本效益分析是必要的,當(dāng)決定去哪一個(gè)站點(diǎn)抓取,使用多快的速度抓取的
點(diǎn)擊復(fù)制文檔內(nèi)容
試題試卷相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1