freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

分布式網(wǎng)絡(luò)爬蟲-總體設(shè)計(更新版)

2025-08-07 20:52上一頁面

下一頁面
  

【正文】 der,一個Spider只能有個一個Downloaderspider .setDownloader(new SeleniumDownloader())get(String)同步調(diào)用,并直接取得結(jié)果ResultItems result = spider .get()getAll(String…)同步調(diào)用,并直接取得一堆結(jié)果ListResultItems results = spider .getAll(, )對站點(diǎn)本身的一些配置信息,例如編碼、HTTP頭、超時時間、重試策略等、代理等,都可以通過設(shè)置Site對象來進(jìn)行配置。Brin和Page注意到:運(yùn)行一個針對超過50萬服務(wù)器的爬蟲,會產(chǎn)生很多的郵件和電話。按照這個速度,如果一個站點(diǎn)有超過10萬的頁面,即使我們擁有零延遲和無窮帶寬的完美連接,它也會需要兩個月的時間來下載整個站點(diǎn),并且,這個服務(wù)器中的資源,只有一小部分可以使用。216。平衡禮貌策略爬蟲相比于人,可以有更快的檢索速度和更深的層次,所以,他們可能使一個站點(diǎn)癱瘓。對于這種結(jié)果的解釋是:當(dāng)一個頁面變化太快的時候,爬蟲將會將會在不斷的嘗試重新抓取而浪費(fèi)很多時間,但是卻還是不能保證頁面的新鮮度。在這個模型下,每一個顧客在投票系統(tǒng)的平均時間,相當(dāng)于爬蟲的平均過時性。抓取網(wǎng)絡(luò)上的一小部分內(nèi)容可能會花費(fèi)真的很長的時間,通常用周或者月來衡量。這些頁面通常只有在向數(shù)據(jù)庫提交查詢的時候才可以訪問到,如果沒有鏈接指向他們的話,一般的爬蟲是不能訪問到這些頁面的。網(wǎng)絡(luò)爬蟲嘗試下載相似頁面,可以稱為聚焦檢索或者主題檢索。這種策略會導(dǎo)致很多的html資源在無意中錯過,一種相似的策略是將網(wǎng)絡(luò)資源的擴(kuò)展名同已知是html文件類型的一組擴(kuò)展名(,.htm,.asp,.php,.aspx,反斜杠)進(jìn)行比較。BaezaYates等人(BaezaYates et al., 2005) ,比較若干個抓取策略。”Abiteboul (Abiteboul 等人, 2003),設(shè)計了一種基于OPIC(在線頁面重要指數(shù))的抓取戰(zhàn)略。Cho等人(Cho et al,1998)做了第一份抓取策略的研究。正如愛德華等人所說的:“用于檢索的帶寬不是無限的,也不是免費(fèi)的;所以,如果引入衡量爬蟲抓取質(zhì)量或者新鮮度的有效指標(biāo)的話,不但伸縮性,連有效性都將變得十分必要”(愛德華等人,2001年)。 它快速的更新頻率;216。網(wǎng)頁的內(nèi)容從原來的以超文本為主,發(fā)展到后來動態(tài)頁面(或稱為Hidden Web)數(shù)據(jù)為主,后者的數(shù)據(jù)量約為直接可見頁面數(shù)據(jù)(PIW,Publicly Indexable Web)的400~500倍。文獻(xiàn)[18]證明,利用分布式的SiteRank計算,不僅大大降低了單機(jī)站點(diǎn)的算法代價,而且克服了單獨(dú)站點(diǎn)對整個網(wǎng)絡(luò)覆蓋率有限的缺點(diǎn)?;阪溄拥淖ト〉膯栴}是相關(guān)頁面主題團(tuán)之間的隧道現(xiàn)象,即很多在抓取路徑上偏離主題的網(wǎng)頁也指向目標(biāo)網(wǎng)頁,局部評價策略中斷了在當(dāng)前路徑上的抓取行為。其基本思想是認(rèn)為與初始URL在一定鏈接距離內(nèi)的網(wǎng)頁具有主題相關(guān)性的概率很大。Selenium是一個模擬瀏覽器進(jìn)行頁面渲染的工具,WebMagic依賴Selenium進(jìn)行動態(tài)頁面的抓取。包括注解格式定義爬蟲、JSON、分布式等支持。這四大組件對應(yīng)爬蟲生命周期中的下載、處理、管理和持久化等功能。搜索引擎己成為一個新的研究、開發(fā)領(lǐng)域。例如那些用戶注冊后內(nèi)容才可見的網(wǎng)頁就屬于 Deep Web。 焦網(wǎng)絡(luò)爬蟲聚焦網(wǎng)絡(luò)爬蟲(Focused Crawler),又稱主題網(wǎng)絡(luò)爬蟲(Topical Crawler),是指選擇性地爬行那些與預(yù)先定義好的主題相關(guān)頁面的網(wǎng)絡(luò)爬蟲[8]。控制器控制器是網(wǎng)絡(luò)爬蟲的中央控制器,它主要是負(fù)責(zé)根據(jù)系統(tǒng)傳過來的URL鏈接,分配一線程,然后啟動線程調(diào)用爬蟲爬取網(wǎng)頁的過程。(4)通用搜索引擎大多提供基于關(guān)鍵字的檢索,難以支持根據(jù)語義信息提出的查詢。關(guān)鍵詞:網(wǎng)絡(luò)爬蟲;Java;多線程;MySQL;Webmagic;CsdnblogABSTRACTWeb Crawler, usually called Crawler for short, is an important part of search engine. With the highspeed development of information, Web Crawler the search engine can not lack of which is a hot research topic those years. The quality of a search engine is mostly depended on the quality of a Web Crawler. Nowadays, the direction of researching Web Crawler mainly divides into two parts: one is the searching strategy to web pages。隨著信息技術(shù)的飛速進(jìn)步,作為搜索引擎的一個組成部分——網(wǎng)絡(luò)爬蟲,一直是研究的熱點(diǎn),它的好壞會直接決定搜索引擎的未來。 產(chǎn)生背景隨著網(wǎng)絡(luò)的迅速發(fā)展,萬維網(wǎng)成為大量信息的載體,如何有效地提取并利用這些信息成為一個巨大的挑戰(zhàn)。與通用爬蟲(general purpose web crawler)不同,聚焦爬蟲并不追求大的覆蓋,而將目標(biāo)定為抓取與某一特定主題內(nèi)容相關(guān)的網(wǎng)頁,為面向主題的用戶查詢準(zhǔn)備數(shù)據(jù)資源。中大型的數(shù)據(jù)庫產(chǎn)品有:Oracle、Sql Server等。 和周期性爬行和刷新頁面的網(wǎng)絡(luò)爬蟲相比,增量式爬蟲只會在需要的時候爬行新產(chǎn)生或發(fā)生更新的頁面 ,并不重新下載沒有發(fā)生變化的頁面,可有效減少數(shù)據(jù)下載量,及時更新已爬行的網(wǎng)頁,減小時間和空間上的耗費(fèi),但是增加了爬行算法的復(fù)雜度和實現(xiàn)難度。基于關(guān)鍵字匹配的搜索技術(shù)有較大的局限性:首先,它不能區(qū)分同形異義。 Java版本及配置圖1 Java版本號圖2 Java配置一圖3Java配置二圖4 Java配置三 Eclipse配置下載Eclipse壓縮包,并將Eclipse壓縮包解壓圖5解壓后 Maven配置下載maven的bin,在apache官方網(wǎng)站可以下載。WebMagic總體架構(gòu)圖如下:圖11 WebMagic總體架構(gòu) Webmagic項目組成WebMagic項目代碼包括幾個部分,在根目錄下以不同目錄名分開。webmagicsamples這里是作者早期編寫的一些爬蟲的例子。webmagicavalonwebmagicavalon是一個特殊的項目,它想基于WebMagic實現(xiàn)一個產(chǎn)品化的工具,涵蓋爬蟲的創(chuàng)建、爬蟲的管理等后臺工具。 拓?fù)浞治鏊惴ɑ诰W(wǎng)頁之間的鏈接,通過已知的網(wǎng)頁或數(shù)據(jù),來對與其有直接或間接鏈接關(guān)系的對象(可以是網(wǎng)頁或網(wǎng)站等)作出評價的算法。網(wǎng)站粒度的爬蟲抓取的關(guān)鍵之處在于站點(diǎn)的劃分和站點(diǎn)等級(SiteRank)的計算。但是,在PageRank和HITS算法中,沒有對這些鏈接作區(qū)分,因此常常給網(wǎng)頁分析帶來廣告等噪聲鏈接的干擾。本節(jié)根據(jù)網(wǎng)頁數(shù)據(jù)形式的不同,將基于網(wǎng)頁內(nèi)容的分析算法,歸納以下三類:第一種針對以文本和超鏈接為主的無結(jié)構(gòu)或結(jié)構(gòu)很簡單的網(wǎng)頁;第二種針對從結(jié)構(gòu)化的數(shù)據(jù)源(如RDBMS)動態(tài)生成的頁面,其數(shù)據(jù)不能直接批量訪問;第三種針對的數(shù)據(jù)界于第一和第二類數(shù)據(jù)之間,具有較好的結(jié)構(gòu),顯示遵循一定模式或風(fēng)格,且可以直接訪問。巨大的數(shù)據(jù)量暗示了爬蟲,在給定的時間內(nèi),只可以抓取所下載網(wǎng)絡(luò)的一部分,所以,它需要對它的抓取頁面設(shè)置優(yōu)先級;快速的更新頻率說明在爬蟲抓取下載某網(wǎng)站一個網(wǎng)頁的時候,很有可能在這個站點(diǎn)又有新的網(wǎng)頁被添加進(jìn)來,或者這個頁面被更新或者刪除了。? 選擇策略,決定所要下載的頁面;? 重新訪問策略,決定什么時候檢查頁面的更新變化;? 平衡禮貌策略,指出怎樣避免站點(diǎn)超載;? 并行策略,指出怎么協(xié)同達(dá)到分布式抓取的效果;選擇策略:就現(xiàn)在網(wǎng)絡(luò)資源的大小而言,即使很大的搜索引擎也只能獲取網(wǎng)絡(luò)上可得到資源的一小部分。計算顯示,如果你想要優(yōu)先下載pagerank高的頁面,那么,部分PageRank策略是比較好的,其次是廣度優(yōu)先和后鏈計數(shù)。OPIC的程序首先抓取獲取權(quán)值最大的頁面,實驗在10萬個冪指分布的模擬頁面中進(jìn)行。它們從來自不同社區(qū)的高PageRank頁面開始檢索的方法,迭代次數(shù)明顯小于使用隨機(jī)種子的檢索。Cothey(Cothey,2004)引入了一種路徑檢索的爬蟲,它會嘗試抓取需要檢索資源的所有URL。聚焦檢索的主要問題是網(wǎng)頁爬蟲的使用環(huán)境,我們希望在實際下載頁面之前,就可以知道給定頁面和查詢之間的相似度。一些爬蟲僅僅抓取形如a href=”url”鏈接。最常使用的成本函數(shù),是新鮮度和過時性(2000年,Cho 和GarciaMolina)新鮮度:這是一個衡量抓取內(nèi)容是不是準(zhǔn)確的二元值。兩種最簡單的重新訪問策略是由Cho和GarciaMolina研究的(Cho 和GarciaMolina,2003):統(tǒng)一策略:使用相同的頻率,重新訪問收藏中的所有的鏈接,而不考慮他們更新頻率。兩種情況下,最佳的策略較正比策略,都更接近統(tǒng)一策略。就像Koster(Koster,1995)所注意的那樣,爬蟲的使用對很多工作都是很有用的,但是對一般的社區(qū),也需要付出代價。 個人爬蟲,如果過多的人使用,可能導(dǎo)致網(wǎng)絡(luò)或者服務(wù)器阻塞。MercatorWeb(Heydon 和Najork, 1999)爬蟲使用了一種自適應(yīng)的平衡策略:如果從某一服務(wù)器下載一個文檔需要t秒鐘,爬蟲就等待10t秒的時間,然后開始下一個頁面。它的目標(biāo)是最大化下載的速度,同時盡量減少并行的開銷和下載重復(fù)的頁面。 //執(zhí)行這個main方法,即可在控制臺看到抓取結(jié)果。另外,對于JSON格式的內(nèi)容,可使用JsonPath進(jìn)行解析。如果大家做過前端開發(fā),肯定知道$(39。WebMagic中使用的JsonPath格式可以參考這里: 鏈接的發(fā)現(xiàn)有了處理頁面的邏輯,我們的爬蟲就接近完工了!但是現(xiàn)在還有一個問題:一個站點(diǎn)的頁面是很多的,一開始我們不可能全部列舉出來,于是如何發(fā)現(xiàn)后續(xù)的鏈接,是一個爬蟲不可缺少的一部分。import 。]).links()// 限定文章列表獲取區(qū)域 .regex(/ + username + /article/details/\\d+) .replace(/ + username + /, + username + /)// 巧用替換給把相對url轉(zhuǎn)換成絕對url .all())。article_title39。article_r39。]/a/allText()).all()))。]) .regex((\\d+)人閱讀).get()))。 // 把對象輸出控制臺 (csdnBlog)。 } public static void main(String[] args) { long startTime, endTime。import 。 int temp=1。 } } //process(過程) public void process(Page page) { //()來保存抽取結(jié)果 //().xpath()則是按照某個規(guī)則對結(jié)果進(jìn)行抽取,這里抽取支持鏈?zhǔn)秸{(diào)用 ListString pages=().xpath([class=39。 //()方法來增加要抓取的URL (links)。MySQL是一種關(guān)系數(shù)據(jù)庫管理系統(tǒng),關(guān)系數(shù)據(jù)庫將數(shù)據(jù)保存在不同的表中,而不是將所有數(shù)據(jù)放在一個大倉庫內(nèi),這樣就增加了速度并提高了靈活性。值得注意的是用命令安裝的MySQL在Windows系統(tǒng)下默認(rèn)服務(wù)名為mysql,默認(rèn)密碼為空。該軟件支持Windows和Linux系統(tǒng)。// 閱讀人數(shù) private int ments。 } public void setTitle(String title) { = title。 } public void setView(int view) { = view。 public CsdnBlogDao() { try { ()。 } catch (SQLException e) { ()。 (6, (
點(diǎn)擊復(fù)制文檔內(nèi)容
試題試卷相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1