正文內(nèi)容

外文翻譯---基于網(wǎng)絡(luò)爬蟲的有效url緩存-資料下載頁

2025-01-18 15:13本頁面

　　

【正文】 nt requests is likely to perform better than an arbitrary cache. Caching algorithms try to capture this intuition in various ways. We now describe some standard caching algorithms, whose performance we evaluate in Section 5.附錄B 漢語翻譯基于網(wǎng)絡(luò)爬蟲的有效URL緩存馬克BMJ (國際版) 2009概要：要在網(wǎng)絡(luò)上爬行非常簡單：基本的算法是：（a）取得一個網(wǎng)頁（b）解析它提取所有的鏈接URLs（c）對于所有沒有見過的URLs重復(fù)執(zhí)行（a）（c）。但是，網(wǎng)絡(luò)的大?。ü烙嬘谐^40億的網(wǎng)頁）和他們變化的頻率（估計每周有7%的變化）使這個計劃由一個微不足道的設(shè)計習題變成一個非常嚴峻的算法和系統(tǒng)設(shè)計挑戰(zhàn)。實際上，光是這兩個要素就意味著如果要進行及時地，完全地爬行網(wǎng)絡(luò)，步驟（a）必須每秒鐘執(zhí)行大約1000次，因此，成員檢測（c）必須每秒鐘執(zhí)行超過10000次，并有非常大的數(shù)據(jù)儲存到主內(nèi)存中。這個要求有一個分布式構(gòu)造，使得成員檢測更加復(fù)雜。一個非常重要的方法加速這個檢測就是用cache（高速緩存），這個是把見過的URLs存入主內(nèi)存中的一個（動態(tài)）子集中。這個論文最主要的成果就是仔細的研究了幾種關(guān)于網(wǎng)絡(luò)爬蟲的URL緩存技術(shù)。我們考慮所有實際的算法：隨機置換，靜態(tài)cache，LRU，和CLOCK，和理論極限：透視cache和極大的cache。我們執(zhí)行了大約1800次模擬，用不同的cache大小執(zhí)行這些算法，用真實的log日志數(shù)據(jù)，獲取自一個非常大的33天的網(wǎng)絡(luò)爬行，大約執(zhí)行了超過10億次的請求。我們的主要的結(jié)論是 cache是非常高效的在我們的機制里，一個有大約50000個入口的cache可以完成80%的速率。有趣的是，這cache的大小下降到一個臨界點：一個足夠的小一點的cache更有效當一個足夠的大一點的cache只能帶來很小的額外好處。我們推測這個臨界點是固有的并且冒昧的解釋一下這個現(xiàn)象。皮尤基金會最新的研究指出：“搜索引擎已經(jīng)成為互聯(lián)網(wǎng)用戶不可或缺的工具”，估計在2002年中期，初略有超過1半的美國人用網(wǎng)絡(luò)搜索獲取信息。因此，一個強大的搜索引擎技術(shù)有巨大的實際利益，在這個論文中，我們集中于一方面的搜索技術(shù)，也就是搜集網(wǎng)頁的過程，最終組成一個搜索引擎的文集。搜索引擎搜集網(wǎng)頁通過很多途徑，他們中，直接提交URL，回饋內(nèi)含物，然后從非web源文件中提取URL，但是大量的文集包含一個進程叫 crawling 或者 SPIDERing，他們遞歸的探索互聯(lián)網(wǎng)?；镜乃惴ㄊ牵篎etch a pageParse it to extract all linked URLsFor all the URLs not seen before，repeat（a）(c)網(wǎng)絡(luò)怕從一般開始于一些種子URLs。有些時候網(wǎng)絡(luò)爬蟲開始于一個正確連接的頁面，或者一個目錄就像：，但是因為這個原因相關(guān)的巨大的部分網(wǎng)絡(luò)資源無法被訪問到。（估計有超過20%）如果把網(wǎng)頁看作圖中的節(jié)點，把超鏈接看作定向的移動在這些節(jié)點之間，那么網(wǎng)絡(luò)爬蟲就變成了一個進程就像數(shù)學中的圖的遍歷一樣。不同的遍歷策略決定著先不訪問哪個節(jié)點，下一個訪問哪個節(jié)點。2種標準的策略是深度優(yōu)先算法和廣度優(yōu)先算法他們?nèi)菀妆粚崿F(xiàn)所以在很多入門的算法課中都有教。但是，在網(wǎng)絡(luò)上爬行并不是一個微不足道的設(shè)計習題，而是一個非常嚴峻的算法和系統(tǒng)設(shè)計挑戰(zhàn)因為以下2點原因：網(wǎng)絡(luò)非常的龐大?，F(xiàn)在，Google需要索引超過30億的網(wǎng)頁。很多研究都指出，在歷史上，網(wǎng)絡(luò)每912個月都會增長一倍。網(wǎng)絡(luò)的頁面改變很頻繁。如果這個改變指的是任何改變，那么有40%的網(wǎng)頁每周會改變。如果我們認為頁面改變?nèi)种换蛘吒?，那么有大約7%的頁面每周會變。這2個要素意味著，要獲得及時的，完全的網(wǎng)頁快照，一個搜索引擎必須訪問1億個網(wǎng)頁每天。因此，步驟（a）必須執(zhí)行大約每秒1000次，成員檢測的步驟（c）必須每秒執(zhí)行超過10000次，并有非常大的數(shù)據(jù)儲存到主內(nèi)存中。另外，網(wǎng)絡(luò)爬蟲一般使用一個分布式的構(gòu)造來平行地爬行更多的網(wǎng)頁，這使成員檢測更為復(fù)雜：這是可能的成員問題只能回答了一個同行節(jié)點，而不是當?shù)亍? 一個非常重要的方法加速這個檢測就是用cache（高速緩存），這個是把見過的URLs存入主內(nèi)存中的一個（動態(tài)）子集中。這個論文最主要的成果就是仔細的研究了幾種關(guān)于網(wǎng)絡(luò)爬蟲的URL緩存技術(shù)。我們考慮所有實際的算法：隨機置換，靜態(tài)cache，LRU，和CLOCK，和理論極限：透視cache和極大的cache。我們執(zhí)行了大約1800次模擬，用不同的cache大小執(zhí)行這些算法，用真實的log日志數(shù)據(jù)，獲取自一個非常大的33天的網(wǎng)絡(luò)爬行，大約執(zhí)行了超過10億次的請求。這個論文像這樣組織的：第2部分討論在文學著作中幾種不同的爬行解決方案和什么樣的cache最適合他們。第3部分介紹關(guān)于一些cache的技術(shù)和介紹了關(guān)于cache幾種理論和實際算法。第4部分我們實現(xiàn)這些算法，在實驗機制中。第5部分描述和討論模擬的結(jié)果。第6部分是我們推薦的實際算法和數(shù)據(jù)結(jié)構(gòu)關(guān)于URLcache。第7部分是結(jié)論和指導關(guān)于促進研究。網(wǎng)絡(luò)爬蟲的出現(xiàn)幾乎和網(wǎng)絡(luò)同期，而且有很多的文獻描述了網(wǎng)絡(luò)爬蟲。在這個部分，我們呈現(xiàn)一個摘要關(guān)于這些爬蟲程序，并討論問什么大多數(shù)的網(wǎng)絡(luò)爬蟲會受益于URL cache。網(wǎng)絡(luò)爬蟲用網(wǎng)絡(luò)存檔雇員多個爬行進程，每個一次性完成一個徹底的爬行對于64個hosts 。爬蟲進程儲存非本地的URLs到磁盤；在爬行的最后，一批工作將這些URLs加入到下個爬蟲的每個host的種子sets中。最初的google 爬蟲，實現(xiàn)不同的爬蟲組件通過不同的進程。一個單獨的URL服務(wù)器進行維護需要下載的URL的集合；爬蟲程序獲取的網(wǎng)頁；索引進程提取關(guān)鍵字和超鏈接；URL解決進程將相對路徑轉(zhuǎn)換給絕對路徑。這些不同的進程通過文件系統(tǒng)通信。這個論文的中實驗我們使用的meractor網(wǎng)絡(luò)爬蟲。Mercator使用了一個獨立的集合，通信網(wǎng)絡(luò)爬蟲進程。每個爬蟲進程都是一個有效的web服務(wù)器子集；URLs的分配基于URLs主機組件。沒有責任通過TCP傳送這個URL給網(wǎng)絡(luò)爬蟲，有責任把這些URLs綁在一起減少TCP開銷。我們描述mercator很多的細節(jié)在第4部分。任何網(wǎng)絡(luò)爬蟲必須維護一個集合，裝那些需要被下載的URLs。此外，不能重復(fù)地下載同一個URL，必須要個方法避免加入URLs到集合中超過一次。一般的，達到避免可以用維護一個發(fā)現(xiàn)URLs的集合。如果數(shù)據(jù)太多，可以存入磁盤，或者儲存經(jīng)常被訪問的URLs。在大多數(shù)的計算機系統(tǒng)里面，內(nèi)存是分等級的，意思是，存在2級或更多級的內(nèi)存，表現(xiàn)出不同的空間和速度。舉個例，在一個典型的工作站里，有一個非常小但是非?？斓膬?nèi)存，一個大，但是比較慢的RAM內(nèi)存，一個非常大膽是很慢的disk內(nèi)存。在一個網(wǎng)絡(luò)環(huán)境中，也是分層的。Caching就是一種想法儲存經(jīng)常用到的項目從慢速內(nèi)存到快速內(nèi)存。 Caching術(shù)語就像下面：cache是內(nèi)存用來儲存同等大小的元素。一個cache有k的大小，,，這種情況將會引發(fā)一個碰撞并且不需要進一步的動作。另一方面，這種情況叫做丟失或者失敗。如果cache沒有k個項目，那個丟失的項目被加入cache。另一方面，算法必須選擇驅(qū)逐一個項目來空出空間來存放那個丟失的項目，或者不加入那個丟失的項目。Caching算法的目標是最小化丟失的個數(shù)。清楚的，cache越大，越容易避免丟失。因此，一個caching算法的性能要在看在一個給定大小的cache中的丟失率。一般的，caching成功有2個原因：不一致的請求。一些請求比其他一些請求多。時間相關(guān)性或地方的職權(quán)范圍。

點擊復(fù)制文檔內(nèi)容

教學教案相關(guān)推薦

基于廣度優(yōu)先算法的多線程網(wǎng)絡(luò)爬蟲畢業(yè)設(shè)計-資料下載頁

【總結(jié)】沈陽理工大學學士學位論文I摘要目前即使通訊軟件在平時的生活中有著十分廣泛的應(yīng)用，但是對絕大部分的軟件來說，都必須應(yīng)用在互聯(lián)網(wǎng)上，必須在一個INTERNET環(huán)境下才能使用。有時候單位內(nèi)部的員工，同學，在沒有互聯(lián)網(wǎng)環(huán)境下或因其他原因希望不用INTERNET就可以進行信息交互，這樣開發(fā)局域網(wǎng)通信

2025-06-27 20:18

外文翻譯---企業(yè)品牌定位的有效性-資料下載頁

【總結(jié)】企業(yè)品牌定位的有效性目錄企業(yè)品牌定位的有效性 1摘要 1關(guān)鍵詞 2 2 2 2 3 4 4 4 5 5結(jié)論 6參考文獻 7摘要您的企業(yè)品牌定位有效嗎？本文提出了一種評估企業(yè)組織戰(zhàn)略決策的三重維度模型：利益相關(guān)者對多品牌定位的有效性、經(jīng)濟價

2025-08-24 11:31

外文翻譯--設(shè)計有效的職工培訓計劃-資料下載頁

【總結(jié)】中文3665字本科畢業(yè)論文（設(shè)計）外文翻譯外文題目Designingeffectiveemployeetrainingprogrammed外文出處TrainingforQuality，2020（5）：P52–57

2025-05-12 05:53

基于多線程的網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)畢業(yè)論文-資料下載頁

【總結(jié)】成都學院學士學位論文（設(shè)計）本科畢業(yè)論文題目基于多線程的網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)畢業(yè)設(shè)計（論文）原創(chuàng)性聲明和使用授權(quán)說明原創(chuàng)性聲明本人鄭重承諾：所呈交的畢業(yè)設(shè)計（論文），是我個人在指導教師的指導下進行的研究工作及取得的成果。盡我所知，除文中特別加以標注和致謝的地方外，不包含其他人或組織已經(jīng)發(fā)表或公布過的研究成

2025-06-27 20:16

網(wǎng)絡(luò)安全外文翻譯[模版]-資料下載頁

【總結(jié)】第一篇：網(wǎng)絡(luò)安全外文翻譯[模版] 附件1：外文資料翻譯譯文網(wǎng)絡(luò)安全簡介在計算機網(wǎng)絡(luò)最初出現(xiàn)的幾十年里，它主要用于在各大學的研究人員之間傳送電子郵件，以及共同合作的職員間共享打印機。在這種條件...

2025-10-06 12:41

網(wǎng)絡(luò)教學系統(tǒng)外文翻譯-資料下載頁

【總結(jié)】第一篇：網(wǎng)絡(luò)教學系統(tǒng)外文翻譯 SQLserver 原文： SQLserver SQLSQLisStructuredQueryLanguageEnglishacronym,whichmeansf...

2024-11-09 12:09

網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)-資料下載頁

【總結(jié)】畢業(yè)設(shè)計（論文）說明書學院軟件學院專業(yè)軟件工程年級2007姓名張鳳龍指導教師陳錦言2011年3月6日

2025-07-09 12:59

軟件工程專業(yè)畢業(yè)論文--面向webservice的網(wǎng)絡(luò)爬蟲設(shè)計與實現(xiàn)任務(wù)書開題報告外文翻譯-資料下載頁

【總結(jié)】軟件工程專業(yè)畢業(yè)論文--面向webservice的網(wǎng)絡(luò)爬蟲設(shè)計與實現(xiàn)+任務(wù)書+開題報告+外文翻譯面向webservice的網(wǎng)絡(luò)爬蟲設(shè)計與實現(xiàn)學生姓名學院名稱專業(yè)軟件工程學

2024-12-03 16:58

外文資料翻譯--基于本體的應(yīng)用框架的網(wǎng)絡(luò)教育資源庫-教育教學-資料下載頁

【總結(jié)】畢業(yè)設(shè)計外文資料翻譯學院：信息科學與工程學院專業(yè)：計算機科學與技術(shù)姓名：xxx學號：xxx外文

2025-05-12 04:37

外文翻譯--基于labview的先進儀器系統(tǒng)-資料下載頁

【總結(jié)】基于LabVIEW的先進儀器系統(tǒng)通用信號調(diào)理功能無論所使用的傳感器或換能器是什么類型，適當?shù)男盘栒{(diào)節(jié)設(shè)備可以提高該系統(tǒng)的質(zhì)量和性能。信號調(diào)理功能對所有類型的信號都非常有用，包括放大，濾波和隔離信號。不必要的噪音對基于PC的數(shù)據(jù)采集系統(tǒng)的測量精度是一場浩劫。信號調(diào)理放大電路，它適用于電腦機箱外，并靠近信號源的增益，可以提高測量的分辨率和有效地減少噪聲的影響。一個放大器，不論位置是

2025-01-18 14:59

外文翻譯--基于labview的先進儀器系統(tǒng)-資料下載頁

【總結(jié)】基于LabVIEW的先進儀器系統(tǒng)通用信號調(diào)理功能無論所使用的傳感器或換能器是什么類型，適當?shù)男盘栒{(diào)節(jié)設(shè)備可以提高該系統(tǒng)的質(zhì)量和性能。信號調(diào)理功能對所有類型的信號都非常有用，包括放大，濾波和隔離信號。擴增不必要的噪音對基于PC的數(shù)據(jù)采集系統(tǒng)的測量精度是一場浩劫。信號調(diào)理放大電路，它適用于電腦機箱外，并靠近信號源的增益，可以提高測量的分

2025-06-03 08:56

基于labview的虛擬儀器外文翻譯-資料下載頁

【總結(jié)】基于LabVIEW的虛擬儀器模擬風力太陽能系統(tǒng)混合動力站（節(jié)選）介紹在最簡單的層面上，數(shù)據(jù)采集可以手動完成如使用紙筆記錄讀數(shù)或任何其他工具。對于某些應(yīng)用這種形式的數(shù)據(jù)采集是足夠的。然而，數(shù)據(jù)記錄中的應(yīng)用這需要大量的數(shù)據(jù)讀數(shù)，非常頻繁的錄音是有必要的，它包括了儀器或微控制器獲取和記錄數(shù)據(jù)準確（1995里格比和多爾比，）。急診化驗室虛擬儀器工程平臺（LabVIEW）是一個功能強大的靈

2025-01-16 13:33

外文翻譯--基于ssh的web技術(shù)介紹-資料下載頁

【總結(jié)】中原工學院信息商務(wù)學院畢業(yè)設(shè)計（論文）譯文專用紙第1頁基于SSH的web技術(shù)介紹1、引言隨著Java技術(shù)的逐漸成熟與完善，作為建立企業(yè)級應(yīng)用的標準平臺，J2EE平臺得到了長足的發(fā)展。借助于J2EE規(guī)范中包含的多項技術(shù)：EnterpriseJavaBean(EJB)、JavaServlets(Se

2025-05-12 07:27

外文翻譯---網(wǎng)絡(luò)營銷的發(fā)展趨勢-資料下載頁

【總結(jié)】外文文獻翻譯網(wǎng)絡(luò)營銷的發(fā)展趨勢《網(wǎng)絡(luò)營銷》E-Marketing朱迪．斯特勞斯雷德爾．弗羅斯特著　　時啟亮金玲慧譯摘要：互聯(lián)網(wǎng)經(jīng)濟的發(fā)展成為主流，網(wǎng)絡(luò)營銷作為互聯(lián)網(wǎng)的產(chǎn)物影響到經(jīng)濟的發(fā)展。很多企業(yè)在這些變革的推動下，形成新的營銷手段。所以網(wǎng)絡(luò)營銷在新經(jīng)濟形式下成為一種發(fā)展趨勢。關(guān)鍵詞：趨勢網(wǎng)絡(luò)營銷網(wǎng)絡(luò)經(jīng)濟互聯(lián)網(wǎng)

2025-01-17 23:29

基于復(fù)雜網(wǎng)絡(luò)理論的微博營銷研究綜述畢業(yè)論文外文翻譯-資料下載頁

【總結(jié)】基于復(fù)雜網(wǎng)絡(luò)理論的微博營銷研究綜述摘要微博營銷，是可以用復(fù)雜網(wǎng)絡(luò)理論來解釋的基于小世界與無標度網(wǎng)絡(luò)的社交網(wǎng)絡(luò)營銷方式。通過系統(tǒng)地回顧復(fù)雜網(wǎng)絡(luò)理論在不同的發(fā)展階段，本章從微博營銷的角度回顧各種文獻，然后提取分析方法和微博營銷操作指南，發(fā)現(xiàn)微博和其他社交網(wǎng)絡(luò)之間的差異，指出了復(fù)雜網(wǎng)絡(luò)理論所無法解釋的問題?？傊?，它能夠為運用復(fù)雜網(wǎng)絡(luò)理論有效地分析微博營銷

2024-11-07 08:33

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

外文翻譯---基于網(wǎng)絡(luò)爬蟲的有效url緩存-資料下載頁

基于廣度優(yōu)先算法的多線程網(wǎng)絡(luò)爬蟲畢業(yè)設(shè)計-資料下載頁

外文翻譯---企業(yè)品牌定位的有效性-資料下載頁

外文翻譯--設(shè)計有效的職工培訓計劃-資料下載頁

基于多線程的網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)畢業(yè)論文-資料下載頁

網(wǎng)絡(luò)安全外文翻譯[模版]-資料下載頁

網(wǎng)絡(luò)教學系統(tǒng)外文翻譯-資料下載頁

網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)-資料下載頁

軟件工程專業(yè)畢業(yè)論文--面向webservice的網(wǎng)絡(luò)爬蟲設(shè)計與實現(xiàn)任務(wù)書開題報告外文翻譯-資料下載頁

外文資料翻譯--基于本體的應(yīng)用框架的網(wǎng)絡(luò)教育資源庫-教育教學-資料下載頁

外文翻譯--基于labview的先進儀器系統(tǒng)-資料下載頁

外文翻譯--基于labview的先進儀器系統(tǒng)-資料下載頁

基于labview的虛擬儀器外文翻譯-資料下載頁

外文翻譯--基于ssh的web技術(shù)介紹-資料下載頁

外文翻譯---網(wǎng)絡(luò)營銷的發(fā)展趨勢-資料下載頁

基于復(fù)雜網(wǎng)絡(luò)理論的微博營銷研究綜述畢業(yè)論文外文翻譯-資料下載頁

外文翻譯---基于網(wǎng)絡(luò)爬蟲的有效url緩存(編輯修改稿)

外文翻譯---基于網(wǎng)絡(luò)爬蟲的有效url緩存-wenkub.com

外文翻譯---基于網(wǎng)絡(luò)爬蟲的有效url緩存(已改無錯字)

外文翻譯---基于網(wǎng)絡(luò)爬蟲的有效url緩存-資料下載頁

外文翻譯---基于網(wǎng)絡(luò)爬蟲的有效url緩存(參考版)