正文內容

分布式網(wǎng)絡爬蟲-總體設計(留存版)

2025-08-13 20:52上一頁面

下一頁面

　　

【正文】速度，二是如何為用戶提供更精確的查詢結果。這類網(wǎng)絡爬蟲的爬行范圍和數(shù)量巨大，對于爬行速度和存儲空間要求較高，對于爬行頁面的順序要求相對較低，同時由于待刷新的頁面太多，通常采用并行工作方式，但需要較長時間才能刷新一次頁面。(2)通用搜索引擎的目標是盡可能大的網(wǎng)絡覆蓋率，有限的搜索引擎服務器資源與無限的網(wǎng)絡數(shù)據(jù)資源之間的矛盾將進一步加深。把互聯(lián)網(wǎng)比喻成一個蜘蛛網(wǎng)，那么Spider就是在網(wǎng)上爬來爬去的蜘蛛。控制器的主要工作是負責給多線程中的各個爬蟲線程分配工作任務。 Deep Web 爬蟲Web 頁面按存在方式可以分為表層網(wǎng)頁（Surface Web）和深層網(wǎng)頁（Deep Web，也稱 Invisible Web Pages 或 Hidden Web）。核心部分(webmagiccore)是一個精簡的、模塊化的爬蟲實現(xiàn)，而擴展部分則包括一些便利的、實用性的功能。最新的、精選過的例子，webmagicscriptsWebMagic對于爬蟲規(guī)則腳本化的一些嘗試，目標是讓開發(fā)者脫離Java語言，來進行簡單、快速的開發(fā)。1 網(wǎng)頁(Webpage)粒度的分析算法PageRank和HITS算法是最常見的鏈接分析算法，兩者都是通過對網(wǎng)頁間鏈接度的遞歸和規(guī)范化計算，得到每個網(wǎng)頁的重要度評價。于是，在page to page圖上的網(wǎng)頁塊級別的PageRank為?Wp=XZ；在block to block圖上的BlockRank為Wb=ZX。例如，一個很小照片存儲庫僅僅通過get方式可能提供就給用戶三種操作方式。Najork和Wiener (Najork and Wiener, 2001)采用實際的爬蟲，采用廣度優(yōu)先研究。限定訪問鏈接一個爬蟲可能僅僅想找到html頁面的種子而避免其他的文件類型。Diligenti等人（Diligenti等人，2000）建議使用已經(jīng)抓取頁面的內容去推測查詢和未訪問頁的相似度。在時間t時，倉庫中頁面p的時效性的定義如下：過時性在頁面抓取中，新鮮度和過時性的發(fā)展Coffman等人（Edward G. Coffman，1998）是從事爬蟲對象定義的，他們提出了一個相當于新鮮度的概念，但是使用了不同的措詞：他們建議爬蟲必須最小化過時頁面部分?！睂τ谥匦略L問的詳盡的策略在大體上是不可以達到的，但是他們可以從數(shù)學上得到，因為他們依賴于頁面的變化。這個標準沒有包括重新訪問一臺服務器的間隔的建議，雖然訪問間隔是避免服務器超載的最有效的辦法。爬蟲的配置第一部分關于爬蟲的配置，包括編碼、抓取間隔、超時時間、重試次數(shù)等，也包括一些模擬的參數(shù)，例如User Agent、cookie，以及代理的設置Spider是爬蟲啟動的入口。例如： ().xpath(//h1[class=39。這段代碼的分為兩部分，().links().regex((://github\\./\\w+/\\w+)).all()用于獲取所有滿足(:/ /github\./\w+/\w+)這個正則表達式的鏈接，()則將這些鏈接加入到待抓取的隊列中去。papelist39。link_postdate39。article_r39。 startTime = ()。webmagic默認有3秒抓取間隔，請耐心等待。 (title, ().xpath(//[class=39。圖18 MySQL環(huán)境不變量配置最后進入MySQLmysql u root p，密碼默認為空。// 是否原創(chuàng) private String content。 } public void setComments(int ments) { = ments。 PreparedStatement ps = (sql)。 } return 1。 stmt = ()。 } public void setCategory(String category) { = category。// 標簽 private String category。最后啟動MySQL服務。link_title39。import 。 } (string)。]/span[class=39。]/allText()).get())。 } // process是定制爬蟲邏輯的核心接口，在這里編寫抽取邏輯 public void process(Page page) { // 列表頁 if (!().regex(://blog\\.csdn\\.net/ + username + /article/details/\\d+).match()) { // 添加所有文章頁 (().xpath(//div[id=39。這段代碼就用到了正則表達式，它表示匹配所有這樣的鏈接。 } catch (JMException e) { ()。這是因為有無數(shù)的人在上網(wǎng)，而這些人不知道爬蟲是什么，因為這是他們第一次見到。質量糟糕的爬蟲，可能導致服務器或者路由器癱瘓，或者會嘗試下載自己無法處理的頁面。為了提高頁面的新鮮度，我們應該宣判變化太快的頁面死罪（Cho和GarciaMolina, 2003a）。當爬蟲完成它的抓取的任務以后，很多操作是可能會發(fā)生的，這些操作包括新建，更新和刪除。關于主題檢索和聚焦檢索的概念，最早是由Menczer（Menczer 1997。結果顯示OPIC策略和站點隊列長度，都比廣度優(yōu)先要好；并且如果可行的話，使用之前的爬行抓取結果來指導這次抓取，總是十分有效的。他們的數(shù)據(jù)是斯坦福大學網(wǎng)站中的18萬個頁面，使用不同的策略分別模仿抓取。附帶的一個優(yōu)點是，常見PageRank 造假難以對SiteRank進行欺騙。另外一種方法是將廣度優(yōu)先搜索與網(wǎng)頁過濾技術結合使用，先用廣度優(yōu)先策略抓取網(wǎng)頁，再將其中無關的網(wǎng)頁過濾掉。外圍功能除此之外，WebMagic項目里還有幾個包，這些都是一些實驗性的功能，目的只是提供一些與外圍工具整合的樣例。因為它要用到信息檢索、人工智能、計算機網(wǎng)絡、分布式處理、數(shù)據(jù)庫、數(shù)據(jù)挖掘、數(shù)字圖書館、自然語言處理等多領域的理論和技術，所以具有綜合性和挑戰(zhàn)性。和通用網(wǎng)絡爬蟲相比，聚焦爬蟲只需要爬行與主題相關的頁面，極大地節(jié)省了硬件和網(wǎng)絡資源，保存的頁面也由于數(shù)量少而更新快，還可以很好地滿足一些特定人群對特定領域信息的需求。為了解決上述問題，定向抓取相關網(wǎng)頁資源的聚焦爬蟲應運而生?！稇密浖_發(fā)實踐》課程報告中國礦業(yè)大學計算機學院 2014 級本科生課程報告課程名稱應用軟件開發(fā)實踐報告時間學生姓名朱少杰、胥鐵馨學號 081433308143336 專業(yè) 14級計科6班任課教師徐慧任課教師評語任課教師評語（①對課程基礎理論的掌握；②對課程知識應用能力的評價；③對課程報告相關實驗、作品、軟件等成果的評價；④課程學習態(tài)度和上課紀律；⑤課程成果和報告工作量；⑥總體評價和成績；⑦存在問題等）：成績：任課教師簽字：年月日摘要網(wǎng)絡爬蟲（Web Crawler），通常被稱為爬蟲，是搜索引擎的重要組成部分。聚焦爬蟲是一個自動下載網(wǎng)頁的程序，它根據(jù)既定的抓取目標，有選擇的訪問萬維網(wǎng)上的網(wǎng)頁與相關的鏈接，獲取所需要的信息。增量式網(wǎng)絡爬蟲增量式網(wǎng)絡爬蟲（Incremental Web Crawler）是指對已下載網(wǎng) 頁采取增量式更新和只爬行新產(chǎn)生的或者已經(jīng)發(fā)生變化網(wǎng)頁的爬蟲，它能夠在一定程度上保證所爬行的頁面是盡可能新的頁面。又由于搜索引擎有大量的用戶，有很好的經(jīng)濟價值，所以引起了世界各國計算機科學界和信息產(chǎn)業(yè)界的高度關注，目前的研究、開發(fā)十分活躍，并出現(xiàn)了很多值得注意的動向。因為精力有限，這些包沒有經(jīng)過廣泛的使用和測試，推薦使用方式是自行下載源碼，遇到問題后再修改。這些方法的缺點在于，隨著抓取網(wǎng)頁的增多，大量的無關網(wǎng)頁將被下載并過濾，算法的效率將變低。3 網(wǎng)頁塊粒度的分析算法在一個頁面中，往往含有多個指向其他頁面的鏈接，這些鏈接中只有一部分是指向主題相關網(wǎng)頁的，或根據(jù)網(wǎng)頁的鏈接錨文本表明其具有較高重要性。動態(tài)頁面的產(chǎn)生它們三個特征一起產(chǎn)生了很多種類的爬蟲抓取鏈接。排序的方法使用了廣度優(yōu)先，后鏈計數(shù)，和部分pagerank算法。Daneshpajouh等人(Daneshpajouh et al., 2008)設計了一個用于尋找好種子的社區(qū)。 Menczer and Belew, 1998）和Chakrabarti等人首先提出來的(Chakrabarti et al., 1999)。從搜索引擎的角度來看，不檢測這些事件是有成本的，成本就是我們僅僅擁有一份過時的資源。最佳的重新訪問策略既不是統(tǒng)一策略，也不是正比策略；保持平均頁面新鮮度高的最佳方法策略包括忽略那些變化太快的頁面，而保持頁面平均過時性低的方法則是對每一頁按照頁面變化率單調變化的策略訪問。216。（Brin和Page，1998）并行策略一個并行爬蟲是并行運行多個進程的爬蟲。 } } 頁面元素的抽取第二部分是爬蟲的核心部分：對于下載到的Html頁面，你如何從中抽取到你想要的信息？WebMagic里主要使用了三種抽取技術：XPath、正則表達式和CSS選擇器。JsonPath是于XPath很類似的一個語言，它用于從Json中快速定位一條內容。article_list39。 // 設置日期 ( ().xpath(//div[class=39。link_view39。 } return ()。public class App implements PageProcessor{ private Site site = ().setSleepTime(1)。]).links().regex(://blog\\.csdn\\.net/chenyufeng1991/article/details/\\d+).all()。net start mysql將啟動MySQL服務。// 分類 private int view。 } public int getView() { return view。 } catch (ClassNotFoundException e) { ()。 }以上，我們就實現(xiàn)了數(shù)據(jù)庫的鏈接，運行CsdnBlogPageProcessor，并查看結果圖29 Console下的結果這是在eclipse下查看的結果，打開數(shù)據(jù)庫，發(fā)現(xiàn)數(shù)據(jù)也已經(jīng)保存了進去圖30 數(shù)據(jù)庫中的數(shù)據(jù)實驗結束后，將數(shù)據(jù)庫關閉服務圖31 關閉數(shù)據(jù)庫服務第40頁。 } }鏈接完成后，要向數(shù)據(jù)庫中逐條插入數(shù)據(jù)，因此再添加一個add函數(shù)，代碼如下：public int add(CsdnBlog csdnBlog) { try { String sql = INSERT INTO `Shiyan`.`csdnblog` (`keyes`, `titles`, `content` , `dates`, `tags`, `category`, `views`, `ments`, `copyright`) VALUES (?, ?, ?, ?, ?, ?, ?, ?,?)。 } public int getComments() { return ments。// 評論人數(shù) private int copyright。圖17 MySQL安裝2接下來配置環(huán)境變量編輯path系統(tǒng)變量，將G:\\bin添加到path變量。 }else { (記錄數(shù):+temp++)。

點擊復制文檔內容

試題試卷相關推薦

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

分布式網(wǎng)絡爬蟲-總體設計(留存版)

基于vb的分布式監(jiān)控系統(tǒng)通信設計-資料下載頁

分布式光伏發(fā)電系統(tǒng)設計方案(專業(yè))-資料下載頁

微服務架構分布式事務設計方案-資料下載頁

分布式網(wǎng)絡爬蟲-總體設計-文庫吧

分布式網(wǎng)絡爬蟲-總體設計-wenkub

分布式網(wǎng)絡爬蟲-總體設計(已修改)

分布式網(wǎng)絡爬蟲-總體設計(編輯修改稿)

分布式網(wǎng)絡爬蟲-總體設計-wenkub.com