正文內(nèi)容

分布式網(wǎng)絡(luò)爬蟲-總體設(shè)計-展示頁

2025-07-08 20:52本頁面

　　

【正文】起來，讓它們可以互相交互，流程化的執(zhí)行，可以認(rèn)為Spider是一個大的容器，它也是WebMagic邏輯的核心。這四大組件對應(yīng)爬蟲生命周期中的下載、處理、管理和持久化等功能。WebMagic的架構(gòu)設(shè)計參照了Scrapy，目標(biāo)是盡量的模塊化，并體現(xiàn)爬蟲的功能特點。版本類型下載下來之后，解壓，找個路徑放進(jìn)去，把bin的位置設(shè)在環(huán)境變量里，新建環(huán)境變量MAVEN_HOME圖6 環(huán)境變量配置一在PATH里加入maven的bin的路徑圖7 環(huán)境變量配置二配置完畢后，在Windows命令提示符下，輸入mvn v測試一下，配置成功顯示如圖：圖8 配置成功配置成功后開始在Eclipse中配置Maven，點擊eclipse菜單欄HelpEclipse Marketplace搜索關(guān)鍵字maven到插件Maven Integration for Eclipse 并點擊安裝即可，如下圖：圖 9 在Eclipse中配置maven重啟后，為了使得Eclipse中安裝的Maven插件，同windows中安裝的那個相同，需要讓eclipse中的maven重新定位一下，點擊Window Preference Maven Installation Add進(jìn)行設(shè)置圖10 配置二框架webmagic WebMagic概覽WebMagic項目代碼分為核心和擴展兩部分。又由于搜索引擎有大量的用戶，有很好的經(jīng)濟價值，所以引起了世界各國計算機科學(xué)界和信息產(chǎn)業(yè)界的高度關(guān)注，目前的研究、開發(fā)十分活躍，并出現(xiàn)了很多值得注意的動向。搜索引擎己成為一個新的研究、開發(fā)領(lǐng)域。搜索引擎的發(fā)展面臨著兩大難題：一是如何跟上Internet的發(fā)展速度，二是如何為用戶提供更精確的查詢結(jié)果。其次，不能聯(lián)想到關(guān)鍵字的同義詞。發(fā)展趨勢目前，大多數(shù)的搜索引擎都是基于關(guān)鍵詞的搜索引擎。例如那些用戶注冊后內(nèi)容才可見的網(wǎng)頁就屬于 Deep Web。表層網(wǎng)頁是指傳統(tǒng)搜索引擎可以索引的頁面，以超鏈接可以到達(dá)的靜態(tài)網(wǎng)頁為主構(gòu)成的 Web 頁面。增量式網(wǎng)絡(luò)爬蟲的體系結(jié)構(gòu)[包含爬行模塊、排序模塊、更新模塊、本地頁面集、待爬行 URL 集以及本地頁面URL 集。增量式網(wǎng)絡(luò)爬蟲增量式網(wǎng)絡(luò)爬蟲（Incremental Web Crawler）是指對已下載網(wǎng) 頁采取增量式更新和只爬行新產(chǎn)生的或者已經(jīng)發(fā)生變化網(wǎng)頁的爬蟲，它能夠在一定程度上保證所爬行的頁面是盡可能新的頁面。焦網(wǎng)絡(luò)爬蟲聚焦網(wǎng)絡(luò)爬蟲（Focused Crawler），又稱主題網(wǎng)絡(luò)爬蟲（Topical Crawler），是指選擇性地爬行那些與預(yù)先定義好的主題相關(guān)頁面的網(wǎng)絡(luò)爬蟲[8]。這類網(wǎng)絡(luò)爬蟲的爬行范圍和數(shù)量巨大，對于爬行速度和存儲空間要求較高，對于爬行頁面的順序要求相對較低，同時由于待刷新的頁面太多，通常采用并行工作方式，但需要較長時間才能刷新一次頁面。分類通用網(wǎng)絡(luò)爬蟲又稱全網(wǎng)爬蟲（Scalable Web Crawler），爬行對象從一些種子 URL 擴充到整個 Web，主要為門戶站點搜索引擎和大型 Web 服務(wù)提供商采集數(shù)據(jù)。資源庫主要是用來存儲網(wǎng)頁中下載下來的數(shù)據(jù)記錄的容器，并提供生成索引的目標(biāo)源?？刂破骺刂破魇蔷W(wǎng)絡(luò)爬蟲的中央控制器，它主要是負(fù)責(zé)根據(jù)系統(tǒng)傳過來的URL鏈接，分配一線程，然后啟動線程調(diào)用爬蟲爬取網(wǎng)頁的過程。解析器的主要工作是下載網(wǎng)頁，進(jìn)行頁面的處理，主要是將一些JS腳本標(biāo)簽、CSS代碼內(nèi)容、空格字符、HTML標(biāo)簽等內(nèi)容處理掉，爬蟲的基本工作是由解析器完成。組成在網(wǎng)絡(luò)爬蟲的系統(tǒng)框架中，主過程由控制器，解析器，資源庫三部分組成。聚焦爬蟲是一個自動下載網(wǎng)頁的程序，它根據(jù)既定的抓取目標(biāo)，有選擇的訪問萬維網(wǎng)上的網(wǎng)頁與相關(guān)的鏈接，獲取所需要的信息。(4)通用搜索引擎大多提供基于關(guān)鍵字的檢索，難以支持根據(jù)語義信息提出的查詢。(2)通用搜索引擎的目標(biāo)是盡可能大的網(wǎng)絡(luò)覆蓋率，有限的搜索引擎服務(wù)器資源與無限的網(wǎng)絡(luò)數(shù)據(jù)資源之間的矛盾將進(jìn)一步加深。搜索引擎(Search Engine)，例如傳統(tǒng)的通用搜索引擎AltaVista，Yahoo!和Google等，作為一個輔助人們檢索信息的工具成為用戶訪問萬維網(wǎng)的入口和指南。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。關(guān)鍵詞：網(wǎng)絡(luò)爬蟲；Java；多線程；MySQL；Webmagic；CsdnblogABSTRACTWeb Crawler, usually called Crawler for short, is an important part of search engine. With the highspeed development of information, Web Crawler the search engine can not lack of which is a hot research topic those years. The quality of a search engine is mostly depended on the quality of a Web Crawler. Nowadays, the direction of researching Web Crawler mainly divides into two parts: one is the searching strategy to web pages。網(wǎng)絡(luò)蜘蛛是通過網(wǎng)頁的鏈接地址來尋找網(wǎng)頁，從網(wǎng)站某一個頁面（通常是首頁）開始，讀取網(wǎng)頁的內(nèi)容，找到在網(wǎng)頁中的其它鏈接地址，然后通過這些鏈接地址尋找下一個網(wǎng)頁，這樣一直循環(huán)下去，直到把這個網(wǎng)站所有的網(wǎng)頁都抓取完為止。目前，網(wǎng)絡(luò)爬蟲的研究包括Web搜索策略研究的研究和網(wǎng)絡(luò)分析的算法，兩個方向，其中在Web爬蟲網(wǎng)絡(luò)搜索主題是一個研究方向，根據(jù)一些網(wǎng)站的分析算法，過濾不相關(guān)的鏈接，連接到合格的網(wǎng)頁，并放置在一個隊列被抓取?！稇?yīng)用軟件開發(fā)實踐》課程報告中國礦業(yè)大學(xué)計算機學(xué)院 2014 級本科生課程報告課程名稱應(yīng)用軟件開發(fā)實踐報告時間學(xué)生姓名朱少杰、胥鐵馨學(xué) 號 081433308143336 專業(yè) 14級計科6班任課教師徐慧任課教師評語任課教師評語（①對課程基礎(chǔ)理論的掌握；②對課程知識應(yīng)用能力的評價；③對課程報告相關(guān)實驗、作品、軟件等成果的評價；④課程學(xué)習(xí)態(tài)度和上課紀(jì)律；⑤課程成果和報告工作量；⑥總體評價和成績；⑦存在問題等）：成績：任課教師簽字：年月日摘要網(wǎng)絡(luò)爬蟲（Web Crawler），通常被稱為爬蟲，是搜索引擎的重要組成部分。隨著信息技術(shù)的飛速進(jìn)步，作為搜索引擎的一個組成部分——網(wǎng)絡(luò)爬蟲，一直是研究的熱點，它的好壞會直接決定搜索引擎的未來。把互聯(lián)網(wǎng)比喻成一個蜘蛛網(wǎng)，那么Spider就是在網(wǎng)上爬來爬去的蜘蛛。如果把整個互聯(lián)網(wǎng)當(dāng)成一個網(wǎng)站，那么網(wǎng)絡(luò)爬蟲就可以用這個原理把互聯(lián)網(wǎng)上所有的網(wǎng)頁都抓取下來。 the other is the algorithm of analysis URLs. Among them, the research of TopicFocused Web Crawler is the trend. It uses some webpage analysis strategy to filter topicless URLs and add fit URLs into URLWAIT queue. The metaphor of a spider web internet, then Spider spider is crawling around on the Internet. Web spider through web link address to find pages, starting from a one page website (usually home), read the contents of the page, find the address of the other links on the page, and then look for the next Web page addresses through these links, so has been the cycle continues, until all the pages of this site are crawled exhausted. If the entire Internet as a site, then you can use this Web crawler principle all the pages on the Internet are crawling down.. Keywords:Web crawler；Java；Multithreading；MySQL；Webmagic；Csdnblog 目錄 1 定義 1 產(chǎn)生背景 1 組成 1 分類 2 2 焦網(wǎng)絡(luò)爬蟲 2 增量式網(wǎng)絡(luò)爬蟲 2 Deep Web 爬蟲 2 發(fā)展趨勢 3 3 Java版本及配置 3 Eclipse配置 5 Maven配置 6 9 框架webmagic 9 WebMagic概覽 9 Webmagic總體架構(gòu) 9 Webmagic項目組成 10 網(wǎng)頁搜索策略 11 拓?fù)浞治鏊惴?11 網(wǎng)頁內(nèi)容分析算法 12 爬行策略 13 爬蟲的配置 17 頁面元素的抽取 21 XPath 21 CSS選擇器 22 正則表達(dá)式 22 鏈接的發(fā)現(xiàn) 22 具體代碼實現(xiàn) 22 22 26 27 MySQL簡介 27 MySQL的安裝及配置 28 安裝MySQLWorkbench 31 編寫鏈接數(shù)據(jù)庫文件 35 定義網(wǎng)絡(luò)爬蟲（又被稱為網(wǎng)頁蜘蛛，網(wǎng)絡(luò)機器人，在FOAF社區(qū)中間，更經(jīng)常的稱為網(wǎng)頁追逐者），是一種按照一定的規(guī)則，自動地抓取萬維網(wǎng)信息的程序或者腳本。產(chǎn)生背景隨著網(wǎng)絡(luò)的迅速發(fā)展，萬維網(wǎng)成為大量信息的載體，如何有效地提取并利用這些信息成為一個巨大的挑戰(zhàn)。但是，這些通用性搜索引擎也存在著一定的局限性，如：(1)不同領(lǐng)域、不同背景的用戶往往具有不同的檢索目的和需求，通用搜索引擎所返回的結(jié)果包含大量用戶不關(guān)心的網(wǎng)頁。(3)萬維網(wǎng)數(shù)據(jù)形式的豐富和網(wǎng)絡(luò)技術(shù)的不斷發(fā)展，圖片、數(shù)據(jù)庫、音頻、視頻多媒體等不同數(shù)據(jù)大量出現(xiàn)，通用搜索引擎往往對這些信息含量密集且具有一定結(jié)構(gòu)的數(shù)據(jù)無能為力，不能很好地發(fā)現(xiàn)和獲取。為了解決上述問題，定向抓取相關(guān)網(wǎng)頁資源的聚焦爬蟲應(yīng)運而生。與通用爬蟲(general purpose web crawler)不同，聚焦爬蟲并不追求大的覆蓋，而將目標(biāo)定為抓取與某一特定主題內(nèi)容相關(guān)的網(wǎng)頁，為面向主題的用戶查詢準(zhǔn)備數(shù)據(jù)資源?？刂破鞯闹饕ぷ魇秦?fù)責(zé)給多線程中的各個爬蟲線程分配工作任務(wù)。資源庫是用來存放下載到的網(wǎng)頁資源，一般都采用大型的數(shù)據(jù)庫存儲，如Oracle數(shù)據(jù)庫，并對其建立索引。解析器解析器是負(fù)責(zé)網(wǎng)絡(luò)爬蟲的主要部分，其負(fù)責(zé)的工作主要有：下載網(wǎng)頁的功能，對網(wǎng)頁的文本進(jìn)行處理，如過濾功能，抽取特殊HTML標(biāo)簽的功能，分析數(shù)據(jù)功能。中大型的數(shù)據(jù)庫產(chǎn)品有：Oracle、Sql Server等。由于商業(yè)原因，它們的技術(shù)細(xì)節(jié)很少公布出來。雖然存在一定缺陷，通用網(wǎng)絡(luò)爬蟲適用于為搜索引擎搜索廣泛的主題，有較強的應(yīng)用價值。和通用網(wǎng)絡(luò)爬蟲相比，聚焦爬蟲只需要爬行與主題相關(guān)的頁面，極大地節(jié)省了硬件和網(wǎng)絡(luò)資源，保存的頁面也由于數(shù)量少而更新快，還可以很好地滿足一些特定人群對特定領(lǐng)域信息的需求。和周期性爬行和刷新頁面的網(wǎng)絡(luò)

點擊復(fù)制文檔內(nèi)容

試題試卷相關(guān)推薦

網(wǎng)絡(luò)總體設(shè)計方案書-展示頁

【摘要】目錄緒論政府上網(wǎng)工程背景與國際網(wǎng)絡(luò)技術(shù)的發(fā)展趨勢 3第一章用戶需求分析 5系統(tǒng)應(yīng)用分析 5財政系統(tǒng)內(nèi)部網(wǎng)應(yīng)用提供功能 5財政系統(tǒng)內(nèi)部網(wǎng)對主機系統(tǒng)的主要要求 6 6 6 6系統(tǒng)集成所共同追求的設(shè)計目標(biāo) 7第二章網(wǎng)絡(luò)規(guī)劃 9目前各主流網(wǎng)絡(luò)結(jié)構(gòu)概述 9

2025-05-24 00:57

分布式智能輸液系統(tǒng)的設(shè)計-展示頁

【摘要】分布式智能輸液系統(tǒng)的設(shè)計摘要設(shè)計了一種以AT89C52為核心的多功能輸液監(jiān)控系統(tǒng)。系統(tǒng)具有液滴檢測、液滴速度控制、體溫檢測、脈搏檢測、余液顯示、通信和報警等功能。系統(tǒng)采用紅外傳感器檢測液滴速度，用步進(jìn)電機及其配套裝置來控制液滴速度。液滴檢測與控制等性能穩(wěn)定可靠，液滴速度誤差為正負(fù)2滴。另外，通過下位機與上位機之間的串行通信，系統(tǒng)還實現(xiàn)了對多下位機進(jìn)行遠(yuǎn)程的監(jiān)控與管理。測試

2025-07-09 13:10

分布式共享內(nèi)存-展示頁

【摘要】第7章分布式共享內(nèi)存在本章中，我們研究實現(xiàn)分布式共享內(nèi)存(distributedsharedmemory簡稱DSM)。引論傳統(tǒng)上，分布式計算是基于消息傳遞模型，在這種模型下進(jìn)程們經(jīng)由以消息形式交換數(shù)據(jù)來彼此互相交互和共享數(shù)據(jù)。Hoare的通訊順序進(jìn)程(municatingsequentialprocesses)，客戶-服務(wù)器模型和遠(yuǎn)程過程調(diào)用都是這種模

2024-08-20 03:23

分布式gis設(shè)計ppt課件-展示頁

【摘要】第八章分布式GIS一、分布式GIS概述二、分布式GIS的基本開發(fā)模式三、分布式GIS設(shè)計內(nèi)容和步驟四、分布式GIS開發(fā)的解決方案一、分布式GIS概述（一）分布式GIS定義（二）分布式GIS的技術(shù)基礎(chǔ)（三）分布式GIS的產(chǎn)生和發(fā)展返回（

2025-05-21 06:23

分布式系統(tǒng)介紹-展示頁

【摘要】一、分布式系統(tǒng)介紹分布式文件系統(tǒng)的作用：1、超大數(shù)據(jù)存儲；2、數(shù)據(jù)高可用（冗余備份）；3、讀寫高性能；4、支持高并發(fā)；5、海量數(shù)據(jù)計算。目前的數(shù)據(jù)量越來越大，單臺服務(wù)器已經(jīng)無法滿足以上需求，因此分布式文件系統(tǒng)就是解決此類問題。下面主要以輕量級分布式文件系統(tǒng)FastDFS來介紹。FastDFS是一個開源的輕量級分布式文件系統(tǒng)。它解決了大數(shù)據(jù)量存儲和負(fù)載均衡等問題。特別適合以中小文件（建

2025-06-25 04:17

分布式能源-展示頁

【摘要】分布式能源簡介?一、分布式能源概述?二、分布式能源供給系統(tǒng)?三、分布式能源在國外應(yīng)用?四、分布式能源在國內(nèi)應(yīng)用?五、分布式能源發(fā)展方向分布式能源概述?“分布式能源”（distributedenergysources）是指分布在用戶端的能源綜合利用系統(tǒng)。一次能源以氣體燃料為主，可再生能源為輔，利用一切可

2025-01-03 03:53

論文基于internet分布式無線傳感器網(wǎng)絡(luò)設(shè)計與實現(xiàn)-展示頁

【摘要】學(xué)號04150118編號2008150118研究類型應(yīng)用研究分類號HUBEINORMALUNIVERSITY畢業(yè)論文（設(shè)計）Bachelor’sThesis論文題目基于Internet分布式無線傳感器網(wǎng)絡(luò)設(shè)計與實現(xiàn)作者姓名張艷敏指導(dǎo)教師石曙東所在院系計算機科學(xué)與技術(shù)學(xué)院專業(yè)名稱

2025-07-07 22:37

網(wǎng)絡(luò)分布式處理器應(yīng)用技術(shù)方案-展示頁

【摘要】ShinyNet網(wǎng)絡(luò)分布式處理器應(yīng)用技術(shù)方案目錄ShinyNet分布式處理器介紹----------------------------------------3ShinyNet分布式處理器系統(tǒng)組成----------------------------------3ShinyNet系統(tǒng)連接圖

2025-05-19 18:11

網(wǎng)絡(luò)改造總體設(shè)計方案書-展示頁

【摘要】三峽建行網(wǎng)絡(luò)改造總體設(shè)計方案書（討論稿）二零零一年四月2/58目錄第1章三峽建行網(wǎng)絡(luò)現(xiàn)狀......................................................................................................................4網(wǎng)絡(luò)連接現(xiàn)狀..

2025-05-24 01:40

wcf分布式開發(fā)步步為贏(1)：wcf分布式框架基礎(chǔ)概念-展示頁

【摘要】WCF分布式開發(fā)步步為贏(1)：WCF分布式框架基礎(chǔ)概念?　　眾所周知，系統(tǒng)間的低耦合一直是大型企業(yè)應(yīng)用系統(tǒng)集成追尋的目標(biāo)，SOA面向服務(wù)架構(gòu)的出現(xiàn)為我們的如何利用現(xiàn)有企業(yè)系統(tǒng)資源進(jìn)行企業(yè)ERP系統(tǒng)設(shè)計和實現(xiàn)提供了重要的參考原則。SOA如此炙手可熱，各大廠商都推出了自己的中間件產(chǎn)品，比如OracleFusion和SAPNetWeaver，IBM、BEA等企業(yè)也推出

2024-08-19 10:24

網(wǎng)絡(luò)購物中心總體設(shè)計-展示頁

【摘要】一.引言本概要設(shè)計文檔說明描述了“網(wǎng)上購物系統(tǒng)”項目的總體設(shè)計思路，作為系統(tǒng)詳細(xì)設(shè)計、項目目標(biāo)及項目驗收的依據(jù)?？傮w設(shè)計詳細(xì)描述了系統(tǒng)的功能結(jié)構(gòu)、各模塊的劃分和數(shù)據(jù)庫的設(shè)計以及體系結(jié)構(gòu)和開發(fā)技術(shù)。編寫目的定義背景結(jié)構(gòu)設(shè)計系統(tǒng)模

2024-09-10 15:12

分布式數(shù)據(jù)庫設(shè)計報告-展示頁

【摘要】....分布式數(shù)據(jù)庫設(shè)計報告學(xué)習(xí)參考目錄1案例背景 1 12分布式數(shù)據(jù)庫設(shè)計 2設(shè)計目標(biāo) 2總體設(shè)計目標(biāo) 2完成方式及周期 3

2024-08-16 18:51

分布式課程設(shè)計實驗報告-展示頁

【摘要】《分布式控制系統(tǒng)課程設(shè)計》實驗報告題目：十字路口交通燈控制院　　系：機械工程系姓名：胡偉、俞琛、張福啟、郁鑫裕

2024-08-16 18:51

校園網(wǎng)絡(luò)總體設(shè)計方案-展示頁

【摘要】題目一題目：廣告公司網(wǎng)絡(luò)的設(shè)計1．基本背景描述某廣告公司現(xiàn)有分公司1(50臺pc)和分公司2（40臺pc），分公司1和分公司2都擁有各自獨立的部門。分公司1和分公司2包括：策劃部、市場部、設(shè)計部。為提高辦公效率，該廣告公司決定建立一個內(nèi)部網(wǎng)絡(luò)。，要求該廣告公司的分公司1和分公司2之間使用路由器進(jìn)行連接（不使用vpn技術(shù)），使用動態(tài)的路由協(xié)議（RIP）。分公司1和分公司2內(nèi)部通過劃

2025-05-19 12:21

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片