freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

分布式網(wǎng)絡(luò)爬蟲-總體設(shè)計-展示頁

2025-07-08 20:52本頁面
  

【正文】 起來,讓它們可以互相交互,流程化的執(zhí)行,可以認(rèn)為Spider是一個大的容器,它也是WebMagic邏輯的核心。這四大組件對應(yīng)爬蟲生命周期中的下載、處理、管理和持久化等功能。WebMagic的架構(gòu)設(shè)計參照了Scrapy,目標(biāo)是盡量的模塊化,并體現(xiàn)爬蟲的功能特點。版本類型下載下來之后,解壓,找個路徑放進(jìn)去, 把bin的位置設(shè)在環(huán)境變量里,新建環(huán)境變量MAVEN_HOME圖6 環(huán)境變量配置一在PATH里加入maven的bin的路徑圖7 環(huán)境變量配置二配置完畢后,在Windows命令提示符下,輸入mvn v測試一下,配置成功顯示如圖:圖8 配置成功配置成功后開始在Eclipse中配置Maven,點擊eclipse菜單欄HelpEclipse Marketplace搜索關(guān)鍵字maven到插件Maven Integration for Eclipse 并點擊安裝即可,如下圖:圖 9 在Eclipse中配置maven重啟后,為了使得Eclipse中安裝的Maven插件,同windows中安裝的那個相同,需要讓eclipse中的maven重新定位一下,點擊Window Preference Maven Installation Add進(jìn)行設(shè)置圖10 配置二 框架webmagic WebMagic概覽WebMagic項目代碼分為核心和擴展兩部分。又 由于搜索引擎有大量的用戶,有很好的經(jīng)濟價值,所以引起了世界各國計算機科學(xué)界和信息產(chǎn)業(yè)界的高度關(guān)注,目前的研究、開發(fā)十分活躍,并出現(xiàn)了很多值得注意的動向。搜索引擎己成為一個新的研究、開發(fā)領(lǐng)域。 搜索引擎的發(fā)展面臨著兩大難題:一是如何跟上Internet的發(fā)展速度,二是如何為用戶提供更精確的查詢結(jié)果。其次,不能聯(lián)想到關(guān)鍵字的同義詞。 發(fā)展趨勢目前,大多數(shù)的搜索引擎都是基于關(guān)鍵詞的搜索引擎。例如那些用戶注冊后內(nèi)容才可見的網(wǎng)頁就屬于 Deep Web。 表層網(wǎng)頁是指傳統(tǒng)搜索引擎可以索引的頁面,以超鏈接可以到達(dá)的靜態(tài)網(wǎng)頁為主構(gòu)成的 Web 頁面。增量式網(wǎng)絡(luò)爬蟲的體系結(jié)構(gòu)[包含爬行模塊、排序模塊、更新模塊、本地頁面集、待爬行 URL 集以及本地頁面URL 集。 增量式網(wǎng)絡(luò)爬蟲增量式網(wǎng)絡(luò)爬蟲(Incremental Web Crawler)是 指 對 已 下 載 網(wǎng) 頁 采 取 增 量式更新和只爬行新產(chǎn)生的或者已經(jīng)發(fā)生變化網(wǎng)頁的爬蟲,它能夠在一定程度上保證所爬行的頁面是盡可能新的頁面。 焦網(wǎng)絡(luò)爬蟲聚焦網(wǎng)絡(luò)爬蟲(Focused Crawler),又稱主題網(wǎng)絡(luò)爬蟲(Topical Crawler),是指選擇性地爬行那些與預(yù)先定義好的主題相關(guān)頁面的網(wǎng)絡(luò)爬蟲[8]。 這類網(wǎng)絡(luò)爬蟲的爬行范圍和數(shù)量巨大,對于爬行速度和存儲空間要求較高,對于爬行頁面的順序要求相對較低,同時由于待刷新的頁面太多,通常采用并行工作方式,但需要較長時間才能刷新一次頁面。 分類通用網(wǎng)絡(luò)爬蟲又稱全網(wǎng)爬蟲(Scalable Web Crawler),爬行對象從一些種子 URL 擴充到整個 Web,主要為門戶站點搜索引擎和大型 Web 服務(wù)提供商采集數(shù)據(jù)。資源庫主要是用來存儲網(wǎng)頁中下載下來的數(shù)據(jù)記錄的容器,并提供生成索引的目標(biāo)源??刂破骺刂破魇蔷W(wǎng)絡(luò)爬蟲的中央控制器,它主要是負(fù)責(zé)根據(jù)系統(tǒng)傳過來的URL鏈接,分配一線程,然后啟動線程調(diào)用爬蟲爬取網(wǎng)頁的過程。解析器的主要工作是下載網(wǎng)頁,進(jìn)行頁面的處理,主要是將一些JS腳本標(biāo)簽、CSS代碼內(nèi)容、空格字符、HTML標(biāo)簽等內(nèi)容處理掉,爬蟲的基本工作是由解析器完成。 組成在網(wǎng)絡(luò)爬蟲的系統(tǒng)框架中,主過程由控制器,解析器,資源庫三部分組成。聚焦爬蟲是一個自動下載網(wǎng)頁的程序,它根據(jù)既定的抓取目標(biāo),有選擇的訪問萬維網(wǎng)上的網(wǎng)頁與相關(guān)的鏈接,獲取所需要的信息。(4)通用搜索引擎大多提供基于關(guān)鍵字的檢索,難以支持根據(jù)語義信息提出的查詢。(2)通用搜索引擎的目標(biāo)是盡可能大的網(wǎng)絡(luò)覆蓋率,有限的搜索引擎服務(wù)器資源與無限的網(wǎng)絡(luò)數(shù)據(jù)資源之間的矛盾將進(jìn)一步加深。搜索引擎(Search Engine),例如傳統(tǒng)的通用搜索引擎AltaVista,Yahoo!和Google等,作為一個輔助人們檢索信息的工具成為用戶訪問萬維網(wǎng)的入口和指南。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。關(guān)鍵詞:網(wǎng)絡(luò)爬蟲;Java;多線程;MySQL;Webmagic;CsdnblogABSTRACTWeb Crawler, usually called Crawler for short, is an important part of search engine. With the highspeed development of information, Web Crawler the search engine can not lack of which is a hot research topic those years. The quality of a search engine is mostly depended on the quality of a Web Crawler. Nowadays, the direction of researching Web Crawler mainly divides into two parts: one is the searching strategy to web pages。網(wǎng)絡(luò)蜘蛛是通過網(wǎng)頁的鏈接地址來尋找網(wǎng)頁,從網(wǎng)站某一個頁面(通常是首頁)開始,讀取網(wǎng)頁的內(nèi)容,找到在網(wǎng)頁中的其它鏈接地址,然后通過這些鏈接地址尋找下一個網(wǎng)頁,這樣一直循環(huán)下去,直到把這個網(wǎng)站所有的網(wǎng)頁都抓取完為止。目前,網(wǎng)絡(luò)爬蟲的研究包括Web搜索策略研究的研究和網(wǎng)絡(luò)分析的算法,兩個方向,其中在Web爬蟲網(wǎng)絡(luò)搜索主題是一個研究方向,根據(jù)一些網(wǎng)站的分析算法,過濾不相關(guān)的鏈接,連接到合格的網(wǎng)頁,并放置在一個隊列被抓取?!稇?yīng)用軟件開發(fā)實踐》課程報告 中國礦業(yè)大學(xué)計算機學(xué)院 2014 級本科生課程報告課程名稱 應(yīng)用軟件開發(fā)實踐 報告時間 學(xué)生姓名 朱少杰、胥鐵馨 學(xué) 號 081433308143336 專 業(yè) 14級計科6班 任課教師 徐慧 任課教師評語任課教師評語(①對課程基礎(chǔ)理論的掌握;②對課程知識應(yīng)用能力的評價;③對課程報告相關(guān)實驗、作品、軟件等成果的評價;④課程學(xué)習(xí)態(tài)度和上課紀(jì)律;⑤課程成果和報告工作量;⑥總體評價和成績;⑦存在問題等):成 績: 任課教師簽字: 年 月 日摘 要網(wǎng)絡(luò)爬蟲(Web Crawler),通常被稱為爬蟲,是搜索引擎的重要組成部分。隨著信息技術(shù)的飛速進(jìn)步,作為搜索引擎的一個組成部分——網(wǎng)絡(luò)爬蟲,一直是研究的熱點,它的好壞會直接決定搜索引擎的未來。 把互聯(lián)網(wǎng)比喻成一個蜘蛛網(wǎng),那么Spider就是在網(wǎng)上爬來爬去的蜘蛛。如果把整個互聯(lián)網(wǎng)當(dāng)成一個網(wǎng)站,那么網(wǎng)絡(luò)爬蟲就可以用這個原理把互聯(lián)網(wǎng)上所有的網(wǎng)頁都抓取下來。 the other is the algorithm of analysis URLs. Among them, the research of TopicFocused Web Crawler is the trend. It uses some webpage analysis strategy to filter topicless URLs and add fit URLs into URLWAIT queue. The metaphor of a spider web internet, then Spider spider is crawling around on the Internet. Web spider through web link address to find pages, starting from a one page website (usually home), read the contents of the page, find the address of the other links on the page, and then look for the next Web page addresses through these links, so has been the cycle continues, until all the pages of this site are crawled exhausted. If the entire Internet as a site, then you can use this Web crawler principle all the pages on the Internet are crawling down.. Keywords:Web crawler;Java;Multithreading;MySQL;Webmagic;Csdnblog 目 錄 1 定義 1 產(chǎn)生背景 1 組成 1 分類 2 2 焦網(wǎng)絡(luò)爬蟲 2 增量式網(wǎng)絡(luò)爬蟲 2 Deep Web 爬蟲 2 發(fā)展趨勢 3 3 Java版本及配置 3 Eclipse配置 5 Maven配置 6 9 框架webmagic 9 WebMagic概覽 9 Webmagic總體架構(gòu) 9 Webmagic項目組成 10 網(wǎng)頁搜索策略 11 拓?fù)浞治鏊惴?11 網(wǎng)頁內(nèi)容分析算法 12 爬行策略 13 爬蟲的配置 17 頁面元素的抽取 21 XPath 21 CSS選擇器 22 正則表達(dá)式 22 鏈接的發(fā)現(xiàn) 22 具體代碼實現(xiàn) 22 22 26 27 MySQL簡介 27 MySQL的安裝及配置 28 安裝MySQLWorkbench 31 編寫鏈接數(shù)據(jù)庫文件 35 定義網(wǎng)絡(luò)爬蟲(又被稱為網(wǎng)頁蜘蛛,網(wǎng)絡(luò)機器人,在FOAF社區(qū)中間,更經(jīng)常的稱為網(wǎng)頁追逐者),是一種按照一定的規(guī)則,自動地抓取萬維網(wǎng)信息的程序或者腳本。 產(chǎn)生背景隨著網(wǎng)絡(luò)的迅速發(fā)展,萬維網(wǎng)成為大量信息的載體,如何有效地提取并利用這些信息成為一個巨大的挑戰(zhàn)。但是,這些通用性搜索引擎也存在著一定的局限性,如:(1)不同領(lǐng)域、不同背景的用戶往往具有不同的檢索目的和需求,通用搜索引擎所返回的結(jié)果包含大量用戶不關(guān)心的網(wǎng)頁。(3)萬維網(wǎng)數(shù)據(jù)形式的豐富和網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,圖片、數(shù)據(jù)庫、音頻、視頻多媒體等不同數(shù)據(jù)大量出現(xiàn),通用搜索引擎往往對這些信息含量密集且具有一定結(jié)構(gòu)的數(shù)據(jù)無能為力,不能很好地發(fā)現(xiàn)和獲取。為了解決上述問題,定向抓取相關(guān)網(wǎng)頁資源的聚焦爬蟲應(yīng)運而生。與通用爬蟲(general purpose web crawler)不同,聚焦爬蟲并不追求大的覆蓋,而將目標(biāo)定為抓取與某一特定主題內(nèi)容相關(guān)的網(wǎng)頁,為面向主題的用戶查詢準(zhǔn)備數(shù)據(jù)資源??刂破鞯闹饕ぷ魇秦?fù)責(zé)給多線程中的各個爬蟲線程分配工作任務(wù)。資源庫是用來存放下載到的網(wǎng)頁資源,一般都采用大型的數(shù)據(jù)庫存儲,如Oracle數(shù)據(jù)庫,并對其建立索引。解析器解析器是負(fù)責(zé)網(wǎng)絡(luò)爬蟲的主要部分,其負(fù)責(zé)的工作主要有:下載網(wǎng)頁的功能,對網(wǎng)頁的文本進(jìn)行處理,如過濾功能,抽取特殊HTML標(biāo)簽的功能,分析數(shù)據(jù)功能。中大型的數(shù)據(jù)庫產(chǎn)品有:Oracle、Sql Server等。 由于商業(yè)原因,它們的技術(shù)細(xì)節(jié)很少公布出來。 雖然存在一定缺陷,通用網(wǎng)絡(luò)爬蟲適用于為搜索引擎搜索廣泛的主題,有較強的應(yīng)用價值。 和通用網(wǎng)絡(luò)爬蟲相比,聚焦爬蟲只需要爬行與主題相關(guān)的頁面,極大地節(jié)省了硬件和網(wǎng)絡(luò)資源,保存的頁面也由于數(shù)量少而更新快,還可以很好地滿足一些特定人群對特定領(lǐng)域信息的需求。 和周期性爬行和刷新頁面的網(wǎng)絡(luò)
點擊復(fù)制文檔內(nèi)容
試題試卷相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1