freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

分布式網(wǎng)絡(luò)爬蟲-總體設(shè)計(jì)-免費(fèi)閱讀

  

【正文】 return ()。 (2, ())。characterEncoding=UTF8。 } public void setCopyright(int copyright) { = copyright。 } public void setTags(String tags) { = tags。 } public void setContent(String content) { = content。// 標(biāo)題 private String date。圖19 進(jìn)入MySQL 安裝MySQLWorkbenchMySQL Workbench是一款專為MySQL設(shè)計(jì)的ER/數(shù)據(jù)庫(kù)建模工具。 MySQL的安裝及配置 進(jìn)入MySQL官網(wǎng),進(jìn)入DOWNLOADS,選擇Community,點(diǎn)擊DOWNLOAD圖13 MySQL下載1,圖14 MySQL下載2選擇相應(yīng)信息,點(diǎn)擊下載圖15 MySQL下載3將安裝包解壓,通過命令來安裝MySQL數(shù)據(jù)庫(kù)。]/a/text()).toString())。 } (pages)。 try { //添加到JMT監(jiān)控中 ().register(oschinaSpider)。import 。 endTime = ()。 for (String string : stringList) { if (flag) { (,)。link_ments39。 // 設(shè)置閱讀人數(shù) ((().xpath(//div[class=39。 // 設(shè)置標(biāo)簽(可以有多個(gè),用,來分割) (listToString(() .xpath(//div[class=39。 //設(shè)置內(nèi)容 ( ().xpath(//div[class=39。 // 文章頁(yè) } else { size++。// 共抓取到的文章數(shù)量 // 抓取網(wǎng)站的相關(guān)配置,包括:編碼、抓取間隔、重試次數(shù)等 private Site site = ().setRetryTimes(3).setSleepTime(1000)。import 。 正則表達(dá)式正則表達(dá)式則是一種通用的文本抽取語(yǔ)言。]/strong/a/text())這段代碼使用了XPath,它的意思是“查找所有class屬性為39。 //設(shè)置線程數(shù) //(5)。同時(shí)Spider的其他組件(Downloader、Scheduler、Pipeline)都可以通過set方法來進(jìn)行設(shè)置。需要注意的是即使很禮貌,采取了所有的安全措施來避免服務(wù)器超載,還是會(huì)引來一些網(wǎng)絡(luò)服務(wù)器管理員的抱怨的。對(duì)連接間隔時(shí)間的第一個(gè)建議由Koster 1993年給出,時(shí)間是60秒。 服務(wù)器超載:尤其是對(duì)給定服務(wù)器的訪問過高時(shí)。注意在這里的重新訪問策略認(rèn)為每一個(gè)頁(yè)面都是相同的(網(wǎng)絡(luò)上所有的頁(yè)面價(jià)值都是一樣的)這不是現(xiàn)實(shí)的情況,所以,為了獲取更好的抓取策略,更多有關(guān)網(wǎng)頁(yè)質(zhì)量的信息應(yīng)該考慮進(jìn)去。以平均新鮮度方式衡量,統(tǒng)一策略在模擬頁(yè)面和真實(shí)的網(wǎng)絡(luò)抓取中都比正比策略出色。頁(yè)面修改是到達(dá)的顧客,頁(yè)面切換的時(shí)間是頁(yè)面進(jìn)入一個(gè)單一站點(diǎn)的間隔。重新訪問策略網(wǎng)絡(luò)具有動(dòng)態(tài)性很強(qiáng)的特性。抓取深層的網(wǎng)頁(yè)很多的頁(yè)面隱藏的很深或隱藏在在看不到的網(wǎng)絡(luò)之中。聚焦抓取爬蟲所抓取頁(yè)面的重要程度也可以表述成它與給定查詢之間相似程度的函數(shù)。為了避免要發(fā)送過多的head請(qǐng)求,爬蟲可以交替的檢查url并且僅僅對(duì)以html,htm和反斜杠結(jié)尾的文件發(fā)送資源請(qǐng)求。令人驚奇的是,一些計(jì)算pageRank很快的頁(yè)面(特別明顯的是廣度優(yōu)先策略和有序序列)僅僅可以達(dá)到很小的接近程度。作者給出的解釋是:“最重要的頁(yè)面會(huì)有很多的主機(jī)連接到他們,并且那些鏈接會(huì)較早的發(fā)現(xiàn),而不用考慮從哪一個(gè)主機(jī)開始。設(shè)計(jì)一個(gè)好的搜索策略還有額外的困難,它必須在不完全信息下工作,因?yàn)檎麄€(gè)頁(yè)面的集合在抓取時(shí)是未知的。這種數(shù)學(xué)組合給網(wǎng)絡(luò)爬蟲創(chuàng)造的難處就是,為了獲取不同的內(nèi)容,他們必須篩選無窮僅有微小變化的組合。 它巨大的數(shù)據(jù)量;216。 網(wǎng)頁(yè)內(nèi)容分析算法基于網(wǎng)頁(yè)內(nèi)容的分析算法指的是利用網(wǎng)頁(yè)內(nèi)容(文本、數(shù)據(jù)等資源)特征進(jìn)行的網(wǎng)頁(yè)評(píng)價(jià)。同時(shí),根據(jù)不同文件在各個(gè)站點(diǎn)上的分布情況,構(gòu)造文檔圖,結(jié)合SiteRank分布式計(jì)算得到DocRank。針對(duì)這個(gè)問題,HITS算法提出了兩個(gè)關(guān)鍵的概念:權(quán)威型網(wǎng)頁(yè)(authority)和中心型網(wǎng)頁(yè)(hub)。也有很多研究將廣度優(yōu)先搜索策略應(yīng)用于聚焦爬蟲中。webmagicseleniumWebmMgic與Selenium結(jié)合的模塊。webmagicextensionwebmagicextension是WebMagic的主要擴(kuò)展模塊,提供一些更方便的編寫爬蟲的工具。 Webmagic總體架構(gòu)WebMagic的結(jié)構(gòu)分為Downloader、PageProcessor、Scheduler、Pipeline四大組件,并由Spider將它們彼此組織起來。所以,傳統(tǒng)的引擎不能適應(yīng)信息 技術(shù)的高速發(fā)展,新一代智能搜索引擎作為一種高效搜索引擎技術(shù)的在當(dāng)今的網(wǎng)絡(luò)信息時(shí)代日益引起業(yè)界人士的關(guān)注。Deep Web 是那些大部分內(nèi)容不能通過靜態(tài)鏈接獲取的、隱藏在搜索表單后的,只有用戶提交一些關(guān)鍵詞才能獲得的 Web 頁(yè)面。 雖然存在一定缺陷,通用網(wǎng)絡(luò)爬蟲適用于為搜索引擎搜索廣泛的主題,有較強(qiáng)的應(yīng)用價(jià)值。資源庫(kù)是用來存放下載到的網(wǎng)頁(yè)資源,一般都采用大型的數(shù)據(jù)庫(kù)存儲(chǔ),如Oracle數(shù)據(jù)庫(kù),并對(duì)其建立索引。(3)萬(wàn)維網(wǎng)數(shù)據(jù)形式的豐富和網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,圖片、數(shù)據(jù)庫(kù)、音頻、視頻多媒體等不同數(shù)據(jù)大量出現(xiàn),通用搜索引擎往往對(duì)這些信息含量密集且具有一定結(jié)構(gòu)的數(shù)據(jù)無能為力,不能很好地發(fā)現(xiàn)和獲取。如果把整個(gè)互聯(lián)網(wǎng)當(dāng)成一個(gè)網(wǎng)站,那么網(wǎng)絡(luò)爬蟲就可以用這個(gè)原理把互聯(lián)網(wǎng)上所有的網(wǎng)頁(yè)都抓取下來。目前,網(wǎng)絡(luò)爬蟲的研究包括Web搜索策略研究的研究和網(wǎng)絡(luò)分析的算法,兩個(gè)方向,其中在Web爬蟲網(wǎng)絡(luò)搜索主題是一個(gè)研究方向,根據(jù)一些網(wǎng)站的分析算法,過濾不相關(guān)的鏈接,連接到合格的網(wǎng)頁(yè),并放置在一個(gè)隊(duì)列被抓取。搜索引擎(Search Engine),例如傳統(tǒng)的通用搜索引擎AltaVista,Yahoo!和Google等,作為一個(gè)輔助人們檢索信息的工具成為用戶訪問萬(wàn)維網(wǎng)的入口和指南。 組成在網(wǎng)絡(luò)爬蟲的系統(tǒng)框架中,主過程由控制器,解析器,資源庫(kù)三部分組成。 分類通用網(wǎng)絡(luò)爬蟲又稱全網(wǎng)爬蟲(Scalable Web Crawler),爬行對(duì)象從一些種子 URL 擴(kuò)充到整個(gè) Web,主要為門戶站點(diǎn)搜索引擎和大型 Web 服務(wù)提供商采集數(shù)據(jù)。增量式網(wǎng)絡(luò)爬蟲的體系結(jié)構(gòu)[包含爬行模塊、排序模塊、更新模塊、本地頁(yè)面集、待爬行 URL 集以及本地頁(yè)面URL 集。其次,不能聯(lián)想到關(guān)鍵字的同義詞。版本類型下載下來之后,解壓,找個(gè)路徑放進(jìn)去, 把bin的位置設(shè)在環(huán)境變量里,新建環(huán)境變量MAVEN_HOME圖6 環(huán)境變量配置一在PATH里加入maven的bin的路徑圖7 環(huán)境變量配置二配置完畢后,在Windows命令提示符下,輸入mvn v測(cè)試一下,配置成功顯示如圖:圖8 配置成功配置成功后開始在Eclipse中配置Maven,點(diǎn)擊eclipse菜單欄HelpEclipse Marketplace搜索關(guān)鍵字maven到插件Maven Integration for Eclipse 并點(diǎn)擊安裝即可,如下圖:圖 9 在Eclipse中配置maven重啟后,為了使得Eclipse中安裝的Maven插件,同windows中安裝的那個(gè)相同,需要讓eclipse中的maven重新定位一下,點(diǎn)擊Window Preference Maven Installation Add進(jìn)行設(shè)置圖10 配置二 框架webmagic WebMagic概覽WebMagic項(xiàng)目代碼分為核心和擴(kuò)展兩部分。它們都是獨(dú)立的Maven項(xiàng)目。因?yàn)闀r(shí)間有限,這些例子有些使用的仍然是老版本的API,也可能有一些因?yàn)槟繕?biāo)頁(yè)面的結(jié)構(gòu)變化不再可用了。 網(wǎng)頁(yè)搜索策略廣度優(yōu)先搜索策略是指在抓取過程中,在完成當(dāng)前層次的搜索后,才進(jìn)行下一層次的搜索。又分為網(wǎng)頁(yè)粒度、網(wǎng)站粒度和網(wǎng)頁(yè)塊粒度這三種。SiteRank的計(jì)算方法與PageRank類似,但是需要對(duì)網(wǎng)站之間的鏈接作一定程度抽象,并在一定的模型下計(jì)算鏈接的權(quán)重。在網(wǎng)頁(yè)塊級(jí)別(Block level)進(jìn)行鏈接分析的算法的基本思想是通過VIPS網(wǎng)頁(yè)分割算法將網(wǎng)頁(yè)分為不同的網(wǎng)頁(yè)塊(page block),然后對(duì)這些網(wǎng)頁(yè)塊建立page to block和block to page的鏈接矩陣,分別記為Z和X。基于文本的網(wǎng)頁(yè)分析算法1) 純文本分類與聚類算法很大程度上借用了文本檢索的技術(shù)。最近新增的很多頁(yè)面都是通過服務(wù)器端腳本語(yǔ)言產(chǎn)生的,無窮的參數(shù)組合也增加了爬蟲抓取的難度,只有一小部分這種組合會(huì)返回一些獨(dú)特的內(nèi)容。由勞倫斯河蓋爾斯共同做的一項(xiàng)研究指出,沒有一個(gè)搜索引擎抓取的內(nèi)容達(dá)到網(wǎng)絡(luò)的16%(勞倫斯河蓋爾斯,2001)。并且,這樣的結(jié)果僅僅是針對(duì)一個(gè)站點(diǎn)的。并且,實(shí)驗(yàn)沒有和其它策略進(jìn)行比較,也沒有在真正的WEB頁(yè)面測(cè)試。使用這種方式,可以從以前抓取頁(yè)面之中找到好的種子,使用這些種子是十分有效的。例如,給定一個(gè)種子地址:它將會(huì)嘗試檢索/hamster/menkey/,/hamster/和/ 。一個(gè)可能的方法就是在鏈接之中設(shè)置錨點(diǎn),這就是在早期時(shí)候,Pinkerton(Pinkerton,1994)曾經(jīng)在一個(gè)爬蟲中采用的策略。某些情況下,例如Googlebot,WEB抓取的是所有超文本所包含的內(nèi)容,標(biāo)簽和文本。在時(shí)間t內(nèi),倉(cāng)庫(kù)中頁(yè)面p的新鮮度是這樣定義的:新鮮度過時(shí)性:這是一個(gè)衡量本地已抓取的內(nèi)容過時(shí)程度的指標(biāo)。正比策略:對(duì)變化越多的網(wǎng)頁(yè),重新訪問的頻率也越高。正如Coffman等人(Edward ,1998)所注意到的:“為了最小化頁(yè)面過時(shí)的時(shí)間,對(duì)任一個(gè)頁(yè)面的訪問都應(yīng)該盡可能的均勻間隔地訪問。使用爬蟲的代價(jià)包括:216。對(duì)這些問題的一個(gè)部分解決方法是漫游器排除協(xié)議(Robots exclusion protocol),(Koster,1996),這份協(xié)議對(duì)于管理員指明網(wǎng)絡(luò)服務(wù)器的那一部分不能到達(dá)是一個(gè)標(biāo)準(zhǔn)。Dill等人 (Dill et al., 2002) 使用1秒。為了避免下載一個(gè)頁(yè)面兩次,爬蟲系統(tǒng)需要策略來處理爬蟲運(yùn)行時(shí)新發(fā)現(xiàn)的URL,因?yàn)橥粋€(gè)URL地址,可能被不同的爬蟲進(jìn)程抓到。webmagic默認(rèn)有3秒抓取間隔,請(qǐng)耐心等待。 XPathXPath本來是用于XML中獲取元素的一種查詢語(yǔ)言,但是用于Html也是比較方便的。39。(().links().regex((://github\\./\\w+/\\w+)).all())。/** * CSDN博客爬蟲 * * 可以爬取指定用戶的csdn博客所有文章,并保存到數(shù)據(jù)庫(kù)中。 // 添加其他列表頁(yè) (().xpath(//div[id=39。]//span[class=39。]/span[class=39。 // 設(shè)置類別(可以有多個(gè),用,來分割) ( listToString(().xpath(//div[class=39。 // 設(shè)置評(píng)論人數(shù) ((() .xpath(//div[class=39。 } } // 把list轉(zhuǎn)換為string,用,分割 public static String listToString(ListString stringList) { if (stringList == null) { return null。 (【爬蟲開始】請(qǐng)耐心等待一大波數(shù)據(jù)到你碗里來...)。import 。 //執(zhí)行這個(gè)main方法,即可在控制臺(tái)看到抓取結(jié)果。pagelist39。 }else { (記錄數(shù):+temp++)。MySQL所使用的 SQL 語(yǔ)言是用于訪問數(shù)據(jù)庫(kù)的最常用標(biāo)準(zhǔn)化語(yǔ)言。圖17 MySQL安裝2接下來配置環(huán)境變量編輯path系統(tǒng)變量,將G:\\bin添加到path變量。 依然進(jìn)入MySQL的官網(wǎng),翻到網(wǎng)頁(yè)最底部的DOWNLOAD,選擇
點(diǎn)擊復(fù)制文檔內(nèi)容
試題試卷相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1