freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

分布式網(wǎng)絡(luò)爬蟲-總體設(shè)計(jì)(留存版)

  

【正文】 速度,二是如何為用戶提供更精確的查詢結(jié)果。 這類網(wǎng)絡(luò)爬蟲的爬行范圍和數(shù)量巨大,對(duì)于爬行速度和存儲(chǔ)空間要求較高,對(duì)于爬行頁(yè)面的順序要求相對(duì)較低,同時(shí)由于待刷新的頁(yè)面太多,通常采用并行工作方式,但需要較長(zhǎng)時(shí)間才能刷新一次頁(yè)面。(2)通用搜索引擎的目標(biāo)是盡可能大的網(wǎng)絡(luò)覆蓋率,有限的搜索引擎服務(wù)器資源與無(wú)限的網(wǎng)絡(luò)數(shù)據(jù)資源之間的矛盾將進(jìn)一步加深。 把互聯(lián)網(wǎng)比喻成一個(gè)蜘蛛網(wǎng),那么Spider就是在網(wǎng)上爬來(lái)爬去的蜘蛛??刂破鞯闹饕ぷ魇秦?fù)責(zé)給多線程中的各個(gè)爬蟲線程分配工作任務(wù)。 Deep Web 爬蟲Web 頁(yè)面按存在方式可以分為表層網(wǎng)頁(yè)(Surface Web)和深層網(wǎng)頁(yè)(Deep Web,也稱 Invisible Web Pages 或 Hidden Web)。核心部分(webmagiccore)是一個(gè)精簡(jiǎn)的、模塊化的爬蟲實(shí)現(xiàn),而擴(kuò)展部分則包括一些便利的、實(shí)用性的功能。最新的、精選過(guò)的例子,webmagicscriptsWebMagic對(duì)于爬蟲規(guī)則腳本化的一些嘗試,目標(biāo)是讓開(kāi)發(fā)者脫離Java語(yǔ)言,來(lái)進(jìn)行簡(jiǎn)單、快速的開(kāi)發(fā)。1 網(wǎng)頁(yè)(Webpage)粒度的分析算法PageRank和HITS算法是最常見(jiàn)的鏈接分析算法,兩者都是通過(guò)對(duì)網(wǎng)頁(yè)間鏈接度的遞歸和規(guī)范化計(jì)算,得到每個(gè)網(wǎng)頁(yè)的重要度評(píng)價(jià)。于是,在page to page圖上的網(wǎng)頁(yè)塊級(jí)別的PageRank為?Wp=XZ;在block to block圖上的BlockRank為Wb=ZX。例如,一個(gè)很小照片存儲(chǔ)庫(kù)僅僅通過(guò)get方式可能提供就給用戶三種操作方式。Najork和Wiener (Najork and Wiener, 2001)采用實(shí)際的爬蟲,采用廣度優(yōu)先研究。限定訪問(wèn)鏈接一個(gè)爬蟲可能僅僅想找到html頁(yè)面的種子而避免其他的文件類型。Diligenti等人(Diligenti等人,2000)建議使用已經(jīng)抓取頁(yè)面的內(nèi)容去推測(cè)查詢和未訪問(wèn)頁(yè)的相似度。在時(shí)間t時(shí),倉(cāng)庫(kù)中頁(yè)面p的時(shí)效性的定義如下:過(guò)時(shí)性在頁(yè)面抓取中,新鮮度和過(guò)時(shí)性的發(fā)展Coffman等人(Edward G. Coffman,1998)是從事爬蟲對(duì)象定義的,他們提出了一個(gè)相當(dāng)于新鮮度的概念,但是使用了不同的措詞:他們建議爬蟲必須最小化過(guò)時(shí)頁(yè)面部分?!睂?duì)于重新訪問(wèn)的詳盡的策略在大體上是不可以達(dá)到的,但是他們可以從數(shù)學(xué)上得到,因?yàn)樗麄円蕾囉陧?yè)面的變化。這個(gè)標(biāo)準(zhǔn)沒(méi)有包括重新訪問(wèn)一臺(tái)服務(wù)器的間隔的建議,雖然訪問(wèn)間隔是避免服務(wù)器超載的最有效的辦法。 爬蟲的配置第一部分關(guān)于爬蟲的配置,包括編碼、抓取間隔、超時(shí)時(shí)間、重試次數(shù)等,也包括一些模擬的參數(shù),例如User Agent、cookie,以及代理的設(shè)置Spider是爬蟲啟動(dòng)的入口。例如: ().xpath(//h1[class=39。這段代碼的分為兩部分,().links().regex((://github\\./\\w+/\\w+)).all()用于獲取所有滿足(:/ /github\./\w+/\w+)這個(gè)正則表達(dá)式的鏈接,()則將這些鏈接加入到待抓取的隊(duì)列中去。papelist39。link_postdate39。article_r39。 startTime = ()。webmagic默認(rèn)有3秒抓取間隔,請(qǐng)耐心等待。 (title, ().xpath(//[class=39。圖18 MySQL環(huán)境不變量配置最后進(jìn)入MySQLmysql u root p,密碼默認(rèn)為空。// 是否原創(chuàng) private String content。 } public void setComments(int ments) { = ments。 PreparedStatement ps = (sql)。 } return 1。 stmt = ()。 } public void setCategory(String category) { = category。// 標(biāo)簽 private String category。最后啟動(dòng)MySQL服務(wù)。link_title39。import 。 } (string)。]/span[class=39。]/allText()).get())。 } // process是定制爬蟲邏輯的核心接口,在這里編寫抽取邏輯 public void process(Page page) { // 列表頁(yè) if (!().regex(://blog\\.csdn\\.net/ + username + /article/details/\\d+).match()) { // 添加所有文章頁(yè) (().xpath(//div[id=39。這段代碼就用到了正則表達(dá)式,它表示匹配所有這樣的鏈接。 } catch (JMException e) { ()。這是因?yàn)橛袩o(wú)數(shù)的人在上網(wǎng),而這些人不知道爬蟲是什么,因?yàn)檫@是他們第一次見(jiàn)到。 質(zhì)量糟糕的爬蟲,可能導(dǎo)致服務(wù)器或者路由器癱瘓,或者會(huì)嘗試下載自己無(wú)法處理的頁(yè)面。為了提高頁(yè)面的新鮮度,我們應(yīng)該宣判變化太快的頁(yè)面死罪(Cho和GarciaMolina, 2003a)。當(dāng)爬蟲完成它的抓取的任務(wù)以后,很多操作是可能會(huì)發(fā)生的,這些操作包括新建,更新和刪除。關(guān)于主題檢索和聚焦檢索的概念,最早是由Menczer(Menczer 1997。結(jié)果顯示OPIC策略和站點(diǎn)隊(duì)列長(zhǎng)度,都比廣度優(yōu)先要好;并且如果可行的話,使用之前的爬行抓取結(jié)果來(lái)指導(dǎo)這次抓取,總是十分有效的。他們的數(shù)據(jù)是斯坦福大學(xué)網(wǎng)站中的18萬(wàn)個(gè)頁(yè)面,使用不同的策略分別模仿抓取。附帶的一個(gè)優(yōu)點(diǎn)是,常見(jiàn)PageRank 造假難以對(duì)SiteRank進(jìn)行欺騙。另外一種方法是將廣度優(yōu)先搜索與網(wǎng)頁(yè)過(guò)濾技術(shù)結(jié)合使用,先用廣度優(yōu)先策略抓取網(wǎng)頁(yè),再將其中無(wú)關(guān)的網(wǎng)頁(yè)過(guò)濾掉。外圍功能除此之外,WebMagic項(xiàng)目里還有幾個(gè)包,這些都是一些實(shí)驗(yàn)性的功能,目的只是提供一些與外圍工具整合的樣例。因 為它要用到信息檢索、人工智能、計(jì)算機(jī)網(wǎng)絡(luò)、分布式處理、數(shù)據(jù)庫(kù)、數(shù)據(jù)挖掘、數(shù)字圖書館、自然語(yǔ)言處理等多領(lǐng)域的理論和技術(shù),所以具有綜合性和挑戰(zhàn)性。 和通用網(wǎng)絡(luò)爬蟲相比,聚焦爬蟲只需要爬行與主題相關(guān)的頁(yè)面,極大地節(jié)省了硬件和網(wǎng)絡(luò)資源,保存的頁(yè)面也由于數(shù)量少而更新快,還可以很好地滿足一些特定人群對(duì)特定領(lǐng)域信息的需求。為了解決上述問(wèn)題,定向抓取相關(guān)網(wǎng)頁(yè)資源的聚焦爬蟲應(yīng)運(yùn)而生?!稇?yīng)用軟件開(kāi)發(fā)實(shí)踐》課程報(bào)告 中國(guó)礦業(yè)大學(xué)計(jì)算機(jī)學(xué)院 2014 級(jí)本科生課程報(bào)告課程名稱 應(yīng)用軟件開(kāi)發(fā)實(shí)踐 報(bào)告時(shí)間 學(xué)生姓名 朱少杰、胥鐵馨 學(xué) 號(hào) 081433308143336 專 業(yè) 14級(jí)計(jì)科6班 任課教師 徐慧 任課教師評(píng)語(yǔ)任課教師評(píng)語(yǔ)(①對(duì)課程基礎(chǔ)理論的掌握;②對(duì)課程知識(shí)應(yīng)用能力的評(píng)價(jià);③對(duì)課程報(bào)告相關(guān)實(shí)驗(yàn)、作品、軟件等成果的評(píng)價(jià);④課程學(xué)習(xí)態(tài)度和上課紀(jì)律;⑤課程成果和報(bào)告工作量;⑥總體評(píng)價(jià)和成績(jī);⑦存在問(wèn)題等):成 績(jī): 任課教師簽字: 年 月 日摘 要網(wǎng)絡(luò)爬蟲(Web Crawler),通常被稱為爬蟲,是搜索引擎的重要組成部分。聚焦爬蟲是一個(gè)自動(dòng)下載網(wǎng)頁(yè)的程序,它根據(jù)既定的抓取目標(biāo),有選擇的訪問(wèn)萬(wàn)維網(wǎng)上的網(wǎng)頁(yè)與相關(guān)的鏈接,獲取所需要的信息。 增量式網(wǎng)絡(luò)爬蟲增量式網(wǎng)絡(luò)爬蟲(Incremental Web Crawler)是 指 對(duì) 已 下 載 網(wǎng) 頁(yè) 采 取 增 量式更新和只爬行新產(chǎn)生的或者已經(jīng)發(fā)生變化網(wǎng)頁(yè)的爬蟲,它能夠在一定程度上保證所爬行的頁(yè)面是盡可能新的頁(yè)面。又 由于搜索引擎有大量的用戶,有很好的經(jīng)濟(jì)價(jià)值,所以引起了世界各國(guó)計(jì)算機(jī)科學(xué)界和信息產(chǎn)業(yè)界的高度關(guān)注,目前的研究、開(kāi)發(fā)十分活躍,并出現(xiàn)了很多值得注意的動(dòng)向。因?yàn)榫τ邢蓿@些包沒(méi)有經(jīng)過(guò)廣泛的使用和測(cè)試,推薦使用方式是自行下載源碼,遇到問(wèn)題后再修改。這些方法的缺點(diǎn)在于,隨著抓取網(wǎng)頁(yè)的增多,大量的無(wú)關(guān)網(wǎng)頁(yè)將被下載并過(guò)濾,算法的效率將變低。3 網(wǎng)頁(yè)塊粒度的分析算法在一個(gè)頁(yè)面中,往往含有多個(gè)指向其他頁(yè)面的鏈接,這些鏈接中只有一部分是指向主題相關(guān)網(wǎng)頁(yè)的,或根據(jù)網(wǎng)頁(yè)的鏈接錨文本表明其具有較高重要性。動(dòng)態(tài)頁(yè)面的產(chǎn)生它們?nèi)齻€(gè)特征一起產(chǎn)生了很多種類的爬蟲抓取鏈接。排序的方法使用了廣度優(yōu)先,后鏈計(jì)數(shù),和部分pagerank算法。Daneshpajouh等人(Daneshpajouh et al., 2008)設(shè)計(jì)了一個(gè)用于尋找好種子的社區(qū)。 Menczer and Belew, 1998)和Chakrabarti等人首先提出來(lái)的(Chakrabarti et al., 1999)。從搜索引擎的角度來(lái)看,不檢測(cè)這些事件是有成本的,成本就是我們僅僅擁有一份過(guò)時(shí)的資源。最佳的重新訪問(wèn)策略既不是統(tǒng)一策略,也不是正比策略;保持平均頁(yè)面新鮮度高的最佳方法策略包括忽略那些變化太快的頁(yè)面,而保持頁(yè)面平均過(guò)時(shí)性低的方法則是對(duì)每一頁(yè)按照頁(yè)面變化率單調(diào)變化的策略訪問(wèn)。216。(Brin和Page,1998)并行策略一個(gè)并行爬蟲是并行運(yùn)行多個(gè)進(jìn)程的爬蟲。 } } 頁(yè)面元素的抽取第二部分是爬蟲的核心部分:對(duì)于下載到的Html頁(yè)面,你如何從中抽取到你想要的信息?WebMagic里主要使用了三種抽取技術(shù):XPath、正則表達(dá)式和CSS選擇器。JsonPath是于XPath很類似的一個(gè)語(yǔ)言,它用于從Json中快速定位一條內(nèi)容。article_list39。 // 設(shè)置日期 ( ().xpath(//div[class=39。link_view39。 } return ()。public class App implements PageProcessor{ private Site site = ().setSleepTime(1)。]).links().regex(://blog\\.csdn\\.net/chenyufeng1991/article/details/\\d+).all()。net start mysql將啟動(dòng)MySQL服務(wù)。// 分類 private int view。 } public int getView() { return view。 } catch (ClassNotFoundException e) { ()。 }以上,我們就實(shí)現(xiàn)了數(shù)據(jù)庫(kù)的鏈接,運(yùn)行CsdnBlogPageProcessor,并查看結(jié)果圖29 Console下的結(jié)果這是在eclipse下查看的結(jié)果,打開(kāi)數(shù)據(jù)庫(kù),發(fā)現(xiàn)數(shù)據(jù)也已經(jīng)保存了進(jìn)去圖30 數(shù)據(jù)庫(kù)中的數(shù)據(jù)實(shí)驗(yàn)結(jié)束后,將數(shù)據(jù)庫(kù)關(guān)閉服務(wù)圖31 關(guān)閉數(shù)據(jù)庫(kù)服務(wù)第40頁(yè)。 } }鏈接完成后,要向數(shù)據(jù)庫(kù)中逐條插入數(shù)據(jù),因此再添加一個(gè)add函數(shù),代碼如下:public int add(CsdnBlog csdnBlog) { try { String sql = INSERT INTO `Shiyan`.`csdnblog` (`keyes`, `titles`, `content` , `dates`, `tags`, `category`, `views`, `ments`, `copyright`) VALUES (?, ?, ?, ?, ?, ?, ?, ?,?)。 } public int getComments() { return ments。// 評(píng)論人數(shù) private int copyright。圖17 MySQL安裝2接下來(lái)配置環(huán)境變量編輯path系統(tǒng)變量,將G:\\bin添加到path變量。 }else { (記錄數(shù):+temp++)。
點(diǎn)擊復(fù)制文檔內(nèi)容
試題試卷相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1