freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

分布式網(wǎng)絡(luò)爬蟲-總體設(shè)計(jì)(存儲(chǔ)版)

2025-07-29 20:52上一頁面

下一頁面
  

【正文】 MySQLWorkbench圖20 MySQLWorkbench下載1點(diǎn)擊DOWNLOAD下載并安裝圖21 MySQLWorkbench下載2安裝完成后雙擊打開圖22 MySQLWorkbench點(diǎn)擊‘+’圖標(biāo),進(jìn)入數(shù)據(jù)庫配置,填寫配置信息圖23鏈接配置創(chuàng)建成功,雙擊數(shù)據(jù)庫輸入密碼進(jìn)入圖24 MySQLWorkbench界面圖25 數(shù)據(jù)庫登錄圖形化管理工具只是為了方便結(jié)果的查看,現(xiàn)在我們使用cmd在MySQL中創(chuàng)建一個(gè)數(shù)據(jù)庫并建立一個(gè)名為csdnblog的表,用于存儲(chǔ)我們從網(wǎng)頁上爬到的數(shù)據(jù)信息,我已經(jīng)創(chuàng)建好了一個(gè)名為Shiyan的數(shù)據(jù)庫,在此只要?jiǎng)?chuàng)建表即可圖26 MySql建表1使用圖形化管理工具查看,發(fā)現(xiàn)Table下多出一張表,不過是空表圖27 MySql建表2 編寫鏈接數(shù)據(jù)庫文件圖28 總類圖 在連接數(shù)據(jù)庫之前,我們先要建立要插入數(shù)據(jù)的數(shù)據(jù)模型,即所要插入的數(shù)據(jù)由那幾項(xiàng)構(gòu)成以及他們的結(jié)構(gòu),新建一個(gè)CsdnBlog的JAVA文件,添加數(shù)據(jù)模型,并編寫獲取、修改相應(yīng)部分的代碼。// 評論人數(shù) private int copyright。 } public String getDate() { return date。 } public int getComments() { return ments。 String url = jdbc:mysql://localhost:3306/Shiyan? + user=rootamp。 } }鏈接完成后,要向數(shù)據(jù)庫中逐條插入數(shù)據(jù),因此再添加一個(gè)add函數(shù),代碼如下:public int add(CsdnBlog csdnBlog) { try { String sql = INSERT INTO `Shiyan`.`csdnblog` (`keyes`, `titles`, `content` , `dates`, `tags`, `category`, `views`, `ments`, `copyright`) VALUES (?, ?, ?, ?, ?, ?, ?, ?,?)。 (7, ())。 }以上,我們就實(shí)現(xiàn)了數(shù)據(jù)庫的鏈接,運(yùn)行CsdnBlogPageProcessor,并查看結(jié)果圖29 Console下的結(jié)果這是在eclipse下查看的結(jié)果,打開數(shù)據(jù)庫,發(fā)現(xiàn)數(shù)據(jù)也已經(jīng)保存了進(jìn)去圖30 數(shù)據(jù)庫中的數(shù)據(jù)實(shí)驗(yàn)結(jié)束后,將數(shù)據(jù)庫關(guān)閉服務(wù)圖31 關(guān)閉數(shù)據(jù)庫服務(wù)第40頁。 (5, ())。 } catch (ClassNotFoundException e) { ()。 private Statement stmt = null。 } public int getView() { return view。 } public String getTitle() { return title。// 分類 private int view。 MySQL Workbench是下一代的可視化數(shù)據(jù)庫設(shè)計(jì)、管理的工具,它同時(shí)有開源和商業(yè)化的兩個(gè)版本。net start mysql將啟動(dòng)MySQL服務(wù)。MySQL 是最流行的關(guān)系型數(shù)據(jù)庫管理系統(tǒng)之一,在 WEB 應(yīng)用方面,MySQL是最好的 RDBMS (Relational Database Management System,關(guān)系數(shù)據(jù)庫管理系統(tǒng)) 應(yīng)用軟件。]).links().regex(://blog\\.csdn\\.net/chenyufeng1991/article/details/\\d+).all()。 } catch (JMException e) { ()。public class App implements PageProcessor{ private Site site = ().setSleepTime(1)。import 。 } return ()。 // 把對象存入數(shù)據(jù)庫 new CsdnBlogDao().add(csdnBlog)。link_view39。link_categories39。 // 設(shè)置日期 ( ().xpath(//div[class=39。 // 設(shè)置標(biāo)題 ( ().xpath(//div[class=39。article_list39。import 。JsonPath是于XPath很類似的一個(gè)語言,它用于從Json中快速定位一條內(nèi)容。 對應(yīng)的Html是這樣子的:圖12 html導(dǎo)航 CSS選擇器CSS選擇器是與XPath類似的語言。 } } 頁面元素的抽取第二部分是爬蟲的核心部分:對于下載到的Html頁面,你如何從中抽取到你想要的信息?WebMagic里主要使用了三種抽取技術(shù):XPath、正則表達(dá)式和CSS選擇器。 int temp=1。(Brin和Page,1998)并行策略一個(gè)并行爬蟲是并行運(yùn)行多個(gè)進(jìn)程的爬蟲。Cho(Cho和GarciaMolina, 2003)使用10秒作為訪問的間隔時(shí)間,WIRE爬蟲(BaezaYates and Castillo, 2002)使用15秒作為默認(rèn)間隔。216。一個(gè)服務(wù)器也會(huì)很難響應(yīng)多線程爬蟲的請求。最佳的重新訪問策略既不是統(tǒng)一策略,也不是正比策略;保持平均頁面新鮮度高的最佳方法策略包括忽略那些變化太快的頁面,而保持頁面平均過時(shí)性低的方法則是對每一頁按照頁面變化率單調(diào)變化的策略訪問。這一目標(biāo)并不是完全一樣的,第一種情況,爬蟲關(guān)心的是有多少頁面時(shí)過時(shí)的;在第二種情況,爬蟲關(guān)心的頁面過時(shí)了多少。從搜索引擎的角度來看,不檢測這些事件是有成本的,成本就是我們僅僅擁有一份過時(shí)的資源。深層頁面抓取器增加了抓取網(wǎng)頁的鏈接數(shù)。 Menczer and Belew, 1998)和Chakrabarti等人首先提出來的(Chakrabarti et al., 1999)。路徑檢索一些爬蟲會(huì)盡可能多的嘗試下載一個(gè)特定站點(diǎn)的資源。Daneshpajouh等人(Daneshpajouh et al., 2008)設(shè)計(jì)了一個(gè)用于尋找好種子的社區(qū)。這種算法與Pagerank相似,但是他的速度很快,并且可以一次完成。排序的方法使用了廣度優(yōu)先,后鏈計(jì)數(shù),和部分pagerank算法。網(wǎng)頁爬蟲的行為通常是四種策略組合的結(jié)果。動(dòng)態(tài)頁面的產(chǎn)生它們?nèi)齻€(gè)特征一起產(chǎn)生了很多種類的爬蟲抓取鏈接。因此,基于網(wǎng)頁內(nèi)容的分析算法也從原來的較為單純的文本檢索方法,發(fā)展為涵蓋網(wǎng)頁數(shù)據(jù)抽取、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、語義理解等多種方法的綜合應(yīng)用。3 網(wǎng)頁塊粒度的分析算法在一個(gè)頁面中,往往含有多個(gè)指向其他頁面的鏈接,這些鏈接中只有一部分是指向主題相關(guān)網(wǎng)頁的,或根據(jù)網(wǎng)頁的鏈接錨文本表明其具有較高重要性。2 網(wǎng)站粒度的分析算法網(wǎng)站粒度的資源發(fā)現(xiàn)和管理策略也比網(wǎng)頁粒度的更簡單有效。這些方法的缺點(diǎn)在于,隨著抓取網(wǎng)頁的增多,大量的無關(guān)網(wǎng)頁將被下載并過濾,算法的效率將變低。Saxon是一個(gè)XPath、XSLT的解析工具。因?yàn)榫τ邢?,這些包沒有經(jīng)過廣泛的使用和測試,推薦使用方式是自行下載源碼,遇到問題后再修改。而Spider則將這幾個(gè)組件組織起來,讓它們可以互相交互,流程化的執(zhí)行,可以認(rèn)為Spider是一個(gè)大的容器,它也是WebMagic邏輯的核心。又 由于搜索引擎有大量的用戶,有很好的經(jīng)濟(jì)價(jià)值,所以引起了世界各國計(jì)算機(jī)科學(xué)界和信息產(chǎn)業(yè)界的高度關(guān)注,目前的研究、開發(fā)十分活躍,并出現(xiàn)了很多值得注意的動(dòng)向。 發(fā)展趨勢目前,大多數(shù)的搜索引擎都是基于關(guān)鍵詞的搜索引擎。 增量式網(wǎng)絡(luò)爬蟲增量式網(wǎng)絡(luò)爬蟲(Incremental Web Crawler)是 指 對 已 下 載 網(wǎng) 頁 采 取 增 量式更新和只爬行新產(chǎn)生的或者已經(jīng)發(fā)生變化網(wǎng)頁的爬蟲,它能夠在一定程度上保證所爬行的頁面是盡可能新的頁面。資源庫主要是用來存儲(chǔ)網(wǎng)頁中下載下來的數(shù)據(jù)記錄的容器,并提供生成索引的目標(biāo)源。聚焦爬蟲是一個(gè)自動(dòng)下載網(wǎng)頁的程序,它根據(jù)既定的抓取目標(biāo),有選擇的訪問萬維網(wǎng)上的網(wǎng)頁與相關(guān)的鏈接,獲取所需要的信息。另外一些不常使用的名字還有螞蟻、自動(dòng)索引、模擬程序或者蠕蟲?!稇?yīng)用軟件開發(fā)實(shí)踐》課程報(bào)告 中國礦業(yè)大學(xué)計(jì)算機(jī)學(xué)院 2014 級(jí)本科生課程報(bào)告課程名稱 應(yīng)用軟件開發(fā)實(shí)踐 報(bào)告時(shí)間 學(xué)生姓名 朱少杰、胥鐵馨 學(xué) 號(hào) 081433308143336 專 業(yè) 14級(jí)計(jì)科6班 任課教師 徐慧 任課教師評語任課教師評語(①對課程基礎(chǔ)理論的掌握;②對課程知識(shí)應(yīng)用能力的評價(jià);③對課程報(bào)告相關(guān)實(shí)驗(yàn)、作品、軟件等成果的評價(jià);④課程學(xué)習(xí)態(tài)度和上課紀(jì)律;⑤課程成果和報(bào)告工作量;⑥總體評價(jià)和成績;⑦存在問題等):成 績: 任課教師簽字: 年 月 日摘 要網(wǎng)絡(luò)爬蟲(Web Crawler),通常被稱為爬蟲,是搜索引擎的重要組成部分。 the other is the algorithm of analysis URLs. Among them, the research of TopicFocused Web Crawler is the trend. It uses some webpage analysis strategy to filter topicless URLs and add fit URLs into URLWAIT queue. The metaphor of a spider web internet, then Spider spider is crawling around on the Internet. Web spider through web link address to find pages, starting from a one page website (usually home), read the contents of the page, find the address of the other links on the page, and then look for the next Web page addresses through these links, so has been the cycle continues, until all the pages of this site are crawled exhausted. If the entire Internet as a site, then you can use this Web crawler principle all the pages on the Internet are crawling down.. Keywords:Web crawler;Java;Multithreading;MySQL;Webmagic;Csdnblog 目 錄 1 定義 1 產(chǎn)生背景 1 組成 1 分類 2 2 焦網(wǎng)絡(luò)爬蟲 2 增量式網(wǎng)絡(luò)爬蟲 2 Deep Web 爬蟲 2 發(fā)展趨勢 3 3 Java版本及配置 3 Eclipse配置 5 Maven配置 6 9 框架webmagic 9 WebMagic概覽 9 Webmagic總體架構(gòu) 9 Webmagic項(xiàng)目組成 10 網(wǎng)頁搜索策略 11 拓?fù)浞治鏊惴?11 網(wǎng)頁內(nèi)容分析算法 12 爬行策略 13 爬蟲的配置 17 頁面元素的抽取 21 XPath
點(diǎn)擊復(fù)制文檔內(nèi)容
試題試卷相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1