freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

nutch開發(fā)環(huán)境及搭建(編輯修改稿)

2024-09-26 13:16 本頁面
 

【文章內容簡介】 rawled 的文件夾,同時還生成一個名為 的日志文件。利用這一日志文件,我們可以分析可能遇到的任何錯誤。另外,在上述命令的參數(shù)中, dir 指定抓取內容所存放的目錄, depth表示以要抓取網(wǎng)站頂級網(wǎng)址為起點的爬行深度, threads 指定并發(fā)的線程數(shù)。 5.試驗 結果及 分析 ( 1) . 同 級目錄下生成 文件夾 crawled 和文件 : Crawled 文件夾目錄結構如下圖: Crawled 目錄下生成了 4 個文件夾: crawldb linkdb segments indexes 查詢相關資料及測試結果可以看出 , nutch 抓取頁面并把抓取回來的數(shù)據(jù)做成索引的過程中,建立和維護了幾個數(shù)據(jù)結構存于磁盤上, crawldb 和 linkdb,我們稱之為 webdb, 還 WIDTH INTERNATION 6 有 segment ,index. webdb 是一個特殊存儲數(shù)據(jù)結構,用來映像被抓取網(wǎng)站數(shù)據(jù)的結構和屬性的集合。webdb 用來存儲從抓取開始(包括重新抓?。┑乃芯W(wǎng)站結構數(shù)據(jù)和屬性 ,而且 webdb只是被抓取程序使用,搜索程序并不使用它。 webdb 存儲 2 種實體:頁面和鏈接。 頁面表示網(wǎng)絡上的一個網(wǎng)頁,這個網(wǎng)頁的 url作為標示會被索引,同時建立一個對網(wǎng)頁內容的 md5 哈希簽名。跟網(wǎng)頁相關的其它內容也被存儲,包括:頁面中的鏈接數(shù)量(外鏈接),頁面抓取信息(在頁面被重復抓取的情況下),還有表示頁面級別的分數(shù) score。 鏈接 表示從一個網(wǎng)頁的鏈接到其它網(wǎng)頁的鏈接。因此 webdb可以說是一個網(wǎng)絡 圖 ,節(jié)點是頁面,鏈接是邊。 segment 是網(wǎng)頁的集合,并且它被索引。 segment 的 Fetchlist 是抓取程序使用的 url 列表,它是從 webdb 中生成的。 Fetcher 的輸出數(shù)據(jù)是從 fetchlist 中抓取的網(wǎng)頁。 Fetcher 的輸出數(shù)據(jù)先被反向索引,然后索引后的結果被存儲在 segment中。 Segment 的命名是日期加時間, 14位表示,因此很直觀的可以看出他們的存活周期。 segment 的生命周期是有限制的,當下一輪抓取開始后它就沒有用了。默認的重新抓取間隔是 30 天。因此刪除超過這個時間期限的 segment 是可以的。而且也可以節(jié)省不少磁盤空間。 indexes 是反向索引所有系統(tǒng)中被抓取的頁面,他并不直接從頁面反向索引產(chǎn)生,它是合并很多小的 segment的索引中產(chǎn)生的。 Nutch 使用 Lucene 來建立索引,因此所有 Lucene 相關的工具 API 都用來建立索引庫。 ( 2) .分析 log: 內容如下: crawl started in: crawled rootUrlDir = threads = 4 depth = 2 Injector: starting Injec
點擊復制文檔內容
環(huán)評公示相關推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1