freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于廣度優(yōu)先算法的多線程爬蟲程序的設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)論文(存儲(chǔ)版)

2025-07-27 20:21上一頁面

下一頁面
  

【正文】 ①將給定的初始 URL 加入到 URL 等待隊(duì)列。本系統(tǒng)中使用了非遞歸的程序設(shè)計(jì)方法。而線程 2 同時(shí)也會(huì)下載它獲取到的 URL 2 對(duì)應(yīng)的 HTML 代碼,解析出 URLs 加入到等待隊(duì)列中。那么這些 URLs 獲取的順序就是 abcdefghijklmnop這樣一個(gè)順序。第四個(gè)方框?yàn)椋馕?e 對(duì)應(yīng) HTML 獲取URLs:nop,并刪除 e。通過這種方法,我們獲取網(wǎng)頁中大部分的 URLs。所以我們需要過濾掉這些 URLs。JAVA 程序的編寫工具是 ;數(shù)據(jù)庫是 MYSQL 5 。}如果沒有得到 URL 就繼續(xù)向 URL 等待隊(duì)列申請(qǐng)。()。當(dāng)?shù)玫?HTML 代碼以后,程序就會(huì)調(diào)用 Url_Parse 這個(gè)類里面的方法來解析HTML。當(dāng)完成這一步操作后,原字符串被截取從“ class=”開始。// HTML中是否還含有href 標(biāo)簽boolean haveHref = (href)。}}haveHref = (href)。很多 URL 它們指向的文件不是 HTML 文件,而是一些 CSS 文件,或者 RAR 包文件,或者只是接續(xù)“”符號(hào),代表只是調(diào)用一段 javascript 代碼。下面的代碼是 host 的情況。因?yàn)閁RLs 的數(shù)量非常巨大,為了節(jié)省內(nèi)存空間。private final int maxCapacity。} finally {()。所以我們必須先除去后面的/符號(hào),再進(jìn)行 URL 去重判斷。2 段基于內(nèi)存的 URL 緩存區(qū),和一個(gè)基于數(shù)據(jù)庫的儲(chǔ)存區(qū)。public synchronized void waitQueueDecrease() {try {Statement stmt = null。(insert into databasequeue (url) values(39。檢索存入數(shù)據(jù)庫最上端的 25 條數(shù)據(jù),然后依次將其加入到取出緩存區(qū)。}(delete from middlequeue limit 25)。public static Connection conn() {Connection conn = null。下面是從數(shù)據(jù)庫里截圖的 2 段爬行結(jié)果。這是程序設(shè)計(jì)上的不足。圖 圖 為控制臺(tái)打印出來的信息。對(duì)于網(wǎng)絡(luò)爬蟲這個(gè)龐大的知識(shí)體系來說,這篇論文實(shí)現(xiàn)的功能只能算一些皮毛。感謝李廣鎮(zhèn)同學(xué),戴國強(qiáng)同學(xué),潘秀銀同學(xué)在程序具體實(shí)施過程中給我提供了寶貴的意見和提議。這篇論文實(shí)現(xiàn)了一個(gè)基于廣度優(yōu)先策略的多線程爬蟲程序,可以搜集站內(nèi)URLs。根據(jù)測試結(jié)果可以得知爬蟲程序能夠正確解析出頁面 URLs。這個(gè) URL 為 ico 文件,是不可能被當(dāng)作 HTML 解析的。然后用爬蟲程序去運(yùn)行。JAVA 程序和數(shù)據(jù)之間的通信是通過 JDBC 實(shí)現(xiàn)的。res = (sql)。具體的實(shí)現(xiàn)方法是:從數(shù)據(jù)庫里搜索前 25 條數(shù)據(jù),因?yàn)閿?shù)據(jù)庫添加數(shù)據(jù)時(shí)是順序往下壓入的。)。不斷重復(fù)這個(gè)操作,直到存入緩存被清空。往里面加入U(xiǎn)RLs。也許是同一個(gè) URL,但是有些在最后一位接續(xù)/符號(hào),而有些則沒有接續(xù)。}Overridepublic V get(Object key) {try {()。這樣就算 URL 數(shù)過大,也可以盡量避免重復(fù)下載 URL。}}如果為站內(nèi)URL則加入到緩存隊(duì)列。一般情況下同一網(wǎng)站內(nèi)的 URL 的 host 名因該是一致的??梢耘袛嗨鼮榻^對(duì)地址。url = addURLhost(fromURL, url)。public void getHref_UrlsList(String html_text, String fromURL,UrlQueueManager urlQueueManager, int biaoji) {// 站內(nèi) URL隊(duì)列ListString siteInsideUrls = new ArrayListString()。我們先檢索 href=標(biāo)記,然后判斷出第 i+1 位為一個(gè)雙引號(hào),所以我們可以截取 i+1 位到第 2 個(gè)雙引號(hào)的位置。}return ()。url = new URL(sourse_url)。所以我在這里寫了一個(gè)循環(huán):s = null。圖 表示了 URL 等待隊(duì)列的結(jié)構(gòu)。因?yàn)榻馕龀鰜淼?URL 地址可能是一些文件的地址,或者為 javascript 文件或者 css文件。但是不同的網(wǎng)站 href=后面的內(nèi)容有所不同。第二個(gè)方框?yàn)?,解?a 對(duì)應(yīng) HTML 獲取URLs:bcd,同時(shí)刪除 a。通過這種循環(huán)的獲取方式實(shí)現(xiàn)廣度優(yōu)先爬行。假設(shè)線程 1 從 URL 隊(duì)列中獲取一條任務(wù) URL 1,然后它會(huì)下載對(duì)應(yīng)的 HTML,解析出里面包含 URLs,然后再將這些 URLs 加入到 URL 隊(duì)列中去。將初始 URLs 加入到等待隊(duì)列是否為非法 URL創(chuàng)建啟動(dòng)爬蟲線程從 URL 等待隊(duì)列獲取任務(wù)URL下載 URL 對(duì)應(yīng)的 HTML 代碼將相對(duì)地址轉(zhuǎn)換為絕對(duì)地址解析 HTML,獲取 URLs將 URLs 加入到URL 等待隊(duì)列是否為絕對(duì)地址是否為重復(fù)第四章 系統(tǒng)分析與設(shè)計(jì) SPIDER 構(gòu)造分析構(gòu)造 SPIDER 程序有兩種方式:(1)把 SPIDER 程序設(shè)計(jì)為遞歸的程序;(2)編寫一個(gè)非遞歸的程序,它要維護(hù)一個(gè)要訪問的網(wǎng)頁列表。UrlParse 類:用于解析 HTML,獲取并過濾 URL。當(dāng) SPIDER 程序訪問到一個(gè)網(wǎng)頁,必須進(jìn)行以下幾項(xiàng)基本處理:抽取網(wǎng)頁中包含的文本;抽取網(wǎng)頁中包含的 URL,并將其區(qū)分為網(wǎng)站內(nèi) URL 或網(wǎng)站外URL。其中 T 為計(jì)算中的頁面總量, C 1 是阻尼常數(shù)因子, in (p ) 為所有指向 p 的頁面的集合, out (C) 為頁面 C 出鏈的集合. 基于 PageRank 算法的網(wǎng)絡(luò)爬蟲在搜索過程中, 通過計(jì)算每個(gè)已訪問頁面的 PageRank 值來確定頁面的價(jià)值, 并優(yōu)先選擇PageRank 值大的頁面中的鏈接進(jìn)行訪問. H ITS 算法HITS 方法定義了兩個(gè)重要概念: Authority 和 Hub. Authority 表示一個(gè)權(quán)威頁面被其它頁面引用的數(shù)量, 即該權(quán)威頁面的入度值. 網(wǎng)頁被引用的數(shù)量越大, 則該網(wǎng)頁的 Authority 值越大。在使用URL 類之前,必須創(chuàng)建一個(gè) URL 對(duì)象,創(chuàng)建的方法是使用其構(gòu)造函數(shù),通過向其指定一個(gè) URL 地址,就能實(shí)例化該類。URL 去重存儲(chǔ)庫使用 Berkeley DB,壓縮后的 URL 字符串作為 Key,或者直接使用壓縮后的 URL 字節(jié)數(shù)組作為 Key,對(duì)于 Value 可以使用 Boolean,一個(gè)字節(jié),或者使用字節(jié)數(shù)組,實(shí)際 Value 只是一個(gè)狀態(tài)標(biāo)識(shí),減少 Value 存儲(chǔ)占用存儲(chǔ)空間。這樣就可以對(duì)URL 字符串進(jìn)行壓縮,得到一個(gè)壓縮字符串,同時(shí)可以直接得到一個(gè) Hash 地址。每次有一個(gè)爬蟲線程得到一個(gè)任務(wù)URL 開始下載之前,通過到磁盤上的該文件中檢索,如果沒有出現(xiàn)過,則將這個(gè)新的 URL 寫入記事本的最后一行,否則就放棄該 URL 的下載。 網(wǎng)絡(luò)爬蟲 URL 去重儲(chǔ)存庫設(shè)計(jì)在爬蟲啟動(dòng)工作的過程中,我們不希望同一個(gè)網(wǎng)頁被多次下載,因?yàn)橹貜?fù)下載不僅會(huì)浪費(fèi) CPU 機(jī)時(shí),還會(huì)為搜索引擎系統(tǒng)增加負(fù)荷。 URL 消重 URL 消重的意義在 SPIDER 系統(tǒng)實(shí)際運(yùn)行的過程中,每秒下載的 10 個(gè)頁面中,分析的 URL大多數(shù)是重復(fù)的,實(shí)際上新的 URL 才幾個(gè)。多數(shù) JAVA 同步是以對(duì)象鎖定為中心的。當(dāng)線程的 run 方法運(yùn)行完畢,線程將被拋棄,進(jìn)入死亡狀態(tài)。 創(chuàng)建線程方式二通過實(shí)現(xiàn) Runnable 接口并實(shí)現(xiàn)接口中定義的唯一方法 run(),可以創(chuàng)建一個(gè)線程。Thread(String name)。比如,用于自動(dòng)垃圾收集的線程,對(duì)象終止或者其他的 JVM 處理任務(wù)相關(guān)的線程。多線程和多進(jìn)程有什么區(qū)別呢?對(duì)于進(jìn)程來說,每個(gè)進(jìn)程都有自己的一組完整的變量,而線程則共享相同的數(shù)據(jù)。事實(shí)的真相是,對(duì)于一個(gè) CPU 而言,它在某一個(gè)時(shí)間點(diǎn)上,只能執(zhí)行一個(gè)程序。本文通過 JAVA 語言實(shí)現(xiàn)一個(gè)基于廣度優(yōu)先偏歷算法的多線程爬蟲程序。此外, 還有根據(jù)概率論進(jìn)行可用 Web 頁的數(shù)量估算, 用于評(píng)估互聯(lián)網(wǎng) Web 規(guī)模的抽樣爬蟲程序 。 multithreads.目錄第一章 引言 .........................................................1第二章 相關(guān)技術(shù)介紹 .................................................2 JAVA 線程 ......................................................2 線程概述 ..................................................2 JAVA 線程模型 .............................................2 創(chuàng)建線程 ..................................................3 JAVA 中的線程的生命周期 ....................................4 JAVA 線程的結(jié)束方式 ........................................4 多線程同步 ................................................5 URL 消重 .......................................................5 URL 消重的意義 .............................................5 網(wǎng)絡(luò)爬蟲 URL 去重儲(chǔ)存庫設(shè)計(jì) ................................5 LRU 算法實(shí)現(xiàn) URL 消重 .......................................7 URL 類訪問網(wǎng)絡(luò) .................................................8  爬行策略淺析 .................................................8 寬度或深度優(yōu)先搜索策略 .....................................8 聚焦搜索策略 ..............................................9 基于內(nèi)容評(píng)價(jià)的搜索策略 .....................................9 基于鏈接結(jié)構(gòu)評(píng)價(jià)的搜索策略 ...............................10 基于鞏固學(xué)習(xí)的聚焦搜索 ...................................11 基于語境圖的聚焦搜索 .....................................11第三章 系統(tǒng)需求分析及模塊設(shè)計(jì) ......................................13 系統(tǒng)需求分析 .................................................13 SPIDER 體系結(jié)構(gòu) ...............................................13 各主要功能模塊(類)設(shè)計(jì) .....................................14 SPIDER 工作過程 ...............................................14第四章 系統(tǒng)分析與設(shè)計(jì) ..............................................16 SPIDER 構(gòu)造分析 ...............................................16 爬行策略分析 .................................................17 URL 抽取,解析和保存 ..........................................18 URL 抽取 ..................................................18 URL 解析 ..................................................19 URL 保存 ..................................................19第五章 系統(tǒng)實(shí)現(xiàn) ....................................................21 實(shí)現(xiàn)工具 .....................................................21 爬蟲工作 .....................................................21 URL 解析 ......................................................22 URL 隊(duì)列管理 ..................................................24
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1