freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于廣度優(yōu)先算法的多線程爬蟲程序的設(shè)計與實現(xiàn)畢業(yè)論文(存儲版)

2025-07-27 20:21上一頁面

下一頁面
  

【正文】 ①將給定的初始 URL 加入到 URL 等待隊列。本系統(tǒng)中使用了非遞歸的程序設(shè)計方法。而線程 2 同時也會下載它獲取到的 URL 2 對應(yīng)的 HTML 代碼,解析出 URLs 加入到等待隊列中。那么這些 URLs 獲取的順序就是 abcdefghijklmnop這樣一個順序。第四個方框為,解析 e 對應(yīng) HTML 獲取URLs:nop,并刪除 e。通過這種方法,我們獲取網(wǎng)頁中大部分的 URLs。所以我們需要過濾掉這些 URLs。JAVA 程序的編寫工具是 ;數(shù)據(jù)庫是 MYSQL 5 。}如果沒有得到 URL 就繼續(xù)向 URL 等待隊列申請。()。當(dāng)?shù)玫?HTML 代碼以后,程序就會調(diào)用 Url_Parse 這個類里面的方法來解析HTML。當(dāng)完成這一步操作后,原字符串被截取從“ class=”開始。// HTML中是否還含有href 標(biāo)簽boolean haveHref = (href)。}}haveHref = (href)。很多 URL 它們指向的文件不是 HTML 文件,而是一些 CSS 文件,或者 RAR 包文件,或者只是接續(xù)“”符號,代表只是調(diào)用一段 javascript 代碼。下面的代碼是 host 的情況。因為URLs 的數(shù)量非常巨大,為了節(jié)省內(nèi)存空間。private final int maxCapacity。} finally {()。所以我們必須先除去后面的/符號,再進(jìn)行 URL 去重判斷。2 段基于內(nèi)存的 URL 緩存區(qū),和一個基于數(shù)據(jù)庫的儲存區(qū)。public synchronized void waitQueueDecrease() {try {Statement stmt = null。(insert into databasequeue (url) values(39。檢索存入數(shù)據(jù)庫最上端的 25 條數(shù)據(jù),然后依次將其加入到取出緩存區(qū)。}(delete from middlequeue limit 25)。public static Connection conn() {Connection conn = null。下面是從數(shù)據(jù)庫里截圖的 2 段爬行結(jié)果。這是程序設(shè)計上的不足。圖 圖 為控制臺打印出來的信息。對于網(wǎng)絡(luò)爬蟲這個龐大的知識體系來說,這篇論文實現(xiàn)的功能只能算一些皮毛。感謝李廣鎮(zhèn)同學(xué),戴國強同學(xué),潘秀銀同學(xué)在程序具體實施過程中給我提供了寶貴的意見和提議。這篇論文實現(xiàn)了一個基于廣度優(yōu)先策略的多線程爬蟲程序,可以搜集站內(nèi)URLs。根據(jù)測試結(jié)果可以得知爬蟲程序能夠正確解析出頁面 URLs。這個 URL 為 ico 文件,是不可能被當(dāng)作 HTML 解析的。然后用爬蟲程序去運行。JAVA 程序和數(shù)據(jù)之間的通信是通過 JDBC 實現(xiàn)的。res = (sql)。具體的實現(xiàn)方法是:從數(shù)據(jù)庫里搜索前 25 條數(shù)據(jù),因為數(shù)據(jù)庫添加數(shù)據(jù)時是順序往下壓入的。)。不斷重復(fù)這個操作,直到存入緩存被清空。往里面加入URLs。也許是同一個 URL,但是有些在最后一位接續(xù)/符號,而有些則沒有接續(xù)。}Overridepublic V get(Object key) {try {()。這樣就算 URL 數(shù)過大,也可以盡量避免重復(fù)下載 URL。}}如果為站內(nèi)URL則加入到緩存隊列。一般情況下同一網(wǎng)站內(nèi)的 URL 的 host 名因該是一致的??梢耘袛嗨鼮榻^對地址。url = addURLhost(fromURL, url)。public void getHref_UrlsList(String html_text, String fromURL,UrlQueueManager urlQueueManager, int biaoji) {// 站內(nèi) URL隊列ListString siteInsideUrls = new ArrayListString()。我們先檢索 href=標(biāo)記,然后判斷出第 i+1 位為一個雙引號,所以我們可以截取 i+1 位到第 2 個雙引號的位置。}return ()。url = new URL(sourse_url)。所以我在這里寫了一個循環(huán):s = null。圖 表示了 URL 等待隊列的結(jié)構(gòu)。因為解析出來的 URL 地址可能是一些文件的地址,或者為 javascript 文件或者 css文件。但是不同的網(wǎng)站 href=后面的內(nèi)容有所不同。第二個方框為,解析 a 對應(yīng) HTML 獲取URLs:bcd,同時刪除 a。通過這種循環(huán)的獲取方式實現(xiàn)廣度優(yōu)先爬行。假設(shè)線程 1 從 URL 隊列中獲取一條任務(wù) URL 1,然后它會下載對應(yīng)的 HTML,解析出里面包含 URLs,然后再將這些 URLs 加入到 URL 隊列中去。將初始 URLs 加入到等待隊列是否為非法 URL創(chuàng)建啟動爬蟲線程從 URL 等待隊列獲取任務(wù)URL下載 URL 對應(yīng)的 HTML 代碼將相對地址轉(zhuǎn)換為絕對地址解析 HTML,獲取 URLs將 URLs 加入到URL 等待隊列是否為絕對地址是否為重復(fù)第四章 系統(tǒng)分析與設(shè)計 SPIDER 構(gòu)造分析構(gòu)造 SPIDER 程序有兩種方式:(1)把 SPIDER 程序設(shè)計為遞歸的程序;(2)編寫一個非遞歸的程序,它要維護(hù)一個要訪問的網(wǎng)頁列表。UrlParse 類:用于解析 HTML,獲取并過濾 URL。當(dāng) SPIDER 程序訪問到一個網(wǎng)頁,必須進(jìn)行以下幾項基本處理:抽取網(wǎng)頁中包含的文本;抽取網(wǎng)頁中包含的 URL,并將其區(qū)分為網(wǎng)站內(nèi) URL 或網(wǎng)站外URL。其中 T 為計算中的頁面總量, C 1 是阻尼常數(shù)因子, in (p ) 為所有指向 p 的頁面的集合, out (C) 為頁面 C 出鏈的集合. 基于 PageRank 算法的網(wǎng)絡(luò)爬蟲在搜索過程中, 通過計算每個已訪問頁面的 PageRank 值來確定頁面的價值, 并優(yōu)先選擇PageRank 值大的頁面中的鏈接進(jìn)行訪問. H ITS 算法HITS 方法定義了兩個重要概念: Authority 和 Hub. Authority 表示一個權(quán)威頁面被其它頁面引用的數(shù)量, 即該權(quán)威頁面的入度值. 網(wǎng)頁被引用的數(shù)量越大, 則該網(wǎng)頁的 Authority 值越大。在使用URL 類之前,必須創(chuàng)建一個 URL 對象,創(chuàng)建的方法是使用其構(gòu)造函數(shù),通過向其指定一個 URL 地址,就能實例化該類。URL 去重存儲庫使用 Berkeley DB,壓縮后的 URL 字符串作為 Key,或者直接使用壓縮后的 URL 字節(jié)數(shù)組作為 Key,對于 Value 可以使用 Boolean,一個字節(jié),或者使用字節(jié)數(shù)組,實際 Value 只是一個狀態(tài)標(biāo)識,減少 Value 存儲占用存儲空間。這樣就可以對URL 字符串進(jìn)行壓縮,得到一個壓縮字符串,同時可以直接得到一個 Hash 地址。每次有一個爬蟲線程得到一個任務(wù)URL 開始下載之前,通過到磁盤上的該文件中檢索,如果沒有出現(xiàn)過,則將這個新的 URL 寫入記事本的最后一行,否則就放棄該 URL 的下載。 網(wǎng)絡(luò)爬蟲 URL 去重儲存庫設(shè)計在爬蟲啟動工作的過程中,我們不希望同一個網(wǎng)頁被多次下載,因為重復(fù)下載不僅會浪費 CPU 機(jī)時,還會為搜索引擎系統(tǒng)增加負(fù)荷。 URL 消重 URL 消重的意義在 SPIDER 系統(tǒng)實際運行的過程中,每秒下載的 10 個頁面中,分析的 URL大多數(shù)是重復(fù)的,實際上新的 URL 才幾個。多數(shù) JAVA 同步是以對象鎖定為中心的。當(dāng)線程的 run 方法運行完畢,線程將被拋棄,進(jìn)入死亡狀態(tài)。 創(chuàng)建線程方式二通過實現(xiàn) Runnable 接口并實現(xiàn)接口中定義的唯一方法 run(),可以創(chuàng)建一個線程。Thread(String name)。比如,用于自動垃圾收集的線程,對象終止或者其他的 JVM 處理任務(wù)相關(guān)的線程。多線程和多進(jìn)程有什么區(qū)別呢?對于進(jìn)程來說,每個進(jìn)程都有自己的一組完整的變量,而線程則共享相同的數(shù)據(jù)。事實的真相是,對于一個 CPU 而言,它在某一個時間點上,只能執(zhí)行一個程序。本文通過 JAVA 語言實現(xiàn)一個基于廣度優(yōu)先偏歷算法的多線程爬蟲程序。此外, 還有根據(jù)概率論進(jìn)行可用 Web 頁的數(shù)量估算, 用于評估互聯(lián)網(wǎng) Web 規(guī)模的抽樣爬蟲程序 。 multithreads.目錄第一章 引言 .........................................................1第二章 相關(guān)技術(shù)介紹 .................................................2 JAVA 線程 ......................................................2 線程概述 ..................................................2 JAVA 線程模型 .............................................2 創(chuàng)建線程 ..................................................3 JAVA 中的線程的生命周期 ....................................4 JAVA 線程的結(jié)束方式 ........................................4 多線程同步 ................................................5 URL 消重 .......................................................5 URL 消重的意義 .............................................5 網(wǎng)絡(luò)爬蟲 URL 去重儲存庫設(shè)計 ................................5 LRU 算法實現(xiàn) URL 消重 .......................................7 URL 類訪問網(wǎng)絡(luò) .................................................8  爬行策略淺析 .................................................8 寬度或深度優(yōu)先搜索策略 .....................................8 聚焦搜索策略 ..............................................9 基于內(nèi)容評價的搜索策略 .....................................9 基于鏈接結(jié)構(gòu)評價的搜索策略 ...............................10 基于鞏固學(xué)習(xí)的聚焦搜索 ...................................11 基于語境圖的聚焦搜索 .....................................11第三章 系統(tǒng)需求分析及模塊設(shè)計 ......................................13 系統(tǒng)需求分析 .................................................13 SPIDER 體系結(jié)構(gòu) ...............................................13 各主要功能模塊(類)設(shè)計 .....................................14 SPIDER 工作過程 ...............................................14第四章 系統(tǒng)分析與設(shè)計 ..............................................16 SPIDER 構(gòu)造分析 ...............................................16 爬行策略分析 .................................................17 URL 抽取,解析和保存 ..........................................18 URL 抽取 ..................................................18 URL 解析 ..................................................19 URL 保存 ..................................................19第五章 系統(tǒng)實現(xiàn) ....................................................21 實現(xiàn)工具 .....................................................21 爬蟲工作 .....................................................21 URL 解析 ......................................................22 URL 隊列管理 ..................................................24
點擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1