正文內(nèi)容

基于廣度優(yōu)先算法的多線程爬蟲程序的設(shè)計與實現(xiàn)畢業(yè)論文(存儲版)

2025-07-27 20:21上一頁面

下一頁面

　　

【正文】 ①將給定的初始 URL 加入到 URL 等待隊列。本系統(tǒng)中使用了非遞歸的程序設(shè)計方法。而線程 2 同時也會下載它獲取到的 URL 2 對應(yīng)的 HTML 代碼，解析出 URLs 加入到等待隊列中。那么這些 URLs 獲取的順序就是 abcdefghijklmnop這樣一個順序。第四個方框為，解析 e 對應(yīng) HTML 獲取URLs：nop，并刪除 e。通過這種方法，我們獲取網(wǎng)頁中大部分的 URLs。所以我們需要過濾掉這些 URLs。JAVA 程序的編寫工具是；數(shù)據(jù)庫是 MYSQL 5 。}如果沒有得到 URL 就繼續(xù)向 URL 等待隊列申請。()。當(dāng)?shù)玫?HTML 代碼以后，程序就會調(diào)用 Url_Parse 這個類里面的方法來解析HTML。當(dāng)完成這一步操作后，原字符串被截取從“ class=”開始。// HTML中是否還含有href 標(biāo)簽boolean haveHref = (href)。}}haveHref = (href)。很多 URL 它們指向的文件不是 HTML 文件，而是一些 CSS 文件，或者 RAR 包文件，或者只是接續(xù)“”符號，代表只是調(diào)用一段 javascript 代碼。下面的代碼是 host 的情況。因為URLs 的數(shù)量非常巨大，為了節(jié)省內(nèi)存空間。private final int maxCapacity。} finally {()。所以我們必須先除去后面的/符號，再進(jìn)行 URL 去重判斷。2 段基于內(nèi)存的 URL 緩存區(qū)，和一個基于數(shù)據(jù)庫的儲存區(qū)。public synchronized void waitQueueDecrease() {try {Statement stmt = null。(insert into databasequeue (url) values(39。檢索存入數(shù)據(jù)庫最上端的 25 條數(shù)據(jù)，然后依次將其加入到取出緩存區(qū)。}(delete from middlequeue limit 25)。public static Connection conn() {Connection conn = null。下面是從數(shù)據(jù)庫里截圖的 2 段爬行結(jié)果。這是程序設(shè)計上的不足。圖圖為控制臺打印出來的信息。對于網(wǎng)絡(luò)爬蟲這個龐大的知識體系來說，這篇論文實現(xiàn)的功能只能算一些皮毛。感謝李廣鎮(zhèn)同學(xué)，戴國強同學(xué)，潘秀銀同學(xué)在程序具體實施過程中給我提供了寶貴的意見和提議。這篇論文實現(xiàn)了一個基于廣度優(yōu)先策略的多線程爬蟲程序，可以搜集站內(nèi)URLs。根據(jù)測試結(jié)果可以得知爬蟲程序能夠正確解析出頁面 URLs。這個 URL 為 ico 文件，是不可能被當(dāng)作 HTML 解析的。然后用爬蟲程序去運行。JAVA 程序和數(shù)據(jù)之間的通信是通過 JDBC 實現(xiàn)的。res = (sql)。具體的實現(xiàn)方法是：從數(shù)據(jù)庫里搜索前 25 條數(shù)據(jù)，因為數(shù)據(jù)庫添加數(shù)據(jù)時是順序往下壓入的。)。不斷重復(fù)這個操作，直到存入緩存被清空。往里面加入URLs。也許是同一個 URL，但是有些在最后一位接續(xù)/符號，而有些則沒有接續(xù)。}Overridepublic V get(Object key) {try {()。這樣就算 URL 數(shù)過大，也可以盡量避免重復(fù)下載 URL。}}如果為站內(nèi)URL則加入到緩存隊列。一般情況下同一網(wǎng)站內(nèi)的 URL 的 host 名因該是一致的?？梢耘袛嗨鼮榻^對地址。url = addURLhost(fromURL, url)。public void getHref_UrlsList(String html_text, String fromURL,UrlQueueManager urlQueueManager, int biaoji) {// 站內(nèi) URL隊列ListString siteInsideUrls = new ArrayListString()。我們先檢索 href=標(biāo)記，然后判斷出第 i+1 位為一個雙引號，所以我們可以截取 i+1 位到第 2 個雙引號的位置。}return ()。url = new URL(sourse_url)。所以我在這里寫了一個循環(huán)：s = null。圖表示了 URL 等待隊列的結(jié)構(gòu)。因為解析出來的 URL 地址可能是一些文件的地址，或者為 javascript 文件或者 css文件。但是不同的網(wǎng)站 href=后面的內(nèi)容有所不同。第二個方框為，解析 a 對應(yīng) HTML 獲取URLs：bcd，同時刪除 a。通過這種循環(huán)的獲取方式實現(xiàn)廣度優(yōu)先爬行。假設(shè)線程 1 從 URL 隊列中獲取一條任務(wù) URL 1，然后它會下載對應(yīng)的 HTML，解析出里面包含 URLs，然后再將這些 URLs 加入到 URL 隊列中去。將初始 URLs 加入到等待隊列是否為非法 URL創(chuàng)建啟動爬蟲線程從 URL 等待隊列獲取任務(wù)URL下載 URL 對應(yīng)的 HTML 代碼將相對地址轉(zhuǎn)換為絕對地址解析 HTML，獲取 URLs將 URLs 加入到URL 等待隊列是否為絕對地址是否為重復(fù)第四章系統(tǒng)分析與設(shè)計 SPIDER 構(gòu)造分析構(gòu)造 SPIDER 程序有兩種方式：（1）把 SPIDER 程序設(shè)計為遞歸的程序；（2）編寫一個非遞歸的程序，它要維護(hù)一個要訪問的網(wǎng)頁列表。UrlParse 類：用于解析 HTML，獲取并過濾 URL。當(dāng) SPIDER 程序訪問到一個網(wǎng)頁，必須進(jìn)行以下幾項基本處理：抽取網(wǎng)頁中包含的文本；抽取網(wǎng)頁中包含的 URL，并將其區(qū)分為網(wǎng)站內(nèi) URL 或網(wǎng)站外URL。其中 T 為計算中的頁面總量, C 1 是阻尼常數(shù)因子, in (p ) 為所有指向 p 的頁面的集合, out (C) 為頁面 C 出鏈的集合. 基于 PageRank 算法的網(wǎng)絡(luò)爬蟲在搜索過程中, 通過計算每個已訪問頁面的 PageRank 值來確定頁面的價值, 并優(yōu)先選擇PageRank 值大的頁面中的鏈接進(jìn)行訪問.　H ITS 算法HITS 方法定義了兩個重要概念: Authority 和 Hub. Authority 表示一個權(quán)威頁面被其它頁面引用的數(shù)量, 即該權(quán)威頁面的入度值. 網(wǎng)頁被引用的數(shù)量越大, 則該網(wǎng)頁的 Authority 值越大。在使用URL 類之前，必須創(chuàng)建一個 URL 對象，創(chuàng)建的方法是使用其構(gòu)造函數(shù)，通過向其指定一個 URL 地址，就能實例化該類。URL 去重存儲庫使用 Berkeley DB，壓縮后的 URL 字符串作為 Key，或者直接使用壓縮后的 URL 字節(jié)數(shù)組作為 Key，對于 Value 可以使用 Boolean，一個字節(jié)，或者使用字節(jié)數(shù)組，實際 Value 只是一個狀態(tài)標(biāo)識，減少 Value 存儲占用存儲空間。這樣就可以對URL 字符串進(jìn)行壓縮，得到一個壓縮字符串，同時可以直接得到一個 Hash 地址。每次有一個爬蟲線程得到一個任務(wù)URL 開始下載之前，通過到磁盤上的該文件中檢索，如果沒有出現(xiàn)過，則將這個新的 URL 寫入記事本的最后一行，否則就放棄該 URL 的下載。網(wǎng)絡(luò)爬蟲 URL 去重儲存庫設(shè)計在爬蟲啟動工作的過程中，我們不希望同一個網(wǎng)頁被多次下載，因為重復(fù)下載不僅會浪費 CPU 機(jī)時，還會為搜索引擎系統(tǒng)增加負(fù)荷。 URL 消重 URL 消重的意義在 SPIDER 系統(tǒng)實際運行的過程中，每秒下載的 10 個頁面中，分析的 URL大多數(shù)是重復(fù)的，實際上新的 URL 才幾個。多數(shù) JAVA 同步是以對象鎖定為中心的。當(dāng)線程的 run 方法運行完畢，線程將被拋棄，進(jìn)入死亡狀態(tài)。創(chuàng)建線程方式二通過實現(xiàn) Runnable 接口并實現(xiàn)接口中定義的唯一方法 run()，可以創(chuàng)建一個線程。Thread(String name)。比如，用于自動垃圾收集的線程，對象終止或者其他的 JVM 處理任務(wù)相關(guān)的線程。多線程和多進(jìn)程有什么區(qū)別呢？對于進(jìn)程來說，每個進(jìn)程都有自己的一組完整的變量，而線程則共享相同的數(shù)據(jù)。事實的真相是，對于一個 CPU 而言，它在某一個時間點上，只能執(zhí)行一個程序。本文通過 JAVA 語言實現(xiàn)一個基于廣度優(yōu)先偏歷算法的多線程爬蟲程序。此外, 還有根據(jù)概率論進(jìn)行可用 Web 頁的數(shù)量估算, 用于評估互聯(lián)網(wǎng) Web 規(guī)模的抽樣爬蟲程序。 multithreads.目錄第一章引言 .........................................................1第二章相關(guān)技術(shù)介紹 .................................................2 JAVA 線程 ......................................................2 線程概述 ..................................................2 JAVA 線程模型 .............................................2 創(chuàng)建線程 ..................................................3 JAVA 中的線程的生命周期 ....................................4 JAVA 線程的結(jié)束方式 ........................................4 多線程同步 ................................................5 URL 消重 .......................................................5 URL 消重的意義 .............................................5 網(wǎng)絡(luò)爬蟲 URL 去重儲存庫設(shè)計 ................................5 LRU 算法實現(xiàn) URL 消重 .......................................7 URL 類訪問網(wǎng)絡(luò) .................................................8　爬行策略淺析 .................................................8 寬度或深度優(yōu)先搜索策略 .....................................8 聚焦搜索策略 ..............................................9 基于內(nèi)容評價的搜索策略 .....................................9 基于鏈接結(jié)構(gòu)評價的搜索策略 ...............................10 基于鞏固學(xué)習(xí)的聚焦搜索 ...................................11 基于語境圖的聚焦搜索 .....................................11第三章系統(tǒng)需求分析及模塊設(shè)計 ......................................13 系統(tǒng)需求分析 .................................................13 SPIDER 體系結(jié)構(gòu) ...............................................13 各主要功能模塊（類）設(shè)計 .....................................14 SPIDER 工作過程 ...............................................14第四章系統(tǒng)分析與設(shè)計 ..............................................16 SPIDER 構(gòu)造分析 ...............................................16 爬行策略分析 .................................................17 URL 抽取，解析和保存 ..........................................18 URL 抽取 ..................................................18 URL 解析 ..................................................19 URL 保存 ..................................................19第五章系統(tǒng)實現(xiàn) ....................................................21 實現(xiàn)工具 .....................................................21 爬蟲工作 .....................................................21 URL 解析 ......................................................22 URL 隊列管理 ..................................................24

點擊復(fù)制文檔內(nèi)容

環(huán)評公示相關(guān)推薦

基于vcsocket的多線程網(wǎng)絡(luò)聊天系統(tǒng)開發(fā)與設(shè)計-資料下載頁

【摘要】基于VC++Socket的多線程網(wǎng)絡(luò)聊天系統(tǒng)開發(fā)與設(shè)計南陽理工學(xué)院本科生畢業(yè)設(shè)計（論文）學(xué)院（系）：軟件學(xué)院專業(yè)：軟件工程

2024-11-10 03:24

畢業(yè)論文-基于數(shù)字濾波的譜數(shù)據(jù)的平滑算法的研究與實現(xiàn)-資料下載頁

【摘要】i基于數(shù)字濾波的譜數(shù)據(jù)的平滑算法的研究與實現(xiàn)摘要：當(dāng)前正處于數(shù)字信息化時代，數(shù)字信號處理技術(shù)受到人們的廣泛關(guān)注，其理論及算法隨計算機(jī)技術(shù)和微電子技術(shù)的發(fā)展得到了飛速的發(fā)展，被廣泛應(yīng)用語音圖像處理、數(shù)字通訊、譜分析、模式識別、自動控制等領(lǐng)域。數(shù)字濾波器是數(shù)字信號中最重要的組成部分之一，幾乎出現(xiàn)在所有的數(shù)字信號處理系統(tǒng)中。數(shù)字濾波器是指完成信號濾波處

2025-06-03 22:57

畢業(yè)論文-基于java的聊天系統(tǒng)的設(shè)計與實現(xiàn)-資料下載頁

【摘要】本科畢業(yè)論文基于JAVA的聊天系統(tǒng)的設(shè)計與實現(xiàn)學(xué)院：機(jī)電工程學(xué)院專業(yè)：計算機(jī)科學(xué)與技術(shù)雙學(xué)位學(xué)號：043545464姓名：指導(dǎo)教師：李美安職稱：教授論文提交日期：二ОО八年四月

2025-01-12 11:59

基于opengles的iphone游戲的設(shè)計與實現(xiàn)畢業(yè)論文-資料下載頁

【摘要】目錄第1章緒論 1引言 1本論文研究內(nèi)容 1OpenGLES概述 2本論文的組織 3第2章游戲開發(fā)環(huán)境的介紹 4iPhone平臺簡介 4iPhone開發(fā)環(huán)境的搭建 4第3章游戲基本框架的搭建 5啟動Xcode創(chuàng)建工程 5游戲流程框圖 8游戲DGSprite類的實現(xiàn) 9游戲DGUInterface文件的實現(xiàn)

2025-06-18 17:10

基于ios的禮物說的設(shè)計與實現(xiàn)畢業(yè)論文-資料下載頁

【摘要】基于IOS的禮物說的設(shè)計與實現(xiàn)目錄摘要 1Abstract 11關(guān)于本文檔 22項目概述 2 2主要功能 2涉及用戶角色 43開發(fā)介紹 4開發(fā)環(huán)境 4硬件 4軟件 4開發(fā)語言 5開發(fā)工具Xcode 54前期準(zhǔn)備 6基礎(chǔ)架構(gòu)模式 6導(dǎo)入第三方庫 7相關(guān)接口地址 7首頁 7熱門

2025-06-26 20:56

基于java的聊天系統(tǒng)的設(shè)計與實現(xiàn)畢業(yè)論文-資料下載頁

【摘要】基于JAVA的聊天系統(tǒng)的設(shè)計與實現(xiàn)畢業(yè)論文目錄1.緒論………………………………………………………………………………01JAVA的網(wǎng)絡(luò)功能與編程…………………………………………………01JAVA概述…………………………………………………………………02JAVA的特點……………………………………………………………04JAVA語言

2025-06-24 23:40

基于jsp的bbs論壇的設(shè)計與實現(xiàn)畢業(yè)論文-資料下載頁

【摘要】本科生畢業(yè)論文(設(shè)計)基于JSP的財大家園BBS論壇的設(shè)計與實現(xiàn)姓　　名學(xué)　　號?！　I(yè)指導(dǎo)教師2022年05月20日摘　要隨著網(wǎng)絡(luò)應(yīng)用的興起，人們交流的方式也發(fā)生了翻天覆地的變化。網(wǎng)絡(luò)聊天、網(wǎng)絡(luò)視頻

2025-06-24 20:15

基于java的校園bbs的設(shè)計與實現(xiàn)-畢業(yè)論文-資料下載頁

【摘要】安徽建筑工業(yè)學(xué)院畢業(yè)設(shè)計(論文)專業(yè)信息與計算科學(xué)班級06信息(2)學(xué)生姓名李寧學(xué)號0

2024-11-10 03:41

畢業(yè)論文-基于數(shù)字濾波的譜數(shù)據(jù)的平滑算法的研究與實現(xiàn)-資料下載頁

2025-01-16 22:43

新聞爬蟲系統(tǒng)的結(jié)構(gòu)設(shè)計與實現(xiàn)畢業(yè)設(shè)計論文-資料下載頁

【摘要】新聞爬蟲系統(tǒng)的結(jié)構(gòu)設(shè)計與實現(xiàn)畢業(yè)設(shè)計論文1緒論本章主要闡明了該課題的研究背景及其研究意義，簡要說明了國內(nèi)外對于爬蟲系統(tǒng)的研究現(xiàn)狀，并介紹了本論文的主要內(nèi)容組成以及論文的組織結(jié)構(gòu)。開發(fā)背景及目的隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展與應(yīng)用的普及，網(wǎng)絡(luò)作為信息的載體，已經(jīng)成為社會大眾參與社會生活的一種重要信息渠道。由于互聯(lián)網(wǎng)是開放的，每個人都可以在網(wǎng)絡(luò)上發(fā)表信息，內(nèi)容涉及各個方面。小

2025-06-23 08:58

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

基于廣度優(yōu)先算法的多線程爬蟲程序的設(shè)計與實現(xiàn)畢業(yè)論文(存儲版)

基于vcsocket的多線程網(wǎng)絡(luò)聊天系統(tǒng)開發(fā)與設(shè)計-資料下載頁

畢業(yè)論文-基于數(shù)字濾波的譜數(shù)據(jù)的平滑算法的研究與實現(xiàn)-資料下載頁

畢業(yè)論文-基于java的聊天系統(tǒng)的設(shè)計與實現(xiàn)-資料下載頁

基于opengles的iphone游戲的設(shè)計與實現(xiàn)畢業(yè)論文-資料下載頁

基于ios的禮物說的設(shè)計與實現(xiàn)畢業(yè)論文-資料下載頁

基于java的聊天系統(tǒng)的設(shè)計與實現(xiàn)畢業(yè)論文-資料下載頁

基于jsp的bbs論壇的設(shè)計與實現(xiàn)畢業(yè)論文-資料下載頁

基于java的校園bbs的設(shè)計與實現(xiàn)-畢業(yè)論文-資料下載頁

畢業(yè)論文-基于數(shù)字濾波的譜數(shù)據(jù)的平滑算法的研究與實現(xiàn)-資料下載頁

新聞爬蟲系統(tǒng)的結(jié)構(gòu)設(shè)計與實現(xiàn)畢業(yè)設(shè)計論文-資料下載頁

畢業(yè)論文-基于vb的掃雷游戲設(shè)計與實現(xiàn)-資料下載頁

畢業(yè)論文-基于android的解謎游戲設(shè)計與實現(xiàn)-資料下載頁

des算法的可視化程序的實現(xiàn)—畢業(yè)設(shè)計論文-資料下載頁

多線程管理與線程通信操作系統(tǒng)課程設(shè)計論文-資料下載頁

基于android的手機(jī)計步器設(shè)計與實現(xiàn)畢業(yè)論文-資料下載頁

基于廣度優(yōu)先算法的多線程爬蟲程序的設(shè)計與實現(xiàn)畢業(yè)論文-文庫吧

基于廣度優(yōu)先算法的多線程爬蟲程序的設(shè)計與實現(xiàn)畢業(yè)論文-wenkub

基于廣度優(yōu)先算法的多線程爬蟲程序的設(shè)計與實現(xiàn)畢業(yè)論文(已修改)

基于廣度優(yōu)先算法的多線程爬蟲程序的設(shè)計與實現(xiàn)畢業(yè)論文(編輯修改稿)