正文內容

基于廣度優(yōu)先算法的多線程爬蟲程序的設計與實現(xiàn)畢業(yè)論文-展示頁

2025-07-06 20:21本頁面

　　

【正文】阻塞，等待鍵盤鍵入，調用了線程的 sleep 方法，調用了對象的 wait()方法等，則線程將進入阻塞狀態(tài)，直到這些阻塞原因被解除，如：IO 完成，鍵盤輸入了數(shù)據(jù)，調用 sleep 方法后的睡眠時間到以及其他線程調用了對象的 notify 或 notifyAll 方法來喚醒這個因為等待而阻塞的線程等，線程將返回到 Runnable 狀態(tài)重新等待調度程序調度，注意，被阻塞的線程不會直接返回到 Running 狀態(tài)，而是重新回到 Runnable 狀態(tài)等待線程調度程序的調用。當線程的 run 方法運行完畢，線程將被拋棄，進入死亡狀態(tài)。然后，調用線程的 start()方法，來向線程調度程序（通常是 JVM 或操作系統(tǒng)）注冊一個線程，這個時候，這個線程一切就緒，就等待 CPU 時間了。其中，Running 狀態(tài)并非屬于 JAVA 規(guī)范中定義的線程狀態(tài)，也就是說，在 JAVA 規(guī)范中，并沒有將運行（Running）狀態(tài)真正的設置為一個狀態(tài)，它屬于可運行狀態(tài)的一種。從上面兩種創(chuàng)建線程的方法可以看出，如果繼承 Thread 類，則這個類本身可以調用 start 方法，也就是說將這個繼承了 Thread 的類當作目標對象；而如果實現(xiàn) Runnable 接口，則這個類必須被當作其他線程的目標對象。創(chuàng)建線程方式二通過實現(xiàn) Runnable 接口并實現(xiàn)接口中定義的唯一方法 run()，可以創(chuàng)建一個線程。使用 start()方法，線程進入 Runnable 狀態(tài)，它將線程調度器注冊這個線程。通常，我們可以將一個類繼承 Thread，然后，覆蓋 Thread 中的 run()方法，這樣讓這個類本身也就成了線程。Thread(ThreadGroup group,Runnable target)。Thread(String name)。Thread(Runnable target,String name)。Thread(Runnable target)。Thread 有很多個構造器來創(chuàng)建一個線程（Thread）實例：Thread()。比如，用于自動垃圾收集的線程，對象終止或者其他的 JVM 處理任務相關的線程。它由 JVM 創(chuàng)建并調用 JAVA 應用程序的 main（）方法。JAVA 的線程是通過類來實現(xiàn)的，它內部實現(xiàn)了虛擬 CPU 的功能，能夠接收和處理傳遞給它的代碼和數(shù)據(jù)，并提供了獨立的運行控制功能。在 JAVA 語言中，多線程的機制是通過虛擬 CPU 來實現(xiàn)的。多線程和多進程有什么區(qū)別呢？對于進程來說，每個進程都有自己的一組完整的變量，而線程則共享相同的數(shù)據(jù)。多線程（MultiThread）擴展了多進程（multiProcess）操作的概念，將任務的劃分下降到了程序級別，使得各個程序似乎可以在同一個時間內執(zhí)行多個任務。而對于 CPU 而言，它的時間是以毫秒來計算的，從我們肉眼看來，它們就是一個連續(xù)的動作。那么，為什么我們看不出任何的中斷現(xiàn)象呢？這是因為，相對于我們的感覺，它的速度實在太快了。事實的真相是，對于一個 CPU 而言，它在某一個時間點上，只能執(zhí)行一個程序。對于我來說，這些操作都是同步進行的，我不需要等一首歌曲放完了再來編輯我的論文。所謂多進程，就是讓系統(tǒng)（好像）同時運行多個程序。第二章相關技術介紹 JAVA 線程線程概述幾乎每種操作系統(tǒng)都支持線程的概念—進程就是在某種程度上相互隔離的，獨立運行的程序。本文通過 JAVA 語言實現(xiàn)一個基于廣度優(yōu)先偏歷算法的多線程爬蟲程序。高效，優(yōu)秀的爬蟲程序可以使人們在互聯(lián)網上尋找到更及時，更準確的信息。爬蟲程序的實現(xiàn)策略，運行效率直接影響搜索引擎的搜索結果。爬蟲程序是一個自動獲取網頁的程序。此外, 還有根據(jù)概率論進行可用 Web 頁的數(shù)量估算, 用于評估互聯(lián)網 Web 規(guī)模的抽樣爬蟲程序。現(xiàn)在比較流行的搜索引擎，比如 google，百度，它們爬蟲程序的技術內幕一般都不公開。爬蟲程序就是用來搜集網頁的程序。搜索引擎搜集互聯(lián)網上數(shù)以億計的網頁，并為每個詞建立索引。 multithreads.目錄第一章引言 .........................................................1第二章相關技術介紹 .................................................2 JAVA 線程 ......................................................2 線程概述 ..................................................2 JAVA 線程模型 .............................................2 創(chuàng)建線程 ..................................................3 JAVA 中的線程的生命周期 ....................................4 JAVA 線程的結束方式 ........................................4 多線程同步 ................................................5 URL 消重 .......................................................5 URL 消重的意義 .............................................5 網絡爬蟲 URL 去重儲存庫設計 ................................5 LRU 算法實現(xiàn) URL 消重 .......................................7 URL 類訪問網絡 .................................................8　爬行策略淺析 .................................................8 寬度或深度優(yōu)先搜索策略 .....................................8 聚焦搜索策略 ..............................................9 基于內容評價的搜索策略 .....................................9 基于鏈接結構評價的搜索策略 ...............................10 基于鞏固學習的聚焦搜索 ...................................11 基于語境圖的聚焦搜索 .....................................11第三章系統(tǒng)需求分析及模塊設計 ......................................13 系統(tǒng)需求分析 .................................................13 SPIDER 體系結構 ...............................................13 各主要功能模塊（類）設計 .....................................14 SPIDER 工作過程 ...............................................14第四章系統(tǒng)分析與設計 ..............................................16 SPIDER 構造分析 ...............................................16 爬行策略分析 .................................................17 URL 抽取，解析和保存 ..........................................18 URL 抽取 ..................................................18 URL 解析 ..................................................19 URL 保存 ..................................................19第五章系統(tǒng)實現(xiàn) ....................................................21 實現(xiàn)工具 .....................................................21 爬蟲工作 .....................................................21 URL 解析 ......................................................22 URL 隊列管理 ..................................................24 URL 消重處理 ..............................................24 URL 等待隊列維護 ..........................................26 數(shù)據(jù)庫設計 ...............................................27第六章系統(tǒng)測試 ....................................................29第七章結論 ........................................................32參考文獻 ...........................................................33致謝 ...............................................................34外文資料原文 .......................................................35譯文 ...............................................................51第一章引言隨著互聯(lián)網的飛速發(fā)展，網絡上的信息呈爆炸式增長。 JAVA。 data structure。ABSTRACT SPIDER is a program which can auto collect informations from inter. SPIDER can collect data for search engines, also can be a Directional information collector, collects specifically informations from some web sites, such as HR informations, house rent informations.In this paper, use JAVA implements a breadthfirst algorithm multithread SPDIER. This paper expatiates some major problems of SPIDER: why to use breadthfirst crawling strategy, and how to implement breadthfirst crawling。通過實現(xiàn)這一爬蟲程序，可以搜集某一站點的 URLs，并將搜集到的 URLs存入數(shù)據(jù)庫。本文通過 JAVA 實現(xiàn)了一個基于廣度優(yōu)先算法的多線程爬蟲程序。摘要網絡爬蟲是一種自動搜集互聯(lián)網信息的程序。通過網絡爬蟲不僅能夠為搜索引擎采集網絡信息，而且可以作為定向信息采集器，定向采集某些網站下的特定信息，如招聘信息，租房信息等。本論文闡述了網絡爬蟲實現(xiàn)中一些主要問題：為何使用廣度優(yōu)先的爬行策略，以及如何實現(xiàn)廣度優(yōu)先爬行；為何要使用多線程，以及如何實現(xiàn)多線程；系統(tǒng)實現(xiàn)過程中的數(shù)據(jù)存儲；網頁信息解析等。【關鍵字】網絡爬蟲；JAVA；廣度優(yōu)先；多線程。 why to use multithreading, and how to implement multithread。 HTML code parse. etc. This SPIDER can collect URLs from one web site, and store URLs into database. 【KEY WORD】SPIDER。 Breadth First Search。這使得人們在網上找到所需的信息越來越困難，這種情況下搜索引擎應運而生。在建立搜索引擎的過程中，搜集網頁是非常重要的一個環(huán)節(jié)。以何種策略偏歷互聯(lián)網上的網頁，也成了爬蟲程序主要的研究方向。目前幾種比較常用的爬蟲實現(xiàn)策略：廣度優(yōu)先的爬蟲程序，Repetitive 爬蟲程序，定義爬行爬蟲程序，深層次爬行爬蟲程序。采用爬行深度、頁面導入鏈接量分析等方法, 限制從程序下載不相關的 Web 頁的選擇性爬行程序等等。它為搜索引擎從互聯(lián)網上下載網頁

點擊復制文檔內容

環(huán)評公示相關推薦

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

基于廣度優(yōu)先算法的多線程爬蟲程序的設計與實現(xiàn)畢業(yè)論文-展示頁

網絡爬蟲的設計與實現(xiàn)畢業(yè)論文-展示頁

新聞爬蟲系統(tǒng)的設計與實現(xiàn)畢業(yè)論文-展示頁

socket和多線程編程的聊天程序實現(xiàn)-展示頁

畢業(yè)論文-面向webservice的網絡爬蟲設計與實現(xiàn)-展示頁

基于java的多線程跨平臺下載軟件的實踐畢業(yè)論文-展示頁

java多線程與線程安全實踐基于ttp協(xié)議的斷點續(xù)傳—畢業(yè)設計論文-展示頁

網絡爬蟲的設計與實現(xiàn)畢業(yè)論文正稿-展示頁

基于java多線程的代理服務器的設計與實現(xiàn)-展示頁

畢業(yè)論文設計：面向webservice的網絡爬蟲設計與實現(xiàn)-展示頁

畢業(yè)論文-面向webservice的網絡爬蟲設計與實現(xiàn)-展示頁

多串口多線程的數(shù)據(jù)管理系統(tǒng)的設計畢業(yè)論文-展示頁

多線程斷點續(xù)傳的ftp軟件設計畢業(yè)論文-展示頁

java多線程與線程安全實踐基于ttp協(xié)議的斷點續(xù)傳—免費畢業(yè)設計論文-展示頁

畢業(yè)論文設計：面向webservice的網絡爬蟲設計與實現(xiàn)-展示頁

基于fpga的svpwm算法的實現(xiàn)畢業(yè)論文-展示頁

基于廣度優(yōu)先算法的多線程爬蟲程序的設計與實現(xiàn)畢業(yè)論文-預覽頁

基于廣度優(yōu)先算法的多線程爬蟲程序的設計與實現(xiàn)畢業(yè)論文-免費閱讀

基于廣度優(yōu)先算法的多線程爬蟲程序的設計與實現(xiàn)畢業(yè)論文(存儲版)

基于廣度優(yōu)先算法的多線程爬蟲程序的設計與實現(xiàn)畢業(yè)論文-文庫吧在線文庫

基于廣度優(yōu)先算法的多線程爬蟲程序的設計與實現(xiàn)畢業(yè)論文(完整版)