正文內(nèi)容

網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)畢業(yè)論文正稿-資料下載頁

2025-06-28 21:18本頁面

　　

【正文】 .. ..UrlQueueManager urlQueueManager, int biaoji) {// 站內(nèi)URL隊列ListString siteInsideUrls = new ArrayListString()。String url = 。// HTML中是否還含有href標(biāo)簽boolean haveHref = (href)。while (haveHref) {html_text = ((href=) + 5)。// 當(dāng) href= 后以開頭的情況if (39。\39。 == (0)) {html_text = (1)。url = (0, (\))。url = addURLhost(fromURL, url)。if (isSiteInsideUrl(url, urlQueueManager)) {if (!(url)) {(url)。}}haveHref = (href)。}(siteInsideUrls)。}在每個 URL 被截取出來之后，需要判斷這些 URL 是相對地址，還是絕對地址。a href=../mlist/ target=_self 動作片/aa href= 例如上面的 HTML 代碼，如果截取出來的 URL 為../mlist/ 這種形式，即為相對地址。我們需要將其轉(zhuǎn)化為絕對地址。假如這個相對地址的父URL 為概念，../為返回上一層，所以可以得到這個相對地址的絕對地址為 2 種 URL，它包含完整的協(xié)議信息，域名地址。可以判斷它為絕對地址。當(dāng)?shù)玫竭@些完整的 URL 地址以后，我們需要對其進(jìn)行過濾。很多 URL 它們指向的文件不是 HTML 文件，而是一些 CSS 文件，或者 RAR 包文件，或者只是接.. .. .. ..續(xù)“”符號，代表只是調(diào)用一段 javascript 代碼。像這種情況我們就直接拋棄這些 URLs。下面是一段實行代碼。代碼通過檢索 URL 字符串中是否包含.css，.rar，.zip這些后綴來進(jìn)行判斷。// 如果url中包含以下字符串，則不加入隊列if (().contains(.css)|| ().contains(.rar) || ()|| (.zip) || (javascript)) {return false。}過濾完后的 URLs，再判斷它為站內(nèi) URL 或者為站外 URL。一般情況下同一網(wǎng)站內(nèi)的 URL 的 host 名因該是一致的。所以我們可以通過判斷 URLs 中是否包含站點 host 就可以了。下面的代碼是 host 的情況。其他情況的代碼可以類推。// if ((.)) {String str = (0,(.))。if ((((39。.39。)) + .)) {return true。}}如果為站內(nèi)URL則加入到緩存隊列。 URL 隊列管理 URL 消重處理URL 消重處理，我是用 LRU 算法加上 MD5 壓縮算法來實現(xiàn)的。因為 URLs 的數(shù)量非常巨大，為了節(jié)省內(nèi)存空間。我先通過 MD5 壓縮來得到每個 URL 對于的一個 hash 碼。這個 hash 碼的長度相對較小，可以節(jié)省內(nèi)存開銷。而且產(chǎn)生碰撞的幾率非常小，可以忽略不計。然后這個 URL 消重隊列的維護(hù)是同時 LRULinkedHashMap 來實現(xiàn)的。這個Map 非常好，它總是淘汰重復(fù)次數(shù)最少的 URL。這樣就算 URL 數(shù)過大，也可以盡量避免重復(fù)下載 URL。它的具體構(gòu)造如下：.. .. .. ..public class LRULinkedHashMapK, V extends LinkedHashMapK, V {private static final long serialVersionUID = 1L。private final int maxCapacity。private static final float DEFAULT_LOAD_FACTOR = 。private final Lock lock = new ReentrantLock()。public LRULinkedHashMap(int maxCapacity) {super(maxCapacity, DEFAULT_LOAD_FACTOR, true)。 = maxCapacity。}@Overrideprotected boolean removeEldestEntry(K, V eldest) {return size() maxCapacity。}@Overridepublic V get(Object key) {try {()。return (key)。} finally {()。}}@Overridepublic V put(K key, V value) {try {()。return (key, value)。} finally {()。}}}有了這個 map 以后，我就會用 URL 到里面去碰撞。因為有些網(wǎng)站的 URL 寫法不固定。也許是同一個 URL，但是有些在最后一位接續(xù)/符號，而有些則沒有接續(xù)。這樣當(dāng)進(jìn)行 URL 去重處理時，會認(rèn)為它們不是一個 URL。所以我們必.. .. .. ..須先除去后面的/符號，再進(jìn)行 URL 去重判斷。public synchronized boolean isContainUrl(String url) {if ((/)) {url = (0, () 1)。}boolean b = ((url))。((url), true)。return b。} URL 等待隊列維護(hù)對 URL 等待隊列的操作主要有 2 個：從里面取出 URLs。往里面加入 URLs。但是因為 URL 等待隊列會非常巨大，所以我將 URL 等待隊列設(shè)計成 3 段式。2 段基于內(nèi)存的 URL 緩存區(qū)，和一個基于數(shù)據(jù)庫的儲存區(qū)。所以這里就會有 2 個方法來完成數(shù)據(jù)直接的交接。當(dāng)加入 URL 緩存太長時，調(diào)用下面的方法，將緩存區(qū)的內(nèi)容加入到數(shù)據(jù)庫。具體的實現(xiàn)方法是，當(dāng)存入緩存超過一定數(shù)目的時候。調(diào)用 waitQueueDecrease()這個函數(shù)，將存入緩存里的數(shù)據(jù)轉(zhuǎn)移到數(shù)據(jù)庫。方法是取出下標(biāo)為 0 的元素，將其加入到數(shù)據(jù)庫，然后刪除下標(biāo)為 0 的元素。不斷重復(fù)這個操作，直到存入緩存被清空。下面是具體實現(xiàn)的 JAVA 代碼。public synchronized void waitQueueDecrease() {try {Statement stmt = null。while (() 0) {try {stmt = ().createStatement()。while ((0).size() 0) {String url = (String)(0).get(0)。(0).remove(0)。(insert into middlequeue (url) values(39。+ url + 39。)。)。(insert into databasequeue (url) values(39。+ url + 39。)。)。}.. .. .. ..當(dāng)取出緩存區(qū)空以后，需要將數(shù)據(jù)庫的內(nèi)容加入到緩存區(qū)。通過調(diào)用waitQueueAdd()這個函數(shù)來實現(xiàn)。具體的實現(xiàn)方法是：從數(shù)據(jù)庫里搜索前 25 條數(shù)據(jù)，因為數(shù)據(jù)庫添加數(shù)據(jù)時是順序往下壓入的。對于 MYSQL 數(shù)據(jù)庫，可以使用 LIMIT 這個關(guān)鍵字。檢索存入數(shù)據(jù)庫最上端的 25 條數(shù)據(jù)，然后依次將其加入到取出緩存區(qū)。然后刪除數(shù)據(jù)庫中這 25 條數(shù)據(jù)。下面是具體實現(xiàn)的 JAVA 代碼：public synchronized void waitQueueAdd() {String sql = SELECT * FROM middlequeue LIMIT 25。Statement stmt = null。ResultSet res = null。try {stmt = ().createStatement()。res = (sql)。while (()) {((url))。}(delete from middlequeue limit 25)。數(shù)據(jù)庫設(shè)計對于 MYSQL 數(shù)據(jù)庫的設(shè)計。我建立了 2 個表，分別為 middlequeue 和databasequeue。middlequeue 表和 databasequeue 表都只有一個字段 URL，同時它作為主鍵，因為存入的 URL 不可能重復(fù)。Middlequeue 用于 URL 等待隊列的主存儲部分。而 databasequeue 表記錄爬蟲程序運行得到的所有 URLs。JAVA 程序和數(shù)據(jù)之間的通信是通過 JDBC 實現(xiàn)的。下面是 JAVA 程序連接MYSQL 數(shù)據(jù)庫的代碼。public static Connection conn() {Connection conn = null。try {// 加載Connector/J驅(qū)動().newInstance()。// 建立到MySQL的連接conn = (jdbc: root, root)。} catch (Exception ex) {.. .. .. ..(Error : + ())。}return conn。}.. .. .. ..第六章系統(tǒng)測試我以 URL。然后用爬蟲程序去運行。5 分鐘內(nèi)總共爬行出了 2201 個 URL。下面是從數(shù)據(jù)庫里截圖的 2 段爬行結(jié)果。圖部分運行結(jié)果圖為最先爬蟲出來的 URLs 結(jié)果。我分析 HTML 代碼。最先檢索出來 href 如下：.. .. .. ..這是一個相對地址，對應(yīng)圖的爬蟲結(jié)果。程序?qū)⑵滢D(zhuǎn)化為了，絕對地址。但分析這個 URL 可以得知。這個 URL 為 ico 文件，是不可能被當(dāng)作 HTML 解析的。所以這種 URL 因該過濾掉。這是程序設(shè)計上的不足。然后被檢索出來的 href 標(biāo)簽是：這是一段完整 URL，但是其 host 名同初始 URL 不一致，同時它的后綴為css，表明它指向的文件為 css 文件。所以因該被過濾掉。對應(yīng)圖的爬蟲結(jié)果，可以看到這段 URL 的確被過濾了。第三個被檢索到的 href 標(biāo)簽為：這是一段很標(biāo)準(zhǔn)的 URL,它的 host 為并且可以得到 HTML 代碼。所以這個 URL 被加入 URL 隊列。根據(jù)測試結(jié)果可以得知爬蟲程序能夠正確解析出頁面 URLs。.. .. .. ..我在 SpiderWorker 的 run 方法寫入這樣一段代碼：(線程+ biaoji+運行)。圖圖為控制臺打印出來的信息。根據(jù)顯示結(jié)果可以看出，不同的線程的確是在交替完成爬行任務(wù)。.. .. .. ..第七章結(jié)論從課題著手到現(xiàn)在論文完成，經(jīng)歷了 3 個月的時間。在這個 3 個月里，我不斷學(xué)習(xí)，探索，從對網(wǎng)絡(luò)爬蟲一無所知，到能成功編寫出網(wǎng)絡(luò)爬蟲程序。對網(wǎng)絡(luò)爬蟲中比較主流的技術(shù)都有了更深的理解。網(wǎng)絡(luò)爬蟲是一個自動搜集互聯(lián)網(wǎng)信息的工具，實現(xiàn)了網(wǎng)絡(luò)爬蟲，就可以在互聯(lián)網(wǎng)這樣一個巨大的信息海洋里遨游。這篇論文實現(xiàn)了一個基于廣度優(yōu)先策略的多線程爬蟲程序，可以搜集站內(nèi)URLs。但是在功能細(xì)節(jié)上還有很多不足，比如系統(tǒng)不夠優(yōu)化，功能不夠強(qiáng)大，沒有解析網(wǎng)頁信息。對于網(wǎng)絡(luò)爬蟲這個龐大的知識體系來說，這篇論文實現(xiàn)的功能只能算一些皮毛。要深刻地理解爬蟲程序，在爬蟲程序設(shè)計中有所作為，還需要長達(dá)幾年，或者更長時間的積累。所以在以后的時間，我將繼續(xù)研究網(wǎng)絡(luò)爬蟲技術(shù)。分析設(shè)計一些比較復(fù)雜的爬行策略，優(yōu)化爬蟲程序。希望在這一課題上達(dá)到另一個高度。.. .. .. ..參考文獻(xiàn)，簡析搜索引擎中網(wǎng)絡(luò)爬蟲的搜索策略[N]，阜陽師范學(xué)院學(xué)報(自然科學(xué)版)，2022(09)：P60～63.，基于 JAVA 的多線程 SPID

點擊復(fù)制文檔內(nèi)容

環(huán)評公示相關(guān)推薦

家庭理財系統(tǒng)的設(shè)計與實現(xiàn)畢業(yè)論文正稿-資料下載頁

【總結(jié)】.....畢業(yè)論文（設(shè)計）論文(設(shè)計)題目家庭理財系統(tǒng)的設(shè)計與實現(xiàn)院系名稱專業(yè)（班級）姓名（學(xué)號）指導(dǎo)教師

2025-06-27 20:52

電子商務(wù)網(wǎng)站的設(shè)計與實現(xiàn)畢業(yè)論文正稿-資料下載頁

【總結(jié)】........第一章緒論電子商務(wù)是一種依托現(xiàn)代信息技術(shù)和網(wǎng)絡(luò)技術(shù)，集金融電子化、管理信息化、商貿(mào)信息網(wǎng)絡(luò)化為一體，旨在實現(xiàn)物流、資金流與信息流和諧統(tǒng)一的新型貿(mào)易方式。電子商務(wù)在互聯(lián)網(wǎng)的基礎(chǔ)上，突破傳統(tǒng)的時空觀念，縮小了生產(chǎn)、流通、分配、消費之間的距

2025-06-23 13:58

軟件工程畢業(yè)設(shè)計_網(wǎng)絡(luò)爬蟲設(shè)計與實現(xiàn)-資料下載頁

【總結(jié)】evaluationofscientificdevelopment.Naturesecuritytype--naturesecurityistomaintenancepeopleofhealthvaluefortarget,throughstrengtheningsecuritybased

2024-12-03 16:56

基于cordic算法的ofdm系統(tǒng)的設(shè)計與實現(xiàn)畢業(yè)論文正稿-資料下載頁

【總結(jié)】.....目錄目錄 1摘要 2Abstract 31研究背景 1移動通信的發(fā)展歷程 1OFDM技術(shù)發(fā)展簡介 42OFDM技術(shù)概述 4OFDM基本原理 4OFDM技術(shù)優(yōu)缺點 5OFDM

2025-06-24 15:40

基于廣度優(yōu)先算法的多線程爬蟲程序的設(shè)計與實現(xiàn)畢業(yè)論文-資料下載頁

【總結(jié)】摘要網(wǎng)絡(luò)爬蟲是一種自動搜集互聯(lián)網(wǎng)信息的程序。通過網(wǎng)絡(luò)爬蟲不僅能夠為搜索引擎采集網(wǎng)絡(luò)信息，而且可以作為定向信息采集器，定向采集某些網(wǎng)站下的特定信息，如招聘信息，租房信息等。本文通過JAVA實現(xiàn)了一個基于廣度優(yōu)先算法的多線程爬蟲程序。本論文闡述了網(wǎng)絡(luò)爬蟲實現(xiàn)中一些主要問題：為何使用廣度優(yōu)先的爬行策略，以及如何實現(xiàn)廣度優(yōu)先爬行；為何要使用多線程，以及如何實現(xiàn)多線程；系統(tǒng)實現(xiàn)

2025-06-27 20:21

網(wǎng)絡(luò)討論平臺的設(shè)計與實現(xiàn)畢業(yè)論文-資料下載頁

【總結(jié)】四川理工學(xué)院本科畢業(yè)論文網(wǎng)絡(luò)討論平臺的設(shè)計與實現(xiàn)畢業(yè)論文目錄摘要 IAbstract II第一章前言 1平臺開發(fā)背景 1主要設(shè)計內(nèi)容 2本章小結(jié) 2第二章相關(guān)技術(shù)介紹 3開發(fā)工具 3 3B/S架構(gòu) 4數(shù)據(jù)庫技術(shù) 5本章小結(jié) 6第三章系統(tǒng)總體設(shè)計 7設(shè)計目標(biāo) 7系統(tǒng)主要功能模塊 8平臺總體流程

2025-06-28 21:11

網(wǎng)絡(luò)銷售系統(tǒng)的設(shè)計與實現(xiàn)畢業(yè)論文-資料下載頁

【總結(jié)】I摘要過去對網(wǎng)絡(luò)銷售系統(tǒng)的研究主要集中在Windows平臺下使用.NET架構(gòu)技術(shù)、HTTP/TCP協(xié)議和MTS(MicrosoftTransactionServer,事務(wù)處理服務(wù))技術(shù)來實現(xiàn)，這樣數(shù)據(jù)安全性不是很好。本網(wǎng)絡(luò)營銷系統(tǒng)采用SOA（面向服務(wù)）的架構(gòu)，運用WCF和MSMQ技術(shù)，為商家提供安全可靠、高效、可交互、

2025-08-17 21:28

網(wǎng)絡(luò)答疑系統(tǒng)的設(shè)計與實現(xiàn)畢業(yè)論文-資料下載頁

【總結(jié)】摘要摘要隨著計算機(jī)及網(wǎng)絡(luò)技術(shù)的飛速發(fā)展，Inter/Intra應(yīng)用在全球范圍內(nèi)日益普及，當(dāng)今社會正快速向信息化社會前進(jìn)，信息自動化的作用也越來越大。電子商務(wù)的出現(xiàn)使我們從繁雜的事務(wù)中解放出來，提高了我們的工作效率。本系統(tǒng)是一個具有交互功能的C2C類型的電子商務(wù)網(wǎng)站（客戶與客戶之間進(jìn)行商品交易的平臺），它是在網(wǎng)上建立的一個商品交易市場，網(wǎng)

2025-06-22 00:41

網(wǎng)絡(luò)bbs的設(shè)計與實現(xiàn)過程畢業(yè)論文-資料下載頁

【總結(jié)】摘要論壇提供一塊公共電子白板，每個用戶都可以在上面書寫，可發(fā)布信息或提出看法。用戶在BBS站點上可以獲得各種信息服務(wù)，發(fā)布信息，進(jìn)行討論，聊天等等。本文討論了一個網(wǎng)絡(luò)BBS的設(shè)計與實現(xiàn)過程，詳細(xì)地講述了開發(fā)一個基于Web的BBS網(wǎng)站系統(tǒng)所涉及到的技術(shù)和方法。系統(tǒng)使用MicrosoftVisualStudio2005為前臺開發(fā)工具，以SQLServer2005為數(shù)

2025-06-23 02:05

網(wǎng)絡(luò)銷售系統(tǒng)的設(shè)計與實現(xiàn)畢業(yè)論文-資料下載頁

【總結(jié)】摘要過去對網(wǎng)絡(luò)銷售系統(tǒng)的研究主要集中在Windows架構(gòu)技術(shù)、HTTP/TCP協(xié)議和MTS(MicrosoftTransactionServer,事務(wù)處理服務(wù))技術(shù)來實現(xiàn)，這樣數(shù)據(jù)安全性不是很好。本網(wǎng)絡(luò)營銷系統(tǒng)采用SOA（面向服務(wù)）的架構(gòu)，運用WCF和MSMQ技術(shù)，為商家提供安全可靠、高效、可交互、可異步管理的網(wǎng)上銷售系統(tǒng)。本論文針對

2025-06-23 20:52

網(wǎng)絡(luò)答疑系統(tǒng)的設(shè)計與實現(xiàn)畢業(yè)論文-資料下載頁

【總結(jié)】摘要I摘要隨著計算機(jī)及網(wǎng)絡(luò)技術(shù)的飛速發(fā)展，Inter/Intra應(yīng)用在全球范圍內(nèi)日益普及，當(dāng)今社會正快速向信息化社會前進(jìn)，信息自動化的作用也越來越大。電子商務(wù)的出現(xiàn)使我們從繁雜的事務(wù)中解放出來，提高了我們的工作效率。本系統(tǒng)是一個具有交互功能的C2C類型的電子商務(wù)網(wǎng)站（客戶與客戶之間進(jìn)行商品交易的平臺），它

2025-08-19 00:18

信息安全與網(wǎng)絡(luò)防御畢業(yè)論文正稿-資料下載頁

【總結(jié)】.....甘肅工業(yè)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(論文)題目:淺談信息安全與防御策略學(xué)院電信學(xué)院專業(yè)計算機(jī)應(yīng)用技術(shù)年級計算機(jī)1132班

2025-06-24 17:21

智能小區(qū)網(wǎng)絡(luò)設(shè)計規(guī)劃畢業(yè)論文正稿-資料下載頁

【總結(jié)】.....學(xué)習(xí)參考摘要近年來中國大步跨入了信息化社會，人們的工作生活與通信、信息的關(guān)系日益緊密，信息化社會在改變我們生活方式與工作習(xí)慣的同時，也對傳統(tǒng)的住宅提出了挑戰(zhàn)。人們對居住環(huán)境要求不斷提高，希望有一個安全、舒適、便捷

2025-07-20 02:04

建材公司網(wǎng)絡(luò)安全設(shè)計與實施畢業(yè)論文正稿-資料下載頁

【總結(jié)】......商丘職業(yè)技術(shù)學(xué)院畢業(yè)論文建材公司網(wǎng)絡(luò)安全設(shè)計與實施學(xué)生姓名張超朋專業(yè)名稱計算機(jī)信息管理班級計管一班院（系）名稱商丘職業(yè)技術(shù)學(xué)院學(xué)號：090

2025-06-27 21:34

afc系統(tǒng)網(wǎng)絡(luò)設(shè)計與實現(xiàn)畢業(yè)論文-資料下載頁

【總結(jié)】AFC系統(tǒng)網(wǎng)絡(luò)設(shè)計與實現(xiàn)畢業(yè)論文目錄目錄 -1-摘要 -3-第1章AFC系統(tǒng)網(wǎng)絡(luò)的需求分析 -4-AFC系統(tǒng)網(wǎng)絡(luò)的發(fā)展 -4-AFC系統(tǒng)網(wǎng)絡(luò)的應(yīng)用需求分析 -4-AFC系統(tǒng)網(wǎng)絡(luò)性能需求分析 -4-結(jié)構(gòu)需求分析 -4-網(wǎng)絡(luò)鏈路需求分析 -5-數(shù)據(jù)流量需求分析 -5-擴(kuò)展性需求分析 -5-

2025-06-23 15:52

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)畢業(yè)論文正稿-資料下載頁

家庭理財系統(tǒng)的設(shè)計與實現(xiàn)畢業(yè)論文正稿-資料下載頁

電子商務(wù)網(wǎng)站的設(shè)計與實現(xiàn)畢業(yè)論文正稿-資料下載頁

軟件工程畢業(yè)設(shè)計_網(wǎng)絡(luò)爬蟲設(shè)計與實現(xiàn)-資料下載頁

基于cordic算法的ofdm系統(tǒng)的設(shè)計與實現(xiàn)畢業(yè)論文正稿-資料下載頁

基于廣度優(yōu)先算法的多線程爬蟲程序的設(shè)計與實現(xiàn)畢業(yè)論文-資料下載頁

網(wǎng)絡(luò)討論平臺的設(shè)計與實現(xiàn)畢業(yè)論文-資料下載頁

網(wǎng)絡(luò)銷售系統(tǒng)的設(shè)計與實現(xiàn)畢業(yè)論文-資料下載頁

網(wǎng)絡(luò)答疑系統(tǒng)的設(shè)計與實現(xiàn)畢業(yè)論文-資料下載頁

網(wǎng)絡(luò)bbs的設(shè)計與實現(xiàn)過程畢業(yè)論文-資料下載頁

網(wǎng)絡(luò)銷售系統(tǒng)的設(shè)計與實現(xiàn)畢業(yè)論文-資料下載頁

網(wǎng)絡(luò)答疑系統(tǒng)的設(shè)計與實現(xiàn)畢業(yè)論文-資料下載頁

信息安全與網(wǎng)絡(luò)防御畢業(yè)論文正稿-資料下載頁

智能小區(qū)網(wǎng)絡(luò)設(shè)計規(guī)劃畢業(yè)論文正稿-資料下載頁

建材公司網(wǎng)絡(luò)安全設(shè)計與實施畢業(yè)論文正稿-資料下載頁

afc系統(tǒng)網(wǎng)絡(luò)設(shè)計與實現(xiàn)畢業(yè)論文-資料下載頁

網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)畢業(yè)論文正稿-展示頁

網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)畢業(yè)論文正稿-在線瀏覽

網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)畢業(yè)論文正稿-閱讀頁

網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)畢業(yè)論文正稿(文件)

網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)畢業(yè)論文正稿-全文預(yù)覽