正文內(nèi)容

網(wǎng)絡(luò)爬蟲設(shè)計與實現(xiàn)畢業(yè)設(shè)計論文-wenkub

2022-12-14 15:20:16 本頁面

　

【正文】 ible that the membership question can only be answered by a peer node, not locally. A crucial way to speed up the membership test is to cache a (dynamic) subset of the “seen” URLs in main memory. The main goal of this paper is to investigate in depth several URL caching techniques for web crawling. We examined four practical techniques: random replacement, static cache, LRU, and CLOCK, and pared them against two theoretical limits: clairvoyant caching and infinite cache when run against a trace of a web crawl that issued over one billion HTTP requests. We found that simple caching techniques are extremely effective even at relatively small cache sizes such as 50,000 entries and show how these caches can be implemented very efficiently. The paper is anized as follows: Section 2 discusses the various crawling solutions proposed in the literature and how caching fits in their model. Section 3 presents an introduction to caching techniques and describes several theoretical and practical algorithms for caching. We implemented these algorithms under the experimental setup described in Section 4. The results of our simulations are depicted and discussed in Section 5, and our remendations for practical algorithms and data structures for URL caching are presented in Section 6. Section 7 contains our conclusions and directions for further research. 2. CRAWLING Web crawlers are almost as old as the web itself, and numerous crawling systems have been described in the literature. In this section, we present a brief survey of these 30 crawlers (in historical order) and then discuss why most of these crawlers could benefit from URL caching. The crawler used by the Inter Archive [10] employs multiple crawling processes, each of which performs an exhaustive crawl of 64 hosts at a time. The crawling processes save nonlocal URLs to disk。在我的學(xué)業(yè)和論文的研究工作中無不傾注著老師們辛勤的汗水和心血。腳踏實地，認(rèn)真嚴(yán)謹(jǐn)，實事求是的學(xué)習(xí)態(tài)度，不怕困難、堅持不懈、吃苦耐勞的精神是我在這次設(shè)計中最大的收益。在設(shè)計平臺中，要注意平臺的可行性和有效性，選擇既重要又適合以學(xué)習(xí)軟件形式出現(xiàn)的知識點作為材料，參考優(yōu)秀的國內(nèi)外學(xué)習(xí)輔助平臺，又考慮到數(shù)據(jù)庫課程的特殊性。 5 月開始相關(guān)代碼編寫工作。 4月初，資料已經(jīng)查找完畢了，我開始著手論文的寫作。我將這一困難告訴了導(dǎo)師，在導(dǎo)師細(xì)心的指導(dǎo)下，終于使我對自己現(xiàn)在的工作方向和方法有了掌握。歷經(jīng)了幾個月的奮戰(zhàn)，緊張而又充實的畢業(yè)設(shè)計終于落下了帷幕。第四步：調(diào)用，得到每個 URL對應(yīng)的網(wǎng)頁內(nèi)容與給定主題的閾值，大于給定值則相關(guān)，小于給定值則不相關(guān)，丟棄該 URL。整體流程爬蟲代碼文件構(gòu)成如圖 41：圖 41 代碼結(jié)構(gòu)構(gòu)成截圖這個類是改寫 getParser()方法為public 是根據(jù)輸入 URL獲取網(wǎng)頁文檔是繼承 ParserCallback 獲得網(wǎng)頁內(nèi)容是判斷主題與網(wǎng)頁內(nèi)容的相關(guān)性是對網(wǎng)頁主題和正文進(jìn)行分詞 19 是下載網(wǎng)頁所用，是為生成存儲對象。 2. 對每個 URL 進(jìn)行分析，判斷相關(guān)度。。 private int ContentLength。 PagePro類。，設(shè)定相關(guān)度閾值為 2，網(wǎng)頁與主題的相關(guān)度 A2，則認(rèn)為該網(wǎng)頁與主題相關(guān)的。判斷相關(guān)度算法實現(xiàn)步驟和算法描述：題集合匹配，并通過詞頻計算來得到與主題向量維數(shù)相等的標(biāo)題向量和正文向量。 } public String getEncode() { return encode。 // 得到網(wǎng)頁上的正文文本 protected String paragraphText = new String()。， BufferedReader 讀取，并且將網(wǎng)頁內(nèi)容存儲為字符串。 URLConnection url_C = ()。，從網(wǎng)頁中某個鏈接出發(fā)，訪問該鏈接網(wǎng)頁上的所有鏈接，訪問完成后，再通過遞歸算法實現(xiàn)下一層的訪問，重復(fù)以上步驟。 URL配置文件 URL配置文件列表臨界區(qū) 互聯(lián)網(wǎng) 線程 1 搜索元URL 如線程 2 搜索元URL 如線程 N 13 圖 33 網(wǎng)絡(luò)爬蟲工作流程圖開始從配置文件中讀取初始URL 作為源 URL獲取網(wǎng)頁以正則表達(dá)式過濾網(wǎng)頁標(biāo)簽提取目標(biāo) URL滿足條件停止結(jié)束根據(jù)寬度有限算法搜索目標(biāo)URL 網(wǎng)絡(luò)蜘蛛循環(huán)爬行 14 第四章網(wǎng)絡(luò)爬蟲模型的設(shè)計和實現(xiàn) 網(wǎng)絡(luò)爬蟲總體設(shè)計根據(jù)本網(wǎng)絡(luò)爬蟲的概要設(shè)計本網(wǎng)絡(luò)爬蟲是一個自動提取網(wǎng)頁的程序，根據(jù)設(shè)定的主題判斷是否與主題相關(guān)，再根據(jù)已下載的網(wǎng)頁上繼續(xù)訪問其它的網(wǎng)頁，并將其下載直到滿足用戶的需求。信息。網(wǎng)絡(luò)爬蟲的概要設(shè)計本網(wǎng)絡(luò)爬蟲的開發(fā)目的，通過網(wǎng)絡(luò)爬蟲技術(shù)一個自動提取網(wǎng) 頁的程序，實現(xiàn)搜索引擎從自己想要訪問的網(wǎng)上下載網(wǎng)頁，再根據(jù)已下載的網(wǎng)頁上繼續(xù)訪問其它的網(wǎng)頁，并將其下載直到滿足用戶的需求。 B。戴爾的首頁標(biāo)題中不但涵蓋了最重要的公司信息，而且還包括公司的主要產(chǎn)品，這就是核心關(guān)鍵詞，當(dāng)用“筆記本電腦”、“臺式電腦”這些關(guān)鍵詞在谷歌中進(jìn)行搜索時，戴爾公司的網(wǎng)頁都排在第一屏的前幾條位置。在實際操作中，網(wǎng)頁標(biāo)題不宜過短或過長。因為一般的公司名稱（或者品牌名稱）中可能不包含核心業(yè)務(wù)的關(guān)鍵詞，在搜索結(jié)果排名中將處于不利地位。在網(wǎng)頁 HTML 代碼中，網(wǎng)頁標(biāo)題位于標(biāo)簽之間。網(wǎng)絡(luò)爬蟲的主題相關(guān)度判斷主題爬蟲的系統(tǒng)組成最初考慮是對頁面的過濾，不像普通爬蟲對所有頁面的鏈接進(jìn)行處理，先對頁面與受限領(lǐng)域的主題相關(guān)度進(jìn)行分析，只有當(dāng)其主題相關(guān)度符合要求時才處理該頁面中的鏈接，因為如果該頁面和本領(lǐng)域比較相關(guān)，它所包含的鏈接和領(lǐng)域相關(guān)的幾率也較大，這樣提高了爬行精度，雖然會遺漏少數(shù)頁面，但綜合效果是令人滿意的。否則，如果新結(jié)點未曾在隊列中出現(xiàn)過，則將它加入到隊列尾。 3）搜索策略為了便于進(jìn)行搜索，要設(shè)置一個表存儲所有的結(jié)點。因此，對于同一層結(jié)點來說，求解問題的價值是相同的，我們可以按任意順序來擴展它們。結(jié)點之間的關(guān)系一般可以表示成一棵樹，它被稱為解答樹。如下圖 31 所示。 8 第三章網(wǎng)絡(luò)爬蟲模型的分析和概要設(shè)計網(wǎng)絡(luò)爬蟲的模型分析首先建立 URL 任務(wù)列表，即開始要爬取的 URL。通過對空間向量模型和布爾模型的介紹，我們知道現(xiàn)在垂直搜索引擎大多采用空間向量模型計算主題相關(guān)性。（二）布爾模型與空間向量模型分析布爾模型的主要缺陷在于每個關(guān)鍵詞的權(quán)重都是一樣的，它不支持設(shè)定關(guān)鍵詞的相對重要性，但是其優(yōu)點也較為明顯，它易于實現(xiàn)，計算代價較小。與布爾模型不同，向量空間模型把用戶的查詢要求和數(shù)據(jù)庫文檔信息表示成由檢索項構(gòu)成的向量空間中的點（向量），而通過計算向量之間的距離來判定文檔和查詢之間的相似程度（例如，用它們之間夾角的余弦作為相似性度量）。在判斷文檔與某主題的相關(guān)度的過程中，相當(dāng)于是計算兩個關(guān)鍵詞集合的交集。。因此，主題相關(guān)度的分析是主題爬蟲設(shè)計的關(guān)鍵。因此需要將最佳優(yōu)先結(jié)合具體的應(yīng)用進(jìn)行改進(jìn)，以跳出局部最優(yōu)點。這些方法的缺點在于，隨著 6 抓取網(wǎng)頁的增多，大量的無關(guān)網(wǎng)頁將被下載并過濾，算法的效率將變低。在目前為覆蓋盡可能多的網(wǎng)頁，一般使用廣度優(yōu)先搜索方法。網(wǎng)頁搜索策略介紹網(wǎng)頁的抓取策略可以分為深度優(yōu)先、廣度優(yōu)先和最佳優(yōu)先三種。所有被網(wǎng)絡(luò)爬蟲抓取的網(wǎng)頁將會被系統(tǒng)存儲，進(jìn)行一定的分析、過濾，并建立索引，對于主題網(wǎng)絡(luò)爬蟲來說，這一過程所得到的分析結(jié)果還可能對后續(xù)的抓取過程進(jìn)行反饋和指導(dǎo)。由此可以看出，以往的爬蟲是基于協(xié)議驅(qū)動的，而對于 AJAX 這樣的技術(shù)，所需要的爬蟲引擎必須是基于事件驅(qū)動的。傳統(tǒng)的網(wǎng)絡(luò)爬蟲技術(shù)主要應(yīng)用于抓取靜態(tài) Web 網(wǎng)頁，隨著 AJAX/行，如何抓取 AJAX 等動態(tài)頁面成了搜索引擎急需解決的問題，因為 AJAX 顛覆了傳統(tǒng)的純 HTTP 請求 /響應(yīng)協(xié)議機制，如果搜索引擎依舊采用“爬”的機制，是無法抓取到 AJAX 頁面的有效數(shù)據(jù)的?，F(xiàn)在網(wǎng)絡(luò)上流行的信息采集工具、網(wǎng)站聚合工具，都是未來新一代爬蟲的先驅(qū)，甚至已經(jīng)具備其特點。又由于搜索引擎有大量的用戶，有很好的經(jīng)濟價值，所以引起了世界各國計算機科學(xué)界和信息產(chǎn)業(yè)界的高度關(guān)注，目前的研究、開發(fā)十分活躍，并出現(xiàn)了很多值得注意的動向。搜索引擎的發(fā)展面臨著兩大難題：一是如何跟上 Inter 的發(fā)展速度，二是如何為用戶提供更精確的查詢結(jié)果。網(wǎng)絡(luò)爬蟲的發(fā)展趨勢目前，大多數(shù)的搜索引擎都是基于關(guān)鍵詞的搜索引擎。 2，客戶端：很適合部署定題爬蟲，或者叫聚焦爬蟲。國內(nèi)的百度也屬于這一類（注），搜狐和新浪用的就是它的技術(shù)。目前，互聯(lián)網(wǎng)上有名有姓的搜索引擎已達(dá)數(shù)百家，其檢索的信息量也與從前不可同日而語。而 RBSE 是第一個在搜索結(jié)果排列中引入關(guān)鍵字串匹配程度概念的引擎最早現(xiàn)代意義上的搜索引擎出現(xiàn)于 1994年 7月。隨著互聯(lián)網(wǎng)的迅速發(fā)展，使得檢索所有新出現(xiàn)的網(wǎng)頁變得越來越困難，因此，在 Matthew Gray 的 Wanderer 基礎(chǔ)上，一些編程者將傳統(tǒng)的“蜘蛛”程序工作原理作了些改進(jìn)。世界上第一個用于監(jiān)測互聯(lián)網(wǎng)發(fā)展規(guī)模的“機器人”程序是 Matthew Gray 開發(fā)的 World wide Web Wanderer。由于 Archie 深受用戶歡迎，受其啟發(fā)，美國內(nèi)華達(dá) System Computing Services大學(xué)于 1993年開發(fā)了另一個與之非常相似的搜索工具，不過此時的搜索工具除了索引文件外，已能檢索網(wǎng)頁。網(wǎng)絡(luò)爬蟲的歷史和分類網(wǎng)絡(luò)爬蟲的歷史在互聯(lián)網(wǎng)發(fā)展初期，網(wǎng)站相對較少，信息查找比較容易。另外一些不常使用的名字還有螞蟻，自動索引，模擬程序或者蠕蟲。研究網(wǎng)絡(luò)爬蟲的原理并實現(xiàn)爬蟲的相關(guān)功能。對 url 進(jìn)行分析，去重。 — 完成論文及答辯六．本課題可行性分析網(wǎng)絡(luò)爬蟲目前已經(jīng)比較普遍，國內(nèi)外有眾多對網(wǎng)絡(luò)爬蟲的研究成果，大部分的技術(shù)難題已經(jīng)有解決方案。對網(wǎng)絡(luò)爬蟲的連接網(wǎng)絡(luò)設(shè)置連接及讀取時間，避免無限制的等待。五．研究方法網(wǎng)絡(luò)爬蟲

點擊復(fù)制文檔內(nèi)容

公司管理相關(guān)推薦

網(wǎng)絡(luò)流量監(jiān)控軟件的設(shè)計與實現(xiàn)畢業(yè)設(shè)計論文-資料下載頁

【總結(jié)】長沙理工大學(xué)《網(wǎng)絡(luò)協(xié)議編程》課程設(shè)計報告網(wǎng)絡(luò)流量監(jiān)控軟件的設(shè)計與實現(xiàn)xxx學(xué)院計算機與通信工程專業(yè)網(wǎng)絡(luò)工程班級網(wǎng)絡(luò)12-1學(xué)號20125808**學(xué)生姓名xxxxxx指導(dǎo)教師xxxx

2025-06-23 04:54

在線網(wǎng)絡(luò)考試系統(tǒng)的設(shè)計與實現(xiàn)畢業(yè)設(shè)計論文-資料下載頁

【總結(jié)】畢業(yè)設(shè)計說明書在線網(wǎng)絡(luò)考試系統(tǒng)的設(shè)計與實現(xiàn)學(xué)院：計算機科學(xué)與技術(shù)專業(yè)：計算機科學(xué)與技術(shù)學(xué)生姓名：學(xué)號：

2025-02-26 07:34

網(wǎng)絡(luò)房產(chǎn)信息超市的設(shè)計與實現(xiàn)—畢業(yè)設(shè)計論文-資料下載頁

【總結(jié)】網(wǎng)絡(luò)房產(chǎn)信息超市的設(shè)計與實現(xiàn)摘要隨著信息化的發(fā)展，互連網(wǎng)需要提供更多的服務(wù)，構(gòu)造更完善的體系以滿足越來越多的用戶的精神與物質(zhì)需求。隨著Inter技術(shù)的日益成熟，以及人們對生活越來越高的要求，買賣租售房屋已經(jīng)形成一種最現(xiàn)代化的模式了。網(wǎng)絡(luò)房產(chǎn)信息超市系統(tǒng)網(wǎng)站采用ASP+ACCESS技術(shù)的B/S模式，其開發(fā)主要包括后臺數(shù)據(jù)庫的建立和維護以及

2025-11-22 15:35

網(wǎng)絡(luò)流量監(jiān)控軟件的設(shè)計與實現(xiàn)畢業(yè)設(shè)計論文-資料下載頁

2025-08-17 09:17

bbs系統(tǒng)設(shè)計與實現(xiàn)畢業(yè)設(shè)計論文-資料下載頁

【總結(jié)】BBS系統(tǒng)設(shè)計與實現(xiàn)畢業(yè)設(shè)計論文目錄摘要 IAbstract II1緒言 1課題背景 1課題研究的目的和意義 2國內(nèi)外概況 2 22方案論證 4B/S模式 4JavaServerPage 4MYSQL數(shù)據(jù)庫 5開發(fā)工具 63BBS系統(tǒng)設(shè)計 6需求分析 7 7概要

2025-06-28 07:44

博客網(wǎng)站設(shè)計與實現(xiàn)畢業(yè)設(shè)計論文-資料下載頁

【總結(jié)】河南科技大學(xué)本科畢業(yè)設(shè)計（論文）I畢業(yè)設(shè)計論文博客網(wǎng)站的設(shè)計與實現(xiàn)摘要隨著Inter技術(shù)的發(fā)展，社會人們的生活和工作將越來越依賴于數(shù)字技術(shù)的發(fā)展，越來越數(shù)字化、網(wǎng)絡(luò)化、電子化、虛擬化。因此網(wǎng)站建設(shè)在互聯(lián)網(wǎng)應(yīng)用上的地位顯而易見，倍受人們的重視。為了樹立個人在網(wǎng)絡(luò)上的形象，博客作為一個新的生活方式和工作方式應(yīng)運而生，通過設(shè)計一個

2025-08-19 21:22

企業(yè)網(wǎng)絡(luò)系統(tǒng)集成設(shè)計與實現(xiàn)畢業(yè)設(shè)計論文-資料下載頁

【總結(jié)】項目組號10密級公開湖南科技職業(yè)學(xué)院軟件學(xué)院二○一二屆畢業(yè)設(shè)計文檔項目名稱企業(yè)網(wǎng)絡(luò)系統(tǒng)集成設(shè)計與實現(xiàn)專業(yè)計網(wǎng)CISCO指導(dǎo)教師王湘渝

2025-06-26 10:36

畢業(yè)設(shè)計企業(yè)網(wǎng)絡(luò)系統(tǒng)集成設(shè)計與實現(xiàn)論文-資料下載頁

2025-06-19 19:13

基于aspnet的網(wǎng)絡(luò)博客的設(shè)計與實現(xiàn)—免費畢業(yè)設(shè)計論文-資料下載頁

【總結(jié)】基于的網(wǎng)絡(luò)博客的設(shè)計與實現(xiàn)摘要博客于2020年前后興起于美國，成為繼個人主頁，BBS之后互聯(lián)網(wǎng)公共交流的新平臺，其主要特點是：頻繁更新、簡單明了、個性化。本文分析了現(xiàn)有博客系統(tǒng)的實現(xiàn)技術(shù)，在此基礎(chǔ)上提出了本系統(tǒng)的解決方案。本文對博客系統(tǒng)進(jìn)行了詳細(xì)的需求分析，建立了合理的基本表，將系統(tǒng)分為多個功能模塊來實現(xiàn)。該系統(tǒng)為用戶提供了在網(wǎng)上展現(xiàn)自

2025-11-20 04:16

網(wǎng)絡(luò)音樂庫系統(tǒng)的設(shè)計與實現(xiàn)—免費畢業(yè)設(shè)計論文-資料下載頁

【總結(jié)】畢業(yè)設(shè)計網(wǎng)絡(luò)音樂庫系統(tǒng)院(系)、部：_____________________學(xué)生姓名：______________________指導(dǎo)教師：______________________專業(yè)：______________________班級：_____

2025-11-24 17:14

企業(yè)網(wǎng)絡(luò)系統(tǒng)集成設(shè)計與實現(xiàn)畢業(yè)設(shè)計論文-資料下載頁

【總結(jié)】項目組號10密級公開湖南科技職業(yè)學(xué)院軟件學(xué)院二○一二屆畢業(yè)設(shè)計文檔項目名稱企業(yè)網(wǎng)絡(luò)系統(tǒng)集成設(shè)計與實現(xiàn)專業(yè)計網(wǎng)CISCO

2025-08-17 16:14

簡易網(wǎng)絡(luò)存儲系統(tǒng)的設(shè)計與實現(xiàn)—免費畢業(yè)設(shè)計論文-資料下載頁

【總結(jié)】畢業(yè)設(shè)計(論文)簡易網(wǎng)絡(luò)存儲系統(tǒng)的設(shè)計與實現(xiàn)論文作者姓名：申請學(xué)位專業(yè)：申請學(xué)位類別：指導(dǎo)教師姓名（職稱）：論文提交日期：簡易網(wǎng)絡(luò)存儲系統(tǒng)的設(shè)計與實現(xiàn)摘要21世紀(jì)是資源共享的網(wǎng)絡(luò)時代，各類信息資源的積累加劇了其

2025-11-25 09:44

畢業(yè)設(shè)計----網(wǎng)絡(luò)旅游信息系統(tǒng)的設(shè)計與實現(xiàn)-畢業(yè)設(shè)計-資料下載頁

【總結(jié)】網(wǎng)絡(luò)旅游信息系統(tǒng)的設(shè)計與實現(xiàn)論文作者姓名：申請學(xué)位專業(yè)：申請學(xué)位類別：指導(dǎo)教師（職稱）：論文提交日期：網(wǎng)絡(luò)旅游信息系統(tǒng)的設(shè)計與實現(xiàn)摘要網(wǎng)絡(luò)旅游信息系統(tǒng)是利用計算機Web數(shù)據(jù)庫高效的數(shù)據(jù)存儲和管理能力來管理旅游信息，其主要意義在于簡化人們以往查找旅游

2025-01-19 04:58

校園網(wǎng)絡(luò)的設(shè)計與實現(xiàn)畢業(yè)設(shè)計-資料下載頁

【總結(jié)】開封大學(xué)軟件學(xué)院畢業(yè)設(shè)計題目：開封大學(xué)校園網(wǎng)絡(luò)的設(shè)計與實現(xiàn)院（系）：軟件學(xué)院專業(yè)：網(wǎng)絡(luò)系統(tǒng)管理學(xué)生姓名：胡皓瓊學(xué)號:2022113565起訖日期：2022年4月5日~4月27日指導(dǎo)教師：許濤發(fā)任務(wù)書日期:2022年4月5日開封大學(xué)軟件學(xué)院畢

2025-01-16 20:35