正文內(nèi)容

《網(wǎng)絡爬蟲論》word版-文庫吧

2024-12-23 18:09 本頁面

【正文】 .................................................................................................................. 25 運行及結(jié)果分析 ................................................................................................................................... 26 IV 第六章總結(jié)與展望 ................................................................ 30 致謝 ............................................................................ 31 參考文獻 ......................................................................... 32 第一章概述 1 第一章概述課題背景網(wǎng)絡爬蟲，是一種按照一定的規(guī)則，自動的抓取萬維網(wǎng)信息的程序或者腳本。另外一些不常使用的名字還有螞蟻，自動索引，模擬程序或者蠕蟲。網(wǎng)絡檢索功能起于互聯(lián)網(wǎng)內(nèi)容爆炸性發(fā)展所帶來的對內(nèi)容檢索的需求。搜索引擎不斷的發(fā)展 ,人們的需求也在不斷的提高 ,網(wǎng)絡信息搜索已經(jīng)成為人們每天都要進行的內(nèi)容 .如何使搜索引擎能時刻滿足人們的需求。最初的檢索功能通過索引站的方式實現(xiàn)，而有了網(wǎng)絡機器人，即網(wǎng)絡爬蟲這個技術(shù)之后，搜索引擎的時代便開始一發(fā)不可收拾了。網(wǎng)絡爬蟲的歷史和分類網(wǎng)絡爬蟲的歷史在互聯(lián)網(wǎng)發(fā)展初期，網(wǎng)站相對較少，信息查找比較容易。然而伴隨互聯(lián)網(wǎng)爆炸性的發(fā)展，普通網(wǎng)絡用戶想找到所需的資料簡直如同大海撈針，這時為滿足大眾信息檢索需求的專業(yè)搜索網(wǎng)站便應運而生了。現(xiàn)代意義上的搜索引擎的祖先，是 1990 年由蒙特利爾大學學生 Alan Emtage 發(fā)明的 Archie。雖然當時 World Wide Web 還未出現(xiàn)，但網(wǎng)絡中文件傳輸還是相當頻繁的，而且由于大量的文件散布在各個分散的 FTP 主機中，查詢起來非常不便，因此 Alan Archie 工作原理與現(xiàn)在的搜索引擎已經(jīng)很接近，它依靠腳本程序自動搜索網(wǎng)上的文件，然后對有關(guān)信息進行索引，供使用者以一定的表達式查詢。由于 Archie 深受用戶歡迎，受其啟發(fā)，美國內(nèi)華達 System Computing Services 大學于 1993 年開發(fā)了另一個與之非常相似的搜索工具，不過此時的搜索工具除了索引文件外，已能檢索網(wǎng)頁。當時， ―機器人 ‖一詞在編程者中十分流行。電腦 ―機器人 ‖（ Computer Robot）是指某個能以人類無法達到的速度不間斷地執(zhí)行某項任務的軟件程序。由于專門用于檢索信息的 ―機器人 ‖程序象蜘蛛一樣在網(wǎng)絡間爬來爬去，因此，搜索引擎的 ―機器人 ‖程序就被稱為 ―蜘蛛 ‖程序。世界上第一個用于監(jiān)測互聯(lián)網(wǎng)發(fā)展規(guī)模的 ―機器人 ‖程序是 Matthew Gray 開發(fā)的 World wide Web Wanderer。剛開始它只用來統(tǒng)計互聯(lián)網(wǎng)上的服務器數(shù)量，后來則發(fā)展為能夠檢索網(wǎng)站域名。與 Wanderer 相對應， Martin Koster 于 1993 年 10 月創(chuàng)建了 ALIWEB，它是 Archie 的 HTTP 版本。 ALIWEB 不使用 ―機器人 ‖程序，而是靠廣東石油化工學院本科畢業(yè) (設計 )論文 : Linux 平臺下 C/C++網(wǎng)絡爬蟲的設計與實現(xiàn) 2 網(wǎng)站主動提交信息來建立自己的鏈接索引，類似于現(xiàn)在我們熟知的 Yahoo。隨著互聯(lián)網(wǎng)的迅速發(fā)展，使得檢索所有新出現(xiàn)的網(wǎng)頁變得越來越困難，因此，在Matthew Gray 的 Wanderer 基礎上，一些編程者將傳統(tǒng)的 ―蜘蛛 ‖程序工作原理作了些改進。其設想是，既然所有網(wǎng)頁都可能有連向其他網(wǎng)站的鏈接，那么從跟蹤一個網(wǎng)站的鏈接開始，就有可能檢索整個互聯(lián)網(wǎng)。到 1993 年底，一些基于此原理的搜索引擎開始紛紛涌現(xiàn)，其中以 Jump Station、 The World Wide Web Worm（ GoTo 的前身，也就是今天Overture），和 RepositoryBased Software Engineering (RBSE) spider 最負盛名。然而 Jump Station 和 WWW Worm 只是以搜索工具在數(shù)據(jù)庫中找到匹配信息的先后次序排列搜索結(jié)果，因此毫無信息關(guān)聯(lián)度可言。而 RBSE 是第一個在搜索結(jié)果排列中引入關(guān)鍵字串匹配程度概念的引擎最早現(xiàn)代意義上的搜索引擎出現(xiàn)于 1994 年 7 月。當時 Michael Mauldin 將 John Leavitt 的蜘蛛程序接入到其索引程序中，創(chuàng)建了大家現(xiàn)在熟知的 Lycos。同年 4 月，斯坦福（ Stanford）大學的兩名博士生， David File 和美籍華人楊致遠（ Gerry Yang）共同創(chuàng)辦了超級目錄索引 Yahoo，并成功地使搜索引擎的概念深入人心。從此搜索引擎進入了高速發(fā)展時期。目前，互聯(lián)網(wǎng)上有名有姓的搜索引擎已達數(shù)百家，其檢索的信息量也與從前不可同日而語。比如最近風頭正勁的 Google，其數(shù)據(jù)庫中存放的網(wǎng)頁已達 30 億之巨。隨著互聯(lián)網(wǎng)規(guī)模的急劇膨脹，一家搜索引擎光靠自己單打獨斗已無法適應目前的市場狀況，因此現(xiàn)在搜索引擎之間開始出現(xiàn)了分工協(xié)作，并有了專業(yè)的搜索引擎技術(shù)和搜索數(shù)據(jù)庫服務提供商。像國外 Inktomi，它本身并不是直接面向用戶的搜索引擎，但向包括 Overture（原 GoTo）、 LookSmart、 MSN、 HotBot 等在內(nèi)的其他搜索引擎提供全文網(wǎng)頁搜索服務。國內(nèi)的百度也屬于這一類（注），搜狐和新浪用的就是它的技術(shù)。因此從這個意義上說，它們是搜索引擎的搜索引擎。網(wǎng)絡爬蟲的分類網(wǎng)絡爬蟲種類繁多，如果按照部署在哪里分，可以分成：（ 1）服務器側(cè)：一般是一個多線程程序，同時下載多個目標 HTML，可以用 PHP， Java, Python 等做，一般綜合搜索引擎的爬蟲這樣做。但是，如果對方討厭爬蟲，很可能封掉服務器的 IP，服務器 IP 又不容易改，另外耗用的帶寬也是較貴。（ 2）客戶端：很適合部署定題爬蟲，或者叫聚焦爬蟲。做一個與 Google，百度等競爭的綜合搜索引擎成功的機會微乎其微，而垂直搜索或者比價服務或者推薦引擎，機會要多得多，這類爬蟲不是什么頁面都取的，而是只取關(guān)心的頁面，而且只取頁面上關(guān)心的內(nèi)容，例如提取黃頁信息，商品價格信息，還有提取競爭對手廣告信息的。這類爬蟲可以部署很多，而且可以很有侵略性?？梢缘统杀敬罅坎渴?，由于客戶端 IP 地址是動態(tài)的，所以很難被目標網(wǎng)站封鎖。第一章概述 3 網(wǎng)絡爬蟲的發(fā)展趨勢目前，大多數(shù)的搜索引擎都是基于關(guān)鍵詞的搜索引擎。基于關(guān)鍵字匹配的搜索技術(shù)有較大的局限性：首先，它不能區(qū)分同形異義。其次，不能聯(lián)想到關(guān)鍵字的同義詞。 Web 商業(yè)化至今，搜索引擎始終保持著網(wǎng)絡上被使用最多的服務項目的地位，然而，隨著網(wǎng)上內(nèi)容的爆炸式增長和內(nèi)容形式花樣的不斷翻新，搜索引擎越來越不能滿足挑剔的網(wǎng)民們的各種信息需求。搜索引擎的發(fā)展面臨著兩大難題：一是如何跟上 Inter 的發(fā)展速度，二是如何為用戶提供更精確的查詢結(jié)果。所以，傳統(tǒng)的引擎不能適應信息技術(shù)的高速發(fā)展，新一代智能搜索引擎作為一種高效搜索引擎技術(shù)的在當今的網(wǎng)絡信息時代日益引起業(yè) 界人士的關(guān)注。搜索引擎己成為一個新的研究、開發(fā)領(lǐng)域。因為它要用到信息檢索、人工智能、計算機網(wǎng)絡、分布式處理、數(shù)據(jù)庫、數(shù)據(jù)挖掘、數(shù)字圖書館、自然語言處理等多領(lǐng)域的理論和技術(shù)，所以具有綜合性和挑戰(zhàn)性。又由于搜索引擎有大量的用戶，有很好的經(jīng)濟價值，所以引起了世界各國計算機科學界和信息產(chǎn)業(yè)界的高度關(guān)注，目前的研究、開發(fā)十分活躍，并出現(xiàn)了很多值得注意的動向。系統(tǒng)開發(fā)的必要性爬蟲程序是一個自動獲取網(wǎng)頁的程序。它為搜索引擎從互聯(lián)網(wǎng)上下載網(wǎng)頁，是搜索引擎的重要組成部分。爬蟲程序的實現(xiàn)策略，運行效率直接影響搜索引擎的搜索結(jié)果。不同的搜索引擎，會根據(jù)對搜索結(jié)果的不同需求，選擇最合適的爬行策略來搜集互聯(lián)網(wǎng)上的信息。高效，優(yōu)秀的爬蟲程序可以使人們在互聯(lián)網(wǎng)上尋找到更及時，更準確的信息。而現(xiàn)在 Linux 平臺下開源的搜索引擎資料較少，作為實現(xiàn)最終開發(fā)目標搜索引擎的一部分，本爬蟲程序可以為搜索引擎提供良好的網(wǎng)頁獲取能力，并可以為在 Linux 下開發(fā)網(wǎng)絡爬蟲的后來者提供參考。本文的組織結(jié)構(gòu) 本文主要根據(jù)網(wǎng)絡爬蟲的特點，結(jié)合搜索引擎關(guān)鍵技術(shù)， linux 網(wǎng)絡編程，對爬蟲程序的關(guān)鍵技術(shù)做了詳細的分析和研究。然后設計并實現(xiàn)了一個以抓取相關(guān)關(guān)鍵字內(nèi)容并實現(xiàn)離線瀏覽功能的網(wǎng)絡爬蟲系統(tǒng)。本文主要分為 6 個章節(jié)，結(jié)構(gòu)安排如下：（ 1）緒論，對課題的背景研究意義和爬蟲的研究現(xiàn)狀做了簡單介紹。廣東石油化工學院本科畢業(yè) (設計 )論文 : Linux 平臺下 C/C++網(wǎng)絡爬蟲的設計與實現(xiàn) 4 （ 2）相關(guān)技術(shù)和工具介紹。對網(wǎng)絡爬蟲的定義、評價指標分類、工作原理并對開發(fā)環(huán)境和工具進行了簡單介紹。并以此引出網(wǎng)絡爬蟲系統(tǒng)的相關(guān)知識介紹。（ 3）網(wǎng)絡爬蟲的模型分析。對網(wǎng)絡爬蟲視線中的主要思想以及關(guān)鍵技術(shù)進行了具體的分析。（ 4）網(wǎng)絡爬蟲的模型設計根據(jù)第三章內(nèi)容。對爬蟲系統(tǒng)進行了詳細設計，并對本爬蟲系統(tǒng)的模型實現(xiàn)進行具體分析。同時也對使用的技術(shù)進行簡單的介紹。（ 5）程序運行和結(jié)果分析對程序的編譯運行進行簡單介紹。并對測試結(jié)果進行了簡單分析。（ 6）總結(jié)和展望。第二章相關(guān)技術(shù)和工具綜述 5 第二章相關(guān)技術(shù)和工具綜述網(wǎng)絡爬蟲的定義定義 1：網(wǎng)絡爬蟲是一個自動提取網(wǎng)頁的程序，它為搜索引擎從 Web 上下載網(wǎng)頁，是搜索引擎的重要組成部分。通用網(wǎng)絡爬蟲從一個或若干初始網(wǎng)頁的 URL 開始，獲得初始網(wǎng)頁上的 URL 列表；在抓取網(wǎng)頁的過程中，不斷從當前頁面上抽取新的 URL 放入待爬行隊列，直到滿足系統(tǒng)的停止條件。定義 2：網(wǎng)絡爬蟲就是根據(jù)一定的網(wǎng)頁分析算法過濾與主題無關(guān)的鏈接，保留相關(guān)的鏈接并將其放入待抓取的 URL 隊列中；然后根據(jù)一定的搜索策略從隊列中選擇下一步要抓取的網(wǎng)頁 URL，并重復上述過程，直到達到系統(tǒng)的某一條件時停止。所有被網(wǎng)絡爬蟲抓取的網(wǎng)頁將會被系統(tǒng)存儲，進行一定的分析、過濾，并建立索引，對于網(wǎng)絡爬蟲來說，這一過程所得到的分析結(jié)果還可能對后續(xù)的抓取過程進行反饋和指導。定義 3：如果網(wǎng)頁 p 中包含超鏈接 l，則 p 稱為鏈接 l 的父網(wǎng)頁。定義 4：如果超鏈接 l 指向網(wǎng)頁 t，則網(wǎng)頁 t 稱為子網(wǎng)頁，又稱為目標網(wǎng)頁。網(wǎng)絡爬蟲的基本思路就是按照事先給出的主題，分超鏈接和已經(jīng)下載的網(wǎng)頁內(nèi)容，預測下一個待抓取的 URL 及當前網(wǎng)頁的相關(guān)度，保證盡可能多地爬行、下載相關(guān)的網(wǎng)頁，盡可能少地下載無關(guān)網(wǎng)頁。網(wǎng)頁搜索策略介紹網(wǎng)頁的抓取策略可以分為深度優(yōu)先、廣度優(yōu)先和最佳優(yōu)先三種。深度優(yōu)先在很多情況下會導致爬蟲的陷入（ trapped）問題，目前常見的是廣度優(yōu)先和最佳優(yōu)先方法。廣度優(yōu)先搜索策略廣度優(yōu)先搜索策略是指在抓取過程中，在完成當前層次的搜索后，才進行下一層次的搜索。該算法的設計和實現(xiàn)相對簡單。在目前為覆蓋盡可能多的網(wǎng)頁，一般使用廣度優(yōu)先搜索方法。也有很多研究將廣度優(yōu)先搜索策略應用于聚焦爬蟲中。其基本思想是認為與初始 URL 在一定鏈接距離內(nèi)的網(wǎng)頁具有主題相關(guān)性的概率很大。另外一種方法是將廣度優(yōu)先搜索與網(wǎng)頁過濾技術(shù)結(jié)合使用，先用廣度優(yōu)先策略抓取網(wǎng)頁，再將其中無關(guān)的網(wǎng)頁過濾掉。這些方法的缺點在于，隨著抓取網(wǎng)頁的增多，大量的無關(guān)網(wǎng)頁將被下載并過濾，算法的效率將變低。廣東石油化工學院本科畢業(yè) (設計 )論文 : Linux 平臺下 C/C++網(wǎng)絡爬蟲的設計與實現(xiàn) 6 相關(guān)工具介紹操作系統(tǒng) 本網(wǎng)絡爬蟲程序開發(fā)環(huán)境為 Linux CentOS 操作系統(tǒng)，并且目標是在 Linux 下運行，而在其他平臺上會出現(xiàn)各種無法正常運行的問題，所以在此有必要介紹一下該程序的運行環(huán)境， Linux 操作系統(tǒng)。 Linux 是一套免費使用和自由傳播的類 Unix 操作系統(tǒng)，是一個基于 POSIX 和 UNIX的多用戶、多任務、支持多線程和多 CPU 的操作系統(tǒng)。它能運行主要的 UNIX 工具軟件、應用程序和網(wǎng)絡協(xié)議。它支持 32 位和 64 位硬件。 Linux 繼承了 Unix 以網(wǎng)絡為核心的設計思想，是一個性能穩(wěn)定的多用戶網(wǎng)絡操作系統(tǒng)。而 Linux 主要作為 Linux 發(fā)布版（通常被稱為 distro）的一部分而使用。 Linux 發(fā)布版指的就是通常所說的 ―Lin

點擊復制文檔內(nèi)容

公司管理相關(guān)推薦

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

《網(wǎng)絡爬蟲論》word版-文庫吧

白酒養(yǎng)生論word版-資料下載頁

電氣畢業(yè)論word版-資料下載頁

游戲畢業(yè)論word版-資料下載頁

建模畢業(yè)論word版-資料下載頁

留守兒童論word版-資料下載頁

法治東營論word版-資料下載頁

工廠供電論word版-資料下載頁

測量職稱論word版-資料下載頁

建筑經(jīng)濟論word版-資料下載頁

法治中國論word版-資料下載頁

煤礦實習論word版-資料下載頁

數(shù)值分析論word版-資料下載頁

音樂鑒賞論word版-資料下載頁

量子通信論word版-資料下載頁

物流運輸論word版-資料下載頁

網(wǎng)絡爬蟲論word版-文庫吧在線文庫

網(wǎng)絡爬蟲論word版(完整版)

網(wǎng)絡爬蟲論word版(更新版)

網(wǎng)絡爬蟲論word版(專業(yè)版)

網(wǎng)絡爬蟲論word版(留存版)