freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

《網(wǎng)絡爬蟲論》word版-文庫吧

2024-12-23 18:09 本頁面


【正文】 .................................................................................................................. 25 運行及結(jié)果分析 ................................................................................................................................... 26 IV 第六章 總結(jié)與展望 ................................................................ 30 致 謝 ............................................................................ 31 參考文獻 ......................................................................... 32 第一章 概 述 1 第一章 概 述 課題背景 網(wǎng)絡爬蟲,是一種按照一定的規(guī)則,自動的抓取萬維網(wǎng)信息的程序或者腳本。另外一些不常使用的名字還有螞蟻,自動索引,模擬程序或者蠕蟲。 網(wǎng)絡檢索功能起于互聯(lián)網(wǎng)內(nèi)容爆炸性發(fā)展所帶來的對內(nèi)容檢索的需求。搜索引擎不斷的發(fā)展 ,人們的需求也在不斷的提高 ,網(wǎng)絡信息搜索已經(jīng)成為人們每天都要進行的內(nèi)容 .如何使搜索引擎能時刻滿足人們的需求。最初的檢索功能通過索引站的方式實現(xiàn),而有了網(wǎng)絡機器人,即網(wǎng)絡爬蟲這個技術(shù)之后,搜索引擎的時代便開始一發(fā)不可收拾了。 網(wǎng)絡 爬蟲的歷史和分類 網(wǎng)絡爬蟲的歷史 在互聯(lián)網(wǎng)發(fā)展初期,網(wǎng)站相對較少,信息查找比較容易。然而伴隨互聯(lián)網(wǎng)爆炸性的發(fā)展,普通網(wǎng)絡用戶想找到所需的資料簡直如同大海撈針,這時為滿足大眾信息檢索需求的專業(yè)搜索網(wǎng)站便應運而生了。 現(xiàn)代意義上的搜索引擎的祖先,是 1990 年由蒙特利爾大學學生 Alan Emtage 發(fā)明的 Archie。雖然當時 World Wide Web 還未出現(xiàn),但網(wǎng)絡中文件傳輸還是相當頻繁的,而且由于大量的文件散布在各個分散的 FTP 主機中,查詢起來非常不便,因此 Alan Archie 工作原理與現(xiàn)在 的搜索引擎已經(jīng)很接近,它依靠腳本程序自動搜索網(wǎng)上的文件,然后對有關(guān)信息進行索引,供使用者以一定的表達式查詢。由于 Archie 深受用戶歡迎,受其啟發(fā),美國內(nèi)華達 System Computing Services 大學于 1993 年開發(fā)了另一個與之非常相似的搜索工具,不過此時的搜索工具除了索引文件外,已能檢索網(wǎng)頁。 當時, ―機器人 ‖一詞在編程者中十分流行。電腦 ―機器人 ‖( Computer Robot)是指 某個能以人類無法達到的速度不間斷地執(zhí)行某項任務的軟件程序。由于專門用于檢索信息的 ―機器人 ‖程序象蜘蛛一樣在 網(wǎng)絡間爬來爬去,因此, 搜索引擎的 ―機器人 ‖程序就被稱為 ―蜘蛛 ‖程序。世界上第一個用于監(jiān)測互聯(lián)網(wǎng)發(fā)展規(guī)模的 ―機器人 ‖程序是 Matthew Gray 開發(fā)的 World wide Web Wanderer。剛開始它只用來統(tǒng)計互聯(lián)網(wǎng)上的服務器數(shù)量,后來則發(fā)展為能夠檢索網(wǎng)站域名。與 Wanderer 相對應, Martin Koster 于 1993 年 10 月創(chuàng)建了 ALIWEB,它是 Archie 的 HTTP 版本。 ALIWEB 不使用 ―機器人 ‖程序,而是靠廣東石油化工學院本科畢業(yè) (設計 )論文 : Linux 平臺下 C/C++網(wǎng)絡爬蟲的設計與實現(xiàn) 2 網(wǎng)站主動提交信息來建立 自己的鏈接索引,類似于現(xiàn)在我們熟知的 Yahoo。 隨著互 聯(lián)網(wǎng)的迅速發(fā)展,使得檢索所有新出現(xiàn)的網(wǎng)頁變得越來越困難,因此,在Matthew Gray 的 Wanderer 基礎上,一些編程者將傳統(tǒng)的 ―蜘蛛 ‖程序工作原理作了些改進。其設想是,既然所有網(wǎng)頁都可能有連向其他網(wǎng)站的鏈接,那么從跟蹤一個網(wǎng)站的鏈接開始,就有可能檢索整個互聯(lián)網(wǎng)。到 1993 年底,一些基于此原理的搜索引擎開始紛紛涌現(xiàn),其中以 Jump Station、 The World Wide Web Worm( GoTo 的前身,也就是今天Overture),和 RepositoryBased Software Engineering (RBSE) spider 最負盛名。 然而 Jump Station 和 WWW Worm 只是以搜索工具在數(shù)據(jù)庫中找到匹配信息的先后次序排列搜索結(jié)果,因此毫無信息關(guān)聯(lián)度可言。而 RBSE 是第一個在搜索結(jié)果排列中引入關(guān)鍵字串匹配程 度概念的引擎 最早現(xiàn)代意義上的搜索引擎出現(xiàn)于 1994 年 7 月。當時 Michael Mauldin 將 John Leavitt 的蜘蛛程序接入到其索引程序中,創(chuàng)建了大家現(xiàn)在熟知的 Lycos。同年 4 月,斯坦福( Stanford)大學的兩名博士生, David File 和美籍華人楊致遠( Gerry Yang)共同創(chuàng)辦了超級目錄索引 Yahoo,并成功地使搜索引擎的概念深入人心。從此搜索引擎進入了高速發(fā)展時期。目前,互聯(lián)網(wǎng)上有名有姓的搜索引擎已達數(shù)百家,其檢索的信息量也與從前不可同日而語。比如最近風頭正勁的 Google,其數(shù)據(jù)庫中存放的網(wǎng)頁已達 30 億之巨。 隨著互聯(lián)網(wǎng)規(guī)模的急劇膨脹,一家搜索引擎光靠自己單打獨斗已無法適應目前的市場狀況,因此現(xiàn)在搜索引擎之間開始出現(xiàn)了分工協(xié)作,并有了專業(yè)的搜索引擎技術(shù)和搜索數(shù)據(jù)庫服務提供商。像國外 Inktomi,它本身并不是直接面向用戶的搜索引擎,但向包括 Overture(原 GoTo)、 LookSmart、 MSN、 HotBot 等在內(nèi)的其他搜索引擎提供全文網(wǎng)頁搜索服務。國內(nèi)的百度也屬于這一類(注),搜狐和新浪用的就是它的技術(shù)。因此 從這個意義上說,它們是搜索引擎的搜索引擎。 網(wǎng)絡爬蟲的分類 網(wǎng)絡爬蟲種類繁多,如果按照部署在哪里分,可以分成: ( 1)服務器側(cè):一般是一個多線程程序,同時下載多個目標 HTML,可以用 PHP, Java, Python 等做,一般綜合搜索引擎的爬蟲這樣做。但是,如果對方討厭爬蟲,很可能封掉服務器的 IP,服務器 IP 又不容易改,另外 耗用的帶寬也是較貴。 ( 2)客戶端:很適合部署定題爬蟲,或者叫聚焦爬蟲。做一個與 Google,百度等競爭的綜合搜索引擎成功的機會微乎其微,而垂直搜索或者比價服務或者推薦引擎,機會要多得多,這類爬蟲不是什么頁面都取的,而是只取關(guān)心的頁面,而且只取頁面上關(guān)心的內(nèi)容,例如提取黃頁信息,商品價格信息,還有提取競爭對手 廣告信息的。這類爬蟲可以部署很多,而且可以很有侵略性??梢缘统杀敬罅坎渴?,由于客戶端 IP 地址是動態(tài)的,所以很難被目標網(wǎng)站封鎖。 第一章 概 述 3 網(wǎng)絡爬蟲的發(fā)展趨勢 目前,大多數(shù)的搜索引擎都是基于關(guān)鍵詞的搜 索引擎。基于關(guān)鍵字匹配的搜索技術(shù)有較大的局限性:首先,它不能區(qū)分同形異義。其次,不能聯(lián)想到關(guān)鍵字的同義詞。 Web 商業(yè)化至今,搜索引擎始終保持著網(wǎng)絡上被使用最多的服務項目的地位,然而,隨著網(wǎng)上內(nèi)容的爆炸式增長和內(nèi)容形式花樣的不斷翻新,搜索引擎越來越不能滿足挑剔的網(wǎng)民們的各種信息需求。 搜索引擎的發(fā)展面臨著兩大難題:一是如何跟上 Inter 的發(fā)展速度,二是如何為用戶提供更精確的查詢結(jié)果。所以,傳統(tǒng)的引擎不能適應信息 技術(shù)的高速發(fā)展,新一代智能搜索引擎作為一種高效搜索引擎技術(shù)的在當今的網(wǎng)絡信息時代日益引起業(yè) 界人士的關(guān)注。搜索引擎己成為一個新的研究、開發(fā)領(lǐng)域。因 為它要用到信息檢索、人工智能、計算機網(wǎng)絡、分布式處理、數(shù)據(jù)庫、數(shù)據(jù)挖掘、數(shù)字圖書館、自然語言處理等多領(lǐng)域的理論和技術(shù),所以具有綜合性和挑戰(zhàn)性。又 由于搜索引擎有大量的用戶,有很好的經(jīng)濟價值,所以引起了世界各國計算機科學界和信息產(chǎn)業(yè)界的高度關(guān)注,目前的研究、開發(fā)十分活躍,并出現(xiàn)了很多值得注意的動向。 系統(tǒng)開發(fā)的必要性 爬蟲程序是一個自動獲取網(wǎng)頁的程序。它為搜索引擎從互聯(lián)網(wǎng)上下載網(wǎng)頁,是搜索引擎的重要組成部分。爬蟲程序的實現(xiàn)策略,運行效率直接 影響搜索引擎的搜索結(jié)果。不同的搜索引擎,會根據(jù)對搜索結(jié)果的不同需求,選擇最合適的爬行策略來搜集互聯(lián)網(wǎng)上的信息。高效,優(yōu)秀的爬蟲程序可以使人們在互聯(lián)網(wǎng)上尋找到更及時,更準確的信息。而現(xiàn)在 Linux 平臺下開源的搜索引擎資料較少,作為實現(xiàn)最終開發(fā)目標搜索引擎的一部分,本爬蟲程序可以為搜索引擎提供良好的網(wǎng)頁獲取能力,并可以為在 Linux 下開發(fā)網(wǎng)絡爬蟲的后來者提供參考。 本文的組織結(jié)構(gòu) 本文主要根據(jù)網(wǎng)絡爬蟲的特點,結(jié)合搜索引擎關(guān)鍵技術(shù), linux 網(wǎng)絡編程,對爬蟲程序的關(guān)鍵技術(shù)做了詳細的分析和研究。然后設計 并實現(xiàn)了一個以抓取相關(guān)關(guān)鍵字內(nèi)容并實現(xiàn)離線瀏覽功能的網(wǎng)絡爬蟲系統(tǒng)。 本文主要分為 6 個章節(jié),結(jié)構(gòu)安排如下: ( 1)緒論,對課題的背景研究意義和爬蟲的研究現(xiàn)狀做了簡單介紹。 廣東石油化工學院本科畢業(yè) (設計 )論文 : Linux 平臺下 C/C++網(wǎng)絡爬蟲的設計與實現(xiàn) 4 ( 2)相關(guān)技術(shù)和工具介紹。對網(wǎng)絡爬蟲的定義、評價指標分類、工作原理并對開發(fā)環(huán)境和工具進行了簡單介紹。并以此引出網(wǎng)絡爬蟲系統(tǒng)的相關(guān)知識介紹。 ( 3)網(wǎng)絡爬蟲的模型分析 。對網(wǎng)絡爬蟲視線中的主要思想以及關(guān)鍵技術(shù)進行了具體的分析。 ( 4)網(wǎng)絡爬蟲的模型設計 根據(jù)第三章內(nèi)容。對爬蟲系統(tǒng)進行了詳細設計,并對本爬蟲系統(tǒng)的模型實現(xiàn)進行具體分析。同時也對使 用的技術(shù)進行簡單的介紹。 ( 5)程序運行和結(jié)果分析對程序的編譯運行進行簡單介紹。并對測試結(jié)果進行了簡單分析。 ( 6)總結(jié)和展望。 第二章 相關(guān)技術(shù)和工具綜述 5 第二章 相關(guān)技術(shù)和工具綜述 網(wǎng)絡爬蟲的定義 定義 1:網(wǎng)絡爬蟲是一個自動提取網(wǎng)頁的程序,它為搜索引擎從 Web 上下載網(wǎng)頁,是搜索引擎的重要組成部分。通用網(wǎng)絡爬蟲從一個或若干初始網(wǎng)頁的 URL 開始,獲得初始網(wǎng)頁上的 URL 列表;在抓取網(wǎng)頁的過程中,不斷從當前頁面上抽取新的 URL 放入待爬行隊列,直到滿足系統(tǒng)的停止條件。 定 義 2:網(wǎng)絡爬蟲就是根據(jù)一定的網(wǎng)頁分析算法過濾與主題無關(guān)的鏈接,保留相關(guān)的鏈接并將其放入待抓取的 URL 隊列中;然后根據(jù)一定的搜索策略從隊列中選擇下一步要抓取的網(wǎng)頁 URL,并重復上述過程,直到達到系統(tǒng)的某一條件時停止。所有被網(wǎng)絡爬蟲抓取的網(wǎng)頁將會被系統(tǒng)存儲,進行一定的分析、過濾,并建立索引,對于網(wǎng)絡爬蟲來說,這一過程所得到的分析結(jié)果還可能對后續(xù)的抓取過程進行反饋和指導。 定義 3:如果網(wǎng)頁 p 中包含超鏈接 l,則 p 稱為鏈接 l 的父網(wǎng)頁。 定義 4:如果超鏈接 l 指向網(wǎng)頁 t,則網(wǎng)頁 t 稱為子網(wǎng)頁,又稱為目標網(wǎng)頁。網(wǎng)絡爬蟲的基本 思路就是按照事先給出的主題,分超鏈接和已經(jīng)下載的網(wǎng)頁內(nèi)容,預測下一個待抓取的 URL 及當前網(wǎng)頁的相關(guān)度,保證盡可能多地爬行、下載相關(guān)的網(wǎng)頁,盡可能少地下載無關(guān)網(wǎng)頁。 網(wǎng)頁搜索策略介紹 網(wǎng)頁的抓取策略可以分為深度優(yōu)先、廣度優(yōu)先和最佳優(yōu)先三種。深度優(yōu)先在很多情況下會導致爬蟲的陷入( trapped)問題,目前常見的是廣度優(yōu)先和最佳優(yōu)先方法。 廣度優(yōu)先搜索策略 廣度優(yōu)先搜索 策略是指在抓取 過程中,在完成當前層次的搜索后,才進行下一層次的搜索。該算法的設計和實現(xiàn)相對簡單。在目前為覆蓋盡可能多的網(wǎng)頁,一般使用廣度優(yōu)先搜索方法。也有很多研究將廣度優(yōu)先搜索策略應用于聚焦爬蟲中。其基本思想是認為與初始 URL 在一定鏈接距離內(nèi)的網(wǎng)頁具有主題相關(guān)性的概率很大。另外一種方法是將廣度優(yōu)先搜索與網(wǎng)頁過濾技術(shù)結(jié)合使用,先用 廣度優(yōu)先策略 抓取網(wǎng)頁,再將其中無關(guān)的網(wǎng)頁過濾掉。這些方法的缺點在于,隨著抓取網(wǎng)頁的增多 ,大量的無關(guān)網(wǎng)頁將被下載并過濾,算法的效率將變低。 廣東石油化工學院本科畢業(yè) (設計 )論文 : Linux 平臺下 C/C++網(wǎng)絡爬蟲的設計與實現(xiàn) 6 相關(guān)工具介紹 操作系統(tǒng) 本網(wǎng)絡爬蟲程序開發(fā)環(huán)境為 Linux CentOS 操作系統(tǒng),并且目標是在 Linux 下運行,而在其他平臺上會出現(xiàn)各種無法正常運行的問題,所以在此有必要介紹一下該程序的運行環(huán)境, Linux 操作系統(tǒng)。 Linux 是一套免費使用和自由傳播的類 Unix 操作系統(tǒng),是一個基于 POSIX 和 UNIX的多用戶、多任務、支持多線程和多 CPU 的操作系統(tǒng)。它能運行主要的 UNIX 工具軟件、應用程序和網(wǎng)絡協(xié)議。它支持 32 位和 64 位硬件。 Linux 繼承了 Unix 以網(wǎng)絡為核心的設計思想,是一個性能穩(wěn)定的多用戶網(wǎng)絡操作系統(tǒng)。 而 Linux 主要作為 Linux 發(fā)布版(通常被稱為 distro)的一部分而使用。 Linux 發(fā)布版指的就是通常所說的 ―Lin
點擊復制文檔內(nèi)容
公司管理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1