freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

《網(wǎng)絡(luò)爬蟲論》word版-文庫(kù)吧

2024-12-23 18:09 本頁面


【正文】 .................................................................................................................. 25 運(yùn)行及結(jié)果分析 ................................................................................................................................... 26 IV 第六章 總結(jié)與展望 ................................................................ 30 致 謝 ............................................................................ 31 參考文獻(xiàn) ......................................................................... 32 第一章 概 述 1 第一章 概 述 課題背景 網(wǎng)絡(luò)爬蟲,是一種按照一定的規(guī)則,自動(dòng)的抓取萬維網(wǎng)信息的程序或者腳本。另外一些不常使用的名字還有螞蟻,自動(dòng)索引,模擬程序或者蠕蟲。 網(wǎng)絡(luò)檢索功能起于互聯(lián)網(wǎng)內(nèi)容爆炸性發(fā)展所帶來的對(duì)內(nèi)容檢索的需求。搜索引擎不斷的發(fā)展 ,人們的需求也在不斷的提高 ,網(wǎng)絡(luò)信息搜索已經(jīng)成為人們每天都要進(jìn)行的內(nèi)容 .如何使搜索引擎能時(shí)刻滿足人們的需求。最初的檢索功能通過索引站的方式實(shí)現(xiàn),而有了網(wǎng)絡(luò)機(jī)器人,即網(wǎng)絡(luò)爬蟲這個(gè)技術(shù)之后,搜索引擎的時(shí)代便開始一發(fā)不可收拾了。 網(wǎng)絡(luò) 爬蟲的歷史和分類 網(wǎng)絡(luò)爬蟲的歷史 在互聯(lián)網(wǎng)發(fā)展初期,網(wǎng)站相對(duì)較少,信息查找比較容易。然而伴隨互聯(lián)網(wǎng)爆炸性的發(fā)展,普通網(wǎng)絡(luò)用戶想找到所需的資料簡(jiǎn)直如同大海撈針,這時(shí)為滿足大眾信息檢索需求的專業(yè)搜索網(wǎng)站便應(yīng)運(yùn)而生了。 現(xiàn)代意義上的搜索引擎的祖先,是 1990 年由蒙特利爾大學(xué)學(xué)生 Alan Emtage 發(fā)明的 Archie。雖然當(dāng)時(shí) World Wide Web 還未出現(xiàn),但網(wǎng)絡(luò)中文件傳輸還是相當(dāng)頻繁的,而且由于大量的文件散布在各個(gè)分散的 FTP 主機(jī)中,查詢起來非常不便,因此 Alan Archie 工作原理與現(xiàn)在 的搜索引擎已經(jīng)很接近,它依靠腳本程序自動(dòng)搜索網(wǎng)上的文件,然后對(duì)有關(guān)信息進(jìn)行索引,供使用者以一定的表達(dá)式查詢。由于 Archie 深受用戶歡迎,受其啟發(fā),美國(guó)內(nèi)華達(dá) System Computing Services 大學(xué)于 1993 年開發(fā)了另一個(gè)與之非常相似的搜索工具,不過此時(shí)的搜索工具除了索引文件外,已能檢索網(wǎng)頁。 當(dāng)時(shí), ―機(jī)器人 ‖一詞在編程者中十分流行。電腦 ―機(jī)器人 ‖( Computer Robot)是指 某個(gè)能以人類無法達(dá)到的速度不間斷地執(zhí)行某項(xiàng)任務(wù)的軟件程序。由于專門用于檢索信息的 ―機(jī)器人 ‖程序象蜘蛛一樣在 網(wǎng)絡(luò)間爬來爬去,因此, 搜索引擎的 ―機(jī)器人 ‖程序就被稱為 ―蜘蛛 ‖程序。世界上第一個(gè)用于監(jiān)測(cè)互聯(lián)網(wǎng)發(fā)展規(guī)模的 ―機(jī)器人 ‖程序是 Matthew Gray 開發(fā)的 World wide Web Wanderer。剛開始它只用來統(tǒng)計(jì)互聯(lián)網(wǎng)上的服務(wù)器數(shù)量,后來則發(fā)展為能夠檢索網(wǎng)站域名。與 Wanderer 相對(duì)應(yīng), Martin Koster 于 1993 年 10 月創(chuàng)建了 ALIWEB,它是 Archie 的 HTTP 版本。 ALIWEB 不使用 ―機(jī)器人 ‖程序,而是靠廣東石油化工學(xué)院本科畢業(yè) (設(shè)計(jì) )論文 : Linux 平臺(tái)下 C/C++網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn) 2 網(wǎng)站主動(dòng)提交信息來建立 自己的鏈接索引,類似于現(xiàn)在我們熟知的 Yahoo。 隨著互 聯(lián)網(wǎng)的迅速發(fā)展,使得檢索所有新出現(xiàn)的網(wǎng)頁變得越來越困難,因此,在Matthew Gray 的 Wanderer 基礎(chǔ)上,一些編程者將傳統(tǒng)的 ―蜘蛛 ‖程序工作原理作了些改進(jìn)。其設(shè)想是,既然所有網(wǎng)頁都可能有連向其他網(wǎng)站的鏈接,那么從跟蹤一個(gè)網(wǎng)站的鏈接開始,就有可能檢索整個(gè)互聯(lián)網(wǎng)。到 1993 年底,一些基于此原理的搜索引擎開始紛紛涌現(xiàn),其中以 Jump Station、 The World Wide Web Worm( GoTo 的前身,也就是今天Overture),和 RepositoryBased Software Engineering (RBSE) spider 最負(fù)盛名。 然而 Jump Station 和 WWW Worm 只是以搜索工具在數(shù)據(jù)庫(kù)中找到匹配信息的先后次序排列搜索結(jié)果,因此毫無信息關(guān)聯(lián)度可言。而 RBSE 是第一個(gè)在搜索結(jié)果排列中引入關(guān)鍵字串匹配程 度概念的引擎 最早現(xiàn)代意義上的搜索引擎出現(xiàn)于 1994 年 7 月。當(dāng)時(shí) Michael Mauldin 將 John Leavitt 的蜘蛛程序接入到其索引程序中,創(chuàng)建了大家現(xiàn)在熟知的 Lycos。同年 4 月,斯坦福( Stanford)大學(xué)的兩名博士生, David File 和美籍華人楊致遠(yuǎn)( Gerry Yang)共同創(chuàng)辦了超級(jí)目錄索引 Yahoo,并成功地使搜索引擎的概念深入人心。從此搜索引擎進(jìn)入了高速發(fā)展時(shí)期。目前,互聯(lián)網(wǎng)上有名有姓的搜索引擎已達(dá)數(shù)百家,其檢索的信息量也與從前不可同日而語。比如最近風(fēng)頭正勁的 Google,其數(shù)據(jù)庫(kù)中存放的網(wǎng)頁已達(dá) 30 億之巨。 隨著互聯(lián)網(wǎng)規(guī)模的急劇膨脹,一家搜索引擎光靠自己?jiǎn)未颡?dú)斗已無法適應(yīng)目前的市場(chǎng)狀況,因此現(xiàn)在搜索引擎之間開始出現(xiàn)了分工協(xié)作,并有了專業(yè)的搜索引擎技術(shù)和搜索數(shù)據(jù)庫(kù)服務(wù)提供商。像國(guó)外 Inktomi,它本身并不是直接面向用戶的搜索引擎,但向包括 Overture(原 GoTo)、 LookSmart、 MSN、 HotBot 等在內(nèi)的其他搜索引擎提供全文網(wǎng)頁搜索服務(wù)。國(guó)內(nèi)的百度也屬于這一類(注),搜狐和新浪用的就是它的技術(shù)。因此 從這個(gè)意義上說,它們是搜索引擎的搜索引擎。 網(wǎng)絡(luò)爬蟲的分類 網(wǎng)絡(luò)爬蟲種類繁多,如果按照部署在哪里分,可以分成: ( 1)服務(wù)器側(cè):一般是一個(gè)多線程程序,同時(shí)下載多個(gè)目標(biāo) HTML,可以用 PHP, Java, Python 等做,一般綜合搜索引擎的爬蟲這樣做。但是,如果對(duì)方討厭爬蟲,很可能封掉服務(wù)器的 IP,服務(wù)器 IP 又不容易改,另外 耗用的帶寬也是較貴。 ( 2)客戶端:很適合部署定題爬蟲,或者叫聚焦爬蟲。做一個(gè)與 Google,百度等競(jìng)爭(zhēng)的綜合搜索引擎成功的機(jī)會(huì)微乎其微,而垂直搜索或者比價(jià)服務(wù)或者推薦引擎,機(jī)會(huì)要多得多,這類爬蟲不是什么頁面都取的,而是只取關(guān)心的頁面,而且只取頁面上關(guān)心的內(nèi)容,例如提取黃頁信息,商品價(jià)格信息,還有提取競(jìng)爭(zhēng)對(duì)手 廣告信息的。這類爬蟲可以部署很多,而且可以很有侵略性。可以低成本大量部署,由于客戶端 IP 地址是動(dòng)態(tài)的,所以很難被目標(biāo)網(wǎng)站封鎖。 第一章 概 述 3 網(wǎng)絡(luò)爬蟲的發(fā)展趨勢(shì) 目前,大多數(shù)的搜索引擎都是基于關(guān)鍵詞的搜 索引擎?;陉P(guān)鍵字匹配的搜索技術(shù)有較大的局限性:首先,它不能區(qū)分同形異義。其次,不能聯(lián)想到關(guān)鍵字的同義詞。 Web 商業(yè)化至今,搜索引擎始終保持著網(wǎng)絡(luò)上被使用最多的服務(wù)項(xiàng)目的地位,然而,隨著網(wǎng)上內(nèi)容的爆炸式增長(zhǎng)和內(nèi)容形式花樣的不斷翻新,搜索引擎越來越不能滿足挑剔的網(wǎng)民們的各種信息需求。 搜索引擎的發(fā)展面臨著兩大難題:一是如何跟上 Inter 的發(fā)展速度,二是如何為用戶提供更精確的查詢結(jié)果。所以,傳統(tǒng)的引擎不能適應(yīng)信息 技術(shù)的高速發(fā)展,新一代智能搜索引擎作為一種高效搜索引擎技術(shù)的在當(dāng)今的網(wǎng)絡(luò)信息時(shí)代日益引起業(yè) 界人士的關(guān)注。搜索引擎己成為一個(gè)新的研究、開發(fā)領(lǐng)域。因 為它要用到信息檢索、人工智能、計(jì)算機(jī)網(wǎng)絡(luò)、分布式處理、數(shù)據(jù)庫(kù)、數(shù)據(jù)挖掘、數(shù)字圖書館、自然語言處理等多領(lǐng)域的理論和技術(shù),所以具有綜合性和挑戰(zhàn)性。又 由于搜索引擎有大量的用戶,有很好的經(jīng)濟(jì)價(jià)值,所以引起了世界各國(guó)計(jì)算機(jī)科學(xué)界和信息產(chǎn)業(yè)界的高度關(guān)注,目前的研究、開發(fā)十分活躍,并出現(xiàn)了很多值得注意的動(dòng)向。 系統(tǒng)開發(fā)的必要性 爬蟲程序是一個(gè)自動(dòng)獲取網(wǎng)頁的程序。它為搜索引擎從互聯(lián)網(wǎng)上下載網(wǎng)頁,是搜索引擎的重要組成部分。爬蟲程序的實(shí)現(xiàn)策略,運(yùn)行效率直接 影響搜索引擎的搜索結(jié)果。不同的搜索引擎,會(huì)根據(jù)對(duì)搜索結(jié)果的不同需求,選擇最合適的爬行策略來搜集互聯(lián)網(wǎng)上的信息。高效,優(yōu)秀的爬蟲程序可以使人們?cè)诨ヂ?lián)網(wǎng)上尋找到更及時(shí),更準(zhǔn)確的信息。而現(xiàn)在 Linux 平臺(tái)下開源的搜索引擎資料較少,作為實(shí)現(xiàn)最終開發(fā)目標(biāo)搜索引擎的一部分,本爬蟲程序可以為搜索引擎提供良好的網(wǎng)頁獲取能力,并可以為在 Linux 下開發(fā)網(wǎng)絡(luò)爬蟲的后來者提供參考。 本文的組織結(jié)構(gòu) 本文主要根據(jù)網(wǎng)絡(luò)爬蟲的特點(diǎn),結(jié)合搜索引擎關(guān)鍵技術(shù), linux 網(wǎng)絡(luò)編程,對(duì)爬蟲程序的關(guān)鍵技術(shù)做了詳細(xì)的分析和研究。然后設(shè)計(jì) 并實(shí)現(xiàn)了一個(gè)以抓取相關(guān)關(guān)鍵字內(nèi)容并實(shí)現(xiàn)離線瀏覽功能的網(wǎng)絡(luò)爬蟲系統(tǒng)。 本文主要分為 6 個(gè)章節(jié),結(jié)構(gòu)安排如下: ( 1)緒論,對(duì)課題的背景研究意義和爬蟲的研究現(xiàn)狀做了簡(jiǎn)單介紹。 廣東石油化工學(xué)院本科畢業(yè) (設(shè)計(jì) )論文 : Linux 平臺(tái)下 C/C++網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn) 4 ( 2)相關(guān)技術(shù)和工具介紹。對(duì)網(wǎng)絡(luò)爬蟲的定義、評(píng)價(jià)指標(biāo)分類、工作原理并對(duì)開發(fā)環(huán)境和工具進(jìn)行了簡(jiǎn)單介紹。并以此引出網(wǎng)絡(luò)爬蟲系統(tǒng)的相關(guān)知識(shí)介紹。 ( 3)網(wǎng)絡(luò)爬蟲的模型分析 。對(duì)網(wǎng)絡(luò)爬蟲視線中的主要思想以及關(guān)鍵技術(shù)進(jìn)行了具體的分析。 ( 4)網(wǎng)絡(luò)爬蟲的模型設(shè)計(jì) 根據(jù)第三章內(nèi)容。對(duì)爬蟲系統(tǒng)進(jìn)行了詳細(xì)設(shè)計(jì),并對(duì)本爬蟲系統(tǒng)的模型實(shí)現(xiàn)進(jìn)行具體分析。同時(shí)也對(duì)使 用的技術(shù)進(jìn)行簡(jiǎn)單的介紹。 ( 5)程序運(yùn)行和結(jié)果分析對(duì)程序的編譯運(yùn)行進(jìn)行簡(jiǎn)單介紹。并對(duì)測(cè)試結(jié)果進(jìn)行了簡(jiǎn)單分析。 ( 6)總結(jié)和展望。 第二章 相關(guān)技術(shù)和工具綜述 5 第二章 相關(guān)技術(shù)和工具綜述 網(wǎng)絡(luò)爬蟲的定義 定義 1:網(wǎng)絡(luò)爬蟲是一個(gè)自動(dòng)提取網(wǎng)頁的程序,它為搜索引擎從 Web 上下載網(wǎng)頁,是搜索引擎的重要組成部分。通用網(wǎng)絡(luò)爬蟲從一個(gè)或若干初始網(wǎng)頁的 URL 開始,獲得初始網(wǎng)頁上的 URL 列表;在抓取網(wǎng)頁的過程中,不斷從當(dāng)前頁面上抽取新的 URL 放入待爬行隊(duì)列,直到滿足系統(tǒng)的停止條件。 定 義 2:網(wǎng)絡(luò)爬蟲就是根據(jù)一定的網(wǎng)頁分析算法過濾與主題無關(guān)的鏈接,保留相關(guān)的鏈接并將其放入待抓取的 URL 隊(duì)列中;然后根據(jù)一定的搜索策略從隊(duì)列中選擇下一步要抓取的網(wǎng)頁 URL,并重復(fù)上述過程,直到達(dá)到系統(tǒng)的某一條件時(shí)停止。所有被網(wǎng)絡(luò)爬蟲抓取的網(wǎng)頁將會(huì)被系統(tǒng)存儲(chǔ),進(jìn)行一定的分析、過濾,并建立索引,對(duì)于網(wǎng)絡(luò)爬蟲來說,這一過程所得到的分析結(jié)果還可能對(duì)后續(xù)的抓取過程進(jìn)行反饋和指導(dǎo)。 定義 3:如果網(wǎng)頁 p 中包含超鏈接 l,則 p 稱為鏈接 l 的父網(wǎng)頁。 定義 4:如果超鏈接 l 指向網(wǎng)頁 t,則網(wǎng)頁 t 稱為子網(wǎng)頁,又稱為目標(biāo)網(wǎng)頁。網(wǎng)絡(luò)爬蟲的基本 思路就是按照事先給出的主題,分超鏈接和已經(jīng)下載的網(wǎng)頁內(nèi)容,預(yù)測(cè)下一個(gè)待抓取的 URL 及當(dāng)前網(wǎng)頁的相關(guān)度,保證盡可能多地爬行、下載相關(guān)的網(wǎng)頁,盡可能少地下載無關(guān)網(wǎng)頁。 網(wǎng)頁搜索策略介紹 網(wǎng)頁的抓取策略可以分為深度優(yōu)先、廣度優(yōu)先和最佳優(yōu)先三種。深度優(yōu)先在很多情況下會(huì)導(dǎo)致爬蟲的陷入( trapped)問題,目前常見的是廣度優(yōu)先和最佳優(yōu)先方法。 廣度優(yōu)先搜索策略 廣度優(yōu)先搜索 策略是指在抓取 過程中,在完成當(dāng)前層次的搜索后,才進(jìn)行下一層次的搜索。該算法的設(shè)計(jì)和實(shí)現(xiàn)相對(duì)簡(jiǎn)單。在目前為覆蓋盡可能多的網(wǎng)頁,一般使用廣度優(yōu)先搜索方法。也有很多研究將廣度優(yōu)先搜索策略應(yīng)用于聚焦爬蟲中。其基本思想是認(rèn)為與初始 URL 在一定鏈接距離內(nèi)的網(wǎng)頁具有主題相關(guān)性的概率很大。另外一種方法是將廣度優(yōu)先搜索與網(wǎng)頁過濾技術(shù)結(jié)合使用,先用 廣度優(yōu)先策略 抓取網(wǎng)頁,再將其中無關(guān)的網(wǎng)頁過濾掉。這些方法的缺點(diǎn)在于,隨著抓取網(wǎng)頁的增多 ,大量的無關(guān)網(wǎng)頁將被下載并過濾,算法的效率將變低。 廣東石油化工學(xué)院本科畢業(yè) (設(shè)計(jì) )論文 : Linux 平臺(tái)下 C/C++網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn) 6 相關(guān)工具介紹 操作系統(tǒng) 本網(wǎng)絡(luò)爬蟲程序開發(fā)環(huán)境為 Linux CentOS 操作系統(tǒng),并且目標(biāo)是在 Linux 下運(yùn)行,而在其他平臺(tái)上會(huì)出現(xiàn)各種無法正常運(yùn)行的問題,所以在此有必要介紹一下該程序的運(yùn)行環(huán)境, Linux 操作系統(tǒng)。 Linux 是一套免費(fèi)使用和自由傳播的類 Unix 操作系統(tǒng),是一個(gè)基于 POSIX 和 UNIX的多用戶、多任務(wù)、支持多線程和多 CPU 的操作系統(tǒng)。它能運(yùn)行主要的 UNIX 工具軟件、應(yīng)用程序和網(wǎng)絡(luò)協(xié)議。它支持 32 位和 64 位硬件。 Linux 繼承了 Unix 以網(wǎng)絡(luò)為核心的設(shè)計(jì)思想,是一個(gè)性能穩(wěn)定的多用戶網(wǎng)絡(luò)操作系統(tǒng)。 而 Linux 主要作為 Linux 發(fā)布版(通常被稱為 distro)的一部分而使用。 Linux 發(fā)布版指的就是通常所說的 ―Lin
點(diǎn)擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1