freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于多線程的網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)論文(編輯修改稿)

2025-08-14 14:58 本頁(yè)面
 

【文章內(nèi)容簡(jiǎn)介】 爆炸式增長(zhǎng),并由此誕生了大量的數(shù)據(jù),人類進(jìn)入了一個(gè)“大數(shù)據(jù)時(shí)代”。這使得人們?cè)诰W(wǎng)上找到自己所需的信息越來(lái)越困難,如果 在 信息 的海洋里撈針。 據(jù)統(tǒng)計(jì)搜索引擎已經(jīng)成為僅次于電子郵件服務(wù),是人們使用最多的網(wǎng)路服務(wù)。搜索引擎搜集互聯(lián)網(wǎng)上數(shù)以億計(jì)的網(wǎng)頁(yè),并為每個(gè)關(guān)鍵詞建立索引。用戶通過(guò)輸入自己感興趣的關(guān)鍵字就能獲得與之相關(guān)的網(wǎng)頁(yè)。從搜索引擎出發(fā)就能很快的到達(dá)互聯(lián)網(wǎng)的任何一個(gè)地方。在建立搜索引擎的過(guò)程中 ,獲取網(wǎng)頁(yè)是非常重要的一個(gè)環(huán)節(jié)。爬蟲程序就是用來(lái)獲取網(wǎng)頁(yè)的程序。網(wǎng)絡(luò)爬蟲,是一種按照一定的規(guī)則,自動(dòng)的抓取因特網(wǎng)信息的程序或者腳本。另外一些不常使用的名字還有網(wǎng)路螞蟻,自動(dòng)索引,模擬程序或者蠕蟲。網(wǎng)絡(luò)蜘蛛是通過(guò)網(wǎng)頁(yè)的鏈接地址來(lái)尋找網(wǎng)頁(yè),從網(wǎng)站的一個(gè)頁(yè)面(通常是首頁(yè))開(kāi)始,讀取網(wǎng)頁(yè)的內(nèi)容,找到在網(wǎng)頁(yè)中的其它鏈接地址,然后通過(guò)這些鏈接地址尋找下一個(gè)網(wǎng)頁(yè),這樣一直循環(huán)下去,直到把這個(gè)網(wǎng)站所有的網(wǎng)頁(yè)都抓取完為止。如果把整個(gè)互聯(lián)網(wǎng)當(dāng)成一個(gè)網(wǎng)站,那么網(wǎng)絡(luò)蜘蛛就可以用這個(gè)原理把互聯(lián)網(wǎng)上所有的網(wǎng)頁(yè)都抓取下來(lái)。 WEB 資源自動(dòng)獲取技術(shù)程序就是用來(lái)搜集網(wǎng)頁(yè)的程序。以何種策略遍歷互聯(lián)網(wǎng)上的網(wǎng)頁(yè),也成了該程序主要的研究方向?,F(xiàn)在比較流行的搜索引擎,比如 Google,百度,它們自動(dòng)獲取資源程序的技術(shù)內(nèi)幕一般都不公開(kāi)。目前幾種比較常用的自動(dòng)獲取資源實(shí)現(xiàn)策略:廣度優(yōu)先的爬蟲程序,Repetitive 爬蟲程序,定義爬行爬蟲程序,深層次爬行爬蟲程序。此外 , 還有根據(jù)概率論進(jìn)行可用Web 頁(yè)的數(shù)量估算 ,?用于評(píng)估互聯(lián)網(wǎng) Web 規(guī)模的抽樣爬蟲程序 ; 采用爬行深度、頁(yè)面導(dǎo)入鏈接量分析等方法 , 限制從程序下載不相關(guān)的 Web 頁(yè)的選擇性爬行程序等等。 自動(dòng) 獲取資源技術(shù)為搜索引擎從互聯(lián)網(wǎng)上自動(dòng)獲取整個(gè)網(wǎng)頁(yè),也可以網(wǎng)頁(yè)中的某一個(gè)圖片或者是網(wǎng)頁(yè)鏈接的文件等資源,是搜索引擎的重要組成部分。自動(dòng)獲取資源技術(shù)程序的實(shí)現(xiàn)策略,運(yùn)行效率直接影響搜索引擎的搜索結(jié)果。不同的搜索引擎,會(huì)根據(jù)對(duì)搜索結(jié)果的不同需求,選擇最合適的爬行策略來(lái)搜集互聯(lián)網(wǎng)上的信息。高效,優(yōu)秀的自動(dòng)獲取資源程序可以使人們?cè)诨ヂ?lián)網(wǎng)上尋找到更及時(shí),更準(zhǔn)確的信息。 本課題旨在根據(jù)上述原理設(shè)計(jì)與實(shí)現(xiàn)一個(gè)網(wǎng)絡(luò)爬蟲系統(tǒng)。 成都學(xué)院學(xué)士學(xué)位論文(設(shè)計(jì)) 2 1 概述 研究目的和意義 網(wǎng)絡(luò)蜘蛛是通過(guò)網(wǎng)頁(yè)的鏈接地址來(lái)尋找網(wǎng)頁(yè),從網(wǎng)站的某 一個(gè)頁(yè)面( 通常是首頁(yè))開(kāi)始,讀取網(wǎng)頁(yè)的內(nèi)容,找到在網(wǎng)頁(yè)中的其它鏈接地址,然后通過(guò)這些鏈接地址尋找下一個(gè)網(wǎng)頁(yè),這樣一直循環(huán)下去,直到把這個(gè)網(wǎng)站所有的網(wǎng)頁(yè)都抓取完為止。而本課題的主要就是怎樣更高效的獲取網(wǎng)頁(yè),并通過(guò)所給條件篩選得到人們所需要的網(wǎng)頁(yè)。隨著互連網(wǎng)的飛速發(fā)展,網(wǎng)絡(luò)信息量呈現(xiàn)出爆炸性增長(zhǎng)的趨勢(shì),當(dāng)今這個(gè)時(shí)代被稱為“大數(shù)據(jù)”時(shí)代。越來(lái)越多的信息涌到人們的面前,然而互聯(lián)網(wǎng)在人們提供豐富信息的同時(shí),卻在如何對(duì)信息進(jìn)行高效便捷使用方面給人民帶來(lái)巨大的挑戰(zhàn):一方面互聯(lián)網(wǎng)上的信息種類繁多、豐富多彩,而另一方面卻很難找到真正有 用的信息,當(dāng)人們想從浩淼無(wú)邊的數(shù)據(jù)海洋中快速準(zhǔn)確的找到自己所需要的信息時(shí),常常需要“搜索引擎”的幫助,而網(wǎng)絡(luò)爬蟲是搜索引擎的重要組成。它為搜索引擎從 Inter 上下載網(wǎng)頁(yè)。作為搜索引擎的資源采集部分,網(wǎng)絡(luò)爬蟲的性能將直接影響到整個(gè)搜索引擎索引網(wǎng)頁(yè)的數(shù)量、質(zhì)量和更新周期。高效,優(yōu)秀的爬蟲程序可以使人們?cè)诨ヂ?lián)網(wǎng)上尋找到更及時(shí),更準(zhǔn)確的信息。 網(wǎng)絡(luò)爬蟲的歷史 在互聯(lián)網(wǎng)發(fā)展的早期,網(wǎng)站數(shù)量相對(duì)較少,信息數(shù)據(jù)量不大,查找也比較容易。然而伴隨互聯(lián)網(wǎng)井噴性的發(fā)展,普通網(wǎng)絡(luò)用戶想找到自己所需的資料簡(jiǎn)直如同在數(shù)據(jù) 的海洋里撈針,為滿足大眾信息檢索需求的專業(yè)搜索網(wǎng)站便應(yīng)運(yùn)而生了。 所有搜索引擎的鼻祖,是 1990 年由 Montreal 的 McGill University 三名學(xué)生( Alan Emtage、 Peter Deutsch、 Bill Wheelan)發(fā)明的 Archie( Archie FAQ)。 Alan Emtage 等想到了開(kāi)發(fā)一個(gè)可以用文件名查找文件的系統(tǒng),于是便有了 Archie。 Archie 是第一個(gè)自動(dòng)索引互聯(lián)網(wǎng)上匿名 FTP 網(wǎng)站文件的程序,但它還不是真正的搜索引擎。 Archie 是一個(gè)可搜索的 FTP 文件名列表,用戶必 須輸入精確的文件名搜索,然后 Archie 會(huì)告訴用戶哪一個(gè) FTP 地址可以下載該文件。由于 Archie 深受歡迎,受其啟發(fā),Nevada System Computing Services 大學(xué)于 1993年開(kāi)發(fā)了一個(gè) Gopher( Gopher FAQ)搜索工具 Veronica( Veronica FAQ)。 Jug head 是后來(lái)另一個(gè) Gopher 搜索工具。雖然當(dāng)時(shí)萬(wàn)維網(wǎng)還未出現(xiàn),但網(wǎng)絡(luò)中文件傳輸還是相當(dāng)頻繁的,而且由于大量的文件散布在各個(gè)分散的 FTP 主機(jī)中,查詢起來(lái)非常不便,因此 Alan Archie 工作原理與現(xiàn)在的 搜索引擎已經(jīng)很接近,它依靠腳本程序自動(dòng)搜索網(wǎng)上的文件,然后對(duì)有關(guān)信息進(jìn)行索引,供使用者以一定的表達(dá)式查詢。 當(dāng)時(shí),“機(jī)器人”一詞在編程者中十分流行。電腦“機(jī)器人”( Computer Robot)是指某個(gè)能以人類無(wú)法達(dá)到的速度不間斷地執(zhí)行某項(xiàng)任務(wù)的軟件程序。由于專門用于檢索信息的“機(jī)器人”程序成都學(xué)院學(xué)士學(xué)位論文(設(shè)計(jì)) 3 象蜘蛛一樣在網(wǎng)絡(luò)間爬來(lái)爬去,因此, 搜索引擎的“機(jī)器人”程序就被稱為“蜘蛛”程序。 世界上第一個(gè)用于監(jiān)測(cè)互聯(lián)網(wǎng)發(fā)展規(guī)模的“機(jī)器人”程序是 Matthew Gray 開(kāi)發(fā)的 World wide Web Wanderer。剛開(kāi)始 它只用來(lái)統(tǒng)計(jì)互聯(lián)網(wǎng)上的服務(wù)器數(shù)量,后來(lái)則發(fā)展為能夠檢索網(wǎng)站域名。與Wanderer 相對(duì)應(yīng), Martin Kosher 于 1993 年 10 月創(chuàng)建了 ALIWEB,它是 Archie 的 HTTP 版本。 ALIWEB不使用“機(jī)器人”程序,而是靠網(wǎng)站主動(dòng)提交信息來(lái)建立 自己的鏈接索引,類似于現(xiàn)在我們熟知的Yahoo。 隨著互聯(lián)網(wǎng)的迅速發(fā)展,使得檢索所有新出現(xiàn)的網(wǎng)頁(yè)變得越來(lái)越困難,因此,在 Matthew Gray的 Wanderer 基礎(chǔ)上,一些編程者將傳統(tǒng)的“蜘蛛”程序工作原理作了些改進(jìn)。直到一些編程者提出了這樣的設(shè)想,既然所有網(wǎng) 頁(yè)都可能有連向其他網(wǎng)站的鏈接,那么從跟蹤一個(gè)網(wǎng)站的鏈接開(kāi)始,就有可能檢索整個(gè)互聯(lián)網(wǎng)。到 1993 年底,一些基于此原理的搜索引擎開(kāi)始紛紛涌現(xiàn),但是早期的搜索引擎只是以搜索工具在數(shù)據(jù)庫(kù)中找到匹配信息的先后次序排列搜索結(jié)果,因此毫無(wú)信息關(guān)聯(lián)度可言。而 RBSE 是第一個(gè)在搜索結(jié)果排列中引入關(guān)鍵字串匹配程度概念的引擎。最早現(xiàn)代意義上的搜索引擎出現(xiàn)于 1994 年 7 月。當(dāng)時(shí) Michael Mauldin 將 John Leavitt 的蜘蛛程序接入到其索引程序中,創(chuàng)建了大家現(xiàn)在熟知的 Lycos( 20xx 年被西班牙網(wǎng)絡(luò)集團(tuán) Terra Lycos Network 收購(gòu))。同年 4 月,斯坦福( Stanford)大學(xué)最為著名的兩名博士生,美籍華人楊致遠(yuǎn)( Gerry Yang)和 David Filo 共同創(chuàng)辦了Yahoo 公司,并成功地使搜索引擎的概念深入人心。從此搜索引擎進(jìn)入了高速發(fā)展時(shí)期。目前,互聯(lián)網(wǎng)上有名有姓的搜索引擎已達(dá)數(shù)百家,其檢索的信息量也與從前不可同日而語(yǔ)。像國(guó)外的 Google,國(guó)內(nèi)的百度,這樣的搜索引擎巨擘由于掌握的大多數(shù)的入口流量,成為互聯(lián)網(wǎng)世界的霸主,并帶來(lái)了巨大的商業(yè)價(jià)值。 研究現(xiàn)狀和發(fā)展趨勢(shì) 因?yàn)樗阉饕娴纳虡I(yè)化應(yīng)用帶來(lái) 了巨大的商業(yè)價(jià)值,所以作為搜索引擎的核心部分的網(wǎng)絡(luò)爬蟲技術(shù),也理所應(yīng)當(dāng)?shù)某蔀榱藝?guó)內(nèi)外研究 的熱點(diǎn)。 對(duì)于網(wǎng)絡(luò)爬蟲的研究從上世紀(jì)九十年代就開(kāi)始了目前爬蟲技術(shù)已經(jīng)相當(dāng)成熟。并催生了像 Baidu 和 Google 這樣的網(wǎng)絡(luò)巨擘,而其他公司也紛紛推出了自己的搜索引擎。網(wǎng)絡(luò)爬蟲是搜索引擎的重要組成部分。 現(xiàn)今,網(wǎng)絡(luò)爬蟲主要分為通用爬蟲和聚焦爬蟲兩類。通用搜索引擎的目標(biāo)是盡可能大的網(wǎng)絡(luò)覆蓋率,通用搜索引擎大多提供基于關(guān)鍵字的檢索。聚焦爬蟲是一個(gè)自動(dòng)下載網(wǎng)頁(yè)的程序,它根據(jù)既定的抓取目標(biāo),有選擇的訪問(wèn)萬(wàn)維網(wǎng)上的網(wǎng)頁(yè)與相關(guān)的鏈接,獲 取所需要的信息。與通用爬蟲 (general purpose web crawler)不同,聚焦爬蟲并不追求大的覆蓋,而將目標(biāo)定為抓取與某一特定主題內(nèi)容相關(guān)的網(wǎng)頁(yè),為面向主題的用戶查詢準(zhǔn)備數(shù)據(jù)資源。同時(shí) , 支持根據(jù)語(yǔ)義信息提出的查詢。 網(wǎng)絡(luò)爬蟲的發(fā)展趨勢(shì)隨著 AJAX/ 等 技術(shù)的 流行,如何抓取 AJAX 等動(dòng)態(tài)頁(yè)面成了搜索引成都學(xué)院學(xué)士學(xué)位論文(設(shè)計(jì)) 4 擎急需解決的問(wèn)題,如果搜索引擎依舊采用“爬”的機(jī)制,是無(wú)法抓取到 AJAX 頁(yè)面的有效數(shù)據(jù)的。 除此之外 ,網(wǎng)絡(luò)爬蟲還主要面對(duì)著一下的這些問(wèn)題 (摘自百度百科 [5]) : 強(qiáng)制用 Cookies。部分站長(zhǎng)為了讓用戶記住登陸信息,強(qiáng)迫用戶使用 Cookies。如果未開(kāi)啟,則無(wú)法進(jìn)行訪問(wèn),訪問(wèn)頁(yè)面顯示的也不會(huì)正常,這種方式會(huì)讓蜘蛛無(wú)法進(jìn)行訪問(wèn)。 登陸要求。有些企業(yè)站和個(gè)人站的設(shè)置一定要注冊(cè)登陸后才能看到相關(guān)的文章內(nèi)容,這種對(duì)蜘蛛不是很友好,蜘蛛不會(huì)注冊(cè)、也不會(huì)登陸。 動(dòng)態(tài) URL。動(dòng)態(tài) URL 簡(jiǎn)單的說(shuō)就是帶有問(wèn)號(hào)、等號(hào)及參數(shù)的網(wǎng)址就是動(dòng)態(tài) URL,動(dòng)態(tài) URL不利于搜索引擎蜘蛛的爬行和抓取。 Flash。有的網(wǎng)站頁(yè)面使用 Flash 視覺(jué)效果是很正常的,比如用 Flash 做的 Logo、廣告、圖表等,這些對(duì)搜索引擎抓取和收錄是沒(méi)有問(wèn)題的,很多網(wǎng)站的首頁(yè)是一個(gè)大的 Flash 文件,這種就叫蜘蛛陷阱,在蜘蛛抓取時(shí) HTML 代碼中只是一個(gè)鏈接,并沒(méi)有文字。雖然大的 Flash 效果看上去很好,外觀看著也很漂亮,但可惜搜索引擎看不到,無(wú)法讀取任何內(nèi)容。 無(wú)休止 的 跳轉(zhuǎn)。對(duì)搜索引擎來(lái)說(shuō)只對(duì) 301 跳轉(zhuǎn)相對(duì)來(lái)說(shuō)比較友好,對(duì)其他形式的跳轉(zhuǎn)都是比較敏感,例如: JavaScript 跳轉(zhuǎn)、 Meta Refresh 跳轉(zhuǎn)、 Flash 跳轉(zhuǎn)、 302 跳轉(zhuǎn)。 成都學(xué)院學(xué)士學(xué)位論文(設(shè)計(jì)) 5 2 網(wǎng)絡(luò)爬蟲 相關(guān) 技術(shù) 本章將會(huì) 對(duì)于網(wǎng)絡(luò)爬蟲緊密相關(guān)的一些技術(shù)進(jìn)行說(shuō)明。 URL 統(tǒng)一資源定位符( URL, Uniform Resource Locator)也被稱為網(wǎng)頁(yè)地址,是因特網(wǎng)上標(biāo)準(zhǔn)的資源的地址。它最初是由蒂姆伯納斯-李發(fā)明用來(lái)作為萬(wàn)維網(wǎng)的地址的。 (摘自 百度百科 [5]) URL 是用于完整地描述 Inter 上網(wǎng)頁(yè)和其他資源的地址的一種標(biāo)識(shí)方法。 Inter 上的每一個(gè)網(wǎng)頁(yè)都具有一個(gè)唯一的名稱標(biāo)識(shí),通常稱之為 URL 地址,這種地址可以是本地磁盤,也可以是局域網(wǎng)上的某一臺(tái)計(jì)算機(jī),更多的是 Inter 上的站點(diǎn)。簡(jiǎn)單 地說(shuō), URL 就是 Web 地址,俗稱“網(wǎng)址”。 URL 結(jié)構(gòu)一般分為兩個(gè)部分,一個(gè)是物理結(jié)構(gòu),一個(gè)是邏輯結(jié)構(gòu)。在物理結(jié)構(gòu)包括扁平結(jié)構(gòu)和樹(shù)型結(jié)構(gòu)。扁平結(jié)構(gòu)就是網(wǎng)站中所有的頁(yè)面都是在根目錄這一級(jí)別,形成一個(gè)扁平的物理結(jié)構(gòu)。這比較適合于小型的網(wǎng)站,因?yàn)槿绻辔募挤旁诟夸浵碌脑?,制作和維護(hù) 起來(lái)比較麻煩。而樹(shù)型結(jié)構(gòu)的意義是在一級(jí)目錄下分為多個(gè)頻道或者稱之 為目錄,然后目錄下面再放上屬于這個(gè)頻道的頁(yè)面,首頁(yè)、頻道首頁(yè)、頻道下的內(nèi)容就好比樹(shù)干、樹(shù)枝、樹(shù)葉的關(guān)系。邏輯結(jié)構(gòu)就是由網(wǎng)頁(yè)內(nèi)部鏈接所形成的邏輯的或鏈接的網(wǎng)絡(luò)圖。比 較好的情況是邏輯結(jié)構(gòu)與前面的樹(shù)型物理結(jié)構(gòu)相吻合。 統(tǒng)一資源定位符 URL 是對(duì)可以從因特網(wǎng)上得到的資源的位置和訪問(wèn)方法的一種簡(jiǎn)潔的表示。URL 給資源的位置提供一種抽象的識(shí)別方法,并用這種方法給資源定位。只要能夠?qū)Y源定位,系統(tǒng)就可以對(duì)資源進(jìn)行各種操作,如存取、更新、替換和查找其屬性。 URL 相當(dāng)于一個(gè)文件名在網(wǎng)絡(luò)范圍的擴(kuò)展。因此 URL 是與因特網(wǎng)相連的機(jī)器上的任何可訪問(wèn) 對(duì)象 的一個(gè)指針。 URL 的一般形式是: URL 的訪問(wèn)方式 ://主機(jī) :端口 /路徑 網(wǎng)絡(luò)爬蟲就是通過(guò)提取和分析出網(wǎng)頁(yè)中的 URL 地址,對(duì)相應(yīng)網(wǎng)絡(luò)進(jìn)行爬取。 HTTP 協(xié)議 本課題研究的網(wǎng)絡(luò)爬蟲是用于對(duì)于 Inter 上的信息進(jìn)行獲取 ,而 HTTP 協(xié)議是 Inter 上最重要的協(xié)議之一。 HTTP 協(xié)議簡(jiǎn)介 協(xié)議是指計(jì)算機(jī)通信網(wǎng)絡(luò)中兩臺(tái)計(jì)算機(jī)之間進(jìn)行通信所必須共同遵守的規(guī)定或規(guī)則,超文本傳輸協(xié)議 (HTTP)是一種通信協(xié)議,它允許將超文本標(biāo)記語(yǔ)言 (HTML)文檔從 Web 服務(wù)器傳送到客戶端的瀏覽器。超文本傳輸協(xié)議 (HTTPHypertext transfer protocol) 是分布式,協(xié)作式,超媒體系統(tǒng)應(yīng)用之 間的通信協(xié)議。是萬(wàn)維網(wǎng)( world wide web)交換信息的基礎(chǔ)。 HTTP 協(xié)議的主要特點(diǎn)可概括如下: 成都學(xué)院學(xué)士學(xué)位論文(設(shè)計(jì)) 6 支持客戶 /服務(wù)器模式。 協(xié)議 簡(jiǎn)介 協(xié)議 簡(jiǎn)介 簡(jiǎn)單快速:客戶向服務(wù)器請(qǐng)求服務(wù)時(shí),只需傳送請(qǐng)求方法和路徑。請(qǐng)求方法常用的有 GET、HEAD、 POST。每種方法規(guī)定了客戶與服務(wù)器聯(lián)系的類型不同。由于 HTTP 協(xié)議簡(jiǎn)單,使得 HTTP服務(wù)器的程序規(guī)模小,因而通信速度很快。 靈活: HTTP 允許傳輸任意類型的數(shù)據(jù)對(duì)象。正在傳輸?shù)念愋陀?ContentType 加以標(biāo)記。 無(wú) 連接:無(wú)連接的含義是限制每次連接只處理一個(gè)請(qǐng)求。服務(wù)器處理完客戶的請(qǐng)求,并收到客戶的應(yīng)答后
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報(bào)告相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1