freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

畢業(yè)設(shè)計(jì)論文:網(wǎng)絡(luò)爬蟲調(diào)研報(bào)告(參考版)

2025-01-21 22:18本頁面
  

【正文】 參考文獻(xiàn):[1] 謝國強(qiáng)等,《基于Web的網(wǎng)絡(luò)爬蟲技術(shù)研究》[2] Yida Wang etc. Exploring Traversal Strategy for Web Forum Crawling, sigir’ 08[3] Junghoo Cho(UCLA), Hector GarciaMolina( Standford), Parallel Crawlers, WWW2002[4] Analia Lourenco etc, Catching Web Crawlers in the Act, ICWE’06[5] 曾偉輝等,《深層網(wǎng)絡(luò)爬蟲研究綜述》,計(jì)算機(jī)系統(tǒng)應(yīng)用 2008年第5期[6] 王映、于滿泉等,《JavaScript引擎在動(dòng)態(tài)網(wǎng)頁采集技術(shù)中的應(yīng)用》,中科院計(jì)算所、微軟亞洲研究院。 網(wǎng)絡(luò)上的網(wǎng)頁數(shù)量太大,在爬取時(shí)需要考慮爬取的時(shí)間及效率等問題,UCLA的Junghoo Cho等提出了使用并行的crawler的方法。3. 有些網(wǎng)站會(huì)限制網(wǎng)絡(luò)爬蟲的爬取,Analia G. Lourenco,2. ,數(shù)據(jù)量巨大,難以抓取,例如論壇等網(wǎng)站。1.在曾偉輝等人的文章中,對(duì)這類問題進(jìn)行了綜述。(3)需要注冊(cè)或其他限制訪問的頁面。這些網(wǎng)頁可歸結(jié)為如下幾類:(1)通過填寫表單形成對(duì)后臺(tái)再現(xiàn)數(shù)據(jù)庫查詢得到的動(dòng)態(tài)頁面。網(wǎng)絡(luò)爬蟲的相關(guān)研究工作有些類型的網(wǎng)頁難以爬取。 有些類型的網(wǎng)頁難以爬取。2.當(dāng)一個(gè)搜索機(jī)器人(有的叫搜索蜘蛛)訪問一個(gè)站點(diǎn)時(shí),如果存在,搜索機(jī)器人就會(huì)按照該文件中的內(nèi)容來確定訪問的范圍;如果該文件不存在,那么搜索機(jī)器人就沿著鏈接抓取。 爬蟲存在的問題1.FetchgalsFetchgals是一個(gè)基于perl多線程的Web爬蟲,通過Tags來搜索色情圖片。spiderpyspiderpy是一個(gè)基于Python編碼的一個(gè)開源web爬蟲工具,允許用戶收集文件和搜索網(wǎng)站,并有一個(gè)可配置的界面。它能夠收集指定的Web頁面并從這些頁面中提取有用的數(shù)據(jù)。只需要把抓取下來的網(wǎng)站放到web服務(wù)器(如:Apache)中,就可以實(shí)現(xiàn)完整的網(wǎng)站鏡像。snoicsreptile snoics reptile是用純Java開發(fā)的,用來進(jìn)行網(wǎng)站鏡像抓取的工具,可以使用配制文件中提供的URL入口,把這個(gè)網(wǎng)站所有的能用瀏覽器通過GET的方式獲取到的資源全部抓取到本地,包括網(wǎng)頁和各種類型的文件,如:圖片、flash、mpzip、rar、exe等文件。與其它下載工具相比較它的主要優(yōu)勢是能夠自動(dòng)填充form(如:自動(dòng)登錄)和使用cookies來處理session。JoBo JoBo 是一個(gè)用于下載整個(gè)Web站點(diǎn)的簡單工具。LARM LARM能夠?yàn)镴akarta Lucene搜索引擎框架的用戶提供一個(gè)純Java的搜索解決方案。Arachnid Arachnid: 是一個(gè)基于Java的web spiders并能夠在Web站上的每個(gè)頁面被解析之后增加幾行代碼調(diào)用。spindle spindle 是一個(gè)構(gòu)建在Lucene工具包之上的Web索引/ spider和一個(gè)用于搜索這些索引的搜索類。Arale還能夠把動(dòng)態(tài)頁面映射成靜態(tài)頁面。Arale Arale主要為個(gè)人使用而設(shè)計(jì),而沒有像其它爬蟲一樣是關(guān)注于頁面索引。它支持按功能需求來下載web站點(diǎn)并能夠盡可能模仿標(biāo)準(zhǔn)Web瀏覽器的行為。WebSPHINX由兩部分組成:爬蟲工作平臺(tái)和WebSPHINX類包。WebSPHINX WebSPHINX是一個(gè)Java類包和Web爬蟲的交互式開發(fā)環(huán)境。表 3種爬蟲的比較crawler開發(fā)語言功能單一支持分布式爬取效率鏡像保存NutchJava√低LarbinC++√高√HeritrixJava√中√其他網(wǎng)絡(luò)爬蟲介紹:Heritrix Heritrix是一個(gè)開源,可擴(kuò)展的web爬蟲項(xiàng)目。而Nutch對(duì)文本進(jìn)行了包括鏈接分析、正文提取、建立索引(Lucene索引)等處理。而Nutch是將內(nèi)容保存到其特定格式的segment中去。二、從分布式處理來說,Nutch支持分布式處理,而另外兩個(gè)好像尚且還沒有支持。都是一個(gè)純粹的網(wǎng)絡(luò)爬蟲,提供網(wǎng)站的鏡像下載。Heritrix的功能強(qiáng)大 但是配置起來卻有點(diǎn)麻煩。Heritrix提供的功能沒有nutch多,有點(diǎn)整站下載的味道。 Nutch 的定制能力不夠強(qiáng),不過現(xiàn)在已經(jīng)有了一定改進(jìn)。 Nutch 從命令行運(yùn)行、控制。 Nutch 保存內(nèi)容為數(shù)據(jù)庫優(yōu)化格式便于以后索引;刷新替換舊的內(nèi)容。Heritrix則是照單全收。爬蟲通過Web用戶界面啟動(dòng)、監(jiān)控、調(diào)整,允許彈性的定義要獲取的URL。對(duì)內(nèi)容來者不拒,不對(duì)頁面進(jìn)行內(nèi)容上的修改。包括獲取圖像以及其他非文本內(nèi)容。二者均為Java開源框架,Heritrix 是 SourceForge上的開源產(chǎn)品,Nutch為Apache的一個(gè)子項(xiàng)目,它們都稱作網(wǎng)絡(luò)爬蟲/蜘蛛( Web Crawler),它們實(shí)現(xiàn)的原理基本一致:深度遍歷網(wǎng)站的資源,將這些資源抓取到本地,使用的方法都是分析網(wǎng)站每一個(gè)有
點(diǎn)擊復(fù)制文檔內(nèi)容
試題試卷相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1