freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

網(wǎng)絡(luò)爬蟲(chóng)設(shè)計(jì)與實(shí)現(xiàn) 畢業(yè)設(shè)計(jì)論文-全文預(yù)覽

  

【正文】 emes for partitioning the URL space, including URLbased (assigning an URL to a Cproc based on a hash of the entire URL), sitebased (assigning an URL to a Cproc based on a hash of the URL’s host part), and hierarchical (assigning an URL to a Cproc based on some property of the URL, such as its toplevel domain). The WebFountain crawler [16] is also posed of a set of independent, municating crawling processes (the “ants”). An ant that discovers an URL for which it is not responsible, sends this URL to a dedicated process (the “controller”), which forwards the URL to the appropriate ant. UbiCrawler (formerly known as Trovatore) [4, 5] is again posed of multiple 31 independent, municating web crawler processes. It also employs a controller process which oversees the crawling processes, detects process failures, and initiates failover to other c。 indexing processes extract words and links。在此我要 向我的導(dǎo)師 致以最衷心的感謝和深深的敬意。 25 在此更要感謝我的導(dǎo)師和專(zhuān)業(yè)老師,是你們的細(xì)心指導(dǎo)和關(guān)懷,使我能夠順利的完成畢業(yè)論文。在今后的日子里,我仍然要不斷地充實(shí)自 己,爭(zhēng)取在所學(xué)領(lǐng)域有所作為。對(duì)于課程中的重點(diǎn),要強(qiáng)調(diào)突出,有規(guī)律反復(fù)出現(xiàn),幫助學(xué)生更高效消化知識(shí)。 4 月底,平臺(tái)設(shè)計(jì)已經(jīng)完成。然后我將收集到的資料仔細(xì)整理分類(lèi),及時(shí)拿給導(dǎo)師進(jìn)行溝通。當(dāng)選題報(bào)告,開(kāi)題報(bào) 告定下來(lái)的時(shí)候,我當(dāng)時(shí)便立刻著手資料的收集工作中,當(dāng)時(shí)面對(duì)浩瀚的書(shū)海真是有些茫然,不知如何下手。從最初的茫然,到慢慢的進(jìn)入狀態(tài),再到對(duì)思路逐漸的清晰,整個(gè)寫(xiě)作過(guò)程難以用語(yǔ)言 來(lái)表達(dá)。 第三步:對(duì)以上兩步進(jìn)行遞歸循環(huán),獲得指定深度的所有 URL 列表。 18 附加功能 為了檢測(cè)網(wǎng)絡(luò)環(huán)境,防止因?yàn)椴涣嫉木W(wǎng)絡(luò)環(huán)境影響網(wǎng)絡(luò)爬蟲(chóng)的爬取效率和正確略,額外添加了實(shí)時(shí)的 ping 功能,調(diào)用 windows 的命令解釋器的 ping 功能,測(cè)試用戶輸入網(wǎng)址與當(dāng)前主機(jī)的連接狀況,測(cè)試當(dāng)前網(wǎng)絡(luò)狀況是否良好。 1. 從用戶輸入的起始 URL 開(kāi)始,遞歸獲得指定深度的 URL。 PagePro 類(lèi)中。 private String ContentType。 URLConnection url_C = ()。 : A=4 B+C。 } // 獲得所有該網(wǎng)頁(yè)的鏈接名 public Vector getLinkName() // 獲得網(wǎng)頁(yè)正文 public String getParagraphText() public void handleEndTag( t, int pos) // 處理簡(jiǎn)單標(biāo)簽 16 public void handleSimpleTag( t, MutableAttributeSet a, int pos) // 處理結(jié)束標(biāo)簽 public void handleStartTag( t, MutableAttributeSet a, int pos) // 處理文本 標(biāo)簽 public void handleText(char[] data, int pos) 之后通過(guò)調(diào)用 類(lèi),生成對(duì)象就可以直接得到分析后的網(wǎng)頁(yè)文件。 public Parser(String baseurl) { base = baseurl。 protected VectorString linkname = new VectorString()。 15 (10000)。 } } 步驟如下: 1首先建立 URL 連接。 。 網(wǎng)絡(luò)爬蟲(chóng)工作流程圖如圖 33所示。 12 圖 32 多線程網(wǎng)絡(luò)爬蟲(chóng)概要設(shè)計(jì)圖模型 將 Web 服 務(wù) 器上 協(xié)議 站點(diǎn)的網(wǎng) 頁(yè) 代 碼 提取出來(lái)。 ,設(shè)定相關(guān)度閾值為 2,網(wǎng)頁(yè)與主題的相關(guān)度 A2,則認(rèn)為該網(wǎng)頁(yè)與主題相關(guān)的。 11 具體判斷主題相關(guān)度的步驟 ,并通過(guò)詞頻計(jì)算來(lái)得到與主題向量維數(shù)相等的標(biāo)題向量和正文向量。比如戴爾中國(guó)的網(wǎng)站 首頁(yè)標(biāo)題為“戴爾中國(guó)( Dell China) — 計(jì)算機(jī),筆記本電腦,臺(tái)式機(jī),打印機(jī),工作站,服務(wù)器,存儲(chǔ)器,電子產(chǎn)品及附件等”。不過(guò)網(wǎng)頁(yè)的標(biāo)題不可過(guò)長(zhǎng),一般最好在 35 到 40 個(gè)字符之間。 例如,現(xiàn)在會(huì)看到很多網(wǎng)站的首頁(yè)標(biāo)題較長(zhǎng),除了網(wǎng)站名稱之 外,還有網(wǎng)站相關(guān)業(yè)務(wù)之類(lèi)的關(guān)鍵詞,這主要是為了在搜索引擎搜索結(jié)果中獲得排名優(yōu)勢(shì)而考慮的,也屬于正常的搜索引擎優(yōu)化方法。 (一) 什么是網(wǎng)頁(yè)標(biāo)題 通常瀏覽一個(gè)網(wǎng)頁(yè)時(shí),通過(guò)瀏覽器頂端的藍(lán)色顯示條出現(xiàn)的信息就是“網(wǎng)頁(yè)標(biāo)題”。 最終可能產(chǎn)生兩種結(jié)果:找到目標(biāo)結(jié)點(diǎn),或擴(kuò) 展完所有結(jié)點(diǎn)而沒(méi)有找到目標(biāo)結(jié)點(diǎn)。 ( 2)檢查新生成的結(jié)點(diǎn),看它是否已在隊(duì)列中存在,如果新結(jié)點(diǎn)已經(jīng)在隊(duì)列中出現(xiàn)過(guò),就放棄這個(gè)結(jié)點(diǎn),然后回到第( 1)步。對(duì)不同的問(wèn)題,結(jié)點(diǎn)的擴(kuò)展規(guī)則也不相同,需要按照問(wèn)題的要求確定。首先生成第一層結(jié)點(diǎn),同時(shí)檢查目標(biāo)結(jié)點(diǎn)是否在所生成的結(jié)點(diǎn)中,如果不在,則將所有 的第一層結(jié)點(diǎn)逐一擴(kuò)展,得到第二層結(jié)點(diǎn),并檢查第二層結(jié)點(diǎn)是否包含目標(biāo)結(jié)點(diǎn), ...對(duì)長(zhǎng)度為 n+1 的任一結(jié)點(diǎn)進(jìn)行擴(kuò)展之前,必須先考慮長(zhǎng)度為 n的結(jié)點(diǎn)的每種可能的狀態(tài)。 2)確定結(jié)點(diǎn)的擴(kuò)展規(guī)則 根據(jù)問(wèn)題所給定的條件,從一個(gè)結(jié)點(diǎn)出發(fā),可以生成一個(gè)或多個(gè)新的結(jié)點(diǎn),這個(gè) 9 過(guò)程通常稱為擴(kuò)展。 網(wǎng)絡(luò)爬蟲(chóng)的搜索策略 本文的搜索策略為廣度優(yōu)先搜索策略。針對(duì)此提出了一種基于網(wǎng)頁(yè)標(biāo)題的空間向量模型主題相關(guān)度計(jì)算方法。也正是因?yàn)榘盐臋n以向量的形式定義到實(shí)數(shù)域中,才使得模式識(shí)別和其他領(lǐng)域中各種成熟的算法和計(jì)算方法得以采用,極大地提高了自然語(yǔ)言文檔的可計(jì)算性和可操作性。指定一個(gè)閾值 r,當(dāng) cosα,β =r 時(shí)就可以認(rèn)為該頁(yè)面和主題是比較相關(guān)的, r 的取值需要根據(jù)經(jīng)驗(yàn)和實(shí)際要求確定,如果想獲得較多的頁(yè)面,可以把 r設(shè)小一點(diǎn),要獲得較少的頁(yè)面可以把 r 設(shè)的大一點(diǎn)。向量空間模型 [11]( Vector Space Model)由 Salton 等人于 20 世紀(jì) 60年代末提出,是一種簡(jiǎn)便、高效的文本表示模型,其理論基礎(chǔ)是代數(shù)學(xué)。同時(shí),某個(gè)主題也以關(guān)鍵詞集合的形式來(lái)表示。主題相關(guān)度的計(jì)算方法有布爾模型和向量空間模型兩種模型算法 [10]。 判斷相關(guān)度算法 主題爬蟲(chóng)的系統(tǒng)組成最初考慮是對(duì)頁(yè)面的過(guò)濾,不像普通爬蟲(chóng)對(duì)所有頁(yè)面的鏈接進(jìn)行處理,先對(duì)頁(yè)面與受限領(lǐng)域的主題相 關(guān)度進(jìn)行分析,只有當(dāng)其主題相關(guān)度符合要求時(shí)才處理該頁(yè)面中的鏈接,因?yàn)槿绻擁?yè)面和本領(lǐng)域比較相關(guān),它所包含的鏈接和領(lǐng)域相關(guān)的幾率也較大,這樣提高了爬行精度,雖然會(huì)遺漏少數(shù)頁(yè)面,但綜合效果是令人滿意的。存在的一個(gè)問(wèn)題是,在爬蟲(chóng)抓取路徑上的很多相關(guān)網(wǎng)頁(yè)可能被忽略,因?yàn)樽罴褍?yōu)先策略是一種局部最優(yōu)搜索算法。另外一種方法是將廣度優(yōu)先搜索與網(wǎng)頁(yè)過(guò)濾技術(shù)結(jié)合使用,先用 廣度優(yōu)先策略 抓取網(wǎng)頁(yè),再將其中無(wú)關(guān)的網(wǎng)頁(yè)過(guò)濾掉。該算法的設(shè)計(jì)和實(shí)現(xiàn)相對(duì)簡(jiǎn)單。 主題網(wǎng)絡(luò)爬蟲(chóng)的基本思路就是按照事先給出的主題,分超鏈接和已經(jīng)下載的網(wǎng)頁(yè)內(nèi)容,預(yù)測(cè)下一個(gè)待抓取的 URL及當(dāng)前網(wǎng)頁(yè)的主題相關(guān)度,保證盡可能多地爬行、下載與主相關(guān)的網(wǎng)頁(yè),盡可能少地下載無(wú)關(guān)網(wǎng)頁(yè)。 定義 2:主題網(wǎng)絡(luò)爬蟲(chóng)就是根據(jù)一定的網(wǎng)頁(yè)分析算法過(guò)濾與主題無(wú)關(guān)的鏈接,保留主題相關(guān)的鏈接并將其放入待抓取的 URL 隊(duì)列中;然后根據(jù)一定的搜索策略從隊(duì)列中選擇下一步要抓取的網(wǎng)頁(yè) URL,并重復(fù)上述過(guò)程,直到達(dá) 到系統(tǒng)的某一條件時(shí)停止。這對(duì)習(xí)慣了 DOM 結(jié)構(gòu)相對(duì)不變的靜態(tài)頁(yè)面簡(jiǎn)直是無(wú)法理解的。爬蟲(chóng)時(shí)代到來(lái)之后,互聯(lián)網(wǎng)上會(huì)出現(xiàn)專(zhuān)門(mén)的信息站點(diǎn),就是提供給爬蟲(chóng)看的站點(diǎn)。 可以預(yù)見(jiàn)將來(lái)互聯(lián)網(wǎng)信息抓取、挖掘和再處理,將成為人們?cè)絹?lái)越多的需求,而滿足這種需求的,就是各種各樣的爬蟲(chóng)與相關(guān)的信息處理工具。因 為它要用到信息檢索、人工智能、計(jì)算機(jī)網(wǎng)絡(luò)、分布式處理、數(shù)據(jù)庫(kù)、數(shù)據(jù)挖掘、數(shù)字圖書(shū)館、自然語(yǔ)言處理等多領(lǐng)域的理論和技術(shù),所以具有綜合性和挑戰(zhàn)性。 Web 商業(yè)化至今,搜索引擎始終保持著網(wǎng)絡(luò)上被使用最多的服務(wù)項(xiàng)目的地位,然而,隨著網(wǎng)上內(nèi)容的爆炸式增長(zhǎng)和內(nèi)容形式花樣的不斷翻新,搜索引擎越來(lái)越不能滿足挑剔的網(wǎng)民們的各種信息需求。可以低成本大量部署,由于客戶端 IP地址是動(dòng)態(tài)的,所以很難被目標(biāo)網(wǎng)站封鎖。但是,如果對(duì)方討厭爬蟲(chóng),很可能封掉服務(wù)器的 IP,服務(wù)器 IP又不容易改,另外耗用的帶寬也是較貴。象國(guó)外的 Inktomi,它本身并不是直接面向用戶的搜索引擎,但向包括 Overture(原 GoTo)、 LookSmart、 MSN、 HotBot等在內(nèi)的其他搜索引擎提供全文網(wǎng)頁(yè)搜索服務(wù)。從此搜索引擎進(jìn)入了高速發(fā)展時(shí)期。 然而 JumpStation 和 WWW Worm 只是以搜索工具在數(shù)據(jù)庫(kù)中找到匹配信息的先后次序排列搜索結(jié)果,因此毫無(wú)信息關(guān)聯(lián)度可言。 ALIWEB 不使用“機(jī)器人”程序,而是靠網(wǎng)站主動(dòng)提交信息來(lái)建立 自己的鏈接索引,類(lèi)似于現(xiàn)在我們熟知的 Yahoo。由于專(zhuān)門(mén)用于檢索信息的“機(jī)器人”程序象蜘蛛一樣在網(wǎng)絡(luò)間爬來(lái)爬去,因此, 搜索引擎的“機(jī)器人”程序就被稱為“蜘蛛”程序。雖然當(dāng)時(shí) World Wide Web 還未出現(xiàn),但網(wǎng)絡(luò)中文件傳輸還是相當(dāng)頻繁的,而且由于大量的文件散布在各個(gè)分散的 FTP 主機(jī)中,查詢起來(lái)非常不便,因此 Alan Archie 工作原理與現(xiàn)在的搜索引擎已經(jīng)很接近,它依靠腳本程序自動(dòng)搜索網(wǎng)上的文件,然后對(duì)有關(guān)信息進(jìn)行索引,供使用者以一定的表達(dá)式查詢。最初的檢索功能通過(guò)索引站的方式實(shí)現(xiàn),而有了網(wǎng)絡(luò)機(jī)器人,即網(wǎng)絡(luò)爬蟲(chóng)這個(gè)技術(shù)之后,搜索引擎的時(shí)代便開(kāi)始一發(fā)不可收拾了。 multithreading 目 錄 第一章 概述 .................................. 1 課題背景 ...................................... 1 網(wǎng)絡(luò)爬蟲(chóng)的歷史和分類(lèi) .......................... 1 網(wǎng)絡(luò)爬蟲(chóng)的歷史 .............................. 1 網(wǎng)絡(luò)爬蟲(chóng)的分類(lèi) .............................. 2 網(wǎng)絡(luò)爬蟲(chóng)的發(fā)展趨勢(shì) ............................ 3 第二章 相關(guān)技術(shù)背景 ........................... 5 網(wǎng)絡(luò)爬蟲(chóng)的定義 ................................ 5 網(wǎng)頁(yè)搜索策略介紹 .............................. 5 廣度優(yōu)先搜索策略 ............................ 5 最佳優(yōu)先搜索策略 ............................ 6 判斷相關(guān)度算法 ................................ 6 第三章 網(wǎng)絡(luò)爬蟲(chóng)模型的分析和概要設(shè)計(jì) ............ 8 網(wǎng)絡(luò)爬蟲(chóng)的模型分析 ............................ 8 網(wǎng)絡(luò)爬蟲(chóng)的搜索策略 ............................ 8 網(wǎng)絡(luò)爬蟲(chóng)的主題相關(guān)度判斷 ...................... 9 網(wǎng)絡(luò)爬蟲(chóng)的概要設(shè)計(jì) ........................... 11 第四章 網(wǎng)絡(luò)爬蟲(chóng)模型的設(shè)計(jì)和實(shí)現(xiàn) ............... 14 網(wǎng)絡(luò)爬蟲(chóng)總體設(shè)計(jì) ............................. 14 網(wǎng)絡(luò)爬蟲(chóng)具體設(shè)計(jì) ............................. 14 爬取網(wǎng)頁(yè) ................................... 14
點(diǎn)擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1