freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

網(wǎng)絡(luò)爬蟲設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)設(shè)計(jì)論文(參考版)

2024-12-07 15:20本頁(yè)面
  

【正文】 the assignment of URLs to crawler processes is based on a hash of the URL’s host ponent. A crawler that discovers an URL for which it is not responsible sends this URL via TCP to the crawler that is responsible for it, batching URLs together to minimize TCP overhead. We describe Mercator in more detail in Section 4. Cho and GarciaMolina’s crawler [13] is similar to Mercator. The system is posed of multiple independent, municating web crawler processes (called “Cprocs”). Cho and GarciaMolina consider different schemes for partitioning the URL space, including URLbased (assigning an URL to a Cproc based on a hash of the entire URL), sitebased (assigning an URL to a Cproc based on a hash of the URL’s host part), and hierarchical (assigning an URL to a Cproc based on some property of the URL, such as its toplevel domain). The WebFountain crawler [16] is also posed of a set of independent, municating crawling processes (the “ants”). An ant that discovers an URL for which it is not responsible, sends this URL to a dedicated process (the “controller”), which forwards the URL to the appropriate ant. UbiCrawler (formerly known as Trovatore) [4, 5] is again posed of multiple 31 independent, municating web crawler processes. It also employs a controller process which oversees the crawling processes, detects process failures, and initiates failover to other c。 indexing processes extract words and links。 at the end of a crawl, a batch job adds these URLs to the perhost seed sets of the next crawl. The original Google crawler, described in [7], implements the different crawler ponents as different processes. A single URL server process maintains the set of URLs to download。在此我要 向我的導(dǎo)師 致以最衷心的感謝和深深的敬意。老師的嚴(yán)謹(jǐn)治學(xué)態(tài)度、淵博的知識(shí)、無(wú)私的奉獻(xiàn)精神使我深受啟迪。 25 在此更要感謝我的導(dǎo)師和專業(yè)老師,是你們的細(xì)心指導(dǎo)和關(guān)懷,使我能夠順利的完成畢業(yè)論文。我想這是一次意志的磨練,是對(duì)我實(shí)際能力的一次提升,也會(huì)對(duì)我 未來(lái)的學(xué)習(xí)和工作有很大的幫助。在今后的日子里,我仍然要不斷地充實(shí)自 己,爭(zhēng)取在所學(xué)領(lǐng)域有所作為。 在設(shè)計(jì)初期,由于沒(méi)有設(shè)計(jì)經(jīng)驗(yàn),覺(jué)得無(wú)從下手,空有很多設(shè)計(jì)思想,卻不知道應(yīng)該選哪個(gè),經(jīng)過(guò)導(dǎo)師的指導(dǎo),我的設(shè)計(jì)漸漸有了頭緒,通過(guò)查閱資料,逐漸確立系統(tǒng)方案。對(duì)于課程中的重點(diǎn),要強(qiáng)調(diào)突出,有規(guī)律反復(fù)出現(xiàn),幫助學(xué)生更高效消化知識(shí)。為了完成滿意的平臺(tái)設(shè)計(jì),我仔細(xì)溫習(xí)了數(shù)據(jù)庫(kù)原理相關(guān)知識(shí)。 4 月底,平臺(tái)設(shè)計(jì)已經(jīng)完成。在寫作過(guò)程中 遇到困難我就及時(shí)和導(dǎo)師聯(lián)系,并和同學(xué)互相交流,請(qǐng)教專業(yè)課老師。然后我將收集到的資料仔細(xì)整理分類,及時(shí)拿給導(dǎo)師進(jìn)行溝通。 在搜集資料的過(guò)程中,我認(rèn)真準(zhǔn)備了一個(gè)筆記本。當(dāng)選題報(bào)告,開(kāi)題報(bào) 告定下來(lái)的時(shí)候,我當(dāng)時(shí)便立刻著手資料的收集工作中,當(dāng)時(shí)面對(duì)浩瀚的書海真是有些茫然,不知如何下手?;叵脒@段日子的經(jīng)歷和感受,我感慨萬(wàn)千,在這次畢業(yè)設(shè)計(jì)的過(guò)程中,我擁有了無(wú)數(shù)難忘的回憶和收獲。從最初的茫然,到慢慢的進(jìn)入狀態(tài),再到對(duì)思路逐漸的清晰,整個(gè)寫作過(guò)程難以用語(yǔ)言 來(lái)表達(dá)。 第五步:調(diào)用 和 將與主題相關(guān)的網(wǎng)頁(yè)下載并存儲(chǔ)入數(shù)據(jù)庫(kù)。 第三步:對(duì)以上兩步進(jìn)行遞歸循環(huán),獲得指定深度的所有 URL 列表。 對(duì)數(shù)據(jù)庫(kù)進(jìn)行操作 整合了網(wǎng)絡(luò)爬蟲的功能 是界面 是調(diào)用 Ping 程序的類 具體流程: 第一步: 調(diào)用 , ,獲得起始 URL 的內(nèi)容,并存儲(chǔ)到 String 中。 18 附加功能 為了檢測(cè)網(wǎng)絡(luò)環(huán)境,防止因?yàn)椴涣嫉木W(wǎng)絡(luò)環(huán)境影響網(wǎng)絡(luò)爬蟲的爬取效率和正確略,額外添加了實(shí)時(shí)的 ping 功能,調(diào)用 windows 的命令解釋器的 ping 功能,測(cè)試用戶輸入網(wǎng)址與當(dāng)前主機(jī)的連接狀況,測(cè)試當(dāng)前網(wǎng)絡(luò)狀況是否良好。 3. 下載與主題相關(guān)的網(wǎng)頁(yè),并存儲(chǔ)在數(shù)據(jù)庫(kù)中。 1. 從用戶輸入的起始 URL 開(kāi)始,遞歸獲得指定深度的 URL。 數(shù)據(jù)庫(kù)設(shè)計(jì)和存儲(chǔ) 使用 JDBC 訪問(wèn)數(shù)據(jù)庫(kù),儲(chǔ)存下載的網(wǎng)頁(yè) URL 和下載時(shí)間信息。 PagePro 類中。 private String Date。 private String ContentType。如下: private String Host。 URLConnection url_C = ()。 輸入:主題集合文本 ,網(wǎng)頁(yè) url 輸出:主題相關(guān)度 ( 1) Get topic( String path) //根據(jù)路徑獲取主題文本集合 ( 2) Compulate topicweight( String topic) //求主題結(jié)合權(quán)重 ( 3) sortAndDelRepeat(int[]count)//刪除重復(fù)元素并排序 ( 4) delRepeat(String[] segment)//刪除分詞后的重復(fù)元素 ( 5) delRepeat(Vector url)//刪除得到的 URL 中的重復(fù)元素 ( 6) getParser(String url)//獲得 Parser 實(shí)例 ( 7) String titleStr =() //獲取網(wǎng)頁(yè)標(biāo)題 ( 8) String bodyStr=() //獲取網(wǎng)頁(yè)文本 ( 9) String titleStrSeg=( titleStr) //網(wǎng)頁(yè)標(biāo)題分詞 ( 10) String bodyStrSeg=( bodyStr) //網(wǎng)頁(yè)文本分詞 ( 11) Compulate , 17 文本向量長(zhǎng)度 ( 12) set topicweight1, titleweight1, bodyweight1; //設(shè)置權(quán)重 ( 13) Last pulate Relative//計(jì)算主題相關(guān)性 ( 14) Return relative; //返回結(jié)果 根據(jù)系統(tǒng)設(shè)置首先是下載所有網(wǎng)頁(yè),而后判定主題相關(guān)性,與主題相關(guān)則放置在相關(guān) URL 庫(kù)中,不相關(guān)的網(wǎng)頁(yè)則丟棄。 : A=4 B+C。 B。 } // 獲得所有該網(wǎng)頁(yè)的鏈接名 public Vector getLinkName() // 獲得網(wǎng)頁(yè)正文 public String getParagraphText() public void handleEndTag( t, int pos) // 處理簡(jiǎn)單標(biāo)簽 16 public void handleSimpleTag( t, MutableAttributeSet a, int pos) // 處理結(jié)束標(biāo)簽 public void handleStartTag( t, MutableAttributeSet a, int pos) // 處理文本 標(biāo)簽 public void handleText(char[] data, int pos) 之后通過(guò)調(diào)用 類,生成對(duì)象就可以直接得到分析后的網(wǎng)頁(yè)文件。 } // 獲得該網(wǎng)頁(yè)標(biāo)題 public String getURLtitle() { return urlTitle。 public Parser(String baseurl) { base = baseurl。 protected String linkandparagraph = new String()。 protected VectorString linkname = new VectorString()。 分析網(wǎng)頁(yè) 繼承 ParserCallback 獲得網(wǎng)頁(yè)內(nèi)容 // 得到標(biāo)題文本 protected String urlTitle = new String()。 15 (10000)。 2設(shè)置連接超時(shí)時(shí)間和讀取超時(shí)時(shí)間。 } } 步驟如下: 1首先建立 URL 連接。 總的來(lái)說(shuō)爬蟲程序根據(jù)輸入獲得 URL 任務(wù)列表,即初始 URL種子,把初始種子保存在臨界區(qū)中,按照廣度搜索運(yùn)算法搜索抓取網(wǎng)頁(yè)并提取 URL 返回到臨屆區(qū)中 ,通過(guò)判斷主題相關(guān)度算法判斷相關(guān)度,取出不相關(guān)網(wǎng)頁(yè),從而使整個(gè)爬蟲程序循環(huán)運(yùn)行下去。 。 。 網(wǎng)絡(luò)爬蟲工作流程圖如圖 33所示。 ,訪問(wèn)該鏈接網(wǎng)頁(yè)上的所有鏈接,訪問(wèn)完成后,再通過(guò)遞歸算法實(shí)現(xiàn)下一層的訪問(wèn)。 12 圖 32 多線程網(wǎng)絡(luò)爬蟲概要設(shè)計(jì)圖模型 將 Web 服 務(wù) 器上 協(xié)議 站點(diǎn)的網(wǎng) 頁(yè) 代 碼 提取出來(lái)。 根據(jù)現(xiàn)實(shí)中不同用戶的實(shí)際上的各種需求,本項(xiàng)目簡(jiǎn)單實(shí)現(xiàn)主題爬蟲,本網(wǎng)絡(luò)爬蟲需要達(dá)到如下幾個(gè)目標(biāo): ,客戶端向服務(wù)器發(fā)送自己設(shè)定好請(qǐng)求。 ,設(shè)定相關(guān)度閾值為 2,網(wǎng)頁(yè)與主題的相關(guān)度 A2,則認(rèn)為該網(wǎng)頁(yè)與主題相關(guān)的。 C。 11 具體判斷主題相關(guān)度的步驟 ,并通過(guò)詞頻計(jì)算來(lái)得到與主題向量維數(shù)相等的標(biāo)題向量和正文向量。 (二) 但是與此同時(shí)需要注意的還有網(wǎng)頁(yè)正文的重要性,因?yàn)榫W(wǎng)頁(yè)的標(biāo)題和關(guān)鍵字很可能與正文無(wú)關(guān),虛假關(guān)鍵詞是通過(guò)在 META 中設(shè)置與 網(wǎng)站內(nèi)容 無(wú)關(guān)的關(guān)鍵詞,如在 Title 中設(shè)置熱門關(guān)鍵詞,以達(dá)到誤導(dǎo)用戶進(jìn)入網(wǎng)站的目的。比如戴爾中國(guó)的網(wǎng)站 首頁(yè)標(biāo)題為“戴爾中國(guó)( Dell China) — 計(jì)算機(jī),筆記本電腦,臺(tái)式機(jī),打印機(jī),工作站,服務(wù)器,存儲(chǔ)器,電子產(chǎn)品及附件等”。太短無(wú)法完整的表達(dá)網(wǎng)頁(yè)信息,太長(zhǎng)不僅不利于用戶識(shí)別,而且對(duì)搜索引擎來(lái)說(shuō)也加大了識(shí)別核心關(guān)鍵詞的難度;網(wǎng)頁(yè)標(biāo)題應(yīng)概括網(wǎng)頁(yè)的核心內(nèi)容。不過(guò)網(wǎng)頁(yè)的標(biāo)題不可過(guò)長(zhǎng),一般最好在 35 到 40 個(gè)字符之間。 (二)網(wǎng)頁(yè)標(biāo)題的重要性 以 Google 為例, Google 會(huì)對(duì)其標(biāo)題標(biāo)簽( meta title)中出現(xiàn)的關(guān)鍵字給予較高的權(quán)值。 例如,現(xiàn)在會(huì)看到很多網(wǎng)站的首頁(yè)標(biāo)題較長(zhǎng),除了網(wǎng)站名稱之 外,還有網(wǎng)站相關(guān)業(yè)務(wù)之類的關(guān)鍵詞,這主要是為了在搜索引擎搜索結(jié)果中獲得排名優(yōu)勢(shì)而考慮的,也屬于正常的搜索引擎優(yōu)化方法。 網(wǎng)頁(yè)標(biāo)題是對(duì)于一個(gè)網(wǎng)頁(yè)的高度概括,一般來(lái)說(shuō),網(wǎng)站首頁(yè)的標(biāo)題就是網(wǎng)站的正式名稱,而網(wǎng)站中文章內(nèi)容頁(yè)面的標(biāo)題就是這文章的題目,欄目首頁(yè)的標(biāo)題通常是欄目名稱。 (一) 什么是網(wǎng)頁(yè)標(biāo)題 通常瀏覽一個(gè)網(wǎng)頁(yè)時(shí),通過(guò)瀏覽器頂端的藍(lán)色顯示條出現(xiàn)的信息就是“網(wǎng)頁(yè)標(biāo)題”。因此,主題相關(guān)度的分析是主題爬蟲設(shè)計(jì)的關(guān)鍵。 最終可能產(chǎn)生兩種結(jié)果:找到目標(biāo)結(jié)點(diǎn),或擴(kuò) 展完所有結(jié)點(diǎn)而沒(méi)有找到目標(biāo)結(jié)點(diǎn)。 ( 3)檢查新結(jié)點(diǎn)是否目標(biāo)結(jié)點(diǎn)。 ( 2)檢查新生成的結(jié)點(diǎn),看它是否已在隊(duì)列中存在,如果新結(jié)點(diǎn)已經(jīng)在隊(duì)列中出現(xiàn)過(guò),就放棄這個(gè)結(jié)點(diǎn),然后回到第( 1)步。因?yàn)樵趶V度優(yōu)先搜索算法中,要滿足先生成的結(jié)點(diǎn)先擴(kuò)展的原則,所以存 儲(chǔ)結(jié)點(diǎn)的表一般設(shè)計(jì)成隊(duì)列的數(shù)據(jù)結(jié)構(gòu)。對(duì)不同的問(wèn)題,結(jié)點(diǎn)的擴(kuò)展規(guī)則也不相同,需要按照問(wèn)題的要求確定。這里采用的原則是先生成的結(jié)點(diǎn)先擴(kuò)展。
點(diǎn)擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1