freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

網(wǎng)絡(luò)爬蟲設(shè)計與實現(xiàn)畢業(yè)設(shè)計論文(存儲版)

2025-01-12 15:20上一頁面

下一頁面
  

【正文】 頁面,可以把 r設(shè)小一點,要獲得較少的頁面可以把 r 設(shè)的大一點。針對此提出了一種基于網(wǎng)頁標題的空間向量模型主題相關(guān)度計算方法。 2)確定結(jié)點的擴展規(guī)則 根據(jù)問題所給定的條件,從一個結(jié)點出發(fā),可以生成一個或多個新的結(jié)點,這個 9 過程通常稱為擴展。對不同的問題,結(jié)點的擴展規(guī)則也不相同,需要按照問題的要求確定。 最終可能產(chǎn)生兩種結(jié)果:找到目標結(jié)點,或擴 展完所有結(jié)點而沒有找到目標結(jié)點。 例如,現(xiàn)在會看到很多網(wǎng)站的首頁標題較長,除了網(wǎng)站名稱之 外,還有網(wǎng)站相關(guān)業(yè)務(wù)之類的關(guān)鍵詞,這主要是為了在搜索引擎搜索結(jié)果中獲得排名優(yōu)勢而考慮的,也屬于正常的搜索引擎優(yōu)化方法。比如戴爾中國的網(wǎng)站 首頁標題為“戴爾中國( Dell China) — 計算機,筆記本電腦,臺式機,打印機,工作站,服務(wù)器,存儲器,電子產(chǎn)品及附件等”。 ,設(shè)定相關(guān)度閾值為 2,網(wǎng)頁與主題的相關(guān)度 A2,則認為該網(wǎng)頁與主題相關(guān)的。 網(wǎng)絡(luò)爬蟲工作流程圖如圖 33所示。 } } 步驟如下: 1首先建立 URL 連接。 protected VectorString linkname = new VectorString()。 } // 獲得所有該網(wǎng)頁的鏈接名 public Vector getLinkName() // 獲得網(wǎng)頁正文 public String getParagraphText() public void handleEndTag( t, int pos) // 處理簡單標簽 16 public void handleSimpleTag( t, MutableAttributeSet a, int pos) // 處理結(jié)束標簽 public void handleStartTag( t, MutableAttributeSet a, int pos) // 處理文本 標簽 public void handleText(char[] data, int pos) 之后通過調(diào)用 類,生成對象就可以直接得到分析后的網(wǎng)頁文件。 URLConnection url_C = ()。 PagePro 類中。 18 附加功能 為了檢測網(wǎng)絡(luò)環(huán)境,防止因為不良的網(wǎng)絡(luò)環(huán)境影響網(wǎng)絡(luò)爬蟲的爬取效率和正確略,額外添加了實時的 ping 功能,調(diào)用 windows 的命令解釋器的 ping 功能,測試用戶輸入網(wǎng)址與當前主機的連接狀況,測試當前網(wǎng)絡(luò)狀況是否良好。從最初的茫然,到慢慢的進入狀態(tài),再到對思路逐漸的清晰,整個寫作過程難以用語言 來表達。然后我將收集到的資料仔細整理分類,及時拿給導師進行溝通。對于課程中的重點,要強調(diào)突出,有規(guī)律反復出現(xiàn),幫助學生更高效消化知識。 25 在此更要感謝我的導師和專業(yè)老師,是你們的細心指導和關(guān)懷,使我能夠順利的完成畢業(yè)論文。 indexing processes extract words and links。 at the end of a crawl, a batch job adds these URLs to the perhost seed sets of the next crawl. The original Google crawler, described in [7], implements the different crawler ponents as different processes. A single URL server process maintains the set of URLs to download。我想這是一次意志的磨練,是對我實際能力的一次提升,也會對我 未來的學習和工作有很大的幫助。為了完成滿意的平臺設(shè)計,我仔細溫習了數(shù)據(jù)庫原理相關(guān)知識。 在搜集資料的過程中,我認真準備了一個筆記本。 第五步:調(diào)用 和 將與主題相關(guān)的網(wǎng)頁下載并存儲入數(shù)據(jù)庫。 3. 下載與主題相關(guān)的網(wǎng)頁,并存儲在數(shù)據(jù)庫中。 private String Date。 輸入:主題集合文本 ,網(wǎng)頁 url 輸出:主題相關(guān)度 ( 1) Get topic( String path) //根據(jù)路徑獲取主題文本集合 ( 2) Compulate topicweight( String topic) //求主題結(jié)合權(quán)重 ( 3) sortAndDelRepeat(int[]count)//刪除重復元素并排序 ( 4) delRepeat(String[] segment)//刪除分詞后的重復元素 ( 5) delRepeat(Vector url)//刪除得到的 URL 中的重復元素 ( 6) getParser(String url)//獲得 Parser 實例 ( 7) String titleStr =() //獲取網(wǎng)頁標題 ( 8) String bodyStr=() //獲取網(wǎng)頁文本 ( 9) String titleStrSeg=( titleStr) //網(wǎng)頁標題分詞 ( 10) String bodyStrSeg=( bodyStr) //網(wǎng)頁文本分詞 ( 11) Compulate , 17 文本向量長度 ( 12) set topicweight1, titleweight1, bodyweight1; //設(shè)置權(quán)重 ( 13) Last pulate Relative//計算主題相關(guān)性 ( 14) Return relative; //返回結(jié)果 根據(jù)系統(tǒng)設(shè)置首先是下載所有網(wǎng)頁,而后判定主題相關(guān)性,與主題相關(guān)則放置在相關(guān) URL 庫中,不相關(guān)的網(wǎng)頁則丟棄。 } // 獲得該網(wǎng)頁標題 public String getURLtitle() { return urlTitle。 分析網(wǎng)頁 繼承 ParserCallback 獲得網(wǎng)頁內(nèi)容 // 得到標題文本 protected String urlTitle = new String()。 總的來說爬蟲程序根據(jù)輸入獲得 URL 任務(wù)列表,即初始 URL種子,把初始種子保存在臨界區(qū)中,按照廣度搜索運算法搜索抓取網(wǎng)頁并提取 URL 返回到臨屆區(qū)中 ,通過判斷主題相關(guān)度算法判斷相關(guān)度,取出不相關(guān)網(wǎng)頁,從而使整個爬蟲程序循環(huán)運行下去。 ,訪問該鏈接網(wǎng)頁上的所有鏈接,訪問完成后,再通過遞歸算法實現(xiàn)下一層的訪問。 C。太短無法完整的表達網(wǎng)頁信息,太長不僅不利于用戶識別,而且對搜索引擎來說也加大了識別核心關(guān)鍵詞的難度;網(wǎng)頁標題應(yīng)概括網(wǎng)頁的核心內(nèi)容。 網(wǎng)頁標題是對于一個網(wǎng)頁的高度概括,一般來說,網(wǎng)站首頁的標題就是網(wǎng)站的正式名稱,而網(wǎng)站中文章內(nèi)容頁面的標題就是這文章的題目,欄目首頁的標題通常是欄目名稱。 ( 3)檢查新結(jié)點是否目標結(jié)點。這里采用的原則是先生成的結(jié)點先擴展。 圖 31 廣度優(yōu)先搜索策略示意圖 1) 定義一個狀態(tài)結(jié)點 采用廣度優(yōu)先搜索算法解答問題時,需要構(gòu)造一個表明狀態(tài)特征和不同狀態(tài)之間關(guān)系的數(shù)據(jù)結(jié)構(gòu),這種數(shù)據(jù)結(jié) 構(gòu)稱為結(jié)點。這樣極大的提高到主題爬蟲的效率,也極大的提 高了垂直搜索引擎的應(yīng)用效率,給客戶帶來了高效的查詢效果。 7 然后,根據(jù)相似程度排列查詢結(jié)果。在主題判別時,布爾模型是很容易實現(xiàn)的。將在第 4節(jié)中結(jié)合網(wǎng)頁分析算法作具體的討論。也有很多研究將 廣度優(yōu)先搜索策略應(yīng)用于聚焦爬蟲中。 定義 3:如果網(wǎng)頁 p中包含超鏈接 l,則 p稱為鏈接 l的父網(wǎng)頁。 AJAX 采用了 JavaScript 驅(qū)動的異步請求 /響應(yīng)機制,以往的爬蟲們?nèi)狈avaScript 語義上的理解,基本上無法模擬觸發(fā) JavaScript 的異步調(diào)用并解析返回的異步回調(diào)邏輯和內(nèi)容。 目前傳統(tǒng)搜索引擎下,百度、谷歌等大廠商壟斷了網(wǎng)絡(luò)索引市場,因為它們的存在,日益龐大的互聯(lián)網(wǎng)內(nèi)容才能突破網(wǎng)絡(luò)黑暗狀態(tài),變成可知的一個世界?;陉P(guān)鍵字匹配的搜索技術(shù)有較大的局限性:首先,它不能區(qū)分同形異義。因此 從這個意義上說,它們是搜索引擎的搜索引擎。當時 Michael Mauldin 將 John Leavitt 的蜘蛛程序接入到其索引程序中,創(chuàng)建了大家現(xiàn)在熟知的 Lycos。剛 2 開始它只用來統(tǒng)計互聯(lián)網(wǎng)上的服務(wù)器數(shù)量,后來則發(fā)展為能夠檢索網(wǎng)站域名。然而伴隨互聯(lián)網(wǎng)爆炸性的發(fā)展,普通網(wǎng)絡(luò)用戶想找到所需的資料簡直如同大海撈針,這時為滿足大眾信息檢索需求的專業(yè)搜索網(wǎng)站便應(yīng)運而生了。 關(guān)鍵詞: 網(wǎng)絡(luò)爬蟲;面向主題;多線程 ABSTRACT The main purpose of this project is to design subjectoriented web crawler process which is also required to meet certain performance, taking into account the diverse needs of web crawlers. Web Crawler uses the technology. of Breadthfirst crawler uses multithreaded technology, so that spiders crawl can have more powerful connection time and read time of the web connection of the Web crawler , to avoid unlimited order to meet different needs, so that crawlers can achieve preset theme crawling a specific the principle web crawler and and realize the related functions. Key words: Web crawler。所以本課題的可行性較高。對 url 進行分析,去重。 。搜索引擎作為一個輔助人們檢索信息的工具成為用戶訪問萬維網(wǎng)的入口和指南。為了解決這個問題,一個靈活的爬蟲有著無可替代的重要意義。 。對網(wǎng)絡(luò)爬蟲的連接網(wǎng)絡(luò)設(shè)置連 接及讀取時間,避免無限制的等待。對 url 進行分析,去重。另外一些不常使用的名字還有螞蟻,自動索引,模擬程序或者 蠕蟲 。由于 Archie 深受用戶歡迎,受其啟發(fā),美國內(nèi)華達 System Computing Services大學于 1993年開發(fā)了另一個與之非常相似的搜索工具,不過此時的搜索工具除了索引文件外,已能檢索網(wǎng)頁。 隨著互聯(lián)網(wǎng)的迅速發(fā)展,使得檢索所有新出現(xiàn)的網(wǎng)頁變得越來越困難,因此,在 Matthew Gray 的 Wanderer 基礎(chǔ)上,一些編程者將傳統(tǒng)的“蜘蛛”程序工作原理作了些改進。目前,互聯(lián)網(wǎng)上有名有姓的搜索引擎已 達數(shù)百家,其檢索的信息量也與從前不可同日而語。 2,客戶端:很適合部署定題爬蟲,或者叫聚焦爬蟲。 搜索引擎的發(fā)展面臨著兩大 難題:一是如何跟上 Inter 的發(fā)展速度,二是如何為用戶提供更精確的查詢結(jié)果。現(xiàn)在網(wǎng)絡(luò)上流 行的信息采集工具、網(wǎng)站聚合工具,都是未來新一代爬蟲的先驅(qū),甚至已經(jīng)具備其特點。由此可以看出,以往的爬蟲是基于協(xié)議驅(qū)動的,而對于 AJAX 這樣的技術(shù),所需要的爬蟲引擎必須是基于事件驅(qū)動的。 網(wǎng)頁搜索策略介紹 網(wǎng)頁的抓取策略可以分為深度優(yōu)先、廣度優(yōu)先和最佳優(yōu)先三種。這些方法的缺點在于,隨著 6 抓取網(wǎng)頁的增多,大量的無關(guān)網(wǎng)頁將被下載并過濾,算法的效率將變低。因此,主題相關(guān)度的分析是主題爬蟲設(shè)計的關(guān)鍵。在判斷文檔與某主題的相關(guān)度的過程中,相當于是計算兩個關(guān)鍵詞集合的交集。 (二)布爾模型與空間向量模型分析 布爾模型的主要缺陷在于每個關(guān)鍵詞的權(quán)重都是 一樣的,它不支持設(shè)定關(guān)鍵詞的相對重要性,但是其優(yōu)點也較為明顯,它易于實現(xiàn),計算代價較小。 8 第三章 網(wǎng)絡(luò)爬蟲模型的分析和概要設(shè)計 網(wǎng)絡(luò)爬蟲的模型分析 首先建立 URL 任務(wù)列表,即開始要爬取 的 URL。結(jié)點之間的關(guān)系一般可以表示成一棵樹,它被稱為解答樹。 3)搜索策略 為了便于進行搜索,要設(shè)置一個表存儲所有的結(jié)點。 網(wǎng)絡(luò)爬蟲的主題相關(guān)度判斷 主題爬蟲的系統(tǒng)組成最初考慮是對頁面的過濾,不像普通爬蟲對所有頁面的鏈接進行處理,先對頁面與受限領(lǐng)域的主題相關(guān)度進行分析,只有當其主題相關(guān)度符合要求時才處理該頁面中的鏈接,因為如果該頁面和本領(lǐng)域比較相關(guān),它所包含的鏈接和領(lǐng)域相關(guān)的幾率也較大,這樣提高了爬行精度,雖然會遺漏少數(shù)頁面,但綜合效果是令人滿意的。因為一般的公司名稱(或者品牌名稱)中可能不包含核心業(yè)務(wù)的關(guān)鍵詞,在搜索結(jié)果排名中將處于不利地位。戴爾的首頁標題中不但涵蓋了最重要的公司信息,而且還包括 公司的主要產(chǎn)品,這就是核心關(guān)鍵詞,當用“筆記本電腦”、“臺式電腦”這些關(guān)鍵詞在谷歌中進行搜索時,戴
點擊復制文檔內(nèi)容
公司管理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1