freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

網(wǎng)絡(luò)爬蟲設(shè)計與實(shí)現(xiàn) 畢業(yè)設(shè)計論文(文件)

2024-12-27 15:20 上一頁面

下一頁面
 

【正文】 應(yīng)用寬度搜索技術(shù)。 。 三. 研究目標(biāo) 本論文主要 研究搜索引擎的搜索器(網(wǎng)絡(luò)爬蟲程序)的設(shè)計與實(shí)現(xiàn) ,實(shí)現(xiàn)簡單的可在后臺自動運(yùn)行的爬蟲程序。為了解決這個問題,一個靈活的爬蟲有著無可替代的重要意義。) 一. 課題的來源及意義 互聯(lián)網(wǎng)是一個龐大的非結(jié)構(gòu)化的數(shù)據(jù)庫,將數(shù)據(jù)有效的檢索并組織呈現(xiàn)出來有著巨大的應(yīng)用前景。搜索引擎作為一個輔助人們檢索信息的工具成為用戶訪問萬維網(wǎng)的入口和指南。 二. 國內(nèi)外發(fā)展?fàn)顩r 對于網(wǎng)絡(luò)爬蟲的研究從上世紀(jì)九十年代就開始了,目前爬蟲技術(shù)已經(jīng)趨見成熟,網(wǎng)絡(luò)爬蟲是搜索引擎的重要組成部分。 。 。對 url 進(jìn)行分析,去重。研究網(wǎng)絡(luò)爬蟲的原理并實(shí)現(xiàn)爬蟲的相關(guān)功能。所以本課題的可行性較高。網(wǎng)絡(luò)爬蟲使用多線程技術(shù),讓爬蟲具備更強(qiáng)大的抓取能力。 關(guān)鍵詞: 網(wǎng)絡(luò)爬蟲;面向主題;多線程 ABSTRACT The main purpose of this project is to design subjectoriented web crawler process which is also required to meet certain performance, taking into account the diverse needs of web crawlers. Web Crawler uses the technology. of Breadthfirst crawler uses multithreaded technology, so that spiders crawl can have more powerful connection time and read time of the web connection of the Web crawler , to avoid unlimited order to meet different needs, so that crawlers can achieve preset theme crawling a specific the principle web crawler and and realize the related functions. Key words: Web crawler。 網(wǎng)絡(luò)檢索功能起于互聯(lián)網(wǎng)內(nèi)容爆炸性發(fā)展所帶來的對內(nèi)容檢索的需求。然而伴隨互聯(lián)網(wǎng)爆炸性的發(fā)展,普通網(wǎng)絡(luò)用戶想找到所需的資料簡直如同大海撈針,這時為滿足大眾信息檢索需求的專業(yè)搜索網(wǎng)站便應(yīng)運(yùn)而生了。 當(dāng) 時,“機(jī)器人”一詞在編程者中十分流行。剛 2 開始它只用來統(tǒng)計互聯(lián)網(wǎng)上的服務(wù)器數(shù)量,后來則發(fā)展為能夠檢索網(wǎng)站域名。其設(shè)想是,既然所有網(wǎng)頁都可能有連向其他網(wǎng)站的鏈接,那么從跟蹤 一個網(wǎng)站的鏈接開始,就有可能檢索整個互聯(lián)網(wǎng)。當(dāng)時 Michael Mauldin 將 John Leavitt 的蜘蛛程序接入到其索引程序中,創(chuàng)建了大家現(xiàn)在熟知的 Lycos。比如最近風(fēng)頭正勁的 Google,其數(shù)據(jù)庫中存放的網(wǎng)頁已達(dá) 30億之巨。因此 從這個意義上說,它們是搜索引擎的搜索引擎。做一個與 Google,百度等競爭的綜合搜索引擎成功的機(jī)會微乎其微,而垂直搜訴或者比價服務(wù)或者推 薦引擎,機(jī)會要多得多,這類爬蟲不是什么頁面都取的,而是只取關(guān)心的頁面,而且只取頁面上關(guān)心的內(nèi)容,例如提取黃頁信息,商品價格信息,還有提取競爭對手 廣 告信息的?;陉P(guān)鍵字匹配的搜索技術(shù)有較大的局限性:首先,它不能區(qū)分同形異義。所以,傳統(tǒng)的引擎不能適應(yīng)信息 技術(shù)的高速發(fā)展,新一代智能搜索引擎作為一種高效搜索引擎技術(shù)的在當(dāng)今的網(wǎng)絡(luò)信息時代日益引起業(yè)界人士的關(guān)注。 目前傳統(tǒng)搜索引擎下,百度、谷歌等大廠商壟斷了網(wǎng)絡(luò)索引市場,因?yàn)樗鼈兊拇嬖?,日益龐大的互?lián)網(wǎng)內(nèi)容才能突破網(wǎng)絡(luò)黑暗狀態(tài),變成可知的一個世界。但是互聯(lián)網(wǎng)本身,不 管 ,還沒有為爬蟲時代的到來做好充分 4 準(zhǔn)備。 AJAX 采用了 JavaScript 驅(qū)動的異步請求 /響應(yīng)機(jī)制,以往的爬蟲們?nèi)狈avaScript 語義上的理解,基本上無法模擬觸發(fā) JavaScript 的異步調(diào)用并解析返回的異步回調(diào)邏輯和內(nèi)容。 5 第二章 相 關(guān)技術(shù)背景 網(wǎng)絡(luò)爬蟲的定義 定義 1:網(wǎng)絡(luò)爬蟲是一個自動提取網(wǎng)頁的程序,它為搜索引擎從 Web上下載網(wǎng)頁,是搜索引擎的重要組成部分。 定義 3:如果網(wǎng)頁 p中包含超鏈接 l,則 p稱為鏈接 l的父網(wǎng)頁。深度優(yōu)先在很多情況下會導(dǎo)致爬蟲的陷入 (trapped)問題,目前常見的是廣度優(yōu)先和最佳優(yōu)先方法。也有很多研究將 廣度優(yōu)先搜索策略應(yīng)用于聚焦爬蟲中。 最佳優(yōu)先搜索策略 最佳優(yōu)先搜索策略按照一定的網(wǎng)頁分析算法,預(yù)測候選 URL與目標(biāo)網(wǎng)頁 的相似度,或與主題的相關(guān)性,并選取評價最好的一個或幾個 URL 進(jìn)行抓取。將在第 4節(jié)中結(jié)合網(wǎng)頁分析算法作具體的討論。 (一)主題相關(guān)度計算模型 垂直搜索引擎與通用搜索引擎最大的區(qū)別在于垂直搜索引擎是面向某個領(lǐng)域的,因而垂直搜索引擎的網(wǎng)絡(luò)蜘蛛只采集與主題相關(guān)的網(wǎng)頁,與主題無關(guān)的網(wǎng)頁將被丟棄,將此類網(wǎng)絡(luò)蜘蛛稱為主題蜘蛛 [68]。在主題判別時,布爾模型是很容易實(shí)現(xiàn)的。對基于布爾模型的主題判別模型來說,交集中含有的元素越多,則認(rèn)為與主題的相關(guān)度就越高。 7 然后,根據(jù)相似程度排列查詢結(jié)果。 向量空間模型最大優(yōu)點(diǎn)在于它在知識表示方法上的巨大優(yōu)勢。這樣極大的提高到主題爬蟲的效率,也極大的提 高了垂直搜索引擎的應(yīng)用效率,給客戶帶來了高效的查詢效果。由 URL任務(wù)列表開始,根據(jù)預(yù)先設(shè)定的深度爬取網(wǎng)頁,同時判斷 URL 是否重復(fù), 按照一定算法和排序方式搜索頁面,然后對頁面按照一定算法進(jìn)行分析,并提取相關(guān) URL,最后將所得 URL返回任務(wù)列表。 圖 31 廣度優(yōu)先搜索策略示意圖 1) 定義一個狀態(tài)結(jié)點(diǎn) 采用廣度優(yōu)先搜索算法解答問題時,需要構(gòu)造一個表明狀態(tài)特征和不同狀態(tài)之間關(guān)系的數(shù)據(jù)結(jié)構(gòu),這種數(shù)據(jù)結(jié) 構(gòu)稱為結(jié)點(diǎn)。搜索算法的搜索過程實(shí)際上就是根據(jù)初始條件和擴(kuò)展規(guī)則構(gòu)造一棵解答樹并尋找符合目標(biāo)狀態(tài)的結(jié)點(diǎn)的過程。這里采用的原則是先生成的結(jié)點(diǎn)先擴(kuò)展。因?yàn)樵趶V度優(yōu)先搜索算法中,要滿足先生成的結(jié)點(diǎn)先擴(kuò)展的原則,所以存 儲結(jié)點(diǎn)的表一般設(shè)計成隊列的數(shù)據(jù)結(jié)構(gòu)。 ( 3)檢查新結(jié)點(diǎn)是否目標(biāo)結(jié)點(diǎn)。因此,主題相關(guān)度的分析是主題爬蟲設(shè)計的關(guān)鍵。 網(wǎng)頁標(biāo)題是對于一個網(wǎng)頁的高度概括,一般來說,網(wǎng)站首頁的標(biāo)題就是網(wǎng)站的正式名稱,而網(wǎng)站中文章內(nèi)容頁面的標(biāo)題就是這文章的題目,欄目首頁的標(biāo)題通常是欄目名稱。 (二)網(wǎng)頁標(biāo)題的重要性 以 Google 為例, Google 會對其標(biāo)題標(biāo)簽( meta title)中出現(xiàn)的關(guān)鍵字給予較高的權(quán)值。太短無法完整的表達(dá)網(wǎng)頁信息,太長不僅不利于用戶識別,而且對搜索引擎來說也加大了識別核心關(guān)鍵詞的難度;網(wǎng)頁標(biāo)題應(yīng)概括網(wǎng)頁的核心內(nèi)容。 (二) 但是與此同時需要注意的還有網(wǎng)頁正文的重要性,因?yàn)榫W(wǎng)頁的標(biāo)題和關(guān)鍵字很可能與正文無關(guān),虛假關(guān)鍵詞是通過在 META 中設(shè)置與 網(wǎng)站內(nèi)容 無關(guān)的關(guān)鍵詞,如在 Title 中設(shè)置熱門關(guān)鍵詞,以達(dá)到誤導(dǎo)用戶進(jìn)入網(wǎng)站的目的。 C。 根據(jù)現(xiàn)實(shí)中不同用戶的實(shí)際上的各種需求,本項目簡單實(shí)現(xiàn)主題爬蟲,本網(wǎng)絡(luò)爬蟲需要達(dá)到如下幾個目標(biāo): ,客戶端向服務(wù)器發(fā)送自己設(shè)定好請求。 ,訪問該鏈接網(wǎng)頁上的所有鏈接,訪問完成后,再通過遞歸算法實(shí)現(xiàn)下一層的訪問。 。 總的來說爬蟲程序根據(jù)輸入獲得 URL 任務(wù)列表,即初始 URL種子,把初始種子保存在臨界區(qū)中,按照廣度搜索運(yùn)算法搜索抓取網(wǎng)頁并提取 URL 返回到臨屆區(qū)中 ,通過判斷主題相關(guān)度算法判斷相關(guān)度,取出不相關(guān)網(wǎng)頁,從而使整個爬蟲程序循環(huán)運(yùn)行下去。 2設(shè)置連接超時時間和讀取超時時間。 分析網(wǎng)頁 繼承 ParserCallback 獲得網(wǎng)頁內(nèi)容 // 得到標(biāo)題文本 protected String urlTitle = new String()。 protected String linkandparagraph = new String()。 } // 獲得該網(wǎng)頁標(biāo)題 public String getURLtitle() { return urlTitle。 B。 輸入:主題集合文本 ,網(wǎng)頁 url 輸出:主題相關(guān)度 ( 1) Get topic( String path) //根據(jù)路徑獲取主題文本集合 ( 2) Compulate topicweight( String topic) //求主題結(jié)合權(quán)重 ( 3) sortAndDelRepeat(int[]count)//刪除重復(fù)元素并排序 ( 4) delRepeat(String[] segment)//刪除分詞后的重復(fù)元素 ( 5) delRepeat(Vector url)//刪除得到的 URL 中的重復(fù)元素 ( 6) getParser(String url)//獲得 Parser 實(shí)例 ( 7) String titleStr =() //獲取網(wǎng)頁標(biāo)題 ( 8) String bodyStr=() //獲取網(wǎng)頁文本 ( 9) String titleStrSeg=( titleStr) //網(wǎng)頁標(biāo)題分詞 ( 10) String bodyStrSeg=( bodyStr) //網(wǎng)頁文本分詞 ( 11) Compulate , 17 文本向量長度 ( 12) set topicweight1, titleweight1, bodyweight1; //設(shè)置權(quán)重 ( 13) Last pulate Relative//計算主題相關(guān)性 ( 14) Return relative; //返回結(jié)果 根據(jù)系統(tǒng)設(shè)置首先是下載所有網(wǎng)頁,而后判定主題相關(guān)性,與主題相關(guān)則放置在相關(guān) URL 庫中,不相關(guān)的網(wǎng)頁則丟棄。如下: private String Host。 private String Date。 數(shù)據(jù)庫設(shè)計和存儲 使用 JDBC 訪問數(shù)據(jù)庫,儲存下載的網(wǎng)頁 URL 和下載時間信息。 3. 下載與主題相關(guān)的網(wǎng)頁,并存儲在數(shù)據(jù)庫中。 對數(shù)據(jù)庫進(jìn)行操作 整合了網(wǎng)絡(luò)爬蟲的功能 是界面 是調(diào)用 Ping 程序的類 具體流程: 第一步: 調(diào)用 , ,獲得起始 URL 的內(nèi)容,并存儲到 String 中。 第五步:調(diào)用 和 將與主題相關(guān)的網(wǎng)頁下載并存儲入數(shù)據(jù)庫?;叵脒@段日子的經(jīng)歷和感受,我感慨萬千,在這次畢業(yè)設(shè)計的過程中,我擁有了無數(shù)難忘的回憶和收獲。 在搜集資料的過程中,我認(rèn)真準(zhǔn)備了一個筆記本。在寫作過程中 遇到困難我就及時和導(dǎo)師聯(lián)系,并和同學(xué)互相交流,請教專業(yè)課老師。為了完成滿意的平臺設(shè)計,我仔細(xì)溫習(xí)了數(shù)據(jù)庫原理相關(guān)知識。 在設(shè)計初期,由于沒有設(shè)計經(jīng)驗(yàn),覺得無從下手,空有很多設(shè)計思想,卻不知道應(yīng)該選哪個,經(jīng)過導(dǎo)師的指導(dǎo),我的設(shè)計漸漸有了頭緒,通過查閱資料,逐漸確立系統(tǒng)方案。我想這是一次意志的磨練,是對我實(shí)際能力的一次提升,也會對我 未來的學(xué)習(xí)和工作有很大的幫助。老師的嚴(yán)謹(jǐn)治學(xué)態(tài)度、淵博的知識、無私的奉獻(xiàn)精神使我深受啟迪。 at the end of a crawl, a batch job adds these URLs to the perhost seed sets of the next crawl. The original Google crawler, described in [7], implements the different crawler ponents as different processes. A single URL server process maintains the set of URLs to download。 the assignment of URLs to crawler processes is based on a hash of the URL’s host ponent. A crawler that discovers an URL for which it is not responsible sends this URL via TCP to the crawler that is responsible for it, batching URLs together to minimize TCP overhead. We describe Mercator in more detail in Section 4. Cho and GarciaMolina’s crawler [13] is similar to Mercator. The system is posed of multiple independent, municating web crawler processes (called “Cprocs”). Cho and GarciaMolina consider different sch
點(diǎn)擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1