freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

網(wǎng)絡(luò)爬蟲(chóng)設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)設(shè)計(jì)論文-展示頁(yè)

2024-12-15 15:20本頁(yè)面
  

【正文】 et theme crawling a specific the principle web crawler and and realize the related functions. Key words: Web crawler。為了適應(yīng)不同需求,使網(wǎng)絡(luò)爬蟲(chóng)可以根據(jù)預(yù)先設(shè)定的主題實(shí)現(xiàn)對(duì)特定主題的爬取。網(wǎng)絡(luò)爬蟲(chóng)使用多線程技術(shù),讓爬蟲(chóng)具備更強(qiáng)大的抓取能力。 網(wǎng)絡(luò)爬蟲(chóng)應(yīng)用寬度搜索技術(shù)。所以本課題的可行性較高。 五. 本課題進(jìn)度安排: — 查閱資料完成任務(wù)書 , 完成開(kāi)題報(bào)告 — 開(kāi)題報(bào)告 會(huì) — 查閱資料,進(jìn)行論文基本章節(jié)的寫作,完成初稿, 并完成進(jìn)行代碼編寫 — 畢業(yè)設(shè)計(jì)中期報(bào)告會(huì) — 系統(tǒng)設(shè)計(jì)結(jié)束并再次檢查系統(tǒng)的可靠性。研究網(wǎng)絡(luò)爬蟲(chóng)的原理并實(shí)現(xiàn)爬蟲(chóng)的相關(guān)功能。網(wǎng)絡(luò)爬蟲(chóng)還要完成信息提取任務(wù),對(duì)于抓取回來(lái)的網(wǎng)頁(yè)提取出來(lái)新聞等信息。對(duì) url 進(jìn)行分析,去重。 。 。 四.研究?jī)?nèi)容 本課題研究的內(nèi)容是如何使網(wǎng)絡(luò)爬蟲(chóng)靈活高效。 。網(wǎng)絡(luò)爬蟲(chóng)最重要的是網(wǎng)頁(yè)搜索策略(廣度優(yōu)先和最佳度優(yōu)先)和網(wǎng)頁(yè)分析策略(基于網(wǎng)絡(luò)拓?fù)涞姆治鏊惴ê突诰W(wǎng)頁(yè)內(nèi)容的網(wǎng)頁(yè)分析算法)。 二. 國(guó)內(nèi)外發(fā)展?fàn)顩r 對(duì)于網(wǎng)絡(luò)爬蟲(chóng)的研究從上世紀(jì)九十年代就開(kāi)始了,目前爬蟲(chóng)技術(shù)已經(jīng)趨見(jiàn)成熟,網(wǎng)絡(luò)爬蟲(chóng)是搜索引擎的重要組成部分。不同領(lǐng)域、不同背景的用戶往往具有不同的檢索目的和需求,通用搜索引擎所返回的結(jié)果包含大量用戶不關(guān)心的網(wǎng)頁(yè)。搜索引擎作為一個(gè)輔助人們檢索信息的工具成為用戶訪問(wèn)萬(wàn)維網(wǎng)的入口和指南。 畢業(yè)設(shè)計(jì)(論文)開(kāi)題報(bào)告 課題名稱 網(wǎng)絡(luò)爬蟲(chóng)設(shè)計(jì)與實(shí)現(xiàn) 學(xué)院名稱 軟件學(xué)院 專業(yè)名稱 軟件工程 學(xué)生姓名 指導(dǎo)教師 (內(nèi)容包括:課題的來(lái)源及意義,國(guó)內(nèi)外發(fā)展?fàn)顩r,本課題的研究目標(biāo)、研究?jī)?nèi)容、研究方法、研究手段和進(jìn)度安排,實(shí)驗(yàn)方案的可行性分析和已具備的實(shí)驗(yàn)條件以及主要參考文獻(xiàn)等。) 一. 課題的來(lái)源及意義 互聯(lián)網(wǎng)是一個(gè)龐大的非結(jié)構(gòu)化的數(shù)據(jù)庫(kù),將數(shù)據(jù)有效的檢索并組織呈現(xiàn)出來(lái)有著巨大的應(yīng)用前景。但是,這些通用性搜索引擎也存在著一定的 局限性。為了解決這個(gè)問(wèn)題,一個(gè)靈活的爬蟲(chóng)有著無(wú)可替代的重要意義。網(wǎng)絡(luò)上比較著名的開(kāi)源爬蟲(chóng)包括Nutch, Larbin, Heritrix。 三. 研究目標(biāo) 本論文主要 研究搜索引擎的搜索器(網(wǎng)絡(luò)爬蟲(chóng)程序)的設(shè)計(jì)與實(shí)現(xiàn) ,實(shí)現(xiàn)簡(jiǎn)單的可在后臺(tái)自動(dòng)運(yùn)行的爬蟲(chóng)程序。 。 。 。 五.研究方法 網(wǎng)絡(luò)爬蟲(chóng)應(yīng)用寬度搜索技術(shù)。網(wǎng)絡(luò)爬蟲(chóng)使用多線程技術(shù),讓爬蟲(chóng)具備更強(qiáng)大的抓取能力。對(duì)網(wǎng)絡(luò)爬蟲(chóng)的連接網(wǎng)絡(luò)設(shè)置連 接及讀取時(shí)間,避免無(wú)限制的等待。 六. 研究手段 參考網(wǎng)上開(kāi)源的網(wǎng)絡(luò)爬蟲(chóng)和各種網(wǎng)絡(luò)爬蟲(chóng)相關(guān)的書籍,在 windows 系統(tǒng)環(huán)境下開(kāi)發(fā)。 — 完成論文及答辯 六. 本課題可行性分析 網(wǎng)絡(luò)爬蟲(chóng)目前已經(jīng)比較普遍,國(guó)內(nèi)外有眾多對(duì)網(wǎng)絡(luò)爬蟲(chóng)的研究成果,大部分的技術(shù)難題已經(jīng)有解決方案。 八. 實(shí)驗(yàn)條件 Windows 操作系統(tǒng) ;互聯(lián)網(wǎng) 九. 主要參考文獻(xiàn) [1]Winter.中文搜索引擎技術(shù)解密:網(wǎng)絡(luò)蜘蛛 [M].北京:人民郵電出版社,2021 年. [2]Sergey 等. The Anatomy of a LargeScale Hypertextual Web Search Engine [M].北京:清華大學(xué)出版社, 1998 年. [3]Wisenut. WiseNut Search Engine white paper [M].北京:中國(guó)電力出版社, 2021 年. [4]Gary Stevens. TCPIP協(xié)議詳解卷 3: TCP事務(wù)協(xié)議,HTTP, NNTP 和 UNIX 域協(xié)議 [M].北京:機(jī)械工業(yè)出版社, 2021 年 1 月 . [5]羅剛 王振東 . 自己動(dòng)手寫網(wǎng)絡(luò)爬蟲(chóng) [M].北京:清華大學(xué)出版社, 2021 年 10月 . [6]李曉明 , 閆宏飛 , 王繼民 . 搜索引擎:原理、技術(shù)與系統(tǒng) —— 華夏英才基金學(xué)術(shù)文庫(kù) [M].北京: 科學(xué)出版社 , 2021 年 04 月 . 選題是否合適: 是□ 否□ 課題能否實(shí)現(xiàn): 能□ 不能□ 指導(dǎo)教師(簽字) 年 月 日 選題是否合適: 是□ 否□ 課題能否實(shí)現(xiàn): 能□ 不能□ 審題小組組長(zhǎng)(簽字) 年 月 日 摘 要 本課題的主要目的是設(shè)計(jì)面向主題的網(wǎng)絡(luò)爬蟲(chóng)程序,同時(shí)需要滿足的是具有一定的性能,考慮到網(wǎng)絡(luò)爬蟲(chóng)的各種需求。對(duì) url 進(jìn)行分析,去重。對(duì)網(wǎng)絡(luò)爬蟲(chóng)的連接網(wǎng)絡(luò)設(shè)置連接及讀取時(shí)間,避免無(wú)限制的等待。研究網(wǎng)絡(luò)爬蟲(chóng)的原理并實(shí)現(xiàn)爬蟲(chóng)的相關(guān)功能。 subjectoriented。另外一些不常使用的名字還有螞蟻,自動(dòng)索引,模擬程序或者 蠕蟲(chóng) 。搜索引擎不斷的發(fā)展 ,人們的需求也在不斷的提高 ,網(wǎng)絡(luò)信息搜索已 經(jīng)成為人們每天都要進(jìn)行的內(nèi)容 .如何使搜索引擎能時(shí)刻滿足人們的需求。 網(wǎng)絡(luò)爬蟲(chóng)的歷史和分類 網(wǎng)絡(luò)爬蟲(chóng)的歷史 在互聯(lián)網(wǎng)發(fā)展初期,網(wǎng)站相對(duì)較少,信息查找比較容易。 現(xiàn)代意義上的搜索引擎的祖先,是 1990年由蒙特利爾大學(xué)學(xué)生 Alan Emtage發(fā)明的 Archie。由于 Archie 深受用戶歡迎,受其啟發(fā),美國(guó)內(nèi)華達(dá) System Computing Services大學(xué)于 1993年開(kāi)發(fā)了另一個(gè)與之非常相似的搜索工具,不過(guò)此時(shí)的搜索工具除了索引文件外,已能檢索網(wǎng)頁(yè)。電腦“機(jī)器人”( Computer Robot)是指某個(gè)能以人類無(wú)法達(dá)到的速度不間斷地執(zhí)行某項(xiàng)任務(wù)的軟件程序。世界上第一個(gè)用于監(jiān)測(cè)互聯(lián)網(wǎng)發(fā)展規(guī)模的“機(jī)器人”程序是 Matthew Gray 開(kāi)發(fā)的 World wide Web Wanderer。與Wanderer 相對(duì)應(yīng), Martin Koster 于 1993年 10月創(chuàng)建了 ALIWEB,它是 Archie 的HTTP 版本。 隨著互聯(lián)網(wǎng)的迅速發(fā)展,使得檢索所有新出現(xiàn)的網(wǎng)頁(yè)變得越來(lái)越困難,因此,在 Matthew Gray 的 Wanderer 基礎(chǔ)上,一些編程者將傳統(tǒng)的“蜘蛛”程序工作原理作了些改進(jìn)。到 1993年底,一些基于此原理的搜索引擎開(kāi)始紛紛 涌現(xiàn),其中以 JumpStation、 The World Wide Web Worm( Goto 的前身,也就是今天 Overture),和 RepositoryBased Software Engineering (RBSE) spider 最負(fù)盛名。而 RBSE 是第一個(gè)在搜索結(jié)果排列中引入關(guān)鍵字串匹配程 度概念的引擎 最早現(xiàn)代意義上的搜索引擎出現(xiàn)于 1994年 7月。同年 4月,斯坦福( Stanford)大學(xué)的兩名博士生, David Filo 和美籍華人楊致遠(yuǎn)( Gerry Yang)共同創(chuàng)辦了超級(jí)目錄索引 Yahoo,并成功地使搜索引擎的概念深入人心。目前,互聯(lián)網(wǎng)上有名有姓的搜索引擎已 達(dá)數(shù)百家,其檢索的信息量也與從前不可同日而語(yǔ)。 隨著互聯(lián)網(wǎng)規(guī)模的急劇膨脹,一家搜索引擎光靠自己?jiǎn)?打獨(dú)斗已無(wú)法適應(yīng)目前的市場(chǎng)狀況,因此現(xiàn)在搜索引擎之間開(kāi)始出現(xiàn)了分工協(xié)作,并有了專業(yè)的搜索引 擎技術(shù)和搜索數(shù)據(jù)庫(kù)服務(wù)提供商。國(guó)內(nèi)的百度也屬于這一類(注),搜狐和新浪用的就是它的技術(shù)。 網(wǎng)絡(luò)爬蟲(chóng)的分類 網(wǎng)絡(luò)爬蟲(chóng)種類繁多,如果按照部署在哪里分,可以分成: 1,服務(wù)器側(cè): 一般是一個(gè)多線程程序,同時(shí)下載多個(gè)目標(biāo) HTML,可以用 PHP, 3 Java, Python 等做,一般綜合搜索引擎的爬蟲(chóng)這樣做。 2,客戶端:很適合部署定題爬蟲(chóng),或者叫聚焦爬蟲(chóng)。這類爬蟲(chóng)可以部署很多,而且可以很有侵略性。 網(wǎng)絡(luò)爬蟲(chóng)的發(fā)展趨勢(shì) 目前,大多數(shù)的搜索引擎都是基于關(guān)鍵詞的搜索引擎。其次,不能聯(lián)想到關(guān)鍵字的同義詞。 搜索引擎的發(fā)展面臨著兩大 難題:一是如何跟上 Inter 的發(fā)展速度,二是如何為用戶提供更精確的查詢結(jié)果。搜索引擎己成為一個(gè)新的研究、開(kāi)發(fā)領(lǐng)域。又 由于搜索引擎有大量的用戶,有很好的經(jīng)濟(jì)價(jià)值,所以引起了世界各國(guó)計(jì)算機(jī)科學(xué)界和信息產(chǎn)業(yè)界的高度關(guān)注,目前的研究 、開(kāi)發(fā)十分活躍,并出現(xiàn)了很多值得注意的動(dòng)向。然而,傳統(tǒng)搜索引擎并不能支持定制搜索和信息處理、挖掘,只能以 形式存在?,F(xiàn)在網(wǎng)絡(luò)上流 行的信息采集工具、網(wǎng)站聚合工具,都是未來(lái)新一代爬蟲(chóng)的先驅(qū),甚至已經(jīng)具備其特點(diǎn)?,F(xiàn)在游行的 SEO,就是強(qiáng)勢(shì)搜索引擎條件下對(duì)網(wǎng)站結(jié)構(gòu)產(chǎn)生的影響。 傳統(tǒng)的網(wǎng)絡(luò)爬蟲(chóng)技術(shù)主要應(yīng)用于抓取靜態(tài) Web 網(wǎng)頁(yè),隨著 AJAX/行,如何抓取 AJAX 等動(dòng)態(tài)頁(yè)面成了搜索引擎急需解決的問(wèn)題,因?yàn)?AJAX 顛覆了傳統(tǒng)的純 HTTP 請(qǐng)求 /響應(yīng)協(xié)議機(jī)制,如果搜索引擎依舊采用“爬”的機(jī)制,是無(wú)法抓取到 AJAX 頁(yè)面的有效數(shù)據(jù)的。 另外,在 AJAX 的應(yīng)用中, JavaScript 會(huì)對(duì) DOM 結(jié)構(gòu)進(jìn)行大量變動(dòng),甚至頁(yè)面所有內(nèi)容都通過(guò) JavaScript 直接從服務(wù)器端讀取并動(dòng)態(tài)繪制出來(lái)。由此可以看出,以往的爬蟲(chóng)是基于協(xié)議驅(qū)動(dòng)的,而對(duì)于 AJAX 這樣的技術(shù),所需要的爬蟲(chóng)引擎必須是基于事件驅(qū)動(dòng)的。通用網(wǎng)絡(luò)爬蟲(chóng)從一個(gè)或若干初始網(wǎng)頁(yè)的 URL開(kāi)始,獲得初始網(wǎng)頁(yè)上的 URL 列表;在抓取網(wǎng)頁(yè)的過(guò)程中,不斷從當(dāng)前頁(yè)面上抽取新的 URL 放入待爬行隊(duì)列,直到滿足系統(tǒng)的停止條件。所有被網(wǎng)絡(luò)爬蟲(chóng)抓取的網(wǎng)頁(yè)將會(huì)被系統(tǒng)存儲(chǔ),進(jìn)行一定的分析、過(guò)濾,并建立索引,對(duì)于主題網(wǎng)絡(luò)爬蟲(chóng)來(lái)說(shuō),這一過(guò)程所得到的分析結(jié)果還可能對(duì)后續(xù)的抓取過(guò)程進(jìn)行反饋和指導(dǎo)。 定義 4:如果超鏈接 l指向網(wǎng)頁(yè) t,則網(wǎng)頁(yè) t稱為子網(wǎng)頁(yè),又稱為目標(biāo)網(wǎng)頁(yè)。 網(wǎng)頁(yè)搜索策略介紹 網(wǎng)頁(yè)的抓取策略可以分為深度優(yōu)先、廣度優(yōu)先和最佳優(yōu)先三種。 廣度優(yōu)先搜索策略 廣度優(yōu)先搜索 策略 是指在抓取過(guò)程中,在完成當(dāng)前層次的搜索后,才進(jìn)行下一層次的搜索。在目前為覆蓋盡可能多的網(wǎng)頁(yè),一般使用廣度優(yōu)先搜索方法。其基本思想是認(rèn)為與初始 URL 在一定鏈接距離內(nèi)的網(wǎng)頁(yè)具有主題相關(guān)性的概率很大。這些方法的缺點(diǎn)在于,隨著 6 抓取網(wǎng)頁(yè)的增多,大量的無(wú)關(guān)網(wǎng)頁(yè)將被下載并過(guò)濾,算法的效率將變低。它只訪問(wèn)經(jīng)過(guò)網(wǎng)頁(yè)分析算法預(yù)測(cè)為“有用”的網(wǎng)頁(yè)。因此需要將最佳優(yōu)先結(jié)合具體的應(yīng)用進(jìn)行改進(jìn),以跳出局部最優(yōu)點(diǎn)。研究表明,這樣的閉環(huán)調(diào)整可以將無(wú)關(guān)網(wǎng)頁(yè)數(shù)量降低 30%~90%。因此,主題相關(guān)度的分析是主題爬蟲(chóng)設(shè)計(jì)的關(guān)鍵。主題蜘蛛將網(wǎng)頁(yè)下載到本地后,需要使用基于內(nèi)容的主題 判別方法計(jì)算該網(wǎng)頁(yè)的主題相關(guān)度值,主題相關(guān)度低于某一閾值的網(wǎng)頁(yè)被丟棄。 。在布爾模型 [9]中,一個(gè)文檔通過(guò)一個(gè)關(guān)鍵詞集合來(lái)表示。在判斷文檔與某主題的相關(guān)度的過(guò)程中,相當(dāng)于是計(jì)算兩個(gè)關(guān)鍵詞集合的交集。 。與布爾模型不同,向量空間模型把用戶的查詢要求和數(shù)據(jù)庫(kù)文檔信息表示成由檢索項(xiàng)構(gòu)成的向量空間中的點(diǎn)(向量),而通過(guò)計(jì)算向量之間的距離來(lái)判定文檔和查詢之間的相似程度(例如,用它們之間夾角的余弦作為相似性度量)。在向量空間模型中,文檔被形式化為 n 維空間中的向量,把關(guān)鍵詞的個(gè)數(shù) n 作為空間向量的維數(shù),每個(gè)關(guān)鍵詞的權(quán)值 作為每一維分量的大小,則主題用向量表示為: A=(a1,a2,? ,an),i=1,2,? ,n,ai=wi 對(duì)于頁(yè)面進(jìn)行分析,統(tǒng)計(jì)關(guān)鍵詞出現(xiàn)的頻率,并求出頻率之比,以出現(xiàn)的頻率最高的關(guān)鍵詞作為基準(zhǔn),其頻率用 xi=1 表示,通過(guò)頻率比,求出其他關(guān)鍵詞的頻率 ,則該頁(yè)面對(duì)應(yīng)向量的每一維分量為 xiwi。 (二)布爾模型與空間向量模型分析 布爾模型的主要缺陷在于每個(gè)關(guān)鍵詞的權(quán)重都是 一樣的,它不支持設(shè)定關(guān)鍵詞的相對(duì)重要性,但是其優(yōu)點(diǎn)也較為明顯,它易于實(shí)現(xiàn),計(jì)算代價(jià)較小。在該模型中,文檔的內(nèi)容被形式化為多維空間中的一個(gè)點(diǎn),以向量的形式給出。 通過(guò)對(duì)空間向量模型和布爾模型的介紹,我們知道現(xiàn)在垂直搜索引擎大多采用空間向量模型計(jì)算主題相關(guān)性。與在進(jìn)行頁(yè)面的主題相關(guān)度分析后,當(dāng)其主題相關(guān)度符合要求時(shí)將處理該頁(yè)面中的所有鏈接,但其中的鏈接指向的頁(yè)面也可能有許多偏離了主題,這一點(diǎn)在網(wǎng)頁(yè)的標(biāo)題上就可以看出,現(xiàn)在大多數(shù)網(wǎng)頁(yè)的標(biāo)題已經(jīng)很明顯的給出了文本的主要描述對(duì)象,所以傳統(tǒng)的空間模型策略沒(méi)有注意到網(wǎng)頁(yè)標(biāo)題這個(gè)重要的角色。 8 第三章 網(wǎng)絡(luò)爬蟲(chóng)模型的分析和概要設(shè)計(jì) 網(wǎng)絡(luò)爬蟲(chóng)的模型分析 首先建立 URL 任務(wù)列表,即開(kāi)始要爬取 的 URL。之后將任務(wù)列表中 URL 重新開(kāi)始爬取,從而使網(wǎng)絡(luò)爬蟲(chóng)進(jìn)行循環(huán)運(yùn)行。如下圖 31 所示。不同的問(wèn)題需要用不同的數(shù)據(jù)結(jié)構(gòu)描述。結(jié)點(diǎn)之間的關(guān)系一般可以表示成一棵樹(shù),它被稱為解答樹(shù)。 廣度優(yōu)先搜索算法中,解答樹(shù)上結(jié)點(diǎn)的擴(kuò)展是沿結(jié)點(diǎn)深度的“斷層”進(jìn)行,也就是說(shuō),結(jié)點(diǎn)的擴(kuò)展是按它們接近起始結(jié)點(diǎn)的程度依次進(jìn)行的。因此,對(duì)于同一層結(jié)點(diǎn)來(lái)說(shuō),求解問(wèn)題的價(jià)值是相同的,我們可以按任意順序來(lái)擴(kuò)展它們。 結(jié)點(diǎn)的擴(kuò)展規(guī)則也就是如何從現(xiàn)有的結(jié)點(diǎn)生成新結(jié)點(diǎn)。 3)搜索策略 為了便于進(jìn)行搜索,要設(shè)置一個(gè)表存儲(chǔ)所有的結(jié)點(diǎn)。 搜索的步驟一般是: ( 1)從隊(duì)列頭取出一個(gè)結(jié)點(diǎn),檢查它按
點(diǎn)擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1