freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

網(wǎng)絡(luò)爬蟲設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)設(shè)計(jì)論文(已修改)

2024-12-19 15:20 本頁(yè)面
 

【正文】 畢業(yè)設(shè)計(jì)(論文)開題報(bào)告 課題名稱 網(wǎng)絡(luò)爬蟲設(shè)計(jì)與實(shí)現(xiàn) 學(xué)院名稱 軟件學(xué)院 專業(yè)名稱 軟件工程 學(xué)生姓名 指導(dǎo)教師 (內(nèi)容包括:課題的來(lái)源及意義,國(guó)內(nèi)外發(fā)展?fàn)顩r,本課題的研究目標(biāo)、研究?jī)?nèi)容、研究方法、研究手段和進(jìn)度安排,實(shí)驗(yàn)方案的可行性分析和已具備的實(shí)驗(yàn)條件以及主要參考文獻(xiàn)等。) 一. 課題的來(lái)源及意義 互聯(lián)網(wǎng)是一個(gè)龐大的非結(jié)構(gòu)化的數(shù)據(jù)庫(kù),將數(shù)據(jù)有效的檢索并組織呈現(xiàn)出來(lái)有著巨大的應(yīng)用前景。搜索引擎作為一個(gè)輔助人們檢索信息的工具成為用戶訪問萬(wàn)維網(wǎng)的入口和指南。但是,這些通用性搜索引擎也存在著一定的 局限性。不同領(lǐng)域、不同背景的用戶往往具有不同的檢索目的和需求,通用搜索引擎所返回的結(jié)果包含大量用戶不關(guān)心的網(wǎng)頁(yè)。為了解決這個(gè)問題,一個(gè)靈活的爬蟲有著無(wú)可替代的重要意義。 二. 國(guó)內(nèi)外發(fā)展?fàn)顩r 對(duì)于網(wǎng)絡(luò)爬蟲的研究從上世紀(jì)九十年代就開始了,目前爬蟲技術(shù)已經(jīng)趨見成熟,網(wǎng)絡(luò)爬蟲是搜索引擎的重要組成部分。網(wǎng)絡(luò)上比較著名的開源爬蟲包括Nutch, Larbin, Heritrix。網(wǎng)絡(luò)爬蟲最重要的是網(wǎng)頁(yè)搜索策略(廣度優(yōu)先和最佳度優(yōu)先)和網(wǎng)頁(yè)分析策略(基于網(wǎng)絡(luò)拓?fù)涞姆治鏊惴ê突诰W(wǎng)頁(yè)內(nèi)容的網(wǎng)頁(yè)分析算法)。 三. 研究目標(biāo) 本論文主要 研究搜索引擎的搜索器(網(wǎng)絡(luò)爬蟲程序)的設(shè)計(jì)與實(shí)現(xiàn) ,實(shí)現(xiàn)簡(jiǎn)單的可在后臺(tái)自動(dòng)運(yùn)行的爬蟲程序。 。 。 四.研究?jī)?nèi)容 本課題研究的內(nèi)容是如何使網(wǎng)絡(luò)爬蟲靈活高效。 。 。 。 。 五.研究方法 網(wǎng)絡(luò)爬蟲應(yīng)用寬度搜索技術(shù)。對(duì) url 進(jìn)行分析,去重。網(wǎng)絡(luò)爬蟲使用多線程技術(shù),讓爬蟲具備更強(qiáng)大的抓取能力。網(wǎng)絡(luò)爬蟲還要完成信息提取任務(wù),對(duì)于抓取回來(lái)的網(wǎng)頁(yè)提取出來(lái)新聞等信息。對(duì)網(wǎng)絡(luò)爬蟲的連接網(wǎng)絡(luò)設(shè)置連 接及讀取時(shí)間,避免無(wú)限制的等待。研究網(wǎng)絡(luò)爬蟲的原理并實(shí)現(xiàn)爬蟲的相關(guān)功能。 六. 研究手段 參考網(wǎng)上開源的網(wǎng)絡(luò)爬蟲和各種網(wǎng)絡(luò)爬蟲相關(guān)的書籍,在 windows 系統(tǒng)環(huán)境下開發(fā)。 五. 本課題進(jìn)度安排: — 查閱資料完成任務(wù)書 , 完成開題報(bào)告 — 開題報(bào)告 會(huì) — 查閱資料,進(jìn)行論文基本章節(jié)的寫作,完成初稿, 并完成進(jìn)行代碼編寫 — 畢業(yè)設(shè)計(jì)中期報(bào)告會(huì) — 系統(tǒng)設(shè)計(jì)結(jié)束并再次檢查系統(tǒng)的可靠性。 — 完成論文及答辯 六. 本課題可行性分析 網(wǎng)絡(luò)爬蟲目前已經(jīng)比較普遍,國(guó)內(nèi)外有眾多對(duì)網(wǎng)絡(luò)爬蟲的研究成果,大部分的技術(shù)難題已經(jīng)有解決方案。所以本課題的可行性較高。 八. 實(shí)驗(yàn)條件 Windows 操作系統(tǒng) ;互聯(lián)網(wǎng) 九. 主要參考文獻(xiàn) [1]Winter.中文搜索引擎技術(shù)解密:網(wǎng)絡(luò)蜘蛛 [M].北京:人民郵電出版社,2021 年. [2]Sergey 等. The Anatomy of a LargeScale Hypertextual Web Search Engine [M].北京:清華大學(xué)出版社, 1998 年. [3]Wisenut. WiseNut Search Engine white paper [M].北京:中國(guó)電力出版社, 2021 年. [4]Gary Stevens. TCPIP協(xié)議詳解卷 3: TCP事務(wù)協(xié)議,HTTP, NNTP 和 UNIX 域協(xié)議 [M].北京:機(jī)械工業(yè)出版社, 2021 年 1 月 . [5]羅剛 王振東 . 自己動(dòng)手寫網(wǎng)絡(luò)爬蟲 [M].北京:清華大學(xué)出版社, 2021 年 10月 . [6]李曉明 , 閆宏飛 , 王繼民 . 搜索引擎:原理、技術(shù)與系統(tǒng) —— 華夏英才基金學(xué)術(shù)文庫(kù) [M].北京: 科學(xué)出版社 , 2021 年 04 月 . 選題是否合適: 是□ 否□ 課題能否實(shí)現(xiàn): 能□ 不能□ 指導(dǎo)教師(簽字) 年 月 日 選題是否合適: 是□ 否□ 課題能否實(shí)現(xiàn): 能□ 不能□ 審題小組組長(zhǎng)(簽字) 年 月 日 摘 要 本課題的主要目的是設(shè)計(jì)面向主題的網(wǎng)絡(luò)爬蟲程序,同時(shí)需要滿足的是具有一定的性能,考慮到網(wǎng)絡(luò)爬蟲的各種需求。 網(wǎng)絡(luò)爬蟲應(yīng)用寬度搜索技術(shù)。對(duì) url 進(jìn)行分析,去重。網(wǎng)絡(luò)爬蟲使用多線程技術(shù),讓爬蟲具備更強(qiáng)大的抓取能力。對(duì)網(wǎng)絡(luò)爬蟲的連接網(wǎng)絡(luò)設(shè)置連接及讀取時(shí)間,避免無(wú)限制的等待。為了適應(yīng)不同需求,使網(wǎng)絡(luò)爬蟲可以根據(jù)預(yù)先設(shè)定的主題實(shí)現(xiàn)對(duì)特定主題的爬取。研究網(wǎng)絡(luò)爬蟲的原理并實(shí)現(xiàn)爬蟲的相關(guān)功能。 關(guān)鍵詞: 網(wǎng)絡(luò)爬蟲;面向主題;多線程 ABSTRACT The main purpose of this project is to design subjectoriented web crawler process which is also required to meet certain performance, taking into account the diverse needs of web crawlers. Web Crawler uses the technology. of Breadthfirst crawler uses multithreaded technology, so that spiders crawl can have more powerful connection time and read time of the web connection of the Web crawler , to avoid unlimited order to meet different needs, so that crawlers can achieve preset theme crawling a specific the principle web crawler and and realize the related functions. Key words: Web crawler。 subjectoriented。 multithreading 目 錄 第一章 概述 .................................. 1 課題背景 ...................................... 1 網(wǎng)絡(luò)爬蟲的歷史和分類 .......................... 1 網(wǎng)絡(luò)爬蟲的歷史 .............................. 1 網(wǎng)絡(luò)爬蟲的分類 .............................. 2 網(wǎng)絡(luò)爬蟲的發(fā)展趨勢(shì) ............................ 3 第二章 相關(guān)技術(shù)背景 ........................... 5 網(wǎng)絡(luò)爬蟲的定義 ................................ 5 網(wǎng)頁(yè)搜索策略介紹 .............................. 5 廣度優(yōu)先搜索策略 ............................ 5 最佳優(yōu)先搜索策略 ............................ 6 判斷相關(guān)度算法 ................................ 6 第三章 網(wǎng)絡(luò)爬蟲模型的分析和概要設(shè)計(jì) ............ 8 網(wǎng)絡(luò)爬蟲的模型分析 ............................ 8 網(wǎng)絡(luò)爬蟲的搜索策略 ............................ 8 網(wǎng)絡(luò)爬蟲的主題相關(guān)度判斷 ...................... 9 網(wǎng)絡(luò)爬蟲的概要設(shè)計(jì) ........................... 11 第四章 網(wǎng)絡(luò)爬蟲模型的設(shè)計(jì)和實(shí)現(xiàn) ............... 14 網(wǎng)絡(luò)爬蟲總體設(shè)計(jì) ............................. 14 網(wǎng)絡(luò)爬蟲具體設(shè)計(jì) ............................. 14 爬取網(wǎng)頁(yè) ................................... 14 分析網(wǎng)頁(yè) ................................... 15 判斷相關(guān)度 ................................. 16 保存網(wǎng)頁(yè)信息 ............................... 17 數(shù)據(jù)庫(kù)設(shè)計(jì)和存儲(chǔ) ........................... 17 多線程的實(shí)現(xiàn) ............................... 17 附加功能 ................................... 18 整體流程 ................................... 18 第五章 測(cè)試 .................................. 20 第六章 總結(jié)和展望 ............................ 24 1 第一章 概述 課題背景 網(wǎng)絡(luò)爬蟲,是一種按照一定的規(guī)則,自動(dòng)的抓取萬(wàn)維網(wǎng)信息的程序或者 腳本 。另外一些不常使用的名字還有螞蟻,自動(dòng)索引,模擬程序或者 蠕蟲 。 網(wǎng)絡(luò)檢索功能起于互聯(lián)網(wǎng)內(nèi)容爆炸性發(fā)展所帶來(lái)的對(duì)內(nèi)容檢索的需求。搜索引擎不斷的發(fā)展 ,人們的需求也在不斷的提高 ,網(wǎng)絡(luò)信息搜索已 經(jīng)成為人們每天都要進(jìn)行的內(nèi)容 .如何使搜索引擎能時(shí)刻滿足人們的需求。最初的檢索功能通過(guò)索引站的方式實(shí)現(xiàn),而有了網(wǎng)絡(luò)機(jī)器人,即網(wǎng)絡(luò)爬蟲這個(gè)技術(shù)之后,搜索引擎的時(shí)代便開始一發(fā)不可收拾了。 網(wǎng)絡(luò)爬蟲的歷史和分類 網(wǎng)絡(luò)爬蟲的歷史 在互聯(lián)網(wǎng)發(fā)展初期,網(wǎng)站相對(duì)較少,信息查找比較容易。然而伴隨互聯(lián)網(wǎng)爆炸性的發(fā)展,普通網(wǎng)絡(luò)用戶想找到所需的資料簡(jiǎn)直如同大海撈針,這時(shí)為滿足大眾信息檢索需求的專業(yè)搜索網(wǎng)站便應(yīng)運(yùn)而生了。 現(xiàn)代意義上的搜索引擎的祖先,是 1990年由蒙特利爾大學(xué)學(xué)生 Alan Emtage發(fā)明的 Archie。雖然當(dāng)時(shí) World Wide Web 還未出現(xiàn),但網(wǎng)絡(luò)中文件傳輸還是相當(dāng)頻繁的,而且由于大量的文件散布在各個(gè)分散的 FTP 主機(jī)中,查詢起來(lái)非常不便,因此 Alan Archie 工作原理與現(xiàn)在的搜索引擎已經(jīng)很接近,它依靠腳本程序自動(dòng)搜索網(wǎng)上的文件,然后對(duì)有關(guān)信息進(jìn)行索引,供使用者以一定的表達(dá)式查詢。由于 Archie 深受用戶歡迎,受其啟發(fā),美國(guó)內(nèi)華達(dá) System Computing Services大學(xué)于 1993年開發(fā)了另一個(gè)與之非常相似的搜索工具,不過(guò)此時(shí)的搜索工具除了索引文件外,已能檢索網(wǎng)頁(yè)。 當(dāng) 時(shí),“機(jī)器人”一詞在編程者中十分流行。電腦“機(jī)器人”( Computer Robot)是指某個(gè)能以人類無(wú)法達(dá)到的速度不間斷地執(zhí)行某項(xiàng)任務(wù)的軟件程序。由于專門用于檢索信息的“機(jī)器人”程序象蜘蛛一樣在網(wǎng)絡(luò)間爬來(lái)爬去,因此, 搜索引擎的“機(jī)器人”程序就被稱為“蜘蛛”程序。世界上第一個(gè)用于監(jiān)測(cè)互聯(lián)網(wǎng)發(fā)展規(guī)模的“機(jī)器人”程序是 Matthew Gray 開發(fā)的 World wide Web Wanderer。剛 2 開始它只用來(lái)統(tǒng)計(jì)互聯(lián)網(wǎng)上的服務(wù)器數(shù)量,后來(lái)則發(fā)展為能夠檢索網(wǎng)站域名。與Wanderer 相對(duì)應(yīng), Martin Koster 于 1993年 10月創(chuàng)建了 ALIWEB,它是 Archie 的HTTP 版本。 ALIWEB 不使用“機(jī)器人”程序,而是靠網(wǎng)站主動(dòng)提交信息來(lái)建立 自己的鏈接索引,類似于現(xiàn)在我們熟知的 Yahoo。 隨著互聯(lián)網(wǎng)的迅速發(fā)展,使得檢索所有新出現(xiàn)的網(wǎng)頁(yè)變得越來(lái)越困難,因此,在 Matthew Gray 的 Wanderer 基礎(chǔ)上,一些編程者將傳統(tǒng)的“蜘蛛”程序工作原理作了些改進(jìn)。其設(shè)想是,既然所有網(wǎng)頁(yè)都可能有連向其他網(wǎng)站的鏈接,那么從跟蹤 一個(gè)網(wǎng)站的鏈接開始,就有可能檢索整個(gè)互聯(lián)網(wǎng)。到 1993年底,一些基于此原理的搜索引擎開始紛紛 涌現(xiàn),其中以 JumpStation、 The World Wide Web Worm( Goto 的前身,也就是今天 Overture),和 RepositoryBased Software Engineering (RBSE) spider 最負(fù)盛名。 然而 JumpStation 和 WWW Worm 只是以搜索工具在數(shù)據(jù)庫(kù)中找到匹配信息的先后次序排列搜索結(jié)果,因此毫無(wú)信息關(guān)聯(lián)度可言。而 RBSE 是第一個(gè)在搜索結(jié)果排列中引入關(guān)鍵字串匹配程 度概念的引擎 最早現(xiàn)代意義上的搜索引擎出現(xiàn)于 1994年 7月。當(dāng)時(shí) Michael Mauldin 將 John Leavitt 的蜘蛛程序接入到其索引程序中,創(chuàng)建了大家現(xiàn)在熟知的 Lycos。同年 4月,斯坦福( Stanford)大學(xué)
點(diǎn)擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
公安備案圖鄂ICP備17016276號(hào)-1