freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

網(wǎng)絡爬蟲設計與實現(xiàn)畢業(yè)設計論文(已修改)

2024-12-19 15:20 本頁面
 

【正文】 畢業(yè)設計(論文)開題報告 課題名稱 網(wǎng)絡爬蟲設計與實現(xiàn) 學院名稱 軟件學院 專業(yè)名稱 軟件工程 學生姓名 指導教師 (內(nèi)容包括:課題的來源及意義,國內(nèi)外發(fā)展狀況,本課題的研究目標、研究內(nèi)容、研究方法、研究手段和進度安排,實驗方案的可行性分析和已具備的實驗條件以及主要參考文獻等。) 一. 課題的來源及意義 互聯(lián)網(wǎng)是一個龐大的非結構化的數(shù)據(jù)庫,將數(shù)據(jù)有效的檢索并組織呈現(xiàn)出來有著巨大的應用前景。搜索引擎作為一個輔助人們檢索信息的工具成為用戶訪問萬維網(wǎng)的入口和指南。但是,這些通用性搜索引擎也存在著一定的 局限性。不同領域、不同背景的用戶往往具有不同的檢索目的和需求,通用搜索引擎所返回的結果包含大量用戶不關心的網(wǎng)頁。為了解決這個問題,一個靈活的爬蟲有著無可替代的重要意義。 二. 國內(nèi)外發(fā)展狀況 對于網(wǎng)絡爬蟲的研究從上世紀九十年代就開始了,目前爬蟲技術已經(jīng)趨見成熟,網(wǎng)絡爬蟲是搜索引擎的重要組成部分。網(wǎng)絡上比較著名的開源爬蟲包括Nutch, Larbin, Heritrix。網(wǎng)絡爬蟲最重要的是網(wǎng)頁搜索策略(廣度優(yōu)先和最佳度優(yōu)先)和網(wǎng)頁分析策略(基于網(wǎng)絡拓撲的分析算法和基于網(wǎng)頁內(nèi)容的網(wǎng)頁分析算法)。 三. 研究目標 本論文主要 研究搜索引擎的搜索器(網(wǎng)絡爬蟲程序)的設計與實現(xiàn) ,實現(xiàn)簡單的可在后臺自動運行的爬蟲程序。 。 。 四.研究內(nèi)容 本課題研究的內(nèi)容是如何使網(wǎng)絡爬蟲靈活高效。 。 。 。 。 五.研究方法 網(wǎng)絡爬蟲應用寬度搜索技術。對 url 進行分析,去重。網(wǎng)絡爬蟲使用多線程技術,讓爬蟲具備更強大的抓取能力。網(wǎng)絡爬蟲還要完成信息提取任務,對于抓取回來的網(wǎng)頁提取出來新聞等信息。對網(wǎng)絡爬蟲的連接網(wǎng)絡設置連 接及讀取時間,避免無限制的等待。研究網(wǎng)絡爬蟲的原理并實現(xiàn)爬蟲的相關功能。 六. 研究手段 參考網(wǎng)上開源的網(wǎng)絡爬蟲和各種網(wǎng)絡爬蟲相關的書籍,在 windows 系統(tǒng)環(huán)境下開發(fā)。 五. 本課題進度安排: — 查閱資料完成任務書 , 完成開題報告 — 開題報告 會 — 查閱資料,進行論文基本章節(jié)的寫作,完成初稿, 并完成進行代碼編寫 — 畢業(yè)設計中期報告會 — 系統(tǒng)設計結束并再次檢查系統(tǒng)的可靠性。 — 完成論文及答辯 六. 本課題可行性分析 網(wǎng)絡爬蟲目前已經(jīng)比較普遍,國內(nèi)外有眾多對網(wǎng)絡爬蟲的研究成果,大部分的技術難題已經(jīng)有解決方案。所以本課題的可行性較高。 八. 實驗條件 Windows 操作系統(tǒng) ;互聯(lián)網(wǎng) 九. 主要參考文獻 [1]Winter.中文搜索引擎技術解密:網(wǎng)絡蜘蛛 [M].北京:人民郵電出版社,2021 年. [2]Sergey 等. The Anatomy of a LargeScale Hypertextual Web Search Engine [M].北京:清華大學出版社, 1998 年. [3]Wisenut. WiseNut Search Engine white paper [M].北京:中國電力出版社, 2021 年. [4]Gary Stevens. TCPIP協(xié)議詳解卷 3: TCP事務協(xié)議,HTTP, NNTP 和 UNIX 域協(xié)議 [M].北京:機械工業(yè)出版社, 2021 年 1 月 . [5]羅剛 王振東 . 自己動手寫網(wǎng)絡爬蟲 [M].北京:清華大學出版社, 2021 年 10月 . [6]李曉明 , 閆宏飛 , 王繼民 . 搜索引擎:原理、技術與系統(tǒng) —— 華夏英才基金學術文庫 [M].北京: 科學出版社 , 2021 年 04 月 . 選題是否合適: 是□ 否□ 課題能否實現(xiàn): 能□ 不能□ 指導教師(簽字) 年 月 日 選題是否合適: 是□ 否□ 課題能否實現(xiàn): 能□ 不能□ 審題小組組長(簽字) 年 月 日 摘 要 本課題的主要目的是設計面向主題的網(wǎng)絡爬蟲程序,同時需要滿足的是具有一定的性能,考慮到網(wǎng)絡爬蟲的各種需求。 網(wǎng)絡爬蟲應用寬度搜索技術。對 url 進行分析,去重。網(wǎng)絡爬蟲使用多線程技術,讓爬蟲具備更強大的抓取能力。對網(wǎng)絡爬蟲的連接網(wǎng)絡設置連接及讀取時間,避免無限制的等待。為了適應不同需求,使網(wǎng)絡爬蟲可以根據(jù)預先設定的主題實現(xiàn)對特定主題的爬取。研究網(wǎng)絡爬蟲的原理并實現(xiàn)爬蟲的相關功能。 關鍵詞: 網(wǎng)絡爬蟲;面向主題;多線程 ABSTRACT The main purpose of this project is to design subjectoriented web crawler process which is also required to meet certain performance, taking into account the diverse needs of web crawlers. Web Crawler uses the technology. of Breadthfirst crawler uses multithreaded technology, so that spiders crawl can have more powerful connection time and read time of the web connection of the Web crawler , to avoid unlimited order to meet different needs, so that crawlers can achieve preset theme crawling a specific the principle web crawler and and realize the related functions. Key words: Web crawler。 subjectoriented。 multithreading 目 錄 第一章 概述 .................................. 1 課題背景 ...................................... 1 網(wǎng)絡爬蟲的歷史和分類 .......................... 1 網(wǎng)絡爬蟲的歷史 .............................. 1 網(wǎng)絡爬蟲的分類 .............................. 2 網(wǎng)絡爬蟲的發(fā)展趨勢 ............................ 3 第二章 相關技術背景 ........................... 5 網(wǎng)絡爬蟲的定義 ................................ 5 網(wǎng)頁搜索策略介紹 .............................. 5 廣度優(yōu)先搜索策略 ............................ 5 最佳優(yōu)先搜索策略 ............................ 6 判斷相關度算法 ................................ 6 第三章 網(wǎng)絡爬蟲模型的分析和概要設計 ............ 8 網(wǎng)絡爬蟲的模型分析 ............................ 8 網(wǎng)絡爬蟲的搜索策略 ............................ 8 網(wǎng)絡爬蟲的主題相關度判斷 ...................... 9 網(wǎng)絡爬蟲的概要設計 ........................... 11 第四章 網(wǎng)絡爬蟲模型的設計和實現(xiàn) ............... 14 網(wǎng)絡爬蟲總體設計 ............................. 14 網(wǎng)絡爬蟲具體設計 ............................. 14 爬取網(wǎng)頁 ................................... 14 分析網(wǎng)頁 ................................... 15 判斷相關度 ................................. 16 保存網(wǎng)頁信息 ............................... 17 數(shù)據(jù)庫設計和存儲 ........................... 17 多線程的實現(xiàn) ............................... 17 附加功能 ................................... 18 整體流程 ................................... 18 第五章 測試 .................................. 20 第六章 總結和展望 ............................ 24 1 第一章 概述 課題背景 網(wǎng)絡爬蟲,是一種按照一定的規(guī)則,自動的抓取萬維網(wǎng)信息的程序或者 腳本 。另外一些不常使用的名字還有螞蟻,自動索引,模擬程序或者 蠕蟲 。 網(wǎng)絡檢索功能起于互聯(lián)網(wǎng)內(nèi)容爆炸性發(fā)展所帶來的對內(nèi)容檢索的需求。搜索引擎不斷的發(fā)展 ,人們的需求也在不斷的提高 ,網(wǎng)絡信息搜索已 經(jīng)成為人們每天都要進行的內(nèi)容 .如何使搜索引擎能時刻滿足人們的需求。最初的檢索功能通過索引站的方式實現(xiàn),而有了網(wǎng)絡機器人,即網(wǎng)絡爬蟲這個技術之后,搜索引擎的時代便開始一發(fā)不可收拾了。 網(wǎng)絡爬蟲的歷史和分類 網(wǎng)絡爬蟲的歷史 在互聯(lián)網(wǎng)發(fā)展初期,網(wǎng)站相對較少,信息查找比較容易。然而伴隨互聯(lián)網(wǎng)爆炸性的發(fā)展,普通網(wǎng)絡用戶想找到所需的資料簡直如同大海撈針,這時為滿足大眾信息檢索需求的專業(yè)搜索網(wǎng)站便應運而生了。 現(xiàn)代意義上的搜索引擎的祖先,是 1990年由蒙特利爾大學學生 Alan Emtage發(fā)明的 Archie。雖然當時 World Wide Web 還未出現(xiàn),但網(wǎng)絡中文件傳輸還是相當頻繁的,而且由于大量的文件散布在各個分散的 FTP 主機中,查詢起來非常不便,因此 Alan Archie 工作原理與現(xiàn)在的搜索引擎已經(jīng)很接近,它依靠腳本程序自動搜索網(wǎng)上的文件,然后對有關信息進行索引,供使用者以一定的表達式查詢。由于 Archie 深受用戶歡迎,受其啟發(fā),美國內(nèi)華達 System Computing Services大學于 1993年開發(fā)了另一個與之非常相似的搜索工具,不過此時的搜索工具除了索引文件外,已能檢索網(wǎng)頁。 當 時,“機器人”一詞在編程者中十分流行。電腦“機器人”( Computer Robot)是指某個能以人類無法達到的速度不間斷地執(zhí)行某項任務的軟件程序。由于專門用于檢索信息的“機器人”程序象蜘蛛一樣在網(wǎng)絡間爬來爬去,因此, 搜索引擎的“機器人”程序就被稱為“蜘蛛”程序。世界上第一個用于監(jiān)測互聯(lián)網(wǎng)發(fā)展規(guī)模的“機器人”程序是 Matthew Gray 開發(fā)的 World wide Web Wanderer。剛 2 開始它只用來統(tǒng)計互聯(lián)網(wǎng)上的服務器數(shù)量,后來則發(fā)展為能夠檢索網(wǎng)站域名。與Wanderer 相對應, Martin Koster 于 1993年 10月創(chuàng)建了 ALIWEB,它是 Archie 的HTTP 版本。 ALIWEB 不使用“機器人”程序,而是靠網(wǎng)站主動提交信息來建立 自己的鏈接索引,類似于現(xiàn)在我們熟知的 Yahoo。 隨著互聯(lián)網(wǎng)的迅速發(fā)展,使得檢索所有新出現(xiàn)的網(wǎng)頁變得越來越困難,因此,在 Matthew Gray 的 Wanderer 基礎上,一些編程者將傳統(tǒng)的“蜘蛛”程序工作原理作了些改進。其設想是,既然所有網(wǎng)頁都可能有連向其他網(wǎng)站的鏈接,那么從跟蹤 一個網(wǎng)站的鏈接開始,就有可能檢索整個互聯(lián)網(wǎng)。到 1993年底,一些基于此原理的搜索引擎開始紛紛 涌現(xiàn),其中以 JumpStation、 The World Wide Web Worm( Goto 的前身,也就是今天 Overture),和 RepositoryBased Software Engineering (RBSE) spider 最負盛名。 然而 JumpStation 和 WWW Worm 只是以搜索工具在數(shù)據(jù)庫中找到匹配信息的先后次序排列搜索結果,因此毫無信息關聯(lián)度可言。而 RBSE 是第一個在搜索結果排列中引入關鍵字串匹配程 度概念的引擎 最早現(xiàn)代意義上的搜索引擎出現(xiàn)于 1994年 7月。當時 Michael Mauldin 將 John Leavitt 的蜘蛛程序接入到其索引程序中,創(chuàng)建了大家現(xiàn)在熟知的 Lycos。同年 4月,斯坦福( Stanford)大學
點擊復制文檔內(nèi)容
公司管理相關推薦
文庫吧 www.dybbs8.com
公安備案圖鄂ICP備17016276號-1