freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于網(wǎng)絡(luò)爬蟲的搜索引擎設(shè)計(jì)與實(shí)現(xiàn)—計(jì)算機(jī)畢業(yè)設(shè)計(jì)-展示頁

2024-12-11 10:20本頁面
  

【正文】 gine. and puts forward its demand of function and design. On the base of analyzing Web Spider’s system strtucture and working elements. this paper also researches the method and strategy of multithreading scheduler, Web page crawling and HTML parsing. And then. a program of web page crawling based on Java is applied and analyzed. Keyword: spider, search engine 目錄 摘要 ................................................................................................................................ 1 Abstract .......................................................................................................................... 2 一、項(xiàng)目背景 ................................................................................................................ 4 搜索引擎現(xiàn)狀分析 .......................................................................................... 4 課題開發(fā)背景 .................................................................................................. 4 網(wǎng)絡(luò)爬蟲的工作原理 ...................................................................................... 5 二、系統(tǒng)開發(fā)工具和平臺 ............................................................................................ 5 關(guān)于 java 語言 ................................................................................................ 5 Jbuilder 介紹 ................................................................................................ 6 servlet 的原理 .............................................................................................. 6 三、系統(tǒng)總體設(shè)計(jì) ........................................................................................................ 8 系統(tǒng)總體結(jié)構(gòu) .................................................................................................. 8 系統(tǒng)類圖 .......................................................................................................... 8 四 、系統(tǒng)詳細(xì)設(shè)計(jì) ...................................................................................................... 10 搜索引擎界面設(shè)計(jì) ........................................................................................ 10 servlet 的實(shí)現(xiàn) ............................................................................................ 12 網(wǎng)頁的解析實(shí)現(xiàn) ............................................................................................ 13 網(wǎng)頁的分析 ......................................................................................... 13 網(wǎng)頁的處理隊(duì)列 ................................................................................. 14 搜索字符串的匹配 ............................................................................ 14 網(wǎng)頁分析類的實(shí)現(xiàn) ............................................................................. 15 網(wǎng)絡(luò)爬蟲的實(shí)現(xiàn) ............................................................................................ 17 五、系統(tǒng)測試 .............................................................................................................. 25 六、結(jié)論 ...................................................................................................................... 26 致謝 .............................................................................................................................. 26 參考文獻(xiàn) ...................................................................................................................... 27 一、項(xiàng)目背景 搜索引擎現(xiàn)狀分析 互聯(lián)網(wǎng)被普及前,人們查閱資料首先想到的便是擁有大量書籍 的圖書館,而在當(dāng)今很多人都會選擇一種更方便、快捷、全面、準(zhǔn)確的方式 —— 互聯(lián)網(wǎng).如果說互聯(lián)網(wǎng)是一個(gè)知識寶庫,那么搜索引擎就是打開知識寶庫的一把鑰匙.搜索引擎是隨著 WEB信息的迅速增加,從1995年開始逐漸發(fā)展起來的技術(shù),用于幫助互聯(lián)網(wǎng)用戶查詢信息的搜索工具.搜索引擎以一定的策略在互聯(lián)網(wǎng)中搜集、發(fā)現(xiàn)信息,對信息進(jìn)行理解、提取、組織和處理,并為用戶提供檢索服務(wù),從而起到信息導(dǎo)航的目的.目前搜索引擎已經(jīng)成為倍受網(wǎng)絡(luò)用戶關(guān)注的焦點(diǎn),也成為計(jì)算機(jī)工業(yè)界和學(xué)術(shù)界爭相研究、開發(fā)的對象. 目前較流行的搜索引擎已有 Google, Yahoo, Info seek, baidu等 . 出于商業(yè)機(jī)密的考慮 , 目前各個(gè)搜索引擎使用的 Crawler 系統(tǒng)的技術(shù)內(nèi)幕一般都不公開 , 現(xiàn)有的文獻(xiàn)也僅限于概要性介紹 . 隨著 W eb 信息資源呈指數(shù)級增長及 Web 信息資源動態(tài)變化 , 傳統(tǒng)的搜索引擎提供的信息檢索服務(wù)已不能滿足人們?nèi)找嬖鲩L的對個(gè)性化服務(wù)的需要 , 它們正面臨著巨大的挑戰(zhàn) . 以何種策略訪問 Web, 提高搜索效率 , 成為近年來專業(yè)搜索引擎網(wǎng)絡(luò)爬蟲研究的主要問題之一。 本科畢業(yè)設(shè)計(jì) 題目: 基于網(wǎng)絡(luò)爬蟲的 搜索引擎 設(shè)計(jì)與實(shí)現(xiàn) 系 別: 專 業(yè): 計(jì)算機(jī)科學(xué)與技術(shù) 班 級: 學(xué) 號: 姓 名: 同組人: 指 導(dǎo) 教 師: 教師職稱: 協(xié) 助 指 導(dǎo) 教 師: 教師職稱: 摘要 本文 從搜索引擎的應(yīng)用出發(fā),探討了網(wǎng)絡(luò)蜘蛛在搜索引擎中的作用和地住,提出了網(wǎng)絡(luò)蜘蛛的功能和設(shè)計(jì)要求。在對網(wǎng)絡(luò)蜘蛛系統(tǒng)結(jié)構(gòu)和工作原理所作分析的基礎(chǔ)上,研究了頁面爬取、解析等策略和算法,并使用 Java實(shí)現(xiàn)了一個(gè)網(wǎng)絡(luò)蜘蛛的程序,對其運(yùn)行結(jié)果做了分析。 課題開發(fā)背景 目前雖然有很多種搜索引擎,但各種搜索引擎基本上由三個(gè)組 成部分: (1)在互聯(lián)網(wǎng)上采集信息的網(wǎng)頁采集系統(tǒng) : 網(wǎng)頁采集系統(tǒng)主要使用一種工作在互聯(lián)網(wǎng)上的采集信息的“網(wǎng)絡(luò)蜘蛛” 。 (2)對采集到的信息進(jìn)行索引并建立索引庫的索引處理系統(tǒng) : 索引處理系統(tǒng)對收集回來的網(wǎng)頁進(jìn)行分析,提取相關(guān)網(wǎng)頁信息 (包括網(wǎng)頁所在 URL、編碼類型、頁面內(nèi)容包含的關(guān)鍵詞 、關(guān)鍵詞位置、生成時(shí)間、大小、與其它網(wǎng)頁的鏈接關(guān)系等 ),根據(jù)一定的相關(guān)度算法進(jìn)行大量復(fù)雜計(jì)算,得到每一個(gè)網(wǎng)頁針對頁面內(nèi)容中及超鏈中每一個(gè)關(guān)鍵詞的相關(guān)度 (或重要性 ),然后建立索引并存人到網(wǎng)頁索引數(shù)據(jù)庫中.索引數(shù)據(jù)庫可以采用通用的大型數(shù)據(jù)庫,如Oracle, Sybase 等,也可以自己定義文件格式進(jìn)行存放.為了保證索引數(shù)據(jù)庫中的信息與Web 內(nèi)容的同步,索引數(shù)據(jù)庫必須定時(shí)更新,更新頻率決定了搜索結(jié)果的及時(shí)性.索引數(shù)據(jù)庫的更新是通過啟動“網(wǎng)絡(luò)蜘蛛”對 Web 空間重新搜索來實(shí)現(xiàn)的. (3)完成用戶提交查詢請求的網(wǎng)頁檢索器 : 網(wǎng)頁檢索器一般是一個(gè)在 Web 服務(wù)器上運(yùn)行的服務(wù)器程序,它首先接收用戶提交的查詢條件,根據(jù)查詢條件對索引庫進(jìn)行查找并將查詢到的結(jié)果返回給用戶.當(dāng)用戶使用搜索引擎查找信息時(shí),網(wǎng)頁檢索器接收用戶提交的關(guān)鍵詞,由搜索系統(tǒng)程序從網(wǎng)頁索引數(shù)據(jù)庫中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁.有的搜索引擎系統(tǒng)綜合相關(guān)信息和網(wǎng)頁級別形成相關(guān)度數(shù)值,然后進(jìn)行排序,相關(guān)度越高,排名越靠前.最后由頁面生成系統(tǒng)將搜索結(jié)果的鏈接地址和頁面內(nèi)容摘要等內(nèi)容組織起來返回給用戶.典型的搜索引擎系統(tǒng)如 Google 就是采用這種策略. 信息的飛速增長,使搜索 引擎成為人們查找信息的首選工具, Google、百度、中國搜索等大型搜索引擎一直是人們討論的話題.搜索引擎技術(shù)的研究,國外比中國要早近十年,從最早的 Archie,到后來的 Excite,以及 ahvista、 overture、 google 等搜索引擎面世,搜索引擎發(fā)展至今,已經(jīng)有十幾年的歷史,而國內(nèi)開始研究搜索引擎是在上世紀(jì)末本世紀(jì)初.在許多領(lǐng)域,都是國外的產(chǎn)品和技術(shù)一統(tǒng)天下,特別是當(dāng)某種技術(shù)在國外研究多年而國內(nèi)才開始的情況下.例如操作系統(tǒng)、字處理軟件、瀏覽器等等,但搜索引擎卻是個(gè)例外.雖然在國外搜索引擎技術(shù)早就開 始研究,但在國內(nèi)還是陸續(xù)涌現(xiàn)出優(yōu)秀的搜索引擎,像百度、中搜等. 隨著搜索引擎技術(shù)的成熟,它將成為獲取信息、掌握知識的利器.但是現(xiàn)有的搜索引擎對于用戶所提出的查詢要求僅限于關(guān)鍵詞的簡單邏輯組合,搜索結(jié)果重視的是返回的數(shù)量而不是質(zhì)量,在結(jié)果文檔的組織和分類上也有所欠缺.國外的一次調(diào)查結(jié)果顯示,約有 71%的人對搜索的結(jié)果感到不同程度的失望.因此,如何提高搜索引擎的智能化程度,如何按照知識應(yīng)用的需要來組織信息,使互聯(lián)網(wǎng)不僅提供信息服務(wù),而且能為用戶提供知識服務(wù),將成為計(jì)算機(jī)工業(yè)界和學(xué)術(shù)界有待研究的方向 。 而廣義則是所有能利用 協(xié)議檢索 Web 文檔的軟件都稱之為網(wǎng)絡(luò)爬蟲 .網(wǎng)絡(luò)爬蟲是一個(gè)功能很強(qiáng)的自動提取網(wǎng)頁的程序 , 它為搜索引擎從萬維網(wǎng)上下載網(wǎng)頁 , 是搜索引擎的重要組成 . 它通過請求站點(diǎn)上的 HTML 文檔訪問某一站點(diǎn) . 它遍歷 W
點(diǎn)擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1