正文內(nèi)容

基于網(wǎng)絡(luò)爬蟲的搜索引擎設(shè)計(jì)與實(shí)現(xiàn)—計(jì)算機(jī)畢業(yè)設(shè)計(jì)-wenkub

2022-12-10 10:20:19 本頁面

　

【正文】 er就如同 Visual c++之于 c++，以為 JBuiIder就是 Java 的全部。 Java 語言還提供了豐富的類庫，使程序設(shè)計(jì)人員可以很方便地調(diào)用相關(guān)類建立起自己的系統(tǒng)。雖然 Java 在某些方面（例如資源耗費(fèi)）也存在一些不足，但這絲毫不影響 Java 作為目前最優(yōu)秀面向?qū)ο缶幊陶Z言的地位。當(dāng)初， Java 語言最初的發(fā)布不亞于一場(chǎng)革命，但是它并不標(biāo)志著 Java 快速革新時(shí)代的結(jié)束。該語言最初名叫 “Oak”，后來發(fā)現(xiàn) “Oak”已經(jīng)是 Sun 公司另外一種語言的注冊(cè)商標(biāo)，于 1995 年更名為 “Java”，即太平洋上一個(gè)盛產(chǎn)咖啡的島嶼的名字。事實(shí)上， Java 中幾個(gè)自定義的特性都來自于或可以追溯到它的這些前驅(qū)語言。 Java 語言及其擴(kuò)展正在逐步成為互聯(lián)網(wǎng)應(yīng)用的規(guī)范，掀起了自 PC機(jī)以來的又一次技術(shù)革命。 (2)對(duì)采集到的信息進(jìn)行索引并建立索引庫的索引處理系統(tǒng) ：索引處理系統(tǒng)對(duì)收集回來的網(wǎng)頁進(jìn)行分析，提取相關(guān)網(wǎng)頁信息 (包括網(wǎng)頁所在 URL、編碼類型、頁面內(nèi)容包含的關(guān)鍵詞、關(guān)鍵詞位置、生成時(shí)間、大小、與其它網(wǎng)頁的鏈接關(guān)系等 )，根據(jù)一定的相關(guān)度算法進(jìn)行大量復(fù)雜計(jì)算，得到每一個(gè)網(wǎng)頁針對(duì)頁面內(nèi)容中及超鏈中每一個(gè)關(guān)鍵詞的相關(guān)度 (或重要性 )，然后建立索引并存人到網(wǎng)頁索引數(shù)據(jù)庫中．索引數(shù)據(jù)庫可以采用通用的大型數(shù)據(jù)庫，如Oracle， Sybase 等，也可以自己定義文件格式進(jìn)行存放．為了保證索引數(shù)據(jù)庫中的信息與Web 內(nèi)容的同步，索引數(shù)據(jù)庫必須定時(shí)更新，更新頻率決定了搜索結(jié)果的及時(shí)性．索引數(shù)據(jù)庫的更新是通過啟動(dòng)“網(wǎng)絡(luò)蜘蛛”對(duì) Web 空間重新搜索來實(shí)現(xiàn)的． (3)完成用戶提交查詢請(qǐng)求的網(wǎng)頁檢索器：網(wǎng)頁檢索器一般是一個(gè)在 Web 服務(wù)器上運(yùn)行的服務(wù)器程序，它首先接收用戶提交的查詢條件，根據(jù)查詢條件對(duì)索引庫進(jìn)行查找并將查詢到的結(jié)果返回給用戶．當(dāng)用戶使用搜索引擎查找信息時(shí)，網(wǎng)頁檢索器接收用戶提交的關(guān)鍵詞，由搜索系統(tǒng)程序從網(wǎng)頁索引數(shù)據(jù)庫中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁．有的搜索引擎系統(tǒng)綜合相關(guān)信息和網(wǎng)頁級(jí)別形成相關(guān)度數(shù)值，然后進(jìn)行排序，相關(guān)度越高，排名越靠前．最后由頁面生成系統(tǒng)將搜索結(jié)果的鏈接地址和頁面內(nèi)容摘要等內(nèi)容組織起來返回給用戶．典型的搜索引擎系統(tǒng)如 Google 就是采用這種策略．信息的飛速增長(zhǎng)，使搜索引擎成為人們查找信息的首選工具， Google、百度、中國(guó)搜索等大型搜索引擎一直是人們討論的話題．搜索引擎技術(shù)的研究，國(guó)外比中國(guó)要早近十年，從最早的 Archie，到后來的 Excite，以及 ahvista、 overture、 google 等搜索引擎面世，搜索引擎發(fā)展至今，已經(jīng)有十幾年的歷史，而國(guó)內(nèi)開始研究搜索引擎是在上世紀(jì)末本世紀(jì)初．在許多領(lǐng)域，都是國(guó)外的產(chǎn)品和技術(shù)一統(tǒng)天下，特別是當(dāng)某種技術(shù)在國(guó)外研究多年而國(guó)內(nèi)才開始的情況下．例如操作系統(tǒng)、字處理軟件、瀏覽器等等，但搜索引擎卻是個(gè)例外．雖然在國(guó)外搜索引擎技術(shù)早就開始研究，但在國(guó)內(nèi)還是陸續(xù)涌現(xiàn)出優(yōu)秀的搜索引擎，像百度、中搜等．隨著搜索引擎技術(shù)的成熟，它將成為獲取信息、掌握知識(shí)的利器．但是現(xiàn)有的搜索引擎對(duì)于用戶所提出的查詢要求僅限于關(guān)鍵詞的簡(jiǎn)單邏輯組合，搜索結(jié)果重視的是返回的數(shù)量而不是質(zhì)量，在結(jié)果文檔的組織和分類上也有所欠缺．國(guó)外的一次調(diào)查結(jié)果顯示，約有 71％的人對(duì)搜索的結(jié)果感到不同程度的失望．因此，如何提高搜索引擎的智能化程度，如何按照知識(shí)應(yīng)用的需要來組織信息，使互聯(lián)網(wǎng)不僅提供信息服務(wù)，而且能為用戶提供知識(shí)服務(wù)，將成為計(jì)算機(jī)工業(yè)界和學(xué)術(shù)界有待研究的方向。在對(duì)網(wǎng)絡(luò)蜘蛛系統(tǒng)結(jié)構(gòu)和工作原理所作分析的基礎(chǔ)上，研究了頁面爬取、解析等策略和算法，并使用 Java實(shí)現(xiàn)了一個(gè)網(wǎng)絡(luò)蜘蛛的程序，對(duì)其運(yùn)行結(jié)果做了分析。關(guān)鍵字：爬蟲、搜索引擎 Abstract The paper， discussing from the application of the search engine， searches the importance and function of Web spider in the search engine． and puts forward its demand of function and design． On the base of analyzing Web Spider’s system strtucture and working elements． this paper also researches the method and strategy of multithreading scheduler， Web page crawling and HTML parsing． And then． a program of web page crawling based on Java is applied and analyzed． Keyword: spider, search engine 目錄摘要 ................................................................................................................................ 1 Abstract .......................................................................................................................... 2 一、項(xiàng)目背景 ................................................................................................................ 4 搜索引擎現(xiàn)狀分析 .......................................................................................... 4 課題開發(fā)背景 .................................................................................................. 4 網(wǎng)絡(luò)爬蟲的工作原理 ...................................................................................... 5 二、系統(tǒng)開發(fā)工具和平臺(tái) ............................................................................................ 5 關(guān)于 java 語言 ................................................................................................ 5 Jbuilder 介紹 ................................................................................................ 6 servlet 的原理 .............................................................................................. 6 三、系統(tǒng)總體設(shè)計(jì) ........................................................................................................ 8 系統(tǒng)總體結(jié)構(gòu) .................................................................................................. 8 系統(tǒng)類圖 .......................................................................................................... 8 四、系統(tǒng)詳細(xì)設(shè)計(jì) ...................................................................................................... 10 搜索引擎界面設(shè)計(jì) ........................................................................................ 10 servlet 的實(shí)現(xiàn) ............................................................................................ 12 網(wǎng)頁的解析實(shí)現(xiàn) ............................................................................................ 13 網(wǎng)頁的分析 ......................................................................................... 13 網(wǎng)頁的處理隊(duì)列 ................................................................................. 14 搜索字符串的匹配 ............................................................................ 14 網(wǎng)頁分析類的實(shí)現(xiàn) ............................................................................. 15 網(wǎng)絡(luò)爬蟲的實(shí)現(xiàn) ............................................................................................ 17 五、系統(tǒng)測(cè)試 .............................................................................................................. 25 六、結(jié)論 ...................................................................................................................... 26 致謝 .............................................................................................................................. 26 參考文獻(xiàn) ...................................................................................................................... 27 一、項(xiàng)目背景搜索引擎現(xiàn)狀分析互聯(lián)網(wǎng)被普及前，人們查閱資料首先想到的便是擁有大量書籍的圖書館，而在當(dāng)今很多人都會(huì)選擇一種更方便、快捷、全面、準(zhǔn)確的方式 —— 互聯(lián)網(wǎng)．如果說互聯(lián)網(wǎng)是一個(gè)知識(shí)寶庫，那么搜索引擎就是打開知識(shí)寶庫的一把鑰匙．搜索引擎是隨著 WEB信息的迅速增加，從1995年開始逐漸發(fā)展起來的技術(shù)，用于幫助互聯(lián)網(wǎng)用戶查詢信息的搜索工具．搜索引擎以一定的策略在互聯(lián)網(wǎng)中搜集、發(fā)現(xiàn)信息，對(duì)信息進(jìn)行理解、提取、組織和處理，并為用戶提供檢索服務(wù)，從而起到信息導(dǎo)航的目的．目前搜索引擎已經(jīng)成為倍受網(wǎng)絡(luò)用戶關(guān)注的焦點(diǎn)，也成為計(jì)算機(jī)工業(yè)界和學(xué)術(shù)界爭(zhēng)相研究、開發(fā)的對(duì)象．目前較流行的搜索引擎已有 Google, Yahoo, Info seek, baidu等 . 出于商業(yè)機(jī)密的考慮 , 目前各個(gè)搜索引擎使用的 Crawler 系統(tǒng)的技術(shù)內(nèi)幕一般都不公開 , 現(xiàn)有的文獻(xiàn)也僅限于概要性介紹 . 隨著 W eb 信息資源呈指數(shù)級(jí)增長(zhǎng)及 Web 信息資源動(dòng)態(tài)變化 , 傳統(tǒng)的搜索引擎提供的信息檢索服務(wù)已不能滿足人們?nèi)找嬖鲩L(zhǎng)的對(duì)個(gè)性化服務(wù)的需要 , 它們正面臨著巨大的挑戰(zhàn) . 以何種策略訪問 Web, 提高搜索效率 , 成為近年來專業(yè)搜索引擎網(wǎng)絡(luò)爬蟲研究的主要問題之一。網(wǎng)絡(luò) 爬蟲的工作原理網(wǎng)絡(luò)爬蟲是搜索引擎的核心部分，其名稱出自 Spider 的意譯 , 具有相同詞義的詞語還有 Crawler, robo ts, bot s, wand

點(diǎn)擊復(fù)制文檔內(nèi)容

公司管理相關(guān)推薦

ftp搜索引擎設(shè)計(jì)-資料下載頁

【總結(jié)】西華大學(xué)畢業(yè)設(shè)計(jì)說明書摘要隨著信息的快速速增長(zhǎng)，讓搜索引擎成了人們查找信息的首要工具。如今在中文搜索引擎領(lǐng)域，國(guó)內(nèi)搜索引擎已經(jīng)同國(guó)外搜索引擎效果上相差不大了。能形成現(xiàn)在這樣的局面，是有一個(gè)重要的原因：英文和中文兩種語言自身的書寫方式不相同，其中在計(jì)算機(jī)涉及的技術(shù)就是中文分詞技術(shù)。本設(shè)計(jì)的主要目的是利用爬蟲獲取的網(wǎng)頁，將網(wǎng)頁的內(nèi)容按照

2025-11-28 10:16

基于lucene的圖書搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)外文文獻(xiàn)-資料下載頁

【總結(jié)】濱江學(xué)院畢業(yè)論文（設(shè)計(jì)）外文翻譯題目基于Lucene的圖書搜索引擎學(xué)生姓名學(xué)號(hào)院系濱江學(xué)院計(jì)算機(jī)系專業(yè)軟件工程指導(dǎo)教師

2025-11-07 20:22

全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)本科畢業(yè)論文-資料下載頁

【總結(jié)】江漢大學(xué)本科畢業(yè)論文（設(shè)計(jì)）I全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)作者聲明本人鄭重聲明：所呈交的學(xué)位論文是本人在導(dǎo)師的指導(dǎo)下獨(dú)立進(jìn)行研究所取得的研究成果。除了文中特別加以標(biāo)注引用的內(nèi)容外，本論文不包含任何其他個(gè)人或集體已經(jīng)發(fā)表或撰寫的成果作品。本人完全了解有關(guān)保障、使用學(xué)位論文的規(guī)定，同意學(xué)校保留并向有關(guān)學(xué)位論文管理機(jī)構(gòu)送交論文的復(fù)印

2025-06-28 12:38

畢業(yè)論文搜索引擎的研究與實(shí)現(xiàn)-資料下載頁

【總結(jié)】奧搜科技有限公司——搜索引擎的研究與實(shí)現(xiàn)開發(fā)時(shí)間：2022年4月目錄目錄....................................................................................................................................................1

2025-06-19 17:55

網(wǎng)絡(luò)搜索引擎介紹-資料下載頁

【總結(jié)】網(wǎng)絡(luò)搜索引擎介紹人民醫(yī)院圖書館2022年6月通用中英文搜索引擎列表新浪搜索新浪網(wǎng)搜索引擎是面向全球華人的網(wǎng)上資源查詢系統(tǒng)。網(wǎng)站收錄資源豐富，遵循中文用戶習(xí)慣。目前共有16大類目錄，一萬多個(gè)細(xì)目和二十余萬個(gè)網(wǎng)站，是互聯(lián)網(wǎng)上最大規(guī)模的中文搜索引擎之一。Yahoo!中國(guó)Yahoo!

2025-09-30 15:45

基于javaweb的搜索引擎的實(shí)現(xiàn)報(bào)告模板-資料下載頁

【總結(jié)】仁愛學(xué)院長(zhǎng)實(shí)習(xí)設(shè)計(jì)說明書題目:基于Javaweb的搜索引擎的實(shí)現(xiàn)系別：專業(yè)班級(jí)：學(xué)號(hào)：

2025-10-29 22:01

聚焦搜索引擎的設(shè)計(jì)與開發(fā)查詢系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)論文-資料下載頁

【總結(jié)】畢業(yè)設(shè)計(jì)(論文)題目聚焦搜索引擎的設(shè)計(jì)與開發(fā)查詢系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)前言隨著Inter的迅速發(fā)展，人們的工作、學(xué)習(xí)和生活都已經(jīng)離不開網(wǎng)絡(luò)，網(wǎng)上信息正以爆炸性的速度增長(zhǎng)，其資源內(nèi)容幾乎涉及所有領(lǐng)域，已經(jīng)成為知識(shí)、信息的集合體，是人們獲取信息的基本工

2025-07-05 20:14

基于java技術(shù)搜索引擎的研究及實(shí)現(xiàn)-資料下載頁

【總結(jié)】基于JAVA技術(shù)的搜索引擎的研究與實(shí)現(xiàn)網(wǎng)絡(luò)中的資源非常豐富，但是如何有效的搜索信息卻是一件困難的事情。建立搜索引擎就是解決這個(gè)問題的最好方法。本文首先詳細(xì)介紹了基于英特網(wǎng)的搜索引擎的系統(tǒng)結(jié)構(gòu)，然后從網(wǎng)絡(luò)機(jī)器人、索引引擎、Web服務(wù)器三個(gè)方面進(jìn)行詳細(xì)的說明。為了更加深刻的理解這種技術(shù)，本人還親自實(shí)現(xiàn)了一個(gè)自己的搜索引擎——新聞搜索引擎。新聞搜索引擎是從指定的Web頁面中按照超連接進(jìn)行

2025-06-19 17:35

全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)-外文翻譯-其他專業(yè)-資料下載頁

【總結(jié)】江漢大學(xué)畢業(yè)論文（設(shè)計(jì)）外文翻譯原文來源TheHadoopDistributedFileSystem:ArchitectureandDesign中文譯文Hadoop分布式文件系統(tǒng)：架構(gòu)和設(shè)計(jì)姓名

2025-01-19 07:30

基于internet的全文搜索引擎的模型設(shè)計(jì)畢業(yè)論文-資料下載頁

【總結(jié)】-1-基于Inter的全文搜索引擎的模型設(shè)計(jì)摘要根據(jù)搜索引擎與信息獲取的原理,設(shè)計(jì)了一個(gè)基于Inter的全文搜索引擎,該模型從技術(shù)上可以適用于任何有全文搜索需求的應(yīng)用,并且由于基于Java語言設(shè)計(jì),從而特別適于跨平臺(tái)應(yīng)用。該模型還采用了數(shù)據(jù)庫管理作業(yè)和多線程技術(shù),從而使全文搜索的性能和效率得到了進(jìn)一步的提高。

2025-02-26 09:46

jsp基于產(chǎn)品的搜索引擎-資料下載頁

【總結(jié)】基于的搜索引擎第1頁共34頁目錄目錄.................................................................................................................................1摘要....................

2025-11-05 04:00

電子商務(wù)畢業(yè)設(shè)計(jì)-淺議seo搜索引擎優(yōu)化-資料下載頁

【總結(jié)】深圳高級(jí)技工學(xué)校畢業(yè)設(shè)計(jì)（論文）題目：淺議SEO搜索引擎優(yōu)化系別：信息技術(shù)系專業(yè)：電子商務(wù)年級(jí)：09電子商務(wù)G3（2021年1月）目錄摘要............................

2025-11-23 04:44

基于php的圖片搜索引擎-資料下載頁

【總結(jié)】i簡(jiǎn)易圖片采集器以及搜索引擎的實(shí)現(xiàn)摘要：因特網(wǎng)上的信息浩瀚萬千，而且毫無秩序，所有的信息像汪洋上的一個(gè)個(gè)小島，網(wǎng)頁鏈接是這些小島之間縱橫交錯(cuò)的橋梁，而搜索引擎，則為用戶繪制一幅一目了然的信息地圖，供用戶隨時(shí)查閱。搜索引擎指自動(dòng)的從因特網(wǎng)上搜集信息，經(jīng)過一定整理后，提供給用戶進(jìn)行查詢的系統(tǒng)。它利用稱為網(wǎng)絡(luò)蜘蛛的自動(dòng)搜索機(jī)器人程序來搜集信息；通

2025-11-03 15:13

搜索引擎課件介紹學(xué)習(xí)搜索引擎的人必看的-資料下載頁

【總結(jié)】WBIACourseProjectIntroductionPengBoNov12,2022What’sCourseProject??WBIA課程學(xué)習(xí)的一個(gè)環(huán)節(jié)?通過實(shí)現(xiàn)實(shí)際系統(tǒng)或者實(shí)驗(yàn)，驗(yàn)證解決一個(gè)問題的想法?Problem/Goal?與課程內(nèi)容相關(guān)(與Web信息處理技術(shù)相關(guān)的問題)?研究性題目、應(yīng)用型題目均可

2025-08-04 16:52

基于aspnet的網(wǎng)絡(luò)博客的設(shè)計(jì)與實(shí)現(xiàn)—計(jì)算機(jī)畢業(yè)設(shè)計(jì)-資料下載頁

【總結(jié)】基于的網(wǎng)絡(luò)博客的設(shè)計(jì)與實(shí)現(xiàn)摘要博客于2020年前后興起于美國(guó)，成為繼個(gè)人主頁，BBS之后互聯(lián)網(wǎng)公共交流的新平臺(tái)，其主要特點(diǎn)是：頻繁更新、簡(jiǎn)單明了、個(gè)性化。本文分析了現(xiàn)有博客系統(tǒng)的實(shí)現(xiàn)技術(shù)，在此基礎(chǔ)上提出了本系統(tǒng)的解決方案。本文對(duì)博客系統(tǒng)進(jìn)行了詳細(xì)的需求分析，建立了合理的基本表，將系統(tǒng)分為多個(gè)功能模塊來實(shí)現(xiàn)。該系統(tǒng)為用戶提供了在網(wǎng)上展現(xiàn)自

2025-11-20 11:08

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片