正文內(nèi)容

jsp基于產(chǎn)品的搜索引擎(編輯修改稿)

2024-12-20 04:00 本頁(yè)面

　

【文章內(nèi)容簡(jiǎn)介】構(gòu)來實(shí)現(xiàn) Spider 程序。基于的搜索引擎第 11 頁(yè) 共 34 頁(yè) 遞歸結(jié)構(gòu) 遞歸是在一個(gè)方法中調(diào)用自己本身的程序設(shè)計(jì)技術(shù)。雖然比較容易實(shí)現(xiàn)但耗費(fèi)內(nèi)存且不能使用多線程技術(shù)，故不適合大型項(xiàng)目。非遞歸結(jié)構(gòu) 這種方法使用隊(duì)列的數(shù)據(jù)結(jié)構(gòu)，當(dāng) Spider 程序發(fā)現(xiàn)超連接后并不調(diào)用自己本身而是把超連接加入到等待隊(duì)列中。當(dāng) Spider 程序掃描完當(dāng)前頁(yè)面后會(huì)根據(jù)制定的策略訪問隊(duì)列中的下一個(gè)超連接地址。雖然這里只描述了一個(gè)隊(duì)列，但在實(shí)際編程中用到了四個(gè)隊(duì)列，他們每個(gè)隊(duì)列都保存著同一處理狀態(tài)的 URL。等待隊(duì)列在這個(gè)隊(duì)列中， URL 等待被 Spider 程序處理。新發(fā)現(xiàn)的 URL 也被加入到這個(gè)隊(duì)列中處理隊(duì)列當(dāng) Spider 程序開始處理時(shí)，他們被送到這個(gè)隊(duì)列中錯(cuò)誤隊(duì)列如果在解析網(wǎng)頁(yè)時(shí)出錯(cuò)， URL 將被送到這里。該隊(duì)列中的 URL 不能被移入其他隊(duì)列中完成隊(duì)列如果解析網(wǎng)頁(yè)沒有出錯(cuò)， URL 將被送到這里。該隊(duì)列中的 URL 不能被移入其它隊(duì)列中在同一時(shí)間 URL 只能在一個(gè)隊(duì)列中，我們把它稱為 URL 的狀態(tài)。以上的圖表示了隊(duì)列的變化過程，在這個(gè)過程中，當(dāng)一個(gè) URL 被加入到等待隊(duì)列中時(shí) Spider 程序就會(huì)開始運(yùn)行。只要等待隊(duì)列中有一個(gè)網(wǎng)頁(yè)或 Spider 程序正在處理一個(gè)網(wǎng)頁(yè)，程序就會(huì)繼續(xù)他的工作。當(dāng)?shù)却?duì)列為空并且當(dāng)前沒有任何網(wǎng)頁(yè)時(shí)， Spider 程序就會(huì)停止它的工作。如何構(gòu)造 Spider 程序在構(gòu)造 Spider 程序之前我們先了解下程序的各個(gè)部分是如何共同工作的。以及如何對(duì)這個(gè)程序進(jìn)行擴(kuò)展。流程圖如下所示：發(fā)現(xiàn) URL 等待隊(duì)列運(yùn)行隊(duì)列完成隊(duì)列錯(cuò)誤隊(duì)列完成 URL 基于的搜索引擎第 12 頁(yè) 共 34 頁(yè) 把 URL 加入等待隊(duì)列 Spider 程序工作完成等待隊(duì)列中是否有 URL？否下載從等待隊(duì)列中得到的網(wǎng)頁(yè)，并將他送入運(yùn)行隊(duì)列中。是這個(gè)網(wǎng)頁(yè)包含其他超級(jí)連接嗎？將這一網(wǎng)頁(yè)送入完成隊(duì)列并繼續(xù) 查看網(wǎng)頁(yè)上的下一個(gè)超連接是否為指向Web 的連接？報(bào)告其他類型連接連接是否與網(wǎng)頁(yè)所在主機(jī)不同且只處理本地連接？報(bào)告外部連接報(bào)告網(wǎng)頁(yè)連接將連接加入等候隊(duì)列否是否是否是基于的搜索引擎第 13 頁(yè) 共 34 頁(yè) IspiderReportable 接口這是一個(gè)必須實(shí)現(xiàn)的接口，可以通過回調(diào)函數(shù)接受 Spider 所遇到的頁(yè)面。接口定義了 Spider 向他的控制者發(fā)送的幾個(gè)事件。通過提供對(duì)每個(gè)事件的處理程序，可以創(chuàng)建各種 Spider 程序。下面是他的接口聲明： public interface IspiderReportable{ public boolean foundInternalLink(String url)。 public boolean foundExternalLink(String url)。 public boolean foundOtherLink(String url)。 public void processPage(HTTP page)。 public void pletePage(HTTP page,boolean error)。 public boolean getRemoveQuery()。 public void SpiderComplete()。 } 如何提高程序性能 Inter 中擁有海量的 Web 頁(yè)面，如果開發(fā)出高效的 Spider 程序是非常重要的。下面就來介紹下幾種提高性能的技術(shù)： Java 的多線程技術(shù) 線程是通過程序的一條執(zhí)行路線。多線程是一個(gè)程序同時(shí)運(yùn)行多個(gè)任務(wù)的能力。它是在一個(gè)程序的內(nèi)部進(jìn)行分工合作。優(yōu)化程序的通常方法是確定瓶頸并改進(jìn)他。瓶頸是一個(gè)程序中最慢的部分，他限制了其他任務(wù)的運(yùn)行。據(jù)個(gè)例子說明：一個(gè) Spider 程序需要下載十個(gè)頁(yè)面，要完成這一任務(wù)，程序必須向服務(wù)器發(fā)出請(qǐng)求然后接受這些網(wǎng)頁(yè)。當(dāng)程序等待響應(yīng)的時(shí)候其他任務(wù)不能執(zhí)行，這就影響了程序的效率。如果用多線程技術(shù)可以讓這些網(wǎng)頁(yè)的等待時(shí)間合在一起，不用互相影響，這就可以極大的改進(jìn)程序性能。數(shù)據(jù)庫(kù)技術(shù) 當(dāng) Spider 程序訪問一個(gè)大型 Web 站點(diǎn)時(shí)，必須使用一種有效的方法來存儲(chǔ)站點(diǎn)隊(duì)列。這些隊(duì)列管理 Spider 程序必須維護(hù)大型網(wǎng)頁(yè)的列表。如果把他們放在內(nèi)存中將會(huì)是性能下降，所以我們可以把他們放在數(shù)據(jù)庫(kù)中減少系統(tǒng)資源的消基于的搜索引擎第 14 頁(yè) 共 34 頁(yè) 耗。網(wǎng)絡(luò)機(jī)器人的代碼分析程序結(jié)構(gòu)圖如下：程序代碼實(shí)現(xiàn)如下： package news。 import 。 import 。 import 。 import 。 import 。 import 。 /** * 構(gòu)造一個(gè) Bot程序 */ public class Searcher implements ISpiderReportable { public static void main(String[] args) throws Exception { IWorkloadStorable wl = new SpiderInternalWorkload()。 Searcher _searcher = new Searcher()。 Spider _spider 基于的搜索引擎第 15 頁(yè) 共 34 頁(yè) = new Spider(_searcher, new HTTPSocket(), 100, wl)。 (100)。 ()。 } // 發(fā)現(xiàn)內(nèi)部連接時(shí)調(diào)用， url表示程序發(fā)現(xiàn)的 URL，若返回 true則加入作業(yè)中，否則不加入。 public boolean foundInternalLink(String url) { return false。 } // 發(fā)現(xiàn)外部連接時(shí)調(diào)用， url表示程序所發(fā)現(xiàn)的 URL，若返回 true則把加入作業(yè)中，否則不加入。 public boolean foundExternalLink(String url) { return false。 } // 當(dāng)發(fā)現(xiàn)其他連接時(shí)調(diào)用這個(gè)方法。其他連接指的是非 HTML網(wǎng)頁(yè)，可能是 Email或者 FTP public boolean foundOtherLink(String url) { return false。 } // 用于處理網(wǎng)頁(yè)，這是 Spider程序要完成的實(shí)際工作。 public void processPage(HTTP ) { (掃描網(wǎng)頁(yè)： + ())。 new HTMLParse().start()。 } // 用來請(qǐng)求一個(gè)被處理的網(wǎng)頁(yè)。 public void pletePage(HTTP , boolean error) { } // 由 Spider程序調(diào)用以確定查詢字符串是否應(yīng)刪除。如果隊(duì)列中的字符串應(yīng)當(dāng)刪除，方法返回真。 public boolean getRemoveQuery() { return true。 } 基于的搜索引擎第 16 頁(yè) 共 34 頁(yè) // 當(dāng) Spider程序沒有剩余的工作時(shí)調(diào)用這個(gè)方法。 public void spiderComplete() { } } 在本章中，首先介紹了網(wǎng)絡(luò)機(jī)器人的基本概念，然后具體分析了 Spider 程序的結(jié)構(gòu)和功能。在最后還結(jié)合具體代碼進(jìn)行了詳細(xì)說明。本人在編程中運(yùn)用了 JavaTM技術(shù)，主要涉及到了和 io 兩個(gè)包。此外還用了第三方開發(fā)包 Bot（由 Jeff Heaton 提供的開發(fā)包）。基于的搜索引擎第 17 頁(yè) 共 34 頁(yè) 第四章基于 lucene 的索引與搜索 Lucene 全文檢索 Lucene 是 Jakarta Apache 的開源項(xiàng)目。它是一個(gè)用 Java 寫的全文索引引擎工具包，可以方便的嵌入到各種應(yīng)用中實(shí)現(xiàn)針對(duì)應(yīng)用的全文索引 /檢索功能。 Lucene 的原理分析全文檢索的實(shí)現(xiàn)機(jī)制 Lucene 的 API 接口設(shè)計(jì)的比較通用，輸入輸出結(jié)構(gòu)都很像數(shù)據(jù)庫(kù)的表 ==記錄 ==字段，所以很多傳統(tǒng)的應(yīng)用的文件、數(shù)據(jù)庫(kù)等都可以比較方便的映射到 Lucene 的存儲(chǔ)結(jié)構(gòu) 和接口中。總體上看：可以先把 Lucene 當(dāng)成一個(gè)支持全文索引的數(shù)據(jù)庫(kù)系統(tǒng) 。索引數(shù)據(jù)源： doc(field1,field2...) doc(field1,field2...) \ indexer / _____________ | Lucene Index| / searcher \ 結(jié)果輸出： Hits(doc(field1,field2) doc(field1...)) Document：一個(gè)需要進(jìn)行索引的 “單元 ”，一個(gè) Document由多個(gè)字段組成 Field：字段 Hits：查詢結(jié)果集，由匹配的 Document組成 Lucene 的索引效率通常書籍后面常常附關(guān)鍵詞索引表（比如：北京： 12, 34頁(yè)，上海： 3,77頁(yè) ?? ），它能夠幫助讀者比較快地找到相關(guān)內(nèi)容的頁(yè)碼。而數(shù)據(jù)庫(kù)索引能夠大大提高查詢的速度原理也是一樣，想像一下通過書后面的索引查找的速度要比一頁(yè)一頁(yè)地翻內(nèi)容高多少倍 ?? 而索引之所以效率高，另外一個(gè)原因是它是排好序的。對(duì)于檢索系統(tǒng)來說核心是一個(gè)排序問題。基于的搜索引擎第 18 頁(yè) 共 34 頁(yè) 由于數(shù)據(jù)庫(kù)索引不是為全文索引設(shè)計(jì)的，因此，使用 like %keyword%時(shí)，數(shù)據(jù)庫(kù)索引是不起作用的，在使用 like查詢時(shí)，搜索過程又變成類似于一頁(yè)頁(yè)翻書的遍歷過程了，所以對(duì)于含有模糊查詢的數(shù)據(jù)庫(kù)服務(wù)來說， LIKE對(duì)性能的危害是極大的。如果是需要對(duì)多個(gè)關(guān)鍵詞進(jìn)行模糊匹配： like%keyword1% and like %keyword2% ...其效率也就可想而知了。所以建立一個(gè)高效檢索系統(tǒng)的關(guān)鍵是建立一個(gè)類似于科技索引一樣的反向索引機(jī)制，將數(shù)據(jù)源（比如多篇文章）排序順序存儲(chǔ)的同時(shí)，有另外一個(gè)排好序的關(guān)鍵詞列表，用于存儲(chǔ)關(guān)鍵詞 ==文章映射關(guān)系，利用這樣的映射關(guān)系索引： [關(guān)鍵詞 ==出現(xiàn)關(guān)鍵詞的文章編號(hào)，出現(xiàn)次數(shù)（甚至包括位置：起始偏移量，結(jié)束偏移量），出現(xiàn)頻率 ]，檢索過程就是把模糊查詢變成多個(gè)可以利用索引的精確查詢的邏輯組合的過程。從而大大提高了多關(guān)鍵詞查詢的效率，所以，全文檢索問題歸結(jié)到最后是一個(gè)排序問題。由此可以看出模糊查詢相對(duì)數(shù)據(jù)庫(kù)的精確查詢是一個(gè)非常不確定的問題，這也是大部分?jǐn)?shù)據(jù)庫(kù)對(duì)全文檢索支持有限的原因。 Lucene最核心的特征是通過特殊的索引結(jié)構(gòu)實(shí)現(xiàn)了傳統(tǒng)數(shù)據(jù)庫(kù)不擅長(zhǎng)的全文索引機(jī)制，并提

點(diǎn)擊復(fù)制文檔內(nèi)容

試題試卷相關(guān)推薦

搜索引擎技術(shù)-資料下載頁(yè)

【總結(jié)】搜索引擎技術(shù)閆宏飛，北京大學(xué)計(jì)算機(jī)系網(wǎng)絡(luò)實(shí)驗(yàn)室2020年12月24日@CERNET2020內(nèi)容提要?搜索引擎工作原理?信息檢索相關(guān)研究和機(jī)構(gòu)搜索引擎—WebSearchEngines?定義：允許用戶遞交查詢，檢索出與查詢相關(guān)的網(wǎng)頁(yè)結(jié)果列表，并且排序輸出。?創(chuàng)建索引的方法–手工索引

2025-08-23 10:45

基于lucene與heritrix的搜索引擎構(gòu)建-資料下載頁(yè)

【總結(jié)】大連民族學(xué)院本科畢業(yè)設(shè)計(jì)（論文）基于Lucene與Heritrix的搜索引擎構(gòu)建學(xué)院（系）：計(jì)算機(jī)科學(xué)與工程專業(yè)：軟件工程學(xué)生

2025-05-12 13:13

iqraaa搜索引擎-資料下載頁(yè)

【總結(jié)】獲取信息的方法1搜索引擎主流搜索引擎搜索引擎(searchengine)是指根據(jù)一定的策略、運(yùn)用特定的計(jì)算機(jī)程序搜集互聯(lián)網(wǎng)上的信息，在對(duì)信息進(jìn)行組織和處理后，為用戶提供檢索服務(wù)的系統(tǒng)。搜索信息的機(jī)器2常用的檢索工具兩種檢索方法?目錄檢索?關(guān)鍵字檢索Contents3Cont

2025-08-04 09:44

nuwaaa搜索引擎-資料下載頁(yè)

【總結(jié)】信息檢索與分析利用第3章搜索引擎1第3章搜索引擎概述典型的搜索引擎搜索引擎的檢索技巧信息檢索與分析利用第3章搜索引擎2概述基本概念I(lǐng)nter的主要信息服務(wù)類型搜索引擎的類型信息檢索與分析利用第3章搜索引擎31．搜索引擎搜

2025-08-04 09:37

kegaaa搜索引擎-資料下載頁(yè)

【總結(jié)】所有搜索引擎的祖先，是1990年由Montreal的McGillUniversity三名學(xué)生（AlanEmtage、PeterDeutsch、BillWheelan）發(fā)明的Archie（ArchieFAQ）。AlanEmtage等想到了開發(fā)一個(gè)可以用文件名查找文件的系統(tǒng)，于是便有了Archie。Archie是第一個(gè)自動(dòng)索引互聯(lián)網(wǎng)上匿名

2025-08-04 09:55

搜索引擎優(yōu)化-資料下載頁(yè)

【總結(jié)】搜索引擎優(yōu)化百度版影響搜索引擎優(yōu)化的因素?域名及空間?網(wǎng)站建設(shè)?網(wǎng)站運(yùn)營(yíng)域名及空間?域名盡量簡(jiǎn)短、與網(wǎng)站主題有關(guān)聯(lián)?域名后綴盡量常見如、、等?查看域名是否有被懲罰歷史?服務(wù)器空間要穩(wěn)定、訪問速度要快?相同服務(wù)器要看有沒有相同IP的網(wǎng)站被懲罰網(wǎng)站建設(shè)?對(duì)用戶體

2025-08-04 15:47

搜索引擎(3)-資料下載頁(yè)

【總結(jié)】搜索引擎?1、什么是搜索引擎?2、搜索引擎的工作原理?3、搜索引擎的發(fā)展過程?4、搜索引擎的類型及使用技巧什么是搜索引擎(p54)?搜索引擎是指通過網(wǎng)絡(luò)機(jī)器人在網(wǎng)際某一空間、某一領(lǐng)域中尋找和發(fā)現(xiàn)有用或相關(guān)的信息，并在此基礎(chǔ)上建立檢索數(shù)據(jù)庫(kù)，通過簡(jiǎn)單友好的界面提供給用戶查詢的工具。

2025-08-04 17:13

外文搜索引擎-資料下載頁(yè)

【總結(jié)】SpringerLink新平臺(tái)使用指南徐州師范大學(xué)圖書館信息咨詢部2022-10-9LibraryofHenanNormalUniversityJuneSpringerLink簡(jiǎn)介?Springer出版社擁有165年的出版歷史?全球最大的學(xué)術(shù)與科技圖書出版社（每年出版4,000種新

2025-07-25 04:13

搜索引擎及搜索技巧-資料下載頁(yè)

【總結(jié)】（SearchEngine）搜索引擎是指用于因特網(wǎng)信息查找的網(wǎng)絡(luò)工具一、搜索引擎的發(fā)展歷史最早的搜索引擎出現(xiàn)于1994年4月。斯坦福大學(xué)的兩名博士生，美籍華人楊致遠(yuǎn)和美國(guó)人DavidFilo共同創(chuàng)辦了超級(jí)目錄索引雅虎（YAHOO），并成功地使用搜索引擎的概念深入人心。??????

2025-05-13 10:00

搜索引擎銷售協(xié)議-資料下載頁(yè)

【總結(jié)】搜索引擎銷售協(xié)議搜索引擎銷售協(xié)議搜索引擎銷售協(xié)議本合同用于代理商向客戶銷售_______公司的搜索引擎登錄服務(wù)。如有任何附加合同，請(qǐng)客戶參照本合同中關(guān)于服務(wù)詳情與收費(fèi)報(bào)價(jià)的部分。本...

2024-12-16 23:11

ftp搜索引擎設(shè)計(jì)-資料下載頁(yè)

【總結(jié)】西華大學(xué)畢業(yè)設(shè)計(jì)說明書摘要隨著信息的快速速增長(zhǎng)，讓搜索引擎成了人們查找信息的首要工具。如今在中文搜索引擎領(lǐng)域，國(guó)內(nèi)搜索引擎已經(jīng)同國(guó)外搜索引擎效果上相差不大了。能形成現(xiàn)在這樣的局面，是有一個(gè)重要的原因：英文和中文兩種語(yǔ)言自身的書寫方式不相同，其中在計(jì)算機(jī)涉及的技術(shù)就是中文分詞技術(shù)。本設(shè)計(jì)的主要目的是利用爬蟲獲取的網(wǎng)頁(yè)，將網(wǎng)頁(yè)的內(nèi)容按照

2024-12-07 10:16

it計(jì)算機(jī)]基于lucene的桌面搜索引擎-資料下載頁(yè)

【總結(jié)】基于Lucene的桌面全文搜索引擎研究1目錄目錄........................................................................................................................................1摘要.............

2025-11-08 23:14

基于javaweb的搜索引擎的實(shí)現(xiàn)報(bào)告模板-資料下載頁(yè)

【總結(jié)】仁愛學(xué)院長(zhǎng)實(shí)習(xí)設(shè)計(jì)說明書題目:基于Javaweb的搜索引擎的實(shí)現(xiàn)系別：專業(yè)班級(jí)：學(xué)號(hào)：

2025-10-29 22:01

基于java的搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)-資料下載頁(yè)

【總結(jié)】摘要網(wǎng)絡(luò)中的資源非常豐富，但是如何有效的搜索信息卻是一件困難的事情。建立搜索引擎就是解決這個(gè)問題的最好方法。本文首先詳細(xì)介紹了基于英特網(wǎng)的搜索引擎的系統(tǒng)結(jié)構(gòu)，然后從網(wǎng)絡(luò)機(jī)器人、索引引擎、Web服務(wù)器三個(gè)方面進(jìn)行詳細(xì)的說明。為了更加深刻的理解這種技術(shù)，本人還親自實(shí)現(xiàn)了一個(gè)自己的搜索引擎——新聞搜索引擎。新聞搜索引擎是從指定的Web頁(yè)面中按照超連接進(jìn)行解析、搜索

2025-06-23 07:09

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片