正文內容

基于java的搜索引擎的設計與實現(編輯修改稿)

2025-07-20 07:09 本頁面

　

【文章內容簡介】 ge(HTTP page)。public void pletePage(HTTP page,boolean error)。public boolean getRemoveQuery()。public void SpiderComplete()。}程序擴展流程圖如下所示：把 URL 加入等待隊列Spider 程序工作完成等待隊列中是否有 URL？否下載從等待隊列中得到的網頁，并將他送入運行隊列中。是這個網頁包含其他超級連接嗎？將這一網頁送入完成隊列并繼續(xù)查看網頁上的下一個超連接是否為指向Web 的連接？報告其他類型連接連接是否與網頁所在主機不同且只處理本地連接？報告外部連接報告網頁連接將連接加入等候隊列否是否是否是如何提高程序性能Inter 中擁有海量的 Web 頁面，如果開發(fā)出高效的 Spider 程序是非常重要的。下面就來介紹下幾種提高性能的技術：(1)Java 的多線程技術線程是通過程序的一條執(zhí)行路線。多線程是一個程序同時運行多個任務的能力。它是在一個程序的內部進行分工合作。優(yōu)化程序的通常方法是確定瓶頸并改進他。瓶頸是一個程序中最慢的部分，他限制了其他任務的運行。據個例子說明：一個 Spider 程序需要下載十個頁面，要完成這一任務，程序必須向服務器發(fā)出請求然后接受這些網頁。當程序等待響應的時候其他任務不能執(zhí)行，這就影響了程序的效率。如果用多線程技術可以讓這些網頁的等待時間合在一起，不用互相影響，這就可以極大的改進程序性能。(2)數據庫技術當 Spider 程序訪問一個大型 Web 站點時，必須使用一種有效的方法來存儲站點隊列。這些隊列管理 Spider 程序必須維護大型網頁的列表。如果把他們放在內存中將會是性能下降，所以我們可以把他們放在數據庫中減少系統(tǒng)資源的消耗。網絡機器人的代碼分析程序結構圖如下：程序代碼實現如下：package news。import 。import 。import 。import 。import 。import 。/** * 構造一個 Bot 程序 */public class Searcher implements ISpiderReportable { public static void main(String[] args) throws Exception { IWorkloadStorable wl = new SpiderInternalWorkload()。 Searcher _searcher = new Searcher()。 Spider _spider = new Spider(_searcher, new HTTPSocket(), 100, wl)。 (100)。 ()。 }// 發(fā)現內部連接時調用，url 表示程序發(fā)現的 URL，若返回 true 則加入作業(yè)中，否則不加入。 public boolean foundInternalLink(String url) { return false。 }// 發(fā)現外部連接時調用，url 表示程序所發(fā)現的 URL，若返回 true 則把加入作業(yè)中，否則不加入。 public boolean foundExternalLink(String url) { return false。 }// 當發(fā)現其他連接時調用這個方法。其他連接指的是非 HTML 網頁，可能是 Email 或者FTP public boolean foundOtherLink(String url) { return false。 }// 用于處理網頁，這是 Spider 程序要完成的實際工作。 public void processPage(HTTP ) { (掃描網頁： + ())。 new HTMLParse().start()。 }// 用來請求一個被處理的網頁。 public void pletePage(HTTP , boolean error) { }// 由 Spider 程序調用以確定查詢字符串是否應刪除。如果隊列中的字符串應當刪除，方法返回真。 public boolean getRemoveQuery() { return true。 }// 當 Spider 程序沒有剩余的工作時調用這個方法。 public void spiderComplete() { }}3 基于 lucene 的索引與搜索、tomcat 服務器什么是 Lucene 全文檢索Lucene 是 Jakarta Apache 的開源項目。它是一個用 Java 寫的全文索引引擎工具包，可以方便的嵌入到各種應用中實現針對應用的全文索引/檢索功能。 Lucene 的原理分析客戶端設計一個良好的查詢界面非常重要，例如 Googl 就以她簡潔的查詢界面而聞名。我在設計的時候也充分考慮了實用性和簡潔性。查詢界面截圖如下：搜索結果截圖如下：全文檢索的實現機制Lucene 的 API 接口設計的比較通用，輸入輸出結構都很像數據庫的表==記錄==字段，所以很多傳統(tǒng)的應用的文件、數據庫等都可以比較方便的映射到Lucene 的存儲結構和接口中?？傮w上看：可以先把 Lucene 當成一個支持全文索引的數據庫系統(tǒng)。索引數據源：doc(field1,field2...) doc(field1,field2...) \ indexer / _____________ | Lucene Index| / searcher 結果輸出：Hits(doc(field1,field2) doc(field1...))Document：一個需要進行索引的“單元”，一個 Document 由多個字段組成Field：字段Hits：查詢結果集，由匹配的 Document 組成 Lucene 的索引效率通常書籍后面常常附關鍵詞索引表（比如：北京：12, 34 頁，上海：3,77頁……），它能夠幫助讀者比較快地找到相關內容的頁碼。而數據庫索引能夠大大提高查詢的速度原理也是一樣，想像一下通過書后面的索引查找的速度要比一頁一頁地翻內容高多少倍……而索引之所以效率高，另外一個原因是它是排好序的。對于檢索系統(tǒng)來說核心是一個排序問題。由于數據庫索引不是為全文索引設計的，因此，使用 like %keyword%時，數據庫索引是不起作用的，在使用 like 查詢時，搜索過程又變成類似于一頁頁翻書的遍歷過程了，所以對于含有模糊查詢的數據庫服務來說，LIKE 對性能的危害是極大的。如果是需要對多個關鍵詞進行模糊匹配：like%keyword1% and like %keyword2% ...其效率也就可想而知了。所以建立一個高效檢索系統(tǒng)的關鍵是建立一個類似于科技索引一樣的反向索引機制，將數據源（比如多篇文章）排序順序存儲的同時，有另外一個排好序的關鍵詞列表，用于存儲關鍵詞==文章映射關系，利用這樣的映射關系索引：[關鍵詞==出現關鍵詞的文章編號，出現次數（甚至包括位置：起始偏移量，結束偏移量），出現頻率]，檢索過程就是把模糊查詢變成多個可以利用索引的精確查詢的邏輯組合的過程。從而大大提高了多關鍵詞查詢的效率，所以，全文檢索問題歸結到最后是一個排序問題。由此可以看出模糊查詢相對數據庫的精確查詢是一個非常不確定的問題，這也是大部分數據庫對全文檢索支持有限的原因。Lucene 最核心的特征是通過特殊的索引結構實現了傳統(tǒng)數據庫不擅長的全文索引機制，并提供了擴展接口，以方便針對不同應用的定制?？梢酝ㄟ^以下表格對比一下數據庫的模糊查詢：　 Lucene 全文索引引擎數據庫索引將數據源中的數據都通過全文索引一一建立反向索引對于 LIKE 查詢來說，數據傳統(tǒng)的索引是根本用不上的。數據需要逐個便利記錄進行 GREP 式的模糊匹配，比有索引的搜索速度要有多個數量級的下降。匹配效果通過詞元(term)進行匹配，通過語言分析接口的實現，可以實現對中文等非英語的支持。使用：like %% 會把 herlands也匹配出來，多個關鍵詞的模糊匹配：使用 like %%%：就不能匹配詞序顛倒的..匹配度有匹配度算法，將匹配程度（相似度）比較高的結果排在前面。沒有匹配程度的控制：比如有記錄中出現 5 詞和出現 1 次的，結果是一樣的。結果輸通過特別的算法，將最匹配度最高的返回所有的結果集，在匹配條目非常多出頭 100 條結果輸出，結果集是緩沖式的小批量讀取的。的時候（比如上萬條）需要大量的內存存放這些臨時結果集。可定制性通過不同的語言分析接口實現，可以方便的定制出符合應用需要的索引規(guī)則（包括對中文的支持）沒有接口或接口復雜，無法定制結論高負載的模糊查詢應用，需要負責的模糊查詢的規(guī)則，索引的資料量比較大使用率低，模糊匹配規(guī)則簡單或者需要模糊查詢的資料量少中文切分詞機制對于中文來說，全文索引首先還要解決一個語言分析的問題，對于英文來說，語句中單詞之間是天然通過空格分開的，但亞洲語言的中日韓文語句中的字是一

點擊復制文檔內容

試題試卷相關推薦

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

基于java的搜索引擎的設計與實現(編輯修改稿)

搜索引擎課件介紹學習搜索引擎的人必看的-資料下載頁

全文搜索引擎的設計與實現-畢業(yè)論文-資料下載頁

全文搜索引擎的設計與實現畢業(yè)論文-資料下載頁

基于nutch的新聞主題搜索引擎的設計與實現畢業(yè)論文-資料下載頁

全文搜索引擎的設計與實現-畢業(yè)論文-資料下載頁

基于web搜索引擎的設計與實現本科畢業(yè)論文-資料下載頁

基于nutch的新聞主題搜索引擎的設計與實現畢業(yè)論文-資料下載頁

java開源搜索引擎分類列表-資料下載頁

基于lucene與heritrix的搜索引擎構建-資料下載頁

畢業(yè)設計-基于ajaxlucene構建搜索引擎的設計和實現-論文-資料下載頁

畢業(yè)論文搜索引擎的研究與實現-資料下載頁

搜索引擎的發(fā)展與分類-資料下載頁

搜索引擎的使用-資料下載頁

搜索引擎的使用-資料下載頁

基于網絡爬蟲的搜索引擎設計與實現—計算機畢業(yè)設計-資料下載頁

基于java的搜索引擎的設計與實現-閱讀頁

基于java的搜索引擎的設計與實現(文件)

基于java的搜索引擎的設計與實現-全文預覽

基于java的搜索引擎的設計與實現-預覽頁

基于java的搜索引擎的設計與實現-免費閱讀