【正文】
} } (/body/html)。 if (url != null) { ((i + 1) + a href=39。 for (int i = start。 final int HITS_PER_PAGE = 10。 + /form/center)。 name=39。 size=39。新聞搜索引擎 /font: + input type=39。 + font face=39。 (center + form action=39。 // Query是一個抽象類 Query query = (line, title, analyzer)。在本論文的完成過程中,他們也在技術(shù)上給予我很多的指導(dǎo)和支持 !忠心感謝我的家人以及所有關(guān)心我的親友們,多年來在我的求學(xué)道路中給予我始終如一的關(guān)心、幫助、支持、信心和溫暖,在此學(xué)業(yè)完成之際,向你們表示由衷的謝意和崇高的敬意 ! 最后,感謝答辯小組對本論文的考核,忠心感謝為評閱本論文而付出艱辛 勞動的專家、教授 。本論文是在她 的悉心指 導(dǎo)下完成的,從論文選題、研究內(nèi)容、研究方法直到最后的定稿,她 都給予極大的幫助 。 致謝 從 2020 年 9 月至今,在 貴州民族學(xué)院 4 年的學(xué)習(xí)和生活即將結(jié)束,在此我要對那些關(guān)心和幫助過我的老師和同學(xué)表示誠摯的謝意。目前正在推出的新一代搜索引擎不但采用了中文自動分類、自動聚類等人工智能技術(shù),而且 還使用了區(qū)域智能識別技術(shù)和中文內(nèi)容分析技術(shù),也就是說現(xiàn)在的搜索引擎更加注重用戶使用的個性化和智能化。 圖 搜索結(jié)果 如 圖 所示 。最后以 HTTP 消息包的形式將搜索 結(jié)果返回到客戶端 。 if (str != null) { try { temp = new String((ISO8859_1))。 22 } (共掃描到 + n + 條新聞 )。 String _herf = input(().trim())。 Index _index = new Index()。 public HTMLParse(HTTP ) { _ = 。 import 。 } } 構(gòu)造 HTML 解析類 ,用于處理要進行建立索引的 web 頁面 。 ((url, url))。 public class Index { IndexWriter _writer = null。 import 。并通過實例構(gòu)造了一個 IspiderReportable 接口 ,用于實現(xiàn)對 URL 各種狀態(tài)的處理 。所以,如果要把語句中按“詞”進行索引的話,這個詞如何切分出來就是一個很大的問題。例如,英文句子“ I am a teacher”,用中文則為:“我是一名老師”。而信息檢索的第一件事,就是要對這種文本進行分析,以便能夠繼續(xù)下面的處理。它有 3個構(gòu)造函數(shù): Public IndexSearcher( String path) throws IOException Public IndexSearcher( Directory directory) throws IOException Public IndexSearcher( IndexReader r) 這個 3個構(gòu)造函數(shù)的參數(shù)類型雖然有所不同,但是它們均表示 存放索引的目錄 。 LUCENE 索引的建立過程如 圖 所示 17 圖 建立索引的過程 LUCENE 的搜索 前面介紹了 LUCENE 建立索引的方法及相關(guān)過程。其實意思都是一樣的。 具體構(gòu)造函數(shù)如下: public IndexWriter (String path, Analyzer a, Boolean create)。 ●是否存儲:該數(shù)據(jù)源的數(shù)據(jù)是否要完整的存儲于索引中。怎樣建立索引呢? 本論文借助的 是 LUCENE 工具包中有兩個最重要的概念 Document(邏輯文件 )和 Field(域 )。 LUCENE 全文索引與數(shù)據(jù)庫索引的比較 LUCENE 的 API 接口的設(shè)計與數(shù)據(jù)庫系統(tǒng)的字段、表、記錄的設(shè)計非常類似,簡單地說,可以把 LUCENE 看成一個支持全文檢索的傳統(tǒng)數(shù)據(jù)庫系統(tǒng)但兩者又有很多不同之處。 , LUCENE 全文檢索引擎在此基礎(chǔ)上實現(xiàn)了分塊索引,也就是可以為新的文件建立小文件索引,索引速度得到了明顯的提高,之后再與原來的索引進行合并,并最終實現(xiàn)優(yōu)化??ㄍ⒕帉懙?,并且發(fā)布在 SOURCEFORGE(開源軟件的開發(fā)者進行開發(fā)管理的集中式場所,也是全球最大的開源軟件開發(fā)平臺和倉庫 )的網(wǎng)站上以供下載。 LUCENE 提供了一個簡單但功能強大的核心 API,我們 只需要了解 幾個 LUCENE 的類和方法就可以使用它 了 。這就 像百度和谷歌這樣的搜索引擎。 } // 當 Spider程序沒有剩余的工作時調(diào)用這個方法。 } // 用來請求一個被處理的網(wǎng)頁。 } // 當發(fā)現(xiàn)其他連接時調(diào)用這個方法。 (100)。 import 。 import 。 public boolean getRemoveQuary()。 public boolean foundExternalLink(String url)。通過提供對每個事件的處理程序,可以創(chuàng)建各種 Spider 程序。 Spider 程序 在構(gòu)造 Spider 程序之前我們先了解程序的各個部分是如何共同工作的。該隊列中的 URL 不能被移入其它隊列中 在同一時間 URL只能在一個隊列中,我們把它稱為 URL 的狀態(tài)。雖然這里只描述了一個隊列,但在實際編程中用到了四個隊列,他們每個隊列都保存著同一處理狀態(tài)的 URL。 遞歸結(jié)構(gòu) 遞歸是在一個方法中調(diào)用自己本身的程序設(shè)計技術(shù)。 BOT 包中的 HTMLPAGE 類用來從指定 URL中讀取數(shù)據(jù)并檢索出有用的信息。 表單標簽:表單 是 Web 頁面中 可以輸入數(shù)據(jù)的單元。 超連接標簽:超連接定義了 WWW 通過 Inter 鏈接文檔 的功能。 文本:除了腳本和標簽之外的所有數(shù)據(jù) 。網(wǎng)絡(luò)機器人還可以通過掃描 Web 站點的主頁來得到這個站點的文件清單和層次機構(gòu)。用于查找大量的 Web 頁面。 第三步 : 在索引數(shù)據(jù)庫中進行搜索排序。 圖 結(jié)構(gòu) 搜索引擎的工作原理 搜索引擎的工作原理 可以分為以下三步 : 第一步 : 從互聯(lián)網(wǎng)上抓取網(wǎng)頁。 5 第二章 相關(guān)技術(shù)研究 搜索引擎 搜索引擎的結(jié)構(gòu) 搜索引擎是根據(jù)用 戶 的查詢請求,按照一定算法從索引數(shù)據(jù) 庫 中查找信息返回給用戶 的 。目前有兩個發(fā)展方向。并且如今的搜索引擎存在搜索速度慢、死鏈接太多、重復(fù)信息或不相關(guān)信息較多 。在中國,對搜索引擎的研究起源于“中國教育科研網(wǎng)”一期工程中的子項目,北京大學(xué)計算機系的項目組在 1997年 10 月在該網(wǎng)上推出了天網(wǎng)搜索 的版本。它們一般都保持一個大約 五 千萬網(wǎng)頁的索引數(shù)據(jù)庫,每天能夠響應(yīng) 一 千萬次用戶檢索請求。這類搜索引擎一般都索 3 引少 于 一 百萬個網(wǎng)頁,極少重新搜集網(wǎng)頁并去刷新索引。與傳統(tǒng)的互聯(lián)網(wǎng)搜索市場競爭無比激烈的現(xiàn)狀相比,現(xiàn)在的移動搜索市場還只 不過才剛剛起步,畢竟 2020 年 8 月英國出現(xiàn)“手機搜索樂曲名”服務(wù)才算得上是移動搜索的鼻祖, 2020 年 5 月英國三家主要的移動運營商 Orange、沃達豐以及 20O2 年 推出的被稱為 AQA 的基于短信的搜索服務(wù)才為移動搜索正名,之后搜索巨頭 Google、雅虎、百度等企業(yè)才陸續(xù)推出相應(yīng)業(yè)務(wù),但由于它們主要的精力放在傳統(tǒng)的互聯(lián)網(wǎng)搜索市場上,所以整個移動搜索市場仍處于孕育之中,有著不可限量的發(fā)展空間。而且,作為移動通信工具,手機只是其中的一種,還有 不少 數(shù)量的 PDA 用戶也將成為移動搜索的另一支主力軍。 傳統(tǒng)的網(wǎng)絡(luò)搜索經(jīng)過多年的發(fā)展已經(jīng)成為一個巨大的產(chǎn)業(yè)。關(guān)鍵字搜索提供了按標題搜索和按全文搜索兩種方式。每條新聞只能瀏覽部 分內(nèi)容,不能瀏覽全部內(nèi)容 。 而智能化則指搜 索引擎具有自我學(xué)習(xí)的功能,能自動地適應(yīng)用戶的查詢需求,并能對用戶進行智能分類從而為搜索引擎的個性化提供依據(jù)。 當人們打開瀏覽器時,首先連接 到搜索引擎再根據(jù)搜索引擎的查找結(jié)果連接到相關(guān)的頁面。最后采用 JSP(Java server pages)技術(shù)設(shè)計 一個簡單的新聞搜索引擎客戶端 關(guān)鍵字 :搜索引擎、 LUCENE ; 、 網(wǎng)絡(luò)蜘蛛 、 JAVA 、 JSP、 HTML II Research and Implementation of Web Search Engine Based on LUCENE CHENXIANGGAO Abstract: The contents on the Web are increasing exponentially as the rapid development of the Inter. A problem how to obtain the useful information from vast contents quickly and accurately is facing us while people are enjoying the convenience of the Inter .the solver of this problem is Web search engine. Nowadays, search engine is one of the hottest topics in the field of Inter technology. The future is contentoriented .People browse the Inter through the search results of search engines. Firstly this paper does an indepth research and analysis on the theory, framework, and data structure of a Web search engine .Meanwhile this paper discusses the future developing trend of search engine which includes individuation and intelligence . Different types of users search the same content will get different search results that are more suitable for users and this is individuation of search engine 。 LUCENE是 Apache軟件基金會下的一個開源項目,完全支持 JAVA技術(shù),適用于需要全文搜索能力的應(yīng)用程序,并具有很好的跨平臺能力。 本文對搜索引擎的原理 組成 數(shù)據(jù)結(jié)構(gòu) 工作流程等方面做了深入細致地研究與分析。人們在享受 Inter所帶來的便利的同時,也面臨著一個如何在此浩瀚的內(nèi)容中精確,快捷地找到自己所需要的信息,由此I