正文內(nèi)容

基于lucene的站內(nèi)新聞搜索引擎的設(shè)計與實現(xiàn)(編輯修改稿)

2025-12-13 08:40 本頁面

　

【文章內(nèi)容簡介】接搜索引擎的新時代。 Lucene 簡介最初 Lucene 是 Apache 軟件基金會 Jakarta 項目組的子項目，是一個完全開放源碼的全文檢索工具包。 Lucene的原作者是 Doug Cutting，他是一位資深全文檢索專家， VTwin搜索引擎的主要開發(fā)者。 2020年 3月 Doug Cutting把 Lucene轉(zhuǎn)移到 SourceFe上， 2020年 10月獻(xiàn)給 Apache基金會。 Lucene的取名來自 Doug Cutting的妻子的名字。 Lucene在最初階段是使用 java開發(fā)的。然后逐漸被翻譯成了多種語言，如 C++、 C、Perl等。同時 Lucene的各種應(yīng)用也開始發(fā)展起來，如 Nutch(一個 WebCrawler工具 )、 Hadoop（一個基于 Lucene的分布式計算平臺）。它們的出現(xiàn)為 Lucene帶來了新鮮而且強(qiáng)大的動力。目前 Lucene已經(jīng)發(fā)展到了。但是由于新版本剛剛發(fā)布，穩(wěn)定性還不是很好，基于 Lucene 的站內(nèi)新聞搜索引擎的設(shè)計與實現(xiàn) 第 2 頁共 20 頁本文還是按照成熟的。基于 Lucene 的站內(nèi)新聞搜索引擎的設(shè)計與實現(xiàn) 第 3 頁共 20 頁第二章索引的建立概述我們首先已經(jīng)事先建立好了數(shù)據(jù)源，那么對于建立搜索引擎而言，第二步就是建立索引。索引的目的在于建立一個用戶目的信息，與數(shù)據(jù)源中一個單一數(shù)據(jù)的對應(yīng)。具體到文章來說就是需要找到用戶所搜索的詞與文章的關(guān)聯(lián)。索引的建立主要涉及一下幾個問題，什么樣的數(shù)據(jù)要建立索引？以怎樣的方式建立索引？什么樣的數(shù)據(jù)需要建立索引呢？這就要分析用戶需求了?，F(xiàn)階段用戶往往輸入一段文字，然后希望找到與這段文字相關(guān)的信息。這段文字可以拆分成一個個的字，也可以拆分成一個個的詞。無論字詞，現(xiàn)在最后這都是我們獲取的用戶信息，我們要通過這個用戶信息查找到相應(yīng)的數(shù)據(jù)，那么字詞便是需要建立索引的東西。與用戶有關(guān)的字詞，往往出現(xiàn)在文章的標(biāo)題和文章的正文中，這便是我們需要建立索引的域。把這里邊的內(nèi)容拆成一個個的字詞，這些字詞就是我們要進(jìn)行索引的數(shù)據(jù)。而且用戶需要搜索時間，我們就把時間整體索引，用戶需要搜索什么，我們就把什么做索引。怎樣的方式去建立索引，決定了通過你的索引查找到相關(guān)文章的效率，索引的方式很多，我據(jù)一種簡單的方式，而后結(jié)合 Lucene在詳細(xì)的說明建立索引的方式。一種最簡單的建立索引的方式就是把字詞和一篇文章中出現(xiàn)過這個字詞的文檔的編號存在一起。這樣，當(dāng)搜索到這個字詞的時候，便能得到相應(yīng)的文檔編號，通過文檔編號，便可以獲取文檔的全部信息。索引的建立是開發(fā)搜索引擎的關(guān)鍵一步，他關(guān)系著你的搜索引擎的搜索效率。相關(guān)的技術(shù)綜述倒排索引倒排索引是也常被稱為反向索引、置入檔案或反向檔案，是一種索引方法，被用來存儲在全文搜索下某個單詞在一個文檔或者一組文檔中的存儲位置的映射。它是文檔檢索系統(tǒng) 中最常用的數(shù)據(jù)結(jié)構(gòu) 。舉一個例子：文本 T0＝“我愛中華人民共和國” 文本 T1＝“我愛中國” 文本 T2＝“中華人民共和國很偉大” 那么反向文件索引為： “我”： 0， 1 “愛”： 0， 1 “中華人民共和國”： 0， 2 “中國”： 1 “很”： 2 “偉大”： 2 這樣搜索“我”“中國”的結(jié)果就是 {0,1}∧ {1}={1} 基于 Lucene 的站內(nèi)新聞搜索引擎的設(shè)計與實現(xiàn) 第 4 頁共 20 頁中文分詞中文分詞是索引建立的關(guān)鍵。因為中文博大精深，不像英語以空格完美分隔詞。同樣的一句話在不同的語境下意思不同，同樣連在一起兩個字，在某些情況下它們是一個詞，而有些情況下它們就是分別的字或者另一個詞的組成部分。例如我馬上到，我從馬上下來。兩個馬上很難區(qū)分。而且像“高高興興”這樣的疊詞，“去哪兒”這個兒化音詞，“吃了頓飯”這種分離詞都對使得分詞變得極其困難。現(xiàn)在變簡單的介紹幾種分詞方式。按字索引按字分詞可以解決所有的問題，使得搜索變的十分準(zhǔn)確，因為字是漢字的最小單位，我們只要知道輸入的是什么字，字與字之間的位置關(guān)系便可以確定整個搜索內(nèi)容。但是按字分詞往往使得索引過大，并且用戶往往都是直接輸入連在一起的漢字，這樣便使得，按字拆分的方法不能很好的猜測用戶的意思。中科院分詞中科院分詞系統(tǒng)是目前使用很廣泛的系統(tǒng)。其最大的特點(diǎn)便是保留了大量的分詞組合結(jié)果，對于每一個結(jié)果，通過公司進(jìn)行計算其相關(guān)性，從而從多個分詞結(jié)果中選出最合適的一個。另一個特點(diǎn)便是他的人名，地名識別系統(tǒng)。雖然在其開源版本上不盡如人意，但是在其共享版的測試中效果還是非常好的。他的缺點(diǎn)是分詞數(shù)據(jù)并不是很快，而且開源版和共享版都有些問題。優(yōu)點(diǎn)是分詞準(zhǔn)確。庖丁解牛這個算法只有 Java 版本，其中的分詞算法效率很高，和 JavaCC 中的詞法分析算法有一些類似。這個分詞的缺點(diǎn)是有很多分詞不準(zhǔn)，優(yōu)點(diǎn)是分詞速度很快。盤古分詞這個分詞的思想便是匹配，但是其中對于多字的詞，這個分詞軟件設(shè)置了很高的優(yōu)先級，使得分詞結(jié)果與我們實際想要的結(jié)果更加接近。這個分詞的優(yōu)點(diǎn)是完全開源，結(jié)構(gòu)清晰，方便在里邊修改源代碼，調(diào)整權(quán)重，并且有一套很好的詞典管理工具。缺點(diǎn)就是其內(nèi)置的詞典太過混亂，需要人工修改，并且分詞準(zhǔn)確性不如中科院分詞。 Lucene 標(biāo)準(zhǔn)分詞這個分詞是按照 JavaCC實現(xiàn)的。最后的結(jié)果是英文完美分詞，中文按字拆分?？偟膩碚f對英文應(yīng)用來說是完美的分詞。但是對中文分詞來說，效率上不夠。 Lucene 索引的建立 Lucene 索引相關(guān)類介紹 (1) Document Lucene 中的邏輯文件，每一個或多個物理文件與一個邏輯文件相對應(yīng)。Document邏輯文件便是 Lucene中數(shù)據(jù)源。 (2) Field 代表 Document的屬性。一個 Document由多個 Field組成。 Field有是否索引，是否儲存，是否分詞之分。 (3) Term 詞條，每個 Field中包含一個或多個詞條。 (4) IndexWriter 寫索引相關(guān)類 (5) IndexReader 基于 Lucene 的站內(nèi)新聞搜索引擎的設(shè)計與實現(xiàn) 第 5 頁共 20 頁讀索引相關(guān)類 Lucene 索引結(jié)構(gòu) (1) Segment 通常，一個 Segment 代表 Lucene 的一個完整索引段，一個索引中會包含多個Segment。 (2) .fnm 包含了 Document中所有 Field的名稱。 (3) .fdt 用于儲存具有 Field數(shù)據(jù)。 (4) .fdx 用于儲存 Document在 .fdt中的位置。 (5) .tis 用于儲存分詞后的詞條。 (6) .tii 標(biāo)明了每個 .tis文件中詞條的位置。 (7) Deletable 儲存了要刪除的文檔。 (8) .cfs 復(fù)合索引格式。 Lucene 索引過程 (1) 初始化 IndexWriter。初始化分詞器，設(shè)置好文件路徑。 (2) 生成 Document。把每個 Field添加到 Document，區(qū)分哪些是要保存的，哪些是要分詞的，哪些是要索引的。 (3) 寫索引。把 Document信息寫人緩存，然后生成 Segment、 .fnm、 .fdt、 .fdx、 .tis、 .tii、Deletable文件，最后合并為 Segment、 .cfs、 Deletable三個索引文件。 (4) 索引的合并與優(yōu)化。把多個 .cfs文件合并為一個，并刪除無用信息。 Lucene 索引的合并與優(yōu)化索引的合并通過 mergeFactor、 maxMergeDocs、 minMergeDocs 因素控制，在批量建立索引時 mergeFactor去大值，在少量添加索引時 mergeFactor去小值。索引的優(yōu)化通過 IndexWriter的 Optimize方法實現(xiàn)。把多個 Segment和 Deletable進(jìn)行了合并。 Lucene 索引管理 Lucene的索引管理通過 IndexReader來實現(xiàn)，通過這個類，我們可以通過 ID找到相應(yīng)的文檔，通過 ID 刪除文檔，對刪除的文檔進(jìn)行恢復(fù)等操作。索引的建立還是通過IndexWriter。索引的同步則依靠和來實現(xiàn)。通過 IndexReader和 IndexWriter 這兩個類就可以很好的管理索引。在具體的項目中會介紹如何有效的管理索引。基于 Lucene 的站內(nèi)新聞搜索引擎的設(shè)計與實現(xiàn) 第 6 頁共 20 頁第三章搜索概述搜索是建立一個搜索引擎的第三步，也是根據(jù)需求確定內(nèi)核設(shè)計最煩瑣的一步。我們在建立搜索是不僅要考慮搜索的數(shù)量和范圍，更要定義相關(guān)的過濾器來過濾搜索結(jié)果，最后針對各種需求詳細(xì)設(shè)計自己的搜索邏輯。就目前而言，用戶查看的往往只是搜索結(jié)果的前幾條。過多的搜索會造成不必要的時間浪費(fèi)。如何建立緩存使得用戶快速查找，如何對最終結(jié)果進(jìn)行估計，這些都顯得格外重要。搜索結(jié)果的過濾是非常必要的，搜索結(jié)果包含敏感詞，用戶給出需求想要限制搜索結(jié)果的范圍，這些情況下都需要對搜索的結(jié)果進(jìn)行過濾。搜索邏輯是比較煩瑣的一塊，對于字詞的正則表達(dá)式的分析，各種域的限制，使得這一塊非常容易出錯。需要耐心的去修改，去完善。 Lucene 的搜索 Lucene 搜索相關(guān)類介紹 (1) IndexSearch 定義各種搜索的接口。 (2) Query 用于查詢的 Lucene字詞類。 (3) Hits 儲存搜索結(jié)果的類型。 (4) QueryParse 把字詞生成查找對象。 Lucene 搜索過程 (1) 初始化 IndexSearch 選擇相應(yīng)的 Analysis分詞器。 (2) 初始化 Query 通過 QueryParse把字詞轉(zhuǎn)化成一個 Query。然后把各種產(chǎn)生的 Query合并在一起。 (3) 定義 Filter 初始化 Filter，確定過濾的范圍。 (4) 搜索通過 IndexSearch的 Search方法，返回 Hits，得到結(jié)果。 Lucene 高級搜索 (1) TermQuery 這是最簡單的一種 Query，包括詞條本身的內(nèi)容和詞條所在的 Field的信息。通過使用 TermQuery，你可以進(jìn)行最簡單也是最原始的搜索。 (2) BooleanQuery 這是布爾搜索。通過 BooleanQuery，我們可以實現(xiàn)與、或、非的邏輯操作。基于 Lucene 的站內(nèi)新聞搜索引擎的設(shè)計與實現(xiàn) 第 7 頁共 20 頁只需要在添加的時候指定這個值是必須出現(xiàn)，必須不出現(xiàn)還是應(yīng)該出現(xiàn)。 (3) RangeQuery 這是范圍搜索。通過這個便可以搜索某個域中一定值范圍的數(shù)據(jù)。 (4) PrefixQuery 這是前綴搜索。通過這個便可以根據(jù)某種前綴查找內(nèi)容了。 (5) PhraseQuery 這是短語搜索。通過這個便可以將短語作為一個整體進(jìn)行搜索了。 (6) MultiPhraseQuery 這是多短語搜索。通

點(diǎn)擊復(fù)制文檔內(nèi)容

試題試卷相關(guān)推薦

基于web搜索引擎的設(shè)計與實現(xiàn)畢業(yè)論文-資料下載頁

【總結(jié)】本科畢業(yè)論文（設(shè)計、創(chuàng)作）題目：基于Web搜索引擎的設(shè)計與實現(xiàn)DesignandImplementationofWeb-basedsearchengine學(xué)生姓名：楊衛(wèi)中學(xué)號：0802115所在院系：信息與通信技術(shù)系

2025-08-22 17:54

基于javaweb的搜索引擎的實現(xiàn)報告模板-資料下載頁

【總結(jié)】仁愛學(xué)院長實習(xí)設(shè)計說明書題目:基于Javaweb的搜索引擎的實現(xiàn)系別：專業(yè)班級：學(xué)號：

2025-10-29 22:01

全文搜索引擎的設(shè)計與實現(xiàn)-外文翻譯-資料下載頁

【總結(jié)】江漢大學(xué)畢業(yè)論文（設(shè)計）外文翻譯原文來源TheHadoopDistributedFileSystem:ArchitectureandDesign中文譯文Hadoop分布式文件系統(tǒng)：架構(gòu)和設(shè)計姓名XXXX

2025-01-18 14:15

基于網(wǎng)絡(luò)爬蟲的搜索引擎設(shè)計與實現(xiàn)—畢業(yè)設(shè)計論文-資料下載頁

【總結(jié)】本科畢業(yè)設(shè)計題目：基于網(wǎng)絡(luò)爬蟲的搜索引擎設(shè)計與實現(xiàn)系別：專業(yè)：計算機(jī)科學(xué)與技術(shù)班級：學(xué)號：

2025-11-14 16:36

基于java技術(shù)搜索引擎的研究及實現(xiàn)-資料下載頁

【總結(jié)】基于JAVA技術(shù)的搜索引擎的研究與實現(xiàn)網(wǎng)絡(luò)中的資源非常豐富，但是如何有效的搜索信息卻是一件困難的事情。建立搜索引擎就是解決這個問題的最好方法。本文首先詳細(xì)介紹了基于英特網(wǎng)的搜索引擎的系統(tǒng)結(jié)構(gòu)，然后從網(wǎng)絡(luò)機(jī)器人、索引引擎、Web服務(wù)器三個方面進(jìn)行詳細(xì)的說明。為了更加深刻的理解這種技術(shù)，本人還親自實現(xiàn)了一個自己的搜索引擎——新聞搜索引擎。新聞搜索引擎是從指定的Web頁面中按照超連接進(jìn)行

2025-06-19 17:35

jsp基于產(chǎn)品的搜索引擎-資料下載頁

【總結(jié)】基于的搜索引擎第1頁共34頁目錄目錄.................................................................................................................................1摘要....................

2025-11-05 04:00

基于php的圖片搜索引擎-資料下載頁

【總結(jié)】i簡易圖片采集器以及搜索引擎的實現(xiàn)摘要：因特網(wǎng)上的信息浩瀚萬千，而且毫無秩序，所有的信息像汪洋上的一個個小島，網(wǎng)頁鏈接是這些小島之間縱橫交錯的橋梁，而搜索引擎，則為用戶繪制一幅一目了然的信息地圖，供用戶隨時查閱。搜索引擎指自動的從因特網(wǎng)上搜集信息，經(jīng)過一定整理后，提供給用戶進(jìn)行查詢的系統(tǒng)。它利用稱為網(wǎng)絡(luò)蜘蛛的自動搜索機(jī)器人程序來搜集信息；通

2025-11-03 15:13

搜索引擎課件介紹學(xué)習(xí)搜索引擎的人必看的-資料下載頁

【總結(jié)】WBIACourseProjectIntroductionPengBoNov12,2022What’sCourseProject??WBIA課程學(xué)習(xí)的一個環(huán)節(jié)?通過實現(xiàn)實際系統(tǒng)或者實驗，驗證解決一個問題的想法?Problem/Goal?與課程內(nèi)容相關(guān)(與Web信息處理技術(shù)相關(guān)的問題)?研究性題目、應(yīng)用型題目均可

2025-08-04 16:52

全文搜索引擎的設(shè)計與實現(xiàn)畢業(yè)論文-資料下載頁

【總結(jié)】江漢大學(xué)本科畢業(yè)論文（設(shè)計）I全文搜索引擎的設(shè)計與實現(xiàn)畢業(yè)論文目錄1緒論...................................................................................1課題背景及介紹.....................................

2025-06-28 12:48

全文搜索引擎的設(shè)計與實現(xiàn)-畢業(yè)論文-資料下載頁

【總結(jié)】江漢大學(xué)本科畢業(yè)論文（設(shè)計）I作者聲明本人鄭重聲明：所呈交的學(xué)位論文是本人在導(dǎo)師的指導(dǎo)下獨(dú)立進(jìn)行研究所取得的研究成果。除了文中特別加以標(biāo)注引用的內(nèi)容外，本論文不包含任何其他個人或集體已經(jīng)發(fā)表或撰寫的成果作品。本人完全了解有關(guān)保障、使用學(xué)位論文的規(guī)定，同意學(xué)校保留并向有關(guān)學(xué)位論文管理機(jī)構(gòu)送交論文的復(fù)印件和電子版。同意省級優(yōu)秀學(xué)位

2025-06-28 13:40

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

基于lucene的站內(nèi)新聞搜索引擎的設(shè)計與實現(xiàn)(編輯修改稿)

基于web搜索引擎的設(shè)計與實現(xiàn)畢業(yè)論文-資料下載頁

基于javaweb的搜索引擎的實現(xiàn)報告模板-資料下載頁

全文搜索引擎的設(shè)計與實現(xiàn)-外文翻譯-資料下載頁

基于網(wǎng)絡(luò)爬蟲的搜索引擎設(shè)計與實現(xiàn)—畢業(yè)設(shè)計論文-資料下載頁

基于java技術(shù)搜索引擎的研究及實現(xiàn)-資料下載頁

jsp基于產(chǎn)品的搜索引擎-資料下載頁

基于php的圖片搜索引擎-資料下載頁

搜索引擎課件介紹學(xué)習(xí)搜索引擎的人必看的-資料下載頁

全文搜索引擎的設(shè)計與實現(xiàn)畢業(yè)論文-資料下載頁

全文搜索引擎的設(shè)計與實現(xiàn)-畢業(yè)論文-資料下載頁

全文搜索引擎的設(shè)計與實現(xiàn)-畢業(yè)論文-資料下載頁

基于web搜索引擎的設(shè)計與實現(xiàn)本科畢業(yè)論文-資料下載頁

畢業(yè)設(shè)計-基于ajaxlucene構(gòu)建搜索引擎的設(shè)計和實現(xiàn)-論文-資料下載頁

畢業(yè)論文搜索引擎的研究與實現(xiàn)-資料下載頁

搜索引擎的發(fā)展與分類-資料下載頁

基于lucene的站內(nèi)新聞搜索引擎的設(shè)計與實現(xiàn)-資料下載頁

基于lucene的站內(nèi)新聞搜索引擎的設(shè)計與實現(xiàn)(參考版)

基于lucene的站內(nèi)新聞搜索引擎的設(shè)計與實現(xiàn)-文庫吧資料

基于lucene的站內(nèi)新聞搜索引擎的設(shè)計與實現(xiàn)-展示頁

基于lucene的站內(nèi)新聞搜索引擎的設(shè)計與實現(xiàn)-在線瀏覽