【正文】
.... 3 全文檢索系統(tǒng)與數(shù)據(jù)庫比較 ....................................................................................... 4 LUCENE 簡介 .............................................................................................................. 8 LUCENE 的應(yīng)用、特點及優(yōu)勢 .................................................................................. 9 互聯(lián)網(wǎng)搜索引擎的研究 ............................................................................................. 10 中文分詞的簡單介紹 ................................................................................................. 11 系統(tǒng)結(jié)構(gòu) .............................................................................................................. 12 LUCENE 系統(tǒng)結(jié)構(gòu)組織 ............................................................................................ 12 數(shù)據(jù)流分析 ................................................................................................................. 12 LUCENE 索引文件格式分析 .................................................................................... 14 LUCENE 源碼實現(xiàn)分析的說明 ...................................................................... 14 LUCENE 索引文件格式 .................................................................................. 14 LUCENE 的倒排序原理 ............................................................................................ 17 LUCENE 搜索結(jié)果排序 ............................................................................................ 20 ................................................................................................................... 21 系統(tǒng)需求 ..................................................................................................................... 21 開發(fā) 環(huán)境與工具 ......................................................................................................... 22 系統(tǒng)組織結(jié)構(gòu) ............................................................................................................. 24 流程實現(xiàn) ..................................................................................................................... 25 畢業(yè)論文 第 IV 頁 根據(jù)網(wǎng)站中不同模塊建立生成動態(tài)索引 ....................................................... 25 搜索界面 ........................................................................................................... 26 搜索結(jié)果界面 .................................................................................................. 27 ............................................................................................................................... 28 LUCENE 增量索引 .................................................................................................... 28 優(yōu)化索引 ..................................................................................................................... 28 LUCENE 文件格式的通用性 .................................................................................... 29 對于私密文件的處理 ................................................................................................. 31 總 結(jié) ...................................................................................................................................... 32 致 謝 ...................................................................................................................................... 33 參考文獻(xiàn) .................................................................................................................................. 34 附錄 A 主要源程序 ................................................................................................................. 35 畢業(yè)論文 第 1 頁 課題 背景 隨著現(xiàn)在網(wǎng)絡(luò)信息化的迅速普及與發(fā)展,獲取網(wǎng)絡(luò)上面的有用信息成為人們 使用的網(wǎng)絡(luò)的主 需要 之一,所以 搜索技術(shù)成為達(dá)到獲取有用信息的主要技術(shù), 由此互聯(lián)網(wǎng)搜索引擎 應(yīng)運而生 ,像 Google, Baidu 等公司在基于互聯(lián)網(wǎng)絡(luò)的搜索中 在給人們提供方便的同時公司本身也 取得了巨大的成功 。 并且 通過 LUCENE 來設(shè)計和實現(xiàn)一個全文檢索站內(nèi)搜索引擎系統(tǒng), 最后通過增量索引和優(yōu)化索引兩個方面 來說明如何提高 LUCENE 的高效性。 這個 系統(tǒng) 的實際需求來源于 本人在企業(yè)里實習(xí)時開發(fā)的 2020 世 界特殊奧林匹克運動會 官方網(wǎng)站 ,這個官方網(wǎng)站 也使用了站內(nèi)搜索引擎的功能,這個搜索引擎是我用LUCENE 在 .NET 平臺上實現(xiàn)的,現(xiàn)在網(wǎng)站運行穩(wěn)定,站內(nèi)搜索使整個網(wǎng)站的功能更加強大,為用戶提供了更為便利的搜索功能。 apache 軟件基金會的網(wǎng)站使用了 LUCENE 作為全文檢索的引擎, IBM 的開源軟件 eclipse 的 版本中也采用了 LUCENE 作為幫助子系統(tǒng)的全文索引引擎,相應(yīng)的IBM 的商業(yè)軟件 Web Sphere 中也采用了 LUCENE。 畢業(yè)論文 第 I 頁 基于 LUCENE 的站內(nèi)搜索引擎的設(shè)計與實現(xiàn) 摘 要 LUCENE[1]是 apache 軟件基金會 jakarta 項目組的一個子項目,是一個開放源代碼的全文檢索引擎工具包,即它不是一個完整的全文檢索引擎,而是一個全文檢索引擎的架構(gòu),提供了完整的查詢引擎和索引引擎, LUCENE 的目的是為軟件開發(fā)人員提供一個簡單易用的工具包,以方便的在目標(biāo)系統(tǒng)中實現(xiàn)全文檢索的功能,或者是以此為基礎(chǔ)建立起完整的全文檢索引擎。 作為一個開放源代碼項目, LUCENE 從問世之后,引發(fā)了開放源代碼社群的巨大反響,程序員們不僅使用它構(gòu)建 具體的全文檢索應(yīng)用,而且將之集成到各種系統(tǒng)軟件中去,以及構(gòu)建 Web 應(yīng)用,甚至某些商業(yè)軟件也采用了 LUCENE 作為其內(nèi)部全文檢索子系統(tǒng)的核心。 LUCENE 以其開放源代碼的特性、優(yōu)異的索引結(jié)構(gòu)、良好的系統(tǒng)架構(gòu)獲得了越來越多的應(yīng)用。 本文對搜索引擎的原理、組成、數(shù)據(jù)結(jié)構(gòu)、工作流程等方面做了深入而細(xì)致地研究與分析。 關(guān)鍵詞: 全文檢索,搜索引擎, LUCENE , jakarta 畢業(yè)論文 第 II 頁 Design and Realization of Search Engine in Site Base On LUCENE Abstract LUCENE is a subproject of jakarta project team in apache software foundation, and is a tool kit of fulltext search engine of open source, that is not a plete fulltext search engine, but is a framework of fulltext search engine to provide integral inquire engine and index engine. LUCENE is designed to provide a simple, easytouse tool kit for software developers, and it’ s convenient to realize the fulltext retrieval function in the target system , or as a basis to establish the integral fulltext search engine. As an open source project, LUCENE brings tremendous response in the open source munity after its appearance. The programmers not only use it to build concrete fulltext retrieval applications, but also make it integrate into various of systems software, and build web applications, even some mercial software are using LUCENE as its core of fulltext retrieval subsystems. Apache Software Foundation website uses LUCENE as a fulltext search engine, LUCENE is used to help fulltext index engine of subsystem in the version of IBM39。 但是目