正文內(nèi)容

基于lucene的全文搜索引擎設(shè)計(jì)(編輯修改稿)

2025-07-19 19:21 本頁(yè)面

　

【文章內(nèi)容簡(jiǎn)介】 60。索引過(guò)程如下：(1)創(chuàng)建一個(gè)IndexWriter用來(lái)寫索引文件，它有幾個(gè)參數(shù)，INDEX_DIR就是索引文件所存放的位置，Analyzer便是用來(lái)對(duì)文檔進(jìn)行詞法分析和語(yǔ)言處理的。(2)創(chuàng)建一個(gè)Document代表我們要索引的文檔。(3)將不同的Field加入到文檔中。我們知道，一篇文檔有多種信息，如題目，作者，修改時(shí)間，內(nèi)容等，不同類型的信息用不同的Field來(lái)表示。(4)IndexWriter調(diào)用函數(shù)addDocument將索引寫到索引文件夾中。Lucene建立了功能強(qiáng)大的索引機(jī)制為搜索服務(wù)，這是因?yàn)樵跈z索系統(tǒng)的使用中，用戶體驗(yàn)最深的還是搜索部分。如果這一部分的性能無(wú)法達(dá)到用戶要求，那么軟件就沒(méi)有太大的意義。搜索過(guò)程如下：(1)IndexReader將磁盤上的索引信息讀入到內(nèi)存，INDEX_DIR就是索引文件存放的位置。(2)創(chuàng)建IndexSearcher準(zhǔn)備進(jìn)行搜索。(3)創(chuàng)建Analyer用來(lái)對(duì)查詢語(yǔ)句進(jìn)行詞法分析和語(yǔ)言處理。(4)創(chuàng)建QueryParser用來(lái)對(duì)查詢語(yǔ)句進(jìn)行語(yǔ)法分析。(5)QueryParser調(diào)用parser進(jìn)行語(yǔ)法分析，形成查詢語(yǔ)法樹(shù)，放到Query中。(6)IndexSearcher調(diào)用search對(duì)查詢語(yǔ)法樹(shù)Query進(jìn)行搜索，得到查詢結(jié)果存放在TopScoreDocCollector。由于Lucene自帶的分詞器對(duì)英文的分詞效果較好，但對(duì)中文的分詞效果并不如意。為了使檢索系統(tǒng)能更好的處理中文信息，本文采用了IK Analyzer作為分詞器。IKAnalyzer是一個(gè)開(kāi)源的，基于java語(yǔ)言開(kāi)發(fā)的輕量級(jí)的中文分詞工具包。第3章搜索引擎原理搜索引擎體系結(jié)構(gòu)根據(jù)百度百科的定義，體系結(jié)構(gòu)包括一組部件及部件之間的聯(lián)系。對(duì)于搜索引擎而言，其體系結(jié)構(gòu)是指為搜索引擎運(yùn)行而設(shè)置的軟硬件系統(tǒng)，以及軟硬件系統(tǒng)之間相互聯(lián)系的總和。為了容納萬(wàn)維網(wǎng)以爆炸式增長(zhǎng)的數(shù)據(jù)，各大搜索引擎都是用規(guī)模浩繁的計(jì)算機(jī)集群系統(tǒng)對(duì)這些大量的數(shù)據(jù)加以存儲(chǔ)和處理。如圖31所示的Google在美國(guó)俄勒崗達(dá)拉斯附近的數(shù)據(jù)中心，有圖可以看出，整個(gè)數(shù)據(jù)中心由3個(gè)巨大的集群機(jī)房組成，其中每個(gè)機(jī)房占地面積都超過(guò)一個(gè)標(biāo)準(zhǔn)足球場(chǎng)的大小。圖31 美國(guó)俄勒崗達(dá)拉斯附近的數(shù)據(jù)中心搜索引擎按其工作方式主要可分為三種，分別是全文搜索引擎（Full Text Search Engine）、目錄索引類搜索引擎（Search Index/Directory）和元搜索引擎（Meta Search Engine）。全文搜索引擎最具代表性的如Google，國(guó)內(nèi)的有百度，搜搜等。全文搜索引擎是真正的搜索引擎，簡(jiǎn)單的操作方式，廣泛的搜索范圍，始一出現(xiàn)就得到了廣大網(wǎng)名的認(rèn)可，并在很大程度上取代了目錄式索引類網(wǎng)站。目錄索引算是互聯(lián)網(wǎng)上出現(xiàn)的最早的索引，大名鼎鼎的Yahoo雅虎便是其中之一，國(guó)內(nèi)的搜狐、新浪、網(wǎng)易搜索也都屬于這一類。目錄索引雖然有搜索功能，但在嚴(yán)格意義上算不上是真正的搜索引擎。網(wǎng)絡(luò)信息日新月異的變更，人們總是期望挑出最新的信息，人工的組織連接分類既不能在覆蓋度上滿足用戶搜索需求，也使得互聯(lián)網(wǎng)的信息與現(xiàn)實(shí)信息之間存在一定時(shí)間差?！　≡阉饕嬖诮邮苡脩舨樵冋?qǐng)求時(shí)，同時(shí)在其他多個(gè)引擎上進(jìn)行搜索，并將結(jié)果返回給用戶。中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索結(jié)果排列方面，有的直接按來(lái)源引擎排列搜索結(jié)果，有的則按自定的規(guī)則將結(jié)果重新排列組合。搜索引擎主要模塊功能介紹圖32 搜索引擎基本組成如圖32所示，搜索器(Crawler)、索引器(Indexer)、檢索器 (Searcher)和用戶接口(Ul)等四個(gè)部分組成了一個(gè)完整的的搜索引擎程序，頁(yè)面存儲(chǔ)器 (Repository)和存儲(chǔ)桶 (Barrel)兩部分組成存儲(chǔ)設(shè)備。搜索器 (Crawler) 搜索器的功能是在互聯(lián)網(wǎng)中漫游，及時(shí)、高效地收集數(shù)量盡可能多的有用的Web網(wǎng)頁(yè)，以及建立他們之間的超鏈接關(guān)系。它在整個(gè)搜索引擎系統(tǒng)中承擔(dān)著與互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行交互的任務(wù)。搜索器的主要功能就是漫游整個(gè)互聯(lián)網(wǎng)，以一個(gè)超鏈接為起始點(diǎn)，盡可能廣和深的遍歷網(wǎng)頁(yè)上的其它連接，存儲(chǔ)找到的新的網(wǎng)頁(yè)，和跟新已經(jīng)存在的文檔內(nèi)容。目前有搜集信息的策略: 深度優(yōu)先算法是搜索引擎發(fā)展早期廣泛采取的一種信息收集策略，這種算法的優(yōu)點(diǎn)就是能夠盡可能多的遍歷到互聯(lián)網(wǎng)上的所有信息。廣度優(yōu)先策略與深度優(yōu)先策略類似，只是前者是以網(wǎng)頁(yè)中的一個(gè)連接為起點(diǎn)，盡量多的網(wǎng)下漫游，廣度優(yōu)先則是遍歷網(wǎng)頁(yè)中的所有超鏈接再網(wǎng)下漫游。然而，互聯(lián)網(wǎng)上很多的網(wǎng)頁(yè)在很多時(shí)候都不是被大量用戶所訪問(wèn)的，一味最求可訪問(wèn)量并不能帶來(lái)很好的用戶體驗(yàn)。目前的商用搜索引擎中，還包括反向鏈接數(shù)策略、局部PageRank策略、網(wǎng)頁(yè)的重訪策略等。搜索器的實(shí)現(xiàn)常常用分布式、并行計(jì)算技術(shù)，以提高信息發(fā)現(xiàn)和更新的速度。商業(yè)搜索引擎的信息發(fā)現(xiàn)可以達(dá)到每天幾百萬(wàn)網(wǎng)頁(yè)。然而我們知道，不同類型的網(wǎng)絡(luò)數(shù)據(jù)，其更新頻率有很大的差距。更新頻率很高的，跟新周期以分鐘甚至秒來(lái)計(jì)算，如：新聞網(wǎng)站，天氣情況股票指數(shù)等。跟新頻率相對(duì)比較高的，幾個(gè)小時(shí)到幾天不等周期的，例如大家的博客，空間，以及學(xué)校公共主頁(yè)等。面對(duì)差異如此大的更新頻率，對(duì)每一個(gè)網(wǎng)頁(yè)采取同樣的更新策略無(wú)疑會(huì)浪費(fèi)大量的資源，甚至不能保持搜索引擎數(shù)據(jù)與萬(wàn)維網(wǎng)數(shù)據(jù)的同步。為此，搜索引擎往往采用不同的抓取更新頻率的方法，保證數(shù)據(jù)集合總體的新鮮度維持在一個(gè)較高水平。索引器 (Indexer) 搜索器搜索到的海量數(shù)據(jù)，搜索引擎如何管理這些海量的數(shù)據(jù)？索引器的主要功能就是對(duì)海量的網(wǎng)頁(yè)內(nèi)容，從中抽取出索引項(xiàng)，用于表示文檔以及生成文檔庫(kù)的索引表，實(shí)現(xiàn)快速查找包含用戶關(guān)鍵字的網(wǎng)頁(yè)。搜索引擎的索引實(shí)際上就是一種單詞文檔數(shù)據(jù)結(jié)構(gòu)。倒排索引是搜索引擎最常用的單詞到文檔的一種實(shí)現(xiàn)方式。在搜索引擎內(nèi)部，會(huì)為每個(gè)文檔和單詞（關(guān)鍵字）賦予一個(gè)唯一的ID，在倒排表中，實(shí)際存儲(chǔ)的就是單詞編號(hào)和文檔編號(hào)。索引表也要記錄索引項(xiàng)在文檔中出現(xiàn)的位置，以便檢索器計(jì)算索引項(xiàng)之間的相鄰或接近關(guān)系 (proximity)。如表31。表31 倒排索引結(jié)構(gòu)圖Term1Doc11 Pos1Doc11 Pos2…Doc11 PosqDoc12 Pos1…Term2Doc2 Pos1Doc21 Pos2…Doc21 PosqDoc22 Pos1……………..……TermDocN1 Pos1DocN1 PosN

點(diǎn)擊復(fù)制文檔內(nèi)容

高考資料相關(guān)推薦

4搜索引擎營(yíng)銷實(shí)訓(xùn)搜索引擎營(yíng)銷概論-資料下載頁(yè)

【總結(jié)】互聯(lián)網(wǎng)營(yíng)銷實(shí)訓(xùn)課程搜索引擎營(yíng)銷概論課程大綱講次課程內(nèi)容教學(xué)方式第一講互聯(lián)網(wǎng)營(yíng)銷概論理論教學(xué)第二講第三講搜索引擎營(yíng)銷概論理論教學(xué)第四講第五講搜索引擎營(yíng)銷實(shí)戰(zhàn)——基礎(chǔ)訓(xùn)練實(shí)操形式第六講搜索引擎營(yíng)銷方案設(shè)計(jì)理論教學(xué)及案例分析第七講第八講搜索引擎營(yíng)銷實(shí)戰(zhàn)——進(jìn)階

2025-12-23 01:21

全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)-外文翻譯-資料下載頁(yè)

【總結(jié)】江漢大學(xué)畢業(yè)論文（設(shè)計(jì)）外文翻譯原文來(lái)源TheHadoopDistributedFileSystem:ArchitectureandDesign中文譯文Hadoop分布式文件系統(tǒng)：架構(gòu)和設(shè)計(jì)姓名XXXX

2026-01-09 14:15

搜索引擎的使用-資料下載頁(yè)

【總結(jié)】第4章搜索引擎的使用目標(biāo)與任務(wù)?了解搜索引擎概念與分類。?熟悉搜索引擎語(yǔ)法規(guī)則，能快速準(zhǔn)確查找所需內(nèi)容。?了解常用中文搜索引擎特性。搜索引擎概念與分類目標(biāo)與任務(wù)了解搜索引擎概念與分類。搜索引擎概念搜索引擎分類搜索引擎

2025-09-30 15:40

搜索引擎的使用-資料下載頁(yè)

【總結(jié)】師絨俠1、直接訪問(wèn)網(wǎng)頁(yè)2、使用搜索引擎3、查詢?cè)诰€數(shù)據(jù)庫(kù)（1）什么是搜索引擎？（2）搜索引擎的工作原理是什么？（3）搜索引擎的分為幾類，各有什么特點(diǎn)？搜索器索引器檢索器搜索引擎的工作原理，(l)首先搜索引擎派出網(wǎng)頁(yè)搜索工具如spider(蜘蛛)在Inter上搜索信息，并把信息帶回搜

2025-07-25 08:23

基于java的搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)-資料下載頁(yè)

【總結(jié)】摘要網(wǎng)絡(luò)中的資源非常豐富，但是如何有效的搜索信息卻是一件困難的事情。建立搜索引擎就是解決這個(gè)問(wèn)題的最好方法。本文首先詳細(xì)介紹了基于英特網(wǎng)的搜索引擎的系統(tǒng)結(jié)構(gòu)，然后從網(wǎng)絡(luò)機(jī)器人、索引引擎、Web服務(wù)器三個(gè)方面進(jìn)行詳細(xì)的說(shuō)明。為了更加深刻的理解這種技術(shù)，本人還親自實(shí)現(xiàn)了一個(gè)自己的搜索引擎——新聞搜索引擎。新聞搜索引擎是從指定的Web頁(yè)面中按照超連接進(jìn)行解析、搜索

2025-06-23 07:09

dxaaaa搜索引擎-資料下載頁(yè)

【總結(jié)】GOOGLE簡(jiǎn)介Google（）是一個(gè)搜索引擎，由兩個(gè)斯坦福大學(xué)博士生于1998年9月發(fā)明，GoogleInc.于1999年創(chuàng)立。2022年7月份，Google替代Inktomi成為Yahoo公司的搜索引擎，同年9月份，Google成為中國(guó)網(wǎng)易公司的搜索引擎。GOOGLE支持多達(dá)132種語(yǔ)言，包括簡(jiǎn)體中文和繁體中文；GOOGLE速

2025-08-04 09:32

搜索引擎營(yíng)銷-資料下載頁(yè)

【總結(jié)】請(qǐng)每組學(xué)生展示自己的思維導(dǎo)圖，列出與主題相關(guān)的關(guān)鍵詞案例以組為單位，為“汽車音響“網(wǎng)站選擇推廣關(guān)鍵詞，并填寫報(bào)告任務(wù)關(guān)鍵詞選擇提示：1．自己如果是用戶，會(huì)用什么詞搜索呢？2．問(wèn)問(wèn)其他人會(huì)用什么詞來(lái)搜索？3．競(jìng)爭(zhēng)者的網(wǎng)站用了哪些關(guān)鍵詞？（搜索引擎前二十名網(wǎng)站）

2025-07-25 08:22

全文搜索引擎技術(shù)的研究和實(shí)現(xiàn)-資料下載頁(yè)

【總結(jié)】目錄摘要：······························

2025-10-30 01:37

搜索引擎介紹-資料下載頁(yè)

【總結(jié)】搜索引擎崔雷實(shí)例一欲在國(guó)內(nèi)購(gòu)買酶聯(lián)免疫試劑，查詢?cè)噭┑念愋?、價(jià)格和商家檢索提示?本例涉及通用信息的查找，宜選擇Google。?核心概念是酶聯(lián)免疫，修飾概念是試劑、價(jià)格等，要考慮到各種概念的各種表達(dá)方式。?可以使用的檢索詞–酶聯(lián)免疫、酶免、ELISA；–產(chǎn)品、試劑、試劑盒；

2025-07-25 08:21

jstaaa搜索引擎-資料下載頁(yè)

【總結(jié)】·中文搜索引擎·知識(shí)搜索引擎·實(shí)時(shí)搜索引擎new·新聞搜索引擎·視頻搜索引擎·地圖搜索引擎·音樂(lè)搜索引擎·手機(jī)搜索引擎·購(gòu)物搜索引擎·圖片搜索引擎·生活搜索引擎·旅游搜索引擎

2025-08-04 10:15

搜索引擎技術(shù)-資料下載頁(yè)

【總結(jié)】搜索引擎技術(shù)閆宏飛，北京大學(xué)計(jì)算機(jī)系網(wǎng)絡(luò)實(shí)驗(yàn)室2020年12月24日@CERNET2020內(nèi)容提要?搜索引擎工作原理?信息檢索相關(guān)研究和機(jī)構(gòu)搜索引擎—WebSearchEngines?定義：允許用戶遞交查詢，檢索出與查詢相關(guān)的網(wǎng)頁(yè)結(jié)果列表，并且排序輸出。?創(chuàng)建索引的方法–手工索引

2025-08-23 10:45

ehkaaa搜索引擎-資料下載頁(yè)

【總結(jié)】搜索引擎的使用進(jìn)入?RSS?XML?博客Blog?播客?維客Wiki?……?服務(wù)用戶?開(kāi)放獲取?參與?集體智能?草根?豐富體驗(yàn)?……博客，是繼Email、BBS、ICQ(IM)之后出現(xiàn)的第四種網(wǎng)絡(luò)交流方式，是互聯(lián)網(wǎng)深度交流

2025-08-04 09:33

tbhaaa搜索引擎-資料下載頁(yè)

【總結(jié)】搜索引擎文獻(xiàn)檢索教研室?隨著信息社會(huì)的到來(lái),因特網(wǎng)作為信息交流的中心與樞紐作用也愈顯重要。因特網(wǎng)可以稱之為一個(gè)巨大的信息庫(kù),它擁有眾多但卻雜亂無(wú)章的信息,并且這些信息每時(shí)每刻都在以幾何級(jí)數(shù)遞增。?如何從因特網(wǎng)上獲取自己所需信息就成了一個(gè)大問(wèn)題。搜索引擎正是在這

2025-08-04 09:38

全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)-畢業(yè)論文-資料下載頁(yè)

【總結(jié)】江漢大學(xué)本科畢業(yè)論文（設(shè)計(jì)）I作者聲明本人鄭重聲明：所呈交的學(xué)位論文是本人在導(dǎo)師的指導(dǎo)下獨(dú)立進(jìn)行研究所取得的研究成果。除了文中特別加以標(biāo)注引用的內(nèi)容外，本論文不包含任何其他個(gè)人或集體已經(jīng)發(fā)表或撰寫的成果作品。本人完全了解有關(guān)保障、使用學(xué)位論文的規(guī)定，同意學(xué)校保留并向有關(guān)學(xué)位論文管理機(jī)構(gòu)送交論文的復(fù)印件和電子版。同意省級(jí)優(yōu)秀學(xué)位

2025-06-28 13:40

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

基于lucene的全文搜索引擎設(shè)計(jì)(編輯修改稿)

4搜索引擎營(yíng)銷實(shí)訓(xùn)搜索引擎營(yíng)銷概論-資料下載頁(yè)

全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)-外文翻譯-資料下載頁(yè)

搜索引擎的使用-資料下載頁(yè)

搜索引擎的使用-資料下載頁(yè)

基于java的搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)-資料下載頁(yè)

dxaaaa搜索引擎-資料下載頁(yè)

搜索引擎營(yíng)銷-資料下載頁(yè)

全文搜索引擎技術(shù)的研究和實(shí)現(xiàn)-資料下載頁(yè)

搜索引擎介紹-資料下載頁(yè)

jstaaa搜索引擎-資料下載頁(yè)

搜索引擎技術(shù)-資料下載頁(yè)

ehkaaa搜索引擎-資料下載頁(yè)

tbhaaa搜索引擎-資料下載頁(yè)

全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)-畢業(yè)論文-資料下載頁(yè)

全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)論文-資料下載頁(yè)

基于lucene的全文搜索引擎設(shè)計(jì)(留存版)

基于lucene的全文搜索引擎設(shè)計(jì)-文庫(kù)吧

基于lucene的全文搜索引擎設(shè)計(jì)-wenkub

基于lucene的全文搜索引擎設(shè)計(jì)(已修改)