freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

apache-lucene-3x-推薦教程(已修改)

2025-08-16 10:09 本頁面
 

【正文】 Apache Lucene 介紹:Apache Lucene 是一個(gè)基于 Java 的全文檢索工具包,你可以利用它來為你的應(yīng)用程序加入索引和檢索功能。Lucene 目前是著名的 Apache Jakarta 家族中的一個(gè)開源項(xiàng)目,也是目前最為流行的基于 Java 開源全文檢索工具包。第一部分:概述1. 我們在很多地方都可以看到搜索功能1, Windows系統(tǒng)中的有搜索功能:打開“我的電腦”,按“F3”就可以使用查找的功能,查找指定的文件或文件夾。搜索的范圍是整個(gè)電腦中的文件資源。2, Eclipse中的幫助子系統(tǒng):點(diǎn)擊Help224。Help Contents,可以查找出相關(guān)的幫助信息。搜索的范圍是Eclipse的所有幫助文件。3, 在BBS、BLOG等系統(tǒng)中提供的搜索文章的功能,如這里的貼吧的例子。搜索的范圍是系統(tǒng)內(nèi)的文章數(shù)據(jù)(都在數(shù)據(jù)庫中)。4, 搜索引擎,如Baidu或Google等,可以查詢到互聯(lián)網(wǎng)中的網(wǎng)頁、PDF、DOC、PPT、圖片、視頻等。下圖是使用百度搜索的效果:以上的查詢功能都類似。都是查詢的文本內(nèi)容,都是相同的查詢方式,即找出含有指定字符串的資源,不同的只是查詢范圍(分別為硬盤、所有幫助文件、數(shù)據(jù)庫、互聯(lián)網(wǎng))。2. 什么是全文檢索對于搜索,按被搜索的資源類型,分為兩種:可以轉(zhuǎn)為文本的、多媒體類型。我們上一節(jié)提到的搜索功能都是搜索的可以轉(zhuǎn)為文本的資源(第一種)。注意,百度或谷歌提供的音樂或視頻搜索不是多媒體搜索,他們是按文件名搜索。在智能手機(jī)上有一款音樂搜索的軟件,可以讓他聽10秒鐘的音樂,然后他就能上網(wǎng)找出這段音樂的名稱、演奏者等信息。這是多媒體搜索。按搜索的方式,上一節(jié)提到的搜索功能都是不處理語義,只是找出包含指定詞的所有資源(只對詞進(jìn)行匹配)。下圖就是顯示“中國的首都是哪里”這個(gè)搜索要求對應(yīng)的結(jié)果,可以看到,是沒有“北京”這個(gè)結(jié)果的,結(jié)果頁面都是出現(xiàn)了這些詞的網(wǎng)頁:全文檢索(FullText Retrieval)是指以文本作為檢索對象,找出含有指定詞匯的文本。全面、準(zhǔn)確和快速是衡量全文檢索系統(tǒng)的關(guān)鍵指標(biāo)。關(guān)于全文檢索,我們要知道:1,只處理文本。2,不處理語義。3,搜索時(shí)英文不區(qū)分大小寫。4,結(jié)果列表有相關(guān)度排序。在信息檢索工具中,全文檢索是最具通用性和實(shí)用性的。3. 學(xué)完后能做什么我們使用Lucene,主要是做站內(nèi)搜索,即對一個(gè)系統(tǒng)內(nèi)的資源進(jìn)行搜索。如BBS、BLOG中的文章搜索,網(wǎng)上商店中的商品搜索等。使用Lucene的項(xiàng)目有Eclipse、Jira等。一般不做互聯(lián)網(wǎng)中資源的搜索,因?yàn)椴灰撰@取與管理海量資源(專業(yè)搜索方向的公司除外)。所以,學(xué)完Lucene后我們就可以為自已的系統(tǒng)增加全文檢索的功能。跟這個(gè)學(xué)習(xí)內(nèi)容相關(guān)的練習(xí)為:為“傳智手播客貼吧”增加搜索其中的文章的功能。4. 全文檢索不同于數(shù)據(jù)庫搜索全文檢索不同于數(shù)據(jù)庫的SQL查詢。(他們所解決的問題不一樣,解決的方案也不一樣,所以不應(yīng)進(jìn)行對比)。在數(shù)據(jù)庫中的搜索就是使用SQL,如:SELECT * FROM t WHERE content like ‘%ant%’。這樣會(huì)有如下問題:1. 匹配效果:如搜索ant會(huì)搜索出planting。這樣就會(huì)搜出很多無關(guān)的信息。2. 相關(guān)度排序:查出的結(jié)果沒有相關(guān)度排序,不知道我想要的結(jié)果在哪一頁。我們在使用百度搜索時(shí),一般不需要翻頁,為什么?因?yàn)榘俣茸隽讼嚓P(guān)度排序:為每一條結(jié)果打一個(gè)分?jǐn)?shù),這條結(jié)果越符合搜索條件,得分就越高,叫做相關(guān)度得分,結(jié)果列表會(huì)按照這個(gè)分?jǐn)?shù)由高到低排列,所以第1頁的結(jié)果就是我們最想要的結(jié)果。3. 全文檢索的速度大大快于SQL的like搜索的速度。這是因?yàn)椴樵兎绞讲煌斐傻?,以查字典舉例:數(shù)據(jù)庫的like就是一頁一頁的翻,一行一行的找,而全文檢索是先查目錄,得到結(jié)果所在的頁碼,再直接翻到這一頁。所以數(shù)據(jù)庫搜索不能替代全文檢索?!?第二部分:入門1. 基礎(chǔ)概念1(HelloWorld前)全文檢索就如同ORM,是一個(gè)概念。ORM的框架有很多種:Hibernate、TopLink、iBatis等,我們之前學(xué)習(xí)的是Hibernate。同樣的,全文檢索領(lǐng)域中也有多種框架,Lucene就是其中的一個(gè)用開源的全文檢索框架。Lucene的主頁為:。以下兩小節(jié)是Lucene中重要的概念。. 全文檢索的工作流程如果信息檢索系統(tǒng)在用戶發(fā)出了檢索請求后再去互聯(lián)網(wǎng)上找答案,根本無法在有限的時(shí)間內(nèi)返回結(jié)果。所以要先把要檢索的資源集合放到本地,并使用某種特定的結(jié)構(gòu)存儲(chǔ),稱為索引,這個(gè)索引的集合稱為索引庫。由于索引庫的結(jié)構(gòu)是按照專門為快速查詢設(shè)計(jì)的,所以查詢的速度非???。我們每次搜索都是在本地的索引庫中進(jìn)行,如下圖:從圖片上可以看出,我們不僅要搜索,還要保證數(shù)據(jù)集合與索引庫的一致性。所以對于全文檢索功能的開發(fā),要做的有兩個(gè)方面:索引庫管理(維護(hù)索引庫中的數(shù)據(jù))、在索引庫中進(jìn)行搜索。而Lucene就是操作索引庫的工具。. 使用Lucene的API操作索引庫索引庫是一個(gè)目錄,里面是一些二進(jìn)制文件,就如同數(shù)據(jù)庫,所有的數(shù)據(jù)也是以文件的形式存在文件系統(tǒng)中的。我們不能直接操作這些二進(jìn)制文件,而是使用Lucene提供的API完成相應(yīng)的操作,就像操作數(shù)據(jù)庫應(yīng)使用SQL語句一樣。對索引庫的操作可以分為兩種:管理與查詢。管理索引庫使用IndexWriter,從索引庫中查詢使用IndexSearcher。Lucene的數(shù)據(jù)結(jié)構(gòu)為Document與Field。Document代表一條數(shù)據(jù),F(xiàn)ield代表數(shù)據(jù)中的一個(gè)屬性。一個(gè)Document中有多個(gè)Field,F(xiàn)ield的值為String型,因?yàn)長uc
點(diǎn)擊復(fù)制文檔內(nèi)容
高考資料相關(guān)推薦
文庫吧 www.dybbs8.com
公安備案圖鄂ICP備17016276號-1