正文內(nèi)容

18lucene學(xué)習(xí)總結(jié)之七：lucene搜索過(guò)程解析(3)(編輯修改稿)

2024-12-09 14:12 本頁(yè)面

　

【文章內(nèi)容簡(jiǎn)介】 anQueryRewrite采取方式二，其 rewrite函數(shù)代碼如下： public Query rewrite(IndexReader reader, MultiTermQuery query) throws IOException { //得到 MultiTermQuery的 Term枚舉器 FilteredTermEnum enumerator = (reader)。 BooleanQuery result = new BooleanQuery(true)。 int count = 0。 try { //一個(gè)循環(huán)，取出對(duì)應(yīng) MultiTermQuery的所有的 Term，加入 BooleanQuery do { Term t = ()。 if (t != null) { TermQuery tq = new TermQuery(t)。 (() * ())。 (tq, )。 count++。 } } while (())。 } finally { ()。 } (count)。 return result。 } ? 以上兩種方式各有優(yōu)劣： o 方式一使得 MultiTermQuery對(duì)應(yīng)的所有的 Term看成一個(gè) Term，組成一個(gè)docid set，作為統(tǒng)一的倒排表參與倒排表的合并，這樣無(wú)論這樣的 Term在索引中有多少，都只會(huì)有一個(gè)倒排表參與合并，不會(huì)產(chǎn)生 TooManyClauses異常，也使得性能得到提高。但是多個(gè) Term之間的 tf, idf等差別將被忽略，所以采用方式二的 RewriteMethod為 ConstantScoreXXX，也即除了用戶指定的 Query boost，其他的打分計(jì)算全部忽略。 o 方式二使得整個(gè) Query對(duì)象樹(shù)被展開(kāi)，葉子節(jié)點(diǎn)都為 TermQuery，MultiTermQuery中的多個(gè) Term可根據(jù)在索引中的 tf, idf等參與打分計(jì)算，然而我們事先并不知道索引中和 MultiTermQuery相對(duì)應(yīng)的 Term到底有多少個(gè)，因而會(huì)出現(xiàn) TooManyClauses異常，也即一個(gè) BooleanQuery中的子查詢太多。這樣會(huì)造成要合并的倒排表非常多，從而影響性能。 o Lucene認(rèn)為對(duì)于 MultiTermQuery這種查詢，打分計(jì)算忽略是很合理的，因?yàn)楫?dāng)用戶輸入 appl*的時(shí)候，他并不知道索引中有什么與此相關(guān)，也并不偏愛(ài)其中之一，因而計(jì)算這些詞之間的差別對(duì)用戶來(lái)講是沒(méi)有意義的。從而Lucene對(duì)方式二也提供了 ConstantScoreXXX，來(lái)提高搜索過(guò)程的性能，從后面的例子來(lái)看，會(huì)影響文檔打分，在實(shí)際的系統(tǒng)應(yīng)用中，還是存在問(wèn)題的。 o 為了兼顧上述兩種方式， Lucene提供了 ConstantScoreAutoRewrite，來(lái)根據(jù)不同的情況，選擇不同的方式。： public Query rewrite(IndexReader reader, MultiTermQuery query) throws IOException { final CollectionTerm pendingTerms = new ArrayListTerm()。 //計(jì)算文檔數(shù)目限制， docCountPercent默認(rèn)為，也即索引文檔總數(shù)的 % final int docCountCutoff = (int) ((docCountPercent / 100.) * ())。 //計(jì)算 Term數(shù)目限制，默認(rèn)為 350 final int termCountLimit = ((), termCountCutoff)。 int docVisitCount = 0。 FilteredTermEnum enumerator = (reader)。 try { //一個(gè)循環(huán)，取出與 MultiTermQuery相關(guān)的所有的 Term。 while(true) { Term t = ()。 if (t != null) { (t)。 docVisitCount += (t)。 } //如果 Term數(shù)目超限，或者文檔數(shù)目超限，則可能非常影響倒排表合并的性能，因而選用方式一，也即 ConstantScoreFilterRewrite的方式 if (() = termCountLimit || docVisitCount = docCountCutoff) { Query result = new ConstantScoreQuery(new MultiTermQueryWrapperFilterMultiTermQuery(query))。 (())。 return result。 } else if (!()) { //如果 Term數(shù)目不太多，而且文檔數(shù) 目也不太多，不會(huì)影響倒排表合并的性能，因而選用方式二，也即 ConstantScoreBooleanQueryRewrite的方式。 BooleanQuery bq = new BooleanQuery(true)。 for (final Term term: pendingTerms) { TermQuery tq = new TermQuery(term)。 (tq, )。 } Query result = new ConstantScoreQuery(new QueryWrapperFilter(bq))。 (())。 (())。 return result。 } } } finally { ()。 } } 從上面的敘述中，我們知道，在重寫(xiě) Query對(duì)象樹(shù)的時(shí)候，從 MultiTermQuery得到的TermEnum很重要，能夠得到對(duì)應(yīng) MultiTermQuery的所有的 Term，這是怎么做的的呢？ MultiTermQuery的 getEnum返回的是 FilteredTermEnum，它有兩個(gè)成員變量，其中 TermEnum actualEnum是用來(lái)枚舉索引中所有的 Term的，而 Term currentTerm指向的是當(dāng)前滿足條件的 Term， FilteredTermEnum的 next()函數(shù)如下： public boolean next() throws IOException { if (actualEnum == null) return false。 currentTerm = null。 //不斷得到下一個(gè)索引中的 Term while (currentTerm == null) { if (endEnum()) return false。 if (()) { Term term = ()。 //如果當(dāng)前索引中的 Term滿足條件，則賦值為當(dāng)前的 Term if (termCompare(term)) { currentTerm = term。 return true。 } } else return false。 } currentTerm = null。 return false。 } 不同的 MultiTermQuery的 termCompare不同： ? 對(duì)于 PrefixQuery的 getEnum(IndexReader reader)得到的是 PrefixTermEnum，其 termCompare實(shí)現(xiàn)如下： protected boolean termCompare(Term term) { //只要前綴相同，就滿足條件 if (() == () amp。amp。 ().startsWith(())){ return true。 } endEnum = true。 return false。 } ? 對(duì)于 FuzzyQuery的 getEnum得到的是 FuzzyTermEnum，其 termCompare實(shí)現(xiàn)如下： protected final boolean termCompare(Term term) { //對(duì)于 FuzzyQuery，其 prefix設(shè)為空，也即這一條件一定滿足，只要計(jì)算的是 similarity if (field == () amp。amp。 ().startsWith(prefix)) { final String target = ().substring(())。 = similarity(target)。 return (similarity minimumSimilarity)。 } endEnum = true。 return false。 } //計(jì)算 Levenshtein distance 也即 edit distance，對(duì)于兩個(gè)字符串，從一個(gè)轉(zhuǎn)換成為另一個(gè)所需要的最少基本操作 (添加，刪除，替換 )數(shù)。 private synchronized final float similarity(final String target) { final int m = ()。 final int n = ()。 // init matrix d for (int i = 0。 i=n。 ++i) { p[i] = i。 } // start puting edit distance for (int j = 1。 j=m。 ++j) { // iterates through target int bestPossibleEditDistance = m。 final char t_j = (j1)。 // jth character of t d[0] = j。 for (int i=1。 i=n。 ++i) { // iterates through text // minimum of cell to the left+1, to the top+1, diagonally left and up +(0|1) if (t_j != (i1)) { d[i] = ((d[i1], p[i]), p[i1]) + 1。 } else { d[i] = ((d[i1]+1, p[i]+1), p[i1])。 } bestPossibleEditDistance = (bestPossibleEditDistance, d[i])。 }

點(diǎn)擊復(fù)制文檔內(nèi)容

環(huán)評(píng)公示相關(guān)推薦

scale-upxscale-out_acasestudyusingnutch_lucene-外文文獻(xiàn)-資料下載頁(yè)

【總結(jié)】Scale-upxScale-out:ACaseStudyusingNutch/LuceneMagedMichael,JoséE.Moreira,DoronShiloach,RobertW.WisniewskiIBMThomasJ.WatsonResearchCenterYorktownHeights,

2025-05-11 12:37

多郵箱管理及l(fā)ucene在郵件搜索上的應(yīng)用計(jì)算機(jī)畢業(yè)論畢業(yè)論文-資料下載頁(yè)

【總結(jié)】目錄摘要...............................................................................................................1Abstract....................................................................

2025-06-27 14:00

開(kāi)放源代碼的全文檢索引擎lucene-資料下載頁(yè)

【總結(jié)】開(kāi)放源代碼的全文檢索引擎?Lucene――介紹、系統(tǒng)結(jié)構(gòu)與源碼實(shí)現(xiàn)分析?第一節(jié)?全文檢索系統(tǒng)與Lucene簡(jiǎn)介?一、?????????????什么是全文檢索與全文檢索系統(tǒng)？?全文檢索是指計(jì)算

2025-04-18 12:37

基于本體和lucene的網(wǎng)絡(luò)教育資源檢索系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)-資料下載頁(yè)

【總結(jié)】學(xué)科分類(lèi)號(hào)：湖南人文科技學(xué)院本科生畢業(yè)設(shè)計(jì)論文題目：基于本體和Lucene的網(wǎng)絡(luò)教育資源檢索系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)DesignandImplementationofNetworkEducationResourcesRetrievalSystemBasedonOntologyandLucene學(xué)生姓名：周顯光學(xué)號(hào)0740811

2025-06-22 16:52

基于本體和lucene的網(wǎng)絡(luò)教育資源檢索系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)-資料下載頁(yè)

2025-08-20 10:58

基于本體和lucene的網(wǎng)絡(luò)教育資源檢索系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)設(shè)計(jì)論文-資料下載頁(yè)

2025-06-22 16:52

基于本體和lucene的網(wǎng)絡(luò)教育資源檢索系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)_畢業(yè)設(shè)計(jì)論文-資料下載頁(yè)

2025-06-30 13:09

大工18春sem搜索引擎營(yíng)銷(xiāo)在線作業(yè)3-資料下載頁(yè)

【總結(jié)】------------------------------------------------------------------------------------------------------------------------------(單選題)1:賬戶結(jié)構(gòu)一般有幾層A:4B:

2025-07-22 20:43

美食搜索之——清遠(yuǎn)麻雞-資料下載頁(yè)

【總結(jié)】清遠(yuǎn)清遠(yuǎn)雞特輯主編的話：廣東的清遠(yuǎn)，山清水秀，佳肴眾多，讓我們一起領(lǐng)略清遠(yuǎn)美食的美味吧！一什么是清遠(yuǎn)雞三吃雞的好處煮食一條龍1）飼養(yǎng)法2）煮法3）宮保雞丁麻雞蛋①白切雞②醬油雞③鴛鴦雞④吊燒雞4）吃法

2025-05-02 05:22

07-搜索之bfs-資料下載頁(yè)

【總結(jié)】SEARCHINGSTRATEGIESACM/ICPC之搜索篇2022/8/212搜索概論?搜索被稱(chēng)為“通用解題法”，在算法和人工智能中占據(jù)重要地位。?但由于它巨大的局限性和自身靈活性，也被認(rèn)為是最難學(xué)難用的算法之一。?本節(jié)目標(biāo)：希望同學(xué)們對(duì)于任意一個(gè)問(wèn)題，2022/8/213

2025-07-24 02:45

第七講搜索-資料下載頁(yè)

【總結(jié)】第七講搜索程序設(shè)計(jì)實(shí)習(xí)內(nèi)容提要?枚舉與搜索?搜索?廣度優(yōu)先搜索?深度優(yōu)先搜索?影響搜索效率的因素?POJ1011木棍問(wèn)題枚舉?逐一判斷所有可能的方案是否是問(wèn)題的解?例1：求出A-I這九個(gè)字母對(duì)應(yīng)的數(shù)字（1-9），使得下式成立（一一對(duì)應(yīng)）

2025-10-02 13:01

搜索引擎之排序技術(shù)分析-資料下載頁(yè)

【總結(jié)】什么是排序技術(shù)所謂的排序技術(shù)，我們可以簡(jiǎn)單的理解為曝光率，誰(shuí)出現(xiàn)的次數(shù)最多，誰(shuí)排在前面。要談到排序技術(shù)，就不得不說(shuō)Google的PageRank，而提到PageRank，則我們需要先來(lái)了解一下一種稱(chēng)為HillTop的排序算法。PageRank技術(shù)：通過(guò)對(duì)由超過(guò)?50,000?萬(wàn)個(gè)變量和?20?億個(gè)詞匯組成的方程進(jìn)行計(jì)算，PageRank

2025-09-25 19:00

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

18lucene學(xué)習(xí)總結(jié)之七：lucene搜索過(guò)程解析(3)(編輯修改稿)

scale-upxscale-out_acasestudyusingnutch_lucene-外文文獻(xiàn)-資料下載頁(yè)

多郵箱管理及l(fā)ucene在郵件搜索上的應(yīng)用計(jì)算機(jī)畢業(yè)論畢業(yè)論文-資料下載頁(yè)

開(kāi)放源代碼的全文檢索引擎lucene-資料下載頁(yè)

基于本體和lucene的網(wǎng)絡(luò)教育資源檢索系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)-資料下載頁(yè)

基于本體和lucene的網(wǎng)絡(luò)教育資源檢索系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)-資料下載頁(yè)

基于本體和lucene的網(wǎng)絡(luò)教育資源檢索系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)設(shè)計(jì)論文-資料下載頁(yè)

基于本體和lucene的網(wǎng)絡(luò)教育資源檢索系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)_畢業(yè)設(shè)計(jì)論文-資料下載頁(yè)

大工18春sem搜索引擎營(yíng)銷(xiāo)在線作業(yè)3-資料下載頁(yè)

美食搜索之——清遠(yuǎn)麻雞-資料下載頁(yè)

07-搜索之bfs-資料下載頁(yè)

第七講搜索-資料下載頁(yè)

搜索引擎之排序技術(shù)分析-資料下載頁(yè)

大工18春sem搜索引擎營(yíng)銷(xiāo)在線作業(yè)-資料下載頁(yè)

大工18春seo搜索引擎優(yōu)化在線作業(yè)-資料下載頁(yè)

人工智能基礎(chǔ)之搜索技術(shù)-資料下載頁(yè)

18lucene學(xué)習(xí)總結(jié)之七：lucene搜索過(guò)程解析(3)-wenkub

18lucene學(xué)習(xí)總結(jié)之七：lucene搜索過(guò)程解析(3)(已修改)

18lucene學(xué)習(xí)總結(jié)之七：lucene搜索過(guò)程解析(3)(編輯修改稿)

18lucene學(xué)習(xí)總結(jié)之七：lucene搜索過(guò)程解析(3)-wenkub.com

18lucene學(xué)習(xí)總結(jié)之七：lucene搜索過(guò)程解析(3)(已改無(wú)錯(cuò)字)