【導(dǎo)讀】檢索模型是一個(gè)四元組[D,Q,F,R]. 把索引中的每個(gè)詞作為空間的一個(gè)維度。把每一個(gè)查詢也作為空間中的一個(gè)向量。通過計(jì)算文檔和查詢的內(nèi)積或余弦等來表。根據(jù)詞項(xiàng)在文檔和文檔集中的頻率。其中tfi,j可以先歸一化處理。TermQuery為L(zhǎng)ucene支持的最簡(jiǎn)單的查詢方式。其中的idf和boost值與文檔無關(guān)不影響排名。fieldboost人為賦予的經(jīng)驗(yàn)值默認(rèn)值都為。此時(shí)lucene按照單位長(zhǎng)度的文檔包含的關(guān)鍵詞個(gè)數(shù)。BooleanQuery是一種復(fù)合式的Query支持多。+俄羅斯恐怖事件-美國(guó)??梢詫?duì)不同的query賦予不同的boost值表示。整理可得計(jì)算公式如下。Lucene支持的邏輯操作例子。對(duì)于強(qiáng)制符號(hào)+和-會(huì)首先對(duì)匹配結(jié)果進(jìn)行。有三篇文本內(nèi)容如下。按照缺省方式建索引fieldboost=. 首先可算得fieldnorm分別為,,注意norm在實(shí)現(xiàn)時(shí)只用了1個(gè)字節(jié)表示故誤差較大。輸入多個(gè)關(guān)鍵詞studentchina