【導讀】檢索模型是一個四元組[D,Q,F,R]. 把索引中的每個詞作為空間的一個維度。把每一個查詢也作為空間中的一個向量。通過計算文檔和查詢的內積或余弦等來表。根據(jù)詞項在文檔和文檔集中的頻率。其中tfi,j可以先歸一化處理。TermQuery為Lucene支持的最簡單的查詢方式。其中的idf和boost值與文檔無關不影響排名。fieldboost人為賦予的經驗值默認值都為。此時lucene按照單位長度的文檔包含的關鍵詞個數(shù)。BooleanQuery是一種復合式的Query支持多。+俄羅斯恐怖事件-美國。可以對不同的query賦予不同的boost值表示。整理可得計算公式如下。Lucene支持的邏輯操作例子。對于強制符號+和-會首先對匹配結果進行。有三篇文本內容如下。按照缺省方式建索引fieldboost=. 首先可算得fieldnorm分別為,,注意norm在實現(xiàn)時只用了1個字節(jié)表示故誤差較大。輸入多個關鍵詞studentchina