freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

apache-lucene-3x-推薦教程-資料下載頁(yè)

2025-08-04 10:09本頁(yè)面
  

【正文】 而后者只針對(duì)指定域進(jìn)行修改。默認(rèn)情值為1F,一般不做修改。使用Sort對(duì)象定制排序。Sort支持的排序功能以文檔當(dāng)中的域?yàn)閱挝?,通過這種方法,可以實(shí)現(xiàn)一個(gè)或者多個(gè)不同域的多形式的值排序。時(shí)間類型的屬性采用STRING常量。. 按相關(guān)度排序1,相關(guān)度得分是在查詢時(shí)根據(jù)查詢條件實(shí)進(jìn)計(jì)算出來(lái)的2,如果索引庫(kù)據(jù)不變,查詢條件不變,查出的文檔得分也不變. 按指定的字段排序If you want to be able to sort results by a Field value, you must add it as a Field that is indexed but not analyzed, using .4. 過濾(Filter)使用Filter可以對(duì)搜索結(jié)果進(jìn)行過濾以獲得更小范圍的結(jié)果。使用Filter對(duì)性能的影響很大(有可能會(huì)使查詢慢上百倍)。使用NumericRangeFilter。也可使用相應(yīng)的查詢實(shí)現(xiàn)一樣的效果。5. 高亮(Highlight)需要的jar包為:contrib\highlighter\contrib\memory\// 生成高亮器Formatter formatter = new SimpleHTMLFormatter(span class=39。kw39。, /span)。Scorer scorer = new QueryScorer(query)。Highlighter highlighter = new Highlighter(formatter, scorer)。(new SimpleFragmenter(20))。// 使用高亮器:對(duì)content屬性值進(jìn)行摘要并高亮String text = ((), content, (content))。// 如果進(jìn)行高亮的屬性值中沒有要搜索的關(guān)鍵字,則返回nullif (text != null) { (content).setValue(text)。}6. Analyzer(分詞器:結(jié)構(gòu)與常用的中文分詞器). 分詞器結(jié)構(gòu)創(chuàng)建索引與進(jìn)行搜索要使用同一個(gè)分詞器。分詞器的一般工作流程:1, 切分關(guān)鍵詞2, 去除停用詞3,對(duì)于英文單詞,一般要還做:英文單詞的所有字母轉(zhuǎn)為小寫說明:形態(tài)還原,是去除單詞詞尾的形態(tài)變化,將其還原為詞的原形。這樣做可以搜索出更多有意義的結(jié)果。如搜索sutdent時(shí),也可以搜索出students,這是很有用的。. 停用詞有些詞在文本中出現(xiàn)的頻率非常高,但是對(duì)文本所攜帶的信息基本不產(chǎn)生影響,例如英文的“a、an、the、of”,或中文的“的、了、著”,以及各種標(biāo)點(diǎn)符號(hào)等,這樣的詞稱為停用詞(stop word)。文本經(jīng)過分詞之后,停用詞通常被過濾掉,不會(huì)被進(jìn)行索引。在檢索的時(shí)候,用戶的查詢中如果含有停用詞,檢索系統(tǒng)也會(huì)將其過濾掉(因?yàn)橛脩糨斎氲牟樵冏址惨M(jìn)行分詞處理)。排除停用詞可以加快建立索引的速度,減小索引庫(kù)文件的大小。. 對(duì)英文的的處理. 中文分詞器中文的分詞比較復(fù)雜,因?yàn)椴皇且粋€(gè)字就是一個(gè)詞,而且一個(gè)詞在另外一個(gè)地方就可能不是一個(gè)詞,如在“帽子和服裝”中,“和服”就不是一個(gè)詞。對(duì)于中文分詞,通常有三種方式:?jiǎn)巫址衷~、二分法分詞、詞典分詞。l 單字分詞:就是按照中文一個(gè)字一個(gè)字地進(jìn)行分詞。如:“我們是中國(guó)人”,效果:“我”、“們”、“是”、“中”、“國(guó)”、“人”。(StandardAnalyzer就是這樣)。l 二分法分詞:按兩個(gè)字進(jìn)行切分。如:“我們是中國(guó)人”,效果:“我們”、“們是”、“是中”、“中國(guó)”、“國(guó)人”。(CJKAnalyzer就是這樣)。l 詞庫(kù)分詞:按某種算法構(gòu)造詞,然后去匹配已建好的詞庫(kù)集合,如果匹配到就切分出來(lái)成為詞語(yǔ)。通常詞庫(kù)分詞被認(rèn)為是最理想的中文分詞算法。如:“我們是中國(guó)人”,效果為:“我們”、“中國(guó)人”。(使用極易分詞的MMAnalyzer??梢允褂谩皹O易分詞”,或者是“庖丁分詞”分詞器、IKAnalyzer)。其他的中文分詞器有:1, 極易分詞:MMAnalyzer,更新時(shí)間是20071205,2, 庖丁分詞:PaodingAnalzyer,更新時(shí)間是20080603,中文分詞器使用IKAnalyzer,主頁(yè):。實(shí)現(xiàn)了以詞典為基礎(chǔ)的正反向全切分,以及正反向最大匹配切分兩種方法。IKAnalyzer是第三方實(shí)現(xiàn)的分詞器,繼承自Lucene的Analyzer類,針對(duì)中文文本進(jìn)行處理。具體的使用方式參見其文檔。注意:擴(kuò)展的詞庫(kù)與停止詞文件要是UTF8的編碼,并且在要文件頭部加一空行。. 測(cè)試分詞器 /** * 使用批定的分詞器對(duì)指定的文本進(jìn)行分詞,并打印結(jié)果 * @param analyzer * @param text * @throws Exception */private void testAnalyzer(Analyzer analyzer, String text) throws Exception { (當(dāng)前使用的分詞器: + ())。 TokenStream tokenStream = (content, new StringReader(text))。 ()。 while (()) { TermAttribute termAttribute = ()。 (())。 }}7. 練習(xí)1, 文件搜索。數(shù)據(jù)在文件夾中(文件)。2, 文章搜索。數(shù)據(jù)在數(shù)據(jù)庫(kù)中(記錄)。
點(diǎn)擊復(fù)制文檔內(nèi)容
高考資料相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1