正文內(nèi)容

[計算機]lucene代碼分析(編輯修改稿)

2025-09-13 04:26 本頁面

　

【文章內(nèi)容簡介】 break。 else return null。 } else c = ioBuffer[bufferIndex++]。 if (isTokenChar(c)) { // if it39。s a token char if (length == 0) // start of token start = offset 1。 buffer[length++] = normalize(c)。 // buffer it, normalized if (length == MAX_WORD_LEN) // buffer overflow! break。 } else if (length 0) // at nonLetter w/ chars break。 // return 39。em } return new Token(new String(buffer, 0, length), start, start + length)。} 看起來很長，其實很簡單，至少讀起來很簡單，其中isTokenChar就是我們剛才在LetterTokenizer中看到的，代碼中用start記錄一個token的起始位置，用length記錄它的長度，如果不是字符的話，就break。，我們看到一個新的類Token，這里它的構(gòu)造參數(shù)有字符串，起始位置，結(jié)束位置。看一下Token的源代碼：String termText。 // the text of the termint startOffset。 // start in source textint endOffset。 // end in source textString type = word。 // lexical typeprivate int positionIncrement = 1。/** Constructs a Token with the given term text, and start amp。 end offsets. The type defaults to word. */public Token(String text, int start, int end) { termText = text。 startOffset = start。 endOffset = end。}/** Constructs a Token with the given text, start and end offsets, amp。 type. */public Token(String text, int start, int end, String typ) { termText = text。 startOffset = start。 endOffset = end。 type = typ。} 和我們剛才用到的構(gòu)造函數(shù)對應(yīng)一下，就知道三個成員變量的意思了，type和positionIncrement我還是引用一下別的人話，Type主要用來表示文本編碼和語言類型，single表示單個ASCII字符，double表示nonASCII字符，Word是默認(rèn)的不區(qū)分的字符類型。而positionIncrement表示位置增量，用于處理拼音之類的情況(拼音就在那個詞的上方)。3. Lucene源代碼分析［3］關(guān)于TokenFilter我們先看一個最簡單的LowerCaseFilter，它的next函數(shù)如下：public final Token next() throws IOException { Token t = ()。 if (t == null) return null。 = ()。 return t。} 沒什么意思，就是把Token對象中的字符串換成了小寫，你想看有意思的可以看PortStemFilter，劍橋大學(xué)出的那本Introduction to information retrieval中也提到過這種方法，34頁。再看一個稍有一點意義的TokenFilter，StopFilter，我們看一下public static final Set makeStopSet(String[] stopWords) { return makeStopSet(stopWords, false)。}public static final Set makeStopSet(String[] stopWords, boolean ignoreCase) { HashSet stopTable = new HashSet()。 for (int i = 0。 i 。 i++) (ignoreCase ? stopWords[i].toLowerCase() : stopWords[i])。 return stopTable。}public final Token next() throws IOException { // return the first nonstop word found for (Token token = ()。 token != null。 token = ()) { String termText = ignoreCase ? () : 。 if (!(termText)) return token。 } // reached EOS return null return null。} makeStopSet是把所有要過濾的詞加到stopTable中去(不清楚為什么不用HashSet呢)，在next函數(shù)中，它過濾掉stopTable有的字符串。再來看一個簡單的Analyzer，StopAnalyzer的next函數(shù)：public TokenStream tokenStream(String fieldName, Reader reader) { return new StopFilter(new LowerCaseTokenizer(reader), stopWords)。} 記得這句話嗎？Lucene中一個Analyzer通常由Tokenizer和TokenFilter組成，這里就是這句話的證據(jù)，我們先對reader傳進來的字符串進行分詞，再對它進行過濾。而其中的tokenStream當(dāng)然就是我們在分詞時要調(diào)用的那個函數(shù)了。4. Lucene源代碼分析［4］寫一個略有一點意義的例子，我

點擊復(fù)制文檔內(nèi)容

環(huán)評公示相關(guān)推薦

計算機專業(yè)畢業(yè)外文翻譯--托管代碼的優(yōu)點-資料下載頁

【總結(jié)】托管代碼的優(yōu)點Microsoft中間語言與Java字節(jié)代碼共享一種理念：它們都是一種低級語言，語法很簡單(使用數(shù)字代碼，而不是文本代碼)，可以非常快速地轉(zhuǎn)換為內(nèi)部機器碼。對于代碼來說，這種精心設(shè)計的通用語法，有很大的優(yōu)點。1.平臺無關(guān)性首先，這意味著包含字節(jié)代碼指令的同一個文件可以放在任一個平臺中，運行時編譯過程的最后階段可以很容易完成，這

2025-05-11 17:42

計算機信息處理技術(shù)分析計算機信息論文計算機論文[范文大全]-資料下載頁

【總結(jié)】計算機信息處理技術(shù)分析計算機信息論文計算機論文[范文大全]第一篇：計算機信息處理技術(shù)分析計算機信息論文計算機論文計算機信息處理技術(shù)分析-計算機信息論文-計算機論文——文章均為WORD文檔，下載后可直接編輯使用亦可打印——摘要：互聯(lián)網(wǎng)的廣泛普及使數(shù)據(jù)之間的交流速度不斷加快，信息時代的到來，使信息數(shù)據(jù)整理與存儲難度有

2025-04-30 18:01

計算機信息處理技術(shù)分析計算機信息論文計算機論文,(3)[5篇]-資料下載頁

【總結(jié)】計算機信息處理技術(shù)分析計算機信息論文計算機論文,(3)[5篇]第一篇：計算機信息處理技術(shù)分析計算機信息論文計算機論文,(3)計算機信息處理技術(shù)分析-計算機信息論文-計算機論文——文章均為WORD文檔，下載后可直接編輯使用亦可打印——摘要：隨著科學(xué)技術(shù)的不斷發(fā)展與進步，計算機網(wǎng)絡(luò)信息已經(jīng)成為人們生活中不可缺

2025-04-25 17:37

[計算機]seo網(wǎng)站布局分析-資料下載頁

【總結(jié)】天邁文化傳媒（北京）有限公司SEO網(wǎng)站布局分析　很多的人可能認(rèn)為網(wǎng)站布局是非常簡單的事情，我認(rèn)為恰恰相反，因為布局是個大的問題，不僅僅從美觀上，從用戶體驗上，還要從利于優(yōu)化的角度去分析，我們最需要知道的一件事情就是重要頁面的排版是有利于搜索引擎對我們的網(wǎng)頁進行抓取以及索引的，這些關(guān)鍵的布局會為我們優(yōu)化提供很大的幫助

2025-08-21 16:02

[計算機軟件及應(yīng)用]網(wǎng)站代碼開發(fā)文檔-資料下載頁

【總結(jié)】網(wǎng)站代碼開發(fā)文檔，屬性和制約因素：[詳細(xì)表功能請參考數(shù)據(jù)表說明文檔]ecs_account_logecs_adecs_admin_actionecs_admin_logecs_admin_messageecs_admin_userecs_adsenseecs_ad_positionecs_affiliate_log

2025-08-17 03:58

[計算機]網(wǎng)站分析技巧揭秘-資料下載頁

【總結(jié)】網(wǎng)站分析技巧揭秘一、網(wǎng)站速度。造成網(wǎng)站速度緩慢主要有兩個因素：　　1、服務(wù)器因素。大連網(wǎng)站推廣酒童覺得網(wǎng)站的速度是快是慢，我們可以利用ping工具來查詢。很多站長網(wǎng)站都有提供這個工具，只要輸入域名就可以，這里不多說。如果服務(wù)器打開慢，那就要考慮更換了。一般來說，國內(nèi)的服務(wù)器是最快的，香港和國外其他的服務(wù)器相對都是比較慢，如果網(wǎng)站的流量比較高，建議還是選擇國內(nèi)的服務(wù)器?！　?/span>

2025-08-17 04:01

it計算機]設(shè)備管理系統(tǒng)源代碼及運行界面-資料下載頁

【總結(jié)】源代碼及運行界面1.model類a．usingSystem;using;using;using;namespacemodel{publicclassDepart{publicDepart(){}#regionmodel

2025-11-08 16:23

計算機源代碼編寫規(guī)范東大阿爾派軟件公司-資料下載頁

【總結(jié)】----計算機源代碼編寫規(guī)范文件編號：NW506104生效日期：受控編號：密級：秘密版次：修改狀態(tài)：

2025-06-14 17:01

計算機樂園與計算機繪畫-資料下載頁

【總結(jié)】計算機樂園與計算機繪畫-----------------------作者：-----------------------日期：第一單元計算機樂園一、單元概述本單元是整個教材的引入篇，旨在使學(xué)生感受信息及信息傳播、交流的方式，激發(fā)他們學(xué)習(xí)信息技術(shù)的興趣，實現(xiàn)“在玩中學(xué)”的教學(xué)意境——在娛樂中增長知識、掌握技能（鼠標(biāo)操作），為后續(xù)學(xué)習(xí)做好鋪墊

2025-05-16 07:45

[計算機]c編寫最小化到托盤的代碼-資料下載頁

【總結(jié)】NotifyIcon控件－notifyIcon1ContextMenu控件－contextMenu1，并添加菜單項notifyIcon1的屬性：設(shè)置為contextMenu1=true設(shè)置到一個圖標(biāo)文件,即關(guān)閉主窗體時就最小化到系統(tǒng)托盤privatevoidForm1_Closing(objectsender

2025-08-17 04:06

【計算機】計算機文化基礎(chǔ)試題-資料下載頁

【總結(jié)】、選擇題______。A)繼電器B)電子管C)中小規(guī)模集電路D)大規(guī)模和超大規(guī)模集成電路，普遍使用的微型計算機所采用的邏輯組件是______。A)電子管B)大規(guī)模和超大規(guī)模集成電路C)晶體管D)中小規(guī)模集成電路

2025-01-07 20:53

計算機與儀器分析-資料下載頁

【總結(jié)】01:56:22第二章計算機與儀器分析一、計算機對儀器分析發(fā)展的促進作用improvetodevelopmentofinstrumentsanalysis二、計算機在儀器分析中的應(yīng)用applicationofputerininstrumentsanalysis三、網(wǎng)絡(luò)中的儀器分析資源resource

2025-08-11 16:06

惡意代碼與計算機病毒的防治-資料下載頁

【總結(jié)】第14章惡意代碼與計算機惡意代碼計算機病毒防治措施本章小結(jié)習(xí)題代碼是指計算機程序代碼，可以被執(zhí)行完成特定功能。黑客編寫的具有破壞作用的計算機程序，這就是惡意代碼。惡意代碼惡意代碼的概念惡意代碼可以按照兩種分類標(biāo)準(zhǔn)，從兩個角度進行直交分類。一種分類標(biāo)準(zhǔn)是，惡意代碼是否需要宿主，

2025-05-28 01:43

計算機信息系統(tǒng)網(wǎng)絡(luò)管理分析計算機信息論文計算機論文5篇可選-資料下載頁

【總結(jié)】計算機信息系統(tǒng)網(wǎng)絡(luò)管理分析計算機信息論文計算機論文（5篇可選）第一篇：計算機信息系統(tǒng)網(wǎng)絡(luò)管理分析計算機信息論文計算機論文計算機信息系統(tǒng)網(wǎng)絡(luò)管理分析-計算機信息論文-計算機論文——文章均為WORD文檔，下載后可直接編輯使用亦可打印——摘要：信息技術(shù)在各行各業(yè)當(dāng)中的廣泛應(yīng)用，方便了人們的生活與工作，但是也出現(xiàn)

2025-04-30 18:01

計算機和計算機程序-資料下載頁

【總結(jié)】1/48第二章計算機和計算機程序2/48本章主要內(nèi)容計算機是實現(xiàn)算法的有效工具;計算機的基本組成;計算機中存儲信息的方法;計算機語言和計算機程序;程序運行環(huán)境;程序開發(fā)的步驟。計算機和編程基礎(chǔ)知識3/48算法是解題的方法和步驟的描述;

2025-05-02 03:34