freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

畢業(yè)設(shè)計論文--桌面搜索工具的設(shè)計與實現(xiàn)(文件)

2024-12-27 16:31 上一頁面

下一頁面
 

【正文】 . Lucene is a free, open ,high performance, and pure Java search engine jar. It is much easier to implement index and search of personal documents, designing desktop searching tools by using Lucene. The thesis has discussed the design and implementation of a Desktop Search tool based on the research of Lucene jar. The first chapter is an introduction, and it is about the origin of topic design, the background of development, the present situation of research home and abroad, the aim of developmentl,and the development kit as well as demand of software and hardware。Lucene 是一個免費、開源、高性能、純 Java 的搜索引擎包,利用 Lucene 組件開發(fā)設(shè)計桌面搜索工具,可以很好的 實現(xiàn)對個人文檔內(nèi)容的索引和搜索。 論文以 Lucene 搜索引擎包 的研究 為基礎(chǔ),探討一個桌面搜索工具的設(shè)計與實現(xiàn)。The second chapter mainly carries on the analysis of the feasibility of the topic, introducing the basic thought route and the basic method of design, as well as implementaton of the design of the basic and necessary fuction moduleand。 應(yīng)用軟件系統(tǒng)名稱:桌面搜索工具 項目任務(wù)的提出者: 開發(fā)時間:三個月 使用軟件的部門: 開發(fā)背景 進入 21 世紀以來,互聯(lián)網(wǎng)飛速發(fā)展,日常生活中人們 從互聯(lián)網(wǎng)上數(shù)以十億計的文檔中搜索信息已經(jīng)變得相對簡單 [1], 大多數(shù) 用戶通過一些搜索網(wǎng)站,比如:百度,谷歌,搜搜等等,都可以輕而實現(xiàn), 但在計算機的硬盤上查找一個 Word、 TXT 或 HTML 文件仍然不是一件容易的事。 自從 2021 年 2 月中國搜索推出了其桌面搜索軟件 網(wǎng)絡(luò)豬(現(xiàn)已更名為 Inter Gateway,簡稱 IG)以來,很多知名搜索引擎公司都推出了自己的桌面搜索產(chǎn)品,如:Google 桌面搜索、帶桌面搜索的微軟 MSN 搜索工具欄、 Yahoo 桌面搜索、 Apple 的Spotlight、百度的硬盤搜索等 。 Windows 硬盤搜索,無論是綜合能力,還是資源占用方面,均排名靠前,而且,憑借其與操作系統(tǒng)的緊密結(jié)合,日常使用時將更加得心應(yīng)手。但到目前的研究進度,桌面搜索實現(xiàn)的原理和框架和網(wǎng)頁搜索的大致相同 [5],分為兩個模塊: 爬蟲和索引模塊、檢索模塊?;谧址ヅ涞姆衷~方法主要有正向最大匹配法、逆向最大匹配法和最少切分法,或者這三種方法的一些相互組合,然而使用這些方法的精確度還遠遠不能滿足實際的一要求 ,實際上使用的分詞系統(tǒng),都是把這種分詞作為一種初分手段,還需通過利用各種其他的語言信息來進一步提高切分的準確率 [9]。 盡管目前的各類桌面搜索工具都能較好的滿足用戶的基本需求,但隨著用戶成份的多元化,用戶需求日漸增長并變化,目前以及以后桌面搜索技術(shù)主要在三個方面進行提升:速度,精確度,個人化 [11]。 對于以后的中文分詞發(fā)展前景,主要還是利用人工智能進行處理。而中文分詞的技術(shù)突破不僅是在搜索這塊能得到很好的應(yīng)用, 涉及到眾多的學(xué)科和研究領(lǐng)域 。 Struts 為 Web 應(yīng)用提供了一個通用的框架,使得開發(fā)人員可以把精力 長沙學(xué)院 畢業(yè)設(shè)計 (論文 ) 4 集中在如何解決實際業(yè)務(wù)問題上。實際上 Tomcat 部分是 Apache 服務(wù)器的擴展,但它是獨立運行的,所以當(dāng)你運行 tomcat 時,它實際上作為一個與 Apache 獨立的進程單獨運行的。 Lucene 的檢索算法屬于索引檢索,即用空間來換取時間,對需要檢索的文件、字符流進行全文索引,在檢索的時候?qū)λ饕M行快速的檢索,得到檢索位置,這個位置記錄檢索詞出現(xiàn)的文件路徑或者某個關(guān)鍵詞。 該桌面搜索引擎主要采用單機開發(fā),在個人電腦上即可進行。 綜上所述,設(shè)計桌面搜索引擎具有較高的實用價值,在技術(shù)上和經(jīng)濟上都是可行的。 3. 采用模塊化設(shè)計。 長沙學(xué)院 畢業(yè)設(shè)計 (論文 ) 6 5.速度優(yōu)先原則。 設(shè)計的實現(xiàn)方法 1.用戶界面模塊 利用 JSP頁面設(shè)計以及配合 CSS達到界面的清晰,用戶的操作以及使用簡單而明確。 5.索引文件建立 利用 Lucene 包自帶的函數(shù),在經(jīng)過中文分詞后,進行倒排索引文件的建立 。 長沙學(xué)院 畢業(yè)設(shè)計 (論文 ) 7 任務(wù)模塊圖 任務(wù) 模塊圖如圖 所示 圖 系統(tǒng)功能模塊圖 系統(tǒng)功能描述 設(shè)計一個操作簡單,用戶易用的界面,使用戶使用方便。 5. 索引文件的建立 通過建立索引文件,相當(dāng)建立了一個數(shù)據(jù)映射表,使得在搜索階段,可以迅速的查詢到所要查詢的信息 ,這也是桌面搜索速度快的關(guān)鍵因素。 基本的 系統(tǒng) 結(jié)構(gòu)如下圖所示: 圖 系統(tǒng)結(jié)構(gòu)圖 索引文件 索引庫 搜索索引 收集數(shù)據(jù) 獲得用戶的請求 返回搜索結(jié)果 用戶 本機硬盤 長沙學(xué)院 畢業(yè)設(shè)計 (論文 ) 9 第三章 索引 功能的 設(shè)計 按功能模塊詳細介紹設(shè)計流程和實現(xiàn)方法, 本章 從中選取了重要模塊進行詳細的設(shè)計介紹。同時, InputStream對象的使用方便,因為可以通過 (File)的構(gòu)造函數(shù)把各種 File 類型的對象轉(zhuǎn)換成 FileInputStream類型的對象。 public interface DocumentHandler { Document getDocument(InputStream is,File file) throws DocumentHandlerException。這是 個已經(jīng)被校驗過的異常,它只是 Java中 Exception類的一個子類。下表總結(jié)了文檔處理框架上所需 要使用的各個組件。下面的實現(xiàn)過程將具體分析 ExtensionFileHandler 類中的方法。 } public Document getDocument(File file)throws FileHandlerException { String name = ()。 (dotIndex ())) { String ext = (dotIndex + 1, ())。 try { Class handlerClass = (handlerClassName)。 } 長沙學(xué)院 畢業(yè)設(shè)計 (論文 ) 13 doc 格式解析 了解 Lucene 的用法后,可以知道它所處理的對象都是純文本數(shù)據(jù),這對于 MS DOC進行索引顯然是行不通的,所以必須經(jīng)過一個解析過程,從 MS DOC 中 提取出文本,進而再用 Lucene 的方法進行索引。比較常用的是 Jakarta POI 和 這兩個項目所創(chuàng)建的文本提取器 (text extractors)工具 [18]。與 POI 相比,除 API 更加簡單外, API 具有這些優(yōu)點: 1.為了 從 Word 文檔中提取文本, API 庫作了優(yōu)化,而 POI 沒有。 { String bodyText = 。 } if ((bodyText != null) amp。 //建立個域名為 doc_body,把所得到的文本經(jīng)過分詞并索引,得到的結(jié)果存 //儲到 doc_body域中,供以后需要的時候查詢。 //建立個域名為 doc_filename,把所得到的文本經(jīng)過分析并索引,得到的結(jié)果 //存儲到 doc_filename域中,供以后需要的時候查詢。 長沙學(xué)院 畢業(yè)設(shè)計 (論文 ) 15 } 單元測試 編寫測試用例 TestWord類,測試索引 D盤 doc文件夾里面的 word文檔,測試結(jié)果如圖: 圖 測試解析 DOC格式文檔 經(jīng)過索引,可以發(fā)現(xiàn)索引文件目錄下生成了三個文件,分別為: 、 deletable、segments。但由于網(wǎng)上大部分可用的 html 文檔都不符合規(guī)范,因此并不是所有的解析器都能對每種格式進行很好的處理。 實現(xiàn)過程 JTidyHTMLHandler 的關(guān)鍵代碼如下: public getDocument(InputStream is ,File file) throws DocumentHandlerException //向 DocumentHandler接口的 getDocument方法中傳入一個代表 HTML文檔的 //InputStream對象,然后該 方法調(diào)用了 Jtidy的 DOM解析器,并建立了一個 //Lucene的 Document對象。 root = (is, null)。 //新建一個 Lucene的 Document對象,用于裝載下面索引后的信息 String title = getTitle(rawDoc)。這些文本也用于構(gòu)成 Lucene //的 Document的實例。 長沙學(xué)院 畢業(yè)設(shè)計 (論文 ) 17 //對 HTML文檔的 title進行索引、分詞,并存儲在 html_title域中 } if ((body != null) amp。 //對 HTML文檔的路徑進行索引、不分詞,并存儲在 filepath域中 (new Field(html_filename,(),))。 } String title = 。 Text text = (Text) ()。//返回文本值給調(diào)用函數(shù) } protected String getBody(Element rawDoc) 長沙學(xué)院 畢業(yè)設(shè)計 (論文 ) 18 { if (rawDoc == null) { return null。一般來說,一個、 //HTML文檔只出現(xiàn)一個 body元素。 } return body。 for (int i = 0。 ( )。 } } return ()。 1. IndexWriter 這個類用于創(chuàng)建一個新的索引并且把文檔加到已有的索引中去。 IndexWriter 然后使用 Directory 的一個具體實現(xiàn)FSDirectory,并在文件系統(tǒng)的一個目錄中創(chuàng)建索引。 RAMDirectory 可以應(yīng)用在 快速訪問 索引的情況,不管是索引或搜索。 Lucene自帶的兩個中文分析器分別為: ChineseAnalyzer和 CJKAnalyzer。所以在要為每一個檢索到的文本文件創(chuàng)建一個 Document實例,并在實例中添加它的域,最后把要把 Document對象添加到索引中。適合于需要和搜索 結(jié)果一起被顯示出來,但用戶不會將它的值直接用于搜索的情形。 實現(xiàn)過程 以下給出索引純文本的關(guān)鍵實現(xiàn)部分的代碼: public static void main(String[] args) throws Exception { File indexDir=new File(indexDir)。//得到索引文件數(shù)目 長沙學(xué)院 畢業(yè)設(shè)計 (論文 ) 21 long end=new Date().getTime()。 int numIndexed=()。 } private static void indexDirectory(IndexWriter writer,File dir)throws IOException { File[] files=()。 if(()) { indexDirectory(writer,f)。 //寫入 doc對象的 body域 (new Field(filepath, (),))。 。 (doc)。//傳遞 writer和文件過去進行索引 } } } private static void indexFile(IndexWriter writer,File f)throws I
點擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1