正文內(nèi)容

畢業(yè)設(shè)計論文--桌面搜索工具的設(shè)計與實(shí)現(xiàn)(存儲版)

2025-01-12 16:31上一頁面

下一頁面

　　

【正文】方法。這是個已經(jīng)被校驗(yàn)過的異常，它只是 Java中 Exception類的一個子類。同時， InputStream對象的使用方便，因?yàn)榭梢酝ㄟ^ (File)的構(gòu)造函數(shù)把各種 File 類型的對象轉(zhuǎn)換成 FileInputStream類型的對象。 5. 索引文件的建立通過建立索引文件，相當(dāng)建立了一個數(shù)據(jù)映射表，使得在搜索階段，可以迅速的查詢到所要查詢的信息，這也是桌面搜索速度快的關(guān)鍵因素。 5．索引文件建立利用 Lucene 包自帶的函數(shù)，在經(jīng)過中文分詞后，進(jìn)行倒排索引文件的建立。長沙學(xué)院畢業(yè)設(shè)計 (論文 ) 6 5．速度優(yōu)先原則。綜上所述，設(shè)計桌面搜索引擎具有較高的實(shí)用價值，在技術(shù)上和經(jīng)濟(jì)上都是可行的。 Lucene 的檢索算法屬于索引檢索，即用空間來換取時間，對需要檢索的文件、字符流進(jìn)行全文索引，在檢索的時候?qū)λ饕M(jìn)行快速的檢索，得到檢索位置，這個位置記錄檢索詞出現(xiàn)的文件路徑或者某個關(guān)鍵詞。 Struts 為 Web 應(yīng)用提供了一個通用的框架，使得開發(fā)人員可以把精力長沙學(xué)院畢業(yè)設(shè)計 (論文 ) 4 集中在如何解決實(shí)際業(yè)務(wù)問題上。對于以后的中文分詞發(fā)展前景，主要還是利用人工智能進(jìn)行處理?；谧址ヅ涞姆衷~方法主要有正向最大匹配法、逆向最大匹配法和最少切分法，或者這三種方法的一些相互組合，然而使用這些方法的精確度還遠(yuǎn)遠(yuǎn)不能滿足實(shí)際的一要求，實(shí)際上使用的分詞系統(tǒng)，都是把這種分詞作為一種初分手段，還需通過利用各種其他的語言信息來進(jìn)一步提高切分的準(zhǔn)確率 [9]。 Windows 硬盤搜索，無論是綜合能力，還是資源占用方面，均排名靠前，而且，憑借其與操作系統(tǒng)的緊密結(jié)合，日常使用時將更加得心應(yīng)手。應(yīng)用軟件系統(tǒng)名稱：桌面搜索工具項(xiàng)目任務(wù)的提出者：開發(fā)時間：三個月使用軟件的部門：開發(fā)背景進(jìn)入 21 世紀(jì)以來，互聯(lián)網(wǎng)飛速發(fā)展，日常生活中人們從互聯(lián)網(wǎng)上數(shù)以十億計的文檔中搜索信息已經(jīng)變得相對簡單 [1]，大多數(shù) 用戶通過一些搜索網(wǎng)站，比如：百度，谷歌，搜搜等等，都可以輕而實(shí)現(xiàn)，但在計算機(jī)的硬盤上查找一個 Word、 TXT 或 HTML 文件仍然不是一件容易的事。論文以 Lucene 搜索引擎包的研究為基礎(chǔ)，探討一個桌面搜索工具的設(shè)計與實(shí)現(xiàn)。關(guān)鍵詞：搜索引擎，桌面搜索， Lucene 長沙學(xué)院畢業(yè)設(shè)計 (論文 ) II ABSTRACT With the rapid development of puter technology, The volume of personal puter hard disk is increasing, and Desktop Search is imperative. Lucene is a free, open ,high performance, and pure Java search engine jar. It is much easier to implement index and search of personal documents, designing desktop searching tools by using Lucene. The thesis has discussed the design and implementation of a Desktop Search tool based on the research of Lucene jar. The first chapter is an introduction, and it is about the origin of topic design, the background of development, the present situation of research home and abroad, the aim of developmentl,and the development kit as well as demand of software and hardware。人們非常希望在自己容量龐大的硬盤里尋找 Word 文檔、 PDF 或者文本文件，或者 c，cpp,pas,java,asp,php 等程序的源代碼文件時，就像在網(wǎng)頁上進(jìn)行關(guān)鍵字搜索那么簡單。國內(nèi)外研究現(xiàn)狀及前景目前已經(jīng)有許多大公司投入桌面搜索的研究當(dāng)中，比如：百度，谷歌，中搜，微軟等。實(shí)際應(yīng)用的統(tǒng)計方法長沙學(xué)院畢業(yè)設(shè)計 (論文 ) 3 都要使用一部基本的分詞詞典進(jìn)行串匹配分詞，同樣使用統(tǒng)計方法識別一些新詞，即將串頻統(tǒng)計和串匹配結(jié)合起來，發(fā)揮匹配分詞切分速度快、效率高的特點(diǎn)，又利用了無詞典分詞結(jié)合上下文識別生詞、自動消除歧義的優(yōu)點(diǎn)。以上兩種思路也是近年來人工智能領(lǐng)域研究的熱點(diǎn)問題 , 應(yīng)用到分詞方法上 , 于是產(chǎn)生了專家系統(tǒng)分詞法和神經(jīng)網(wǎng)絡(luò)分詞法。對于一個初學(xué)者來說，可以這樣認(rèn)為，當(dāng)在一臺機(jī)器上配置好 Apahce 服務(wù)器，可利用它響應(yīng)對 HTML 頁面的訪問請求。所以利用 Lucene 進(jìn)行桌面搜索的設(shè)計具有可行性。運(yùn)用面向?qū)ο蠹夹g(shù)的前提是對整體系統(tǒng)的高度和準(zhǔn)確抽象，通過它可以保證系統(tǒng)良好的框架，進(jìn)而帶來產(chǎn)品較強(qiáng)的穩(wěn)定性和運(yùn)行效率。要符合設(shè)計需求，在有可能改進(jìn)的地方進(jìn)行擴(kuò)充，使系統(tǒng)更適應(yīng)用戶的需要。任務(wù)概述綜合上述分析，本次設(shè)計的主要目的是搜索硬盤里 Html 網(wǎng)頁、 Word 文檔、 txt 純文本，根據(jù)不同的后綴名進(jìn)行相應(yīng)的解析，并最后通過中文分詞等處理，生成適合查找的相應(yīng)的倒排索引文件，而在搜索階段，對用戶輸入的不同要求，對輸入的內(nèi)容進(jìn)行中文分詞，并提取出關(guān)鍵字，然后在索引文件里面進(jìn)行查找，并返回所需查找文件的路徑以及相應(yīng)關(guān)鍵字段周圍的截斷部分。爬蟲索引模塊以及其一些索引測試程序在工程 IndexFiles 里實(shí)現(xiàn)，而檢索模塊以及其一些搜索測試測試程序在工程FilesSearcher 里實(shí)現(xiàn) 。 Html文件 Txt文件 Doc 文件純文本純文本純文本詞匯目錄信息文件信息索引表索引信息收集目錄下的文件信息分析文件后綴名解析HTML 直接讀入解析 DOC 中文分詞保存長沙學(xué)院畢業(yè)設(shè)計 (論文 ) 10 import 。此外，還將創(chuàng)建一個實(shí)現(xiàn) FileHandler 接口的 ExtensionFileHandler類。 //Properties實(shí)例將文件擴(kuò)展名映射到能夠解析以這些擴(kuò)展名為后綴的 //件的 DocumentHandler實(shí)現(xiàn)類上。 //得到映射后的對應(yīng)分析器的類 if (handlerClassName == null) return null。但是一些開源的項(xiàng)目已經(jīng)給出了一些解決方案。實(shí)現(xiàn)過程使用 API 很簡單，關(guān)鍵代碼如下 : public Document getDocument(InputStream is,File file)throws DocumentHandlerException //這里實(shí)現(xiàn)了 DocumentHandler接口中的 getDocument()方法，將 MS Word文檔 //中的InputStream對象作為參數(shù)傳遞給這個方法。 (new Field(doc_body, bodyText,))。 //返回解析并索引后的結(jié)果對象 doc } return null。然后使用標(biāo)準(zhǔn)的 DOM API 方法可以得到兩個 HTML 元素的的文本值也就是希望索引的文本標(biāo)題和正文元素，即 title 和 body。 doc =new ()。 (!())) { (new Field(html_title, title,))。//返回 doc對象給調(diào)用的函數(shù) } protected String getTitle(Element rawDoc) //getTitle方法遍歷了 DOM樹，并返回所找到的第一個 title元素的文本值 { if (rawDoc == null) { return null。 } } return title。該方法返回 //body與 /body標(biāo)簽之前的所有文本。 switch (()) { case : (getText(child))。主要技術(shù)、方法在此桌面搜索工具的實(shí)現(xiàn)過程中， Lucene提供的這幾個核心類是需要使用的，通過這幾個類的合理使用，可以達(dá)到對于純文本的索引。盡管它提供了與 FSDirectory 相同的接口，RAMDirectory 將它的所有數(shù)據(jù)加載到內(nèi)存中。 4． Document Lucene里的 Document可以理解為一個虛擬的文檔，可以往 Document里面存或者取大量數(shù)據(jù)。 Text域：需要被分析且索引。 //實(shí)例化一個 IndexWriter，指定使用 ChineseAnalyzer分析器 indexDirectory(writer,dataDir)。i++) { File f=files[i]。 //doc對象寫進(jìn) writer } 長沙學(xué)院畢業(yè)設(shè)計 (論文 ) 22 單元測試編寫測試用例 TestText類，測試索引 D盤 dataDir文件夾里面的 text文檔，測試結(jié)果如圖：圖測試索引純文本文檔利用 IndexerTest類測試索引后得到的結(jié)果，搜索內(nèi)容為 ”王敏 ”，結(jié)果如圖：圖測試搜索純文本文檔運(yùn)行結(jié)果利用文檔解析框架來對硬盤上文件建立索引，運(yùn)行結(jié)果如圖：圖建立索引運(yùn)行結(jié)果長沙學(xué)院畢業(yè)設(shè)計 (論文 ) 23 第四章文檔搜索功能設(shè)計與實(shí)現(xiàn) 文檔搜索的實(shí)現(xiàn)將設(shè)計在瀏覽器上進(jìn)行，以下選出重要的模塊進(jìn)行詳細(xì)的介紹和分析，下圖為文檔搜索的功能級數(shù)據(jù)流圖：圖搜索的功能級數(shù)據(jù)流圖從用戶角度看，搜索活動的過程如圖所示：圖搜索時的 UML活動圖索引表查詢子句分割后的詞匯集合查詢結(jié)果中文分詞語法分析，提取關(guān)鍵字集合查詢關(guān)鍵字關(guān)鍵字結(jié)合結(jié)果顯示長沙學(xué)院畢業(yè)設(shè)計 (論文 ) 24 搜索框架設(shè)計由于此次設(shè)計采用 C/S 設(shè)計，用戶搜索在瀏覽器上進(jìn)行，在后臺服務(wù)器 tomcat 的支持下，將采用 struts 框架進(jìn)行桌面搜索工具的搜索框架設(shè)計。 //實(shí)例化一個 Documents對象 (new Field(body, new FileReader(f)))。//關(guān)閉 writer return numIndexed。//記錄開始時間 int numIndexed=index(indexDir,dataDir)。 UnIndexed域：既不需要被分析也不進(jìn)行索引，但是該值同樣被存儲在索引文件中。 Analyzer在 IndexWriter的構(gòu)造函數(shù)中指定。它是一個抽象類，它的子類 (其中的兩個包含在 Lucene 中 )在合適時存儲索引。 break。 StringBuffer sb = new StringBuffer()。 //調(diào)用標(biāo) 準(zhǔn)的 DOM API接口，得到所有 body元素列表。 //獲取第一個元素。 //對 HTML文檔的 body進(jìn)行索引、分詞，并存儲在 html_body域中 } try { (new Field(filepath, (), ))。 //調(diào)用 getBody方法得到 HTML文檔的正文全文。 (false)。長沙學(xué)院畢業(yè)設(shè)計 (論文 ) 16 主要技術(shù)、思路 Html 文檔隨處可見，大部分 web 文檔采用的是 html 格式。 (new Field(doc_filename,(),))。 } catch (Exception e) { throw new DocumentHandlerException(Cannot extract text from a Word document,e)。 API 提供了一個可以替換 Jakarta POI API 的接口，這使得系統(tǒng)可以從 WORD 文檔中提取文本十分容易。 return (new FileInputStream(file),file)。amp。通過實(shí)例化不同的解析器，既可以索引相應(yīng)文檔。假如在處理過程中發(fā)生了任何類型的錯誤，所有實(shí)現(xiàn)了 Docu

點(diǎn)擊復(fù)制文檔內(nèi)容

公司管理相關(guān)推薦

網(wǎng)絡(luò)爬蟲設(shè)計與實(shí)現(xiàn)畢業(yè)設(shè)計論文-資料下載頁

【摘要】畢業(yè)設(shè)計（論文）開題報告課題名稱網(wǎng)絡(luò)爬蟲設(shè)計與實(shí)現(xiàn)學(xué)院名稱軟件學(xué)院專業(yè)名稱軟件工程學(xué)生姓名指導(dǎo)教師（內(nèi)容包括：課題的來源及意義，國內(nèi)外發(fā)展?fàn)顩r，本課題的研究目標(biāo)、研究內(nèi)容、研究方法、研究手段和進(jìn)度安排，實(shí)驗(yàn)方案的可行性分析和已具備的實(shí)驗(yàn)條件以及主要參考文獻(xiàn)等。）一．課題的來源及意義互聯(lián)網(wǎng)

2024-12-03 15:20

博客網(wǎng)站設(shè)計與實(shí)現(xiàn)畢業(yè)設(shè)計論文-資料下載頁

【摘要】河南科技大學(xué)本科畢業(yè)設(shè)計（論文）畢業(yè)設(shè)計論文博客網(wǎng)站的設(shè)計與實(shí)現(xiàn)摘要隨著Internet技術(shù)的發(fā)展，社會人們的生活和工作將越來越依賴于數(shù)字技術(shù)的發(fā)展，越來越數(shù)字化、網(wǎng)絡(luò)化、電子化、虛擬化。因此網(wǎng)站建設(shè)在互聯(lián)網(wǎng)應(yīng)用上的地位顯而易見，倍受人們的重視。為了樹立個人在網(wǎng)絡(luò)上的形象，博客作為一個新的生活方式和工作方式應(yīng)運(yùn)而生，通過設(shè)計一個博客網(wǎng)站，以達(dá)到個人推薦、展現(xiàn)自我的一個平

2025-06-24 19:39

門診就診系統(tǒng)的設(shè)計與實(shí)現(xiàn)—畢業(yè)設(shè)計論文-資料下載頁

【摘要】畢業(yè)設(shè)計(論文)門診就診系統(tǒng)的設(shè)計與實(shí)現(xiàn)論文作者姓名：申請學(xué)位專業(yè)：申請學(xué)位類別：指導(dǎo)教師姓名（職稱）：論文提交日期：門診就診系統(tǒng)的設(shè)計與實(shí)現(xiàn)摘要進(jìn)入21世紀(jì)以來，網(wǎng)絡(luò)的空前發(fā)展給人們的工作和生

2024-12-01 16:11

學(xué)籍管理系統(tǒng)的設(shè)計與實(shí)現(xiàn)—畢業(yè)設(shè)計論文-資料下載頁

【摘要】學(xué)籍管理系統(tǒng)摘要學(xué)籍管理系統(tǒng)是典型的信息管理系統(tǒng)(MIS),其開發(fā)主要包括后臺數(shù)據(jù)庫的建立和維護(hù)以及前端應(yīng)用程序的開發(fā)兩個方面。對于前者要求建立起數(shù)據(jù)一致性和完整性強(qiáng)、數(shù)據(jù)安全性好的庫。而對于后者則要求應(yīng)用程序功能完備,方便使用等特點(diǎn)。本系統(tǒng)主要完成對學(xué)生情況和學(xué)生成績的管理，包括數(shù)據(jù)庫中表的添加、修改、刪除等。系統(tǒng)還可以完

2024-11-29 03:49

畢業(yè)設(shè)計-學(xué)生考勤系統(tǒng)的設(shè)計與實(shí)現(xiàn)—論文-資料下載頁

【摘要】目錄第一章畢業(yè)設(shè)計任務(wù)書???????????????????????3第二章畢業(yè)設(shè)計題目、摘要、關(guān)鍵詞?????????????????4第三章畢業(yè)設(shè)計正文????????????????????????6數(shù)據(jù)庫基本理論..............................................6數(shù)據(jù)

2024-12-03 19:00

畢業(yè)設(shè)計論文--列車售票系統(tǒng)的設(shè)計與實(shí)現(xiàn)-資料下載頁

【摘要】基于S2SH的鐵路售票系統(tǒng)畢業(yè)設(shè)計（論文）資料設(shè)計（論文）題目：列車售票系統(tǒng)的設(shè)計與實(shí)現(xiàn)基于S2SH的鐵路售票系統(tǒng)I摘要隨著科學(xué)技術(shù)的不斷提高，計算機(jī)科學(xué)日漸成熟，其強(qiáng)

2025-01-17 00:30

威客網(wǎng)的設(shè)計與實(shí)現(xiàn)畢業(yè)設(shè)計(論文)-資料下載頁

【摘要】計算機(jī)科學(xué)與技術(shù)學(xué)院畢業(yè)設(shè)計(論文)論文題目威客網(wǎng)的設(shè)計與實(shí)現(xiàn)指導(dǎo)教師職稱副教授學(xué)生姓名學(xué)號專業(yè)班級系主任院長起止時間2020年10月11日至2020年5月23日2020年5

2025-08-19 16:30

在線考試系統(tǒng)的設(shè)計與實(shí)現(xiàn)畢業(yè)設(shè)計論文-資料下載頁

【摘要】-1-在線考試系統(tǒng)的設(shè)計與實(shí)現(xiàn)摘要隨著計算機(jī)技術(shù)的迅猛發(fā)展，高校教學(xué)和管理的信息化發(fā)展也有長足的進(jìn)步，這就要求各個環(huán)節(jié)都均衡發(fā)展，從軟硬件雙方面把學(xué)校建設(shè)成一流的信息管理、教育教學(xué)的平臺。本文設(shè)計開發(fā)的系統(tǒng)本著減輕教師工作負(fù)擔(dān)、提高工作效率、優(yōu)化學(xué)生考試流程，增強(qiáng)參加考試學(xué)生身份識別，比傳統(tǒng)的考試模式節(jié)省人力、財力和時間。本系統(tǒng)的用戶為管理

2025-08-18 16:01

畢業(yè)論文_基于人才搜索的博客系統(tǒng)的設(shè)計與實(shí)現(xiàn)-資料下載頁

【摘要】青島理工大學(xué)畢業(yè)設(shè)計(論文)I青島理工大學(xué)畢業(yè)設(shè)計（論文）題目基于人才搜索的博客系統(tǒng)的設(shè)計與實(shí)現(xiàn)

2025-06-06 13:55

vpn的應(yīng)用與實(shí)現(xiàn)_畢業(yè)設(shè)計論文-資料下載頁

【摘要】I摘要虛擬專用網(wǎng)絡(luò)(VirtualPrivateNetwork,以下簡稱VPN)是指構(gòu)建在公共網(wǎng)絡(luò)的專用網(wǎng)絡(luò)技術(shù)。VPN屬于遠(yuǎn)程訪問技術(shù),它利用公共網(wǎng)絡(luò)鏈接來建立專用網(wǎng)絡(luò)。之所以這樣稱呼,主要是因?yàn)閂PN網(wǎng)絡(luò)的任意兩節(jié)點(diǎn)間的連接,并不是傳統(tǒng)的專用網(wǎng)絡(luò)的端到端物理鏈路,而是建立在公共Inter服務(wù)

2024-11-29 02:30

在線考試系統(tǒng)的設(shè)計與實(shí)現(xiàn)畢業(yè)設(shè)計(論文)-資料下載頁

【摘要】第頁畢業(yè)設(shè)計(論文)在線考試系統(tǒng)的設(shè)計與實(shí)現(xiàn)學(xué)生學(xué)號學(xué)生姓名學(xué)院名稱專業(yè)名稱指導(dǎo)教師2021年11月20日摘要第頁在線考試系統(tǒng)旨在實(shí)現(xiàn)

2025-02-26 07:36

畢業(yè)設(shè)計-旅游信息平臺的設(shè)計與實(shí)現(xiàn)—論文-資料下載頁

【摘要】）I旅游信息平臺的設(shè)計與實(shí)現(xiàn)摘要隨著信息技術(shù)、計算機(jī)技術(shù)的飛速發(fā)展，我國旅游信息系統(tǒng)也廣泛應(yīng)用起來。但由于一些原因，這些系統(tǒng)都存在著一定的缺陷。因此要想使我國旅游信息系統(tǒng)真正發(fā)揮它應(yīng)有的功能和優(yōu)勢，必須對它的技術(shù)和原理進(jìn)行系統(tǒng)的分析，在分析的基礎(chǔ)上，設(shè)計和規(guī)劃出切實(shí)可行的實(shí)施方案。本系統(tǒng)采用當(dāng)今比較流行且實(shí)用的B/S

2024-12-04 09:53

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

畢業(yè)設(shè)計論文--桌面搜索工具的設(shè)計與實(shí)現(xiàn)(存儲版)

網(wǎng)絡(luò)爬蟲設(shè)計與實(shí)現(xiàn)畢業(yè)設(shè)計論文-資料下載頁

博客網(wǎng)站設(shè)計與實(shí)現(xiàn)畢業(yè)設(shè)計論文-資料下載頁

門診就診系統(tǒng)的設(shè)計與實(shí)現(xiàn)—畢業(yè)設(shè)計論文-資料下載頁

學(xué)籍管理系統(tǒng)的設(shè)計與實(shí)現(xiàn)—畢業(yè)設(shè)計論文-資料下載頁

畢業(yè)設(shè)計-學(xué)生考勤系統(tǒng)的設(shè)計與實(shí)現(xiàn)—論文-資料下載頁

畢業(yè)設(shè)計論文--列車售票系統(tǒng)的設(shè)計與實(shí)現(xiàn)-資料下載頁

威客網(wǎng)的設(shè)計與實(shí)現(xiàn)畢業(yè)設(shè)計(論文)-資料下載頁

在線考試系統(tǒng)的設(shè)計與實(shí)現(xiàn)畢業(yè)設(shè)計論文-資料下載頁

畢業(yè)論文_基于人才搜索的博客系統(tǒng)的設(shè)計與實(shí)現(xiàn)-資料下載頁

vpn的應(yīng)用與實(shí)現(xiàn)_畢業(yè)設(shè)計論文-資料下載頁

在線考試系統(tǒng)的設(shè)計與實(shí)現(xiàn)畢業(yè)設(shè)計(論文)-資料下載頁

畢業(yè)設(shè)計-旅游信息平臺的設(shè)計與實(shí)現(xiàn)—論文-資料下載頁

畢業(yè)設(shè)計-超市收費(fèi)系統(tǒng)的設(shè)計與實(shí)現(xiàn)—論文-資料下載頁

公文管理系統(tǒng)的設(shè)計與實(shí)現(xiàn)—畢業(yè)設(shè)計論文-資料下載頁

機(jī)房監(jiān)控系統(tǒng)的設(shè)計與實(shí)現(xiàn)—畢業(yè)設(shè)計論文-資料下載頁

畢業(yè)設(shè)計論文--桌面搜索工具的設(shè)計與實(shí)現(xiàn)(完整版)

畢業(yè)設(shè)計論文--桌面搜索工具的設(shè)計與實(shí)現(xiàn)(更新版)

畢業(yè)設(shè)計論文--桌面搜索工具的設(shè)計與實(shí)現(xiàn)(專業(yè)版)

畢業(yè)設(shè)計論文--桌面搜索工具的設(shè)計與實(shí)現(xiàn)(留存版)