freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

畢業(yè)設(shè)計論文--桌面搜索工具的設(shè)計與實(shí)現(xiàn)-wenkub.com

2024-11-29 16:31 本頁面
   

【正文】 //doc對象寫進(jìn) writer } 長沙學(xué)院 畢業(yè)設(shè)計 (論文 ) 22 單元測試 編寫測試用例 TestText類,測試索引 D盤 dataDir文件夾里面的 text文檔,測試結(jié)果如圖 : 圖 測試索引純文本文檔 利用 IndexerTest類測試索引后得到的結(jié)果,搜索內(nèi)容為 ”王敏 ”,結(jié)果如圖 : 圖 測試搜索純文本文檔 運(yùn)行結(jié)果 利用文檔解析框架來對硬盤上文件建立索引,運(yùn)行結(jié)果如圖 : 圖 建立索引運(yùn)行結(jié)果 長沙學(xué)院 畢業(yè)設(shè)計 (論文 ) 23 第四章 文檔搜索 功能 設(shè)計 與實(shí)現(xiàn) 文檔搜索的實(shí)現(xiàn)將設(shè)計在瀏覽器上進(jìn)行,以下選出重要的模塊進(jìn)行詳細(xì)的介紹和分析,下圖為文檔搜索的功能級數(shù)據(jù)流圖: 圖 搜索的功能級數(shù)據(jù)流圖 從用戶角度看,搜索活動的過程如圖 所示: 圖 搜索時的 UML活動圖 索引表 查詢子句 分割后的詞匯集合 查詢結(jié)果 中文分詞 語法分析,提取關(guān)鍵字集合 查詢關(guān)鍵字 關(guān)鍵字結(jié)合 結(jié)果顯示 長沙學(xué)院 畢業(yè)設(shè)計 (論文 ) 24 搜索框架設(shè)計 由于此次設(shè)計采用 C/S 設(shè)計,用戶搜索在瀏覽器上進(jìn)行,在后臺服務(wù)器 tomcat 的支持下,將采用 struts 框架進(jìn)行桌面搜索工具的搜索框架設(shè)計。 //實(shí)例化一個 Documents對象 (new Field(body, new FileReader(f)))。i++) { File f=files[i]。//關(guān)閉 writer return numIndexed。 //實(shí)例化一個 IndexWriter,指定使用 ChineseAnalyzer分析器 indexDirectory(writer,dataDir)。//記錄開始時間 int numIndexed=index(indexDir,dataDir)。 Text域:需要被分析且索引。 UnIndexed域:既不需要被分析也不進(jìn)行索引,但是該值同樣被存儲在索引文件中。 4. Document Lucene里的 Document可以理解為一個虛擬的文檔,可以往 Document里面存或者取大量數(shù)據(jù)。 Analyzer在 IndexWriter的構(gòu)造函數(shù)中指定 。盡管它提供了與 FSDirectory 相同的接口,RAMDirectory 將它的所有數(shù)據(jù)加載到內(nèi)存中。它是一個抽象類,它的子類 (其中的兩個包含在 Lucene 中 )在合適時存儲索引。 主要技術(shù)、方法 在此桌面搜索工具的實(shí)現(xiàn)過程中, Lucene提供的這幾個核心類是需要使用的,通過這幾個類的合理使用,可以達(dá)到對于純文本的索引。 break。 switch (()) { case : (getText(child))。 StringBuffer sb = new StringBuffer()。該方法返回 //body與 /body標(biāo)簽之前的所有文本。 //調(diào)用標(biāo) 準(zhǔn)的 DOM API接口,得到所有 body元素列表。 } } return title。 //獲取第一個元素。//返回 doc對象給調(diào)用的函數(shù) } protected String getTitle(Element rawDoc) //getTitle方法遍歷了 DOM樹,并返回所找到的第一個 title元素的文本值 { if (rawDoc == null) { return null。 //對 HTML文檔的 body進(jìn)行索引、分詞,并存儲在 html_body域中 } try { (new Field(filepath, (), ))。 (!())) { (new Field(html_title, title,))。 //調(diào)用 getBody方法得到 HTML文檔的正文全文。 doc =new ()。 (false)。然后使用標(biāo)準(zhǔn)的 DOM API 方法可以得到兩個 HTML 元素的的 文本值 也就是希望索引的文本標(biāo)題和正文元素,即 title 和 body。 長沙學(xué)院 畢業(yè)設(shè)計 (論文 ) 16 主要技術(shù)、思路 Html 文檔隨處可見,大部分 web 文檔采用的是 html 格式。 //返回解析并索引后的結(jié)果對象 doc } return null。 (new Field(doc_filename,(),))。 (new Field(doc_body, bodyText,))。 } catch (Exception e) { throw new DocumentHandlerException(Cannot extract text from a Word document,e)。 實(shí)現(xiàn)過程 使用 API 很簡單,關(guān)鍵代碼如下 : public Document getDocument(InputStream is,File file)throws DocumentHandlerException //這里實(shí)現(xiàn)了 DocumentHandler接口中的 getDocument()方法,將 MS Word文檔 //中的InputStream對象作為參數(shù)傳遞給這個方法。 API 提供了一個可以替換 Jakarta POI API 的接口,這使得系統(tǒng)可以從 WORD 文檔中提取文本十分容易。但是一些開源的項目已經(jīng)給出了一些解決方案。 return (new FileInputStream(file),file)。 //得到映射后的對應(yīng)分析器的類 if (handlerClassName == null) return null。amp。 //Properties實(shí)例將文件擴(kuò)展名映射到能夠解析以這些擴(kuò)展名為后綴的 //件的 DocumentHandler實(shí)現(xiàn)類上。通過實(shí)例化不同的解析器,既可以索引相應(yīng)文檔。此外,還將創(chuàng)建一個實(shí)現(xiàn) FileHandler 接口的 ExtensionFileHandler類。 假如在處理過程中發(fā)生了任何類型的錯誤,所有實(shí)現(xiàn)了 DocumentHandler接口的類都會拋出 DocumentHandlerException類型的異常。 Html文件 Txt文件 Doc 文件 純文本 純文本 純文本 詞匯 目錄 信息 文件 信息 索引表 索引信息 收集 目錄下的文件信息 分析文件后綴名 解析HTML 直接讀入 解析 DOC 中文分詞 保存 長沙學(xué)院 畢業(yè)設(shè)計 (論文 ) 10 import 。 在這里將 InputerStream對象作為 getDocument()方法的輸入?yún)?shù),因為在本章中,使用的所有工具都能夠從 InputStream類型的對象中提取文本數(shù)據(jù)。 爬蟲索引模塊以及其一些索引測試程序在工程 IndexFiles 里實(shí)現(xiàn),而檢索模塊以及其 一些搜索測試測試程序在工程FilesSearcher 里實(shí)現(xiàn) 。 4.中文分詞模塊 桌面搜索工具 建立索引 搜索 收集文件信息 分析文件類型 文件處理 存入索引文件 中文分詞 提取關(guān)鍵字 結(jié)果顯示 中文分詞 直接讀入 查詢索引文件 解析 html 解析 doc 長沙學(xué)院 畢業(yè)設(shè)計 (論文 ) 8 通過中文分詞,使得用戶輸入的內(nèi)容得到切分,得到切分后的部分一般為常用詞組,盡量減少無意義詞組的出現(xiàn),并盡量達(dá)到消除日常中文詞組的歧義,進(jìn)而得到較準(zhǔn)確的搜索結(jié)果。 任務(wù)概述 綜合上述分析,本次設(shè)計的主要目的是搜索硬盤里 Html 網(wǎng)頁、 Word 文檔 、 txt 純文本,根據(jù)不同的后綴名進(jìn)行相應(yīng)的解析,并最后通過中文分詞等處理,生成適合查找的相應(yīng)的倒排索引文件,而在搜索階段,對用戶輸入的不同要求,對輸入的內(nèi)容進(jìn)行中文分詞,并提取出關(guān)鍵字,然后在索引文件里面進(jìn)行查找,并返回所需查找文件的路徑以及相應(yīng)關(guān)鍵字段周圍的截斷部分。 4.中文分詞模塊 利用 Lucene 提供的兩個中文分析器 (ChineseAnalyzer 和 CJKAnalyzer)進(jìn)行中文分析,或?qū)崿F(xiàn)一個更優(yōu)化的中文分詞工具,盡量提高分詞的準(zhǔn)確率,消除歧義的影響。要符合設(shè)計需求,在有可能改進(jìn)的地方進(jìn)行擴(kuò)充,使系統(tǒng)更適應(yīng)用戶的需要。設(shè)計簡單友好的系統(tǒng)界面,方便用戶較快的適應(yīng)系統(tǒng)的操作。運(yùn)用面向?qū)ο蠹夹g(shù)的前提是對整體系統(tǒng)的高度和準(zhǔn)確抽象,通過它可以保證系統(tǒng)良好的框架,進(jìn)而帶來產(chǎn)品較強(qiáng)的穩(wěn)定性和運(yùn)行效率。 所以從經(jīng)濟(jì)角度分析,創(chuàng)建桌面搜索引擎也是可行的。所以利用 Lucene 進(jìn)行桌面搜索的設(shè)計 具有可行性。它并不具備搜索應(yīng)用程序的完整特征,它只關(guān)注于文本的索引和搜索。對于一個初學(xué)者來說,可以這樣認(rèn)為,當(dāng)在一臺機(jī)器上配置好 Apahce 服務(wù)器,可利用它響應(yīng)對 HTML 頁面的訪問請求。 介紹 Struts 是 Apache 軟件組織提供的一項開放源碼項目,它為 Java Web 應(yīng)用提供了模型 視圖 控制器( ModelView Controller,簡稱 MVC)框架,尤其適用于開發(fā)大型可擴(kuò)展的 Web 應(yīng)用。以上兩種思路也是近年來人工智能領(lǐng)域研究的熱點(diǎn)問題 , 應(yīng)用到分詞 方法上 , 于是產(chǎn)生了專家系統(tǒng)分詞法和神經(jīng)網(wǎng)絡(luò)分詞法 。 第二, 中分分詞的是精確度的一個最重要的因素。實(shí)際應(yīng)用的統(tǒng)計方法 長沙學(xué)院 畢業(yè)設(shè)計 (論文 ) 3 都要使用一部基本的分詞詞典進(jìn)行串匹配分詞,同樣使用統(tǒng)計方法識別一些新詞,即將串頻統(tǒng)計和串匹配結(jié)合起來,發(fā)揮匹配分詞切分速度快、效率高的特點(diǎn),又利用了無詞典分詞結(jié)合上下文識別生詞、自動消除歧義的優(yōu)點(diǎn)。 而在桌面搜索關(guān)鍵的中分分詞方面,目前 現(xiàn)有的分詞算法可以分為三類:基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計的分詞方法 [8]。 國內(nèi)外研究現(xiàn)狀及前景 目前已經(jīng)有許多大公司投入桌面搜索的研究當(dāng)中,比如:百度,谷歌,中搜,微軟等。對于中國用戶來說比較受用戶歡迎的是 Google Desktop Search 和Windows Desktop Search,因為這兩款搜索工具在搜索精確度和資源耗費(fèi)上都相比同類產(chǎn)品具有優(yōu)勢。人們非常希望在自己容量龐大的硬盤里尋找 Word 文檔、 PDF 或者文本文件,或者 c,cpp,pas,java,asp,php 等程序的源代碼文件時,就像 在網(wǎng)頁上 進(jìn)行關(guān)鍵字搜索那么簡單。 And the last chapter has summarized the experience of development and some bug as well as weakness of the system . Keywords: search engine, Desktop Search, Lucene 長沙學(xué)院 畢業(yè)設(shè)計 (論文 ) III 目 錄 摘 要 ................................................................................................................ I ABSTRACT...................................................................................................... II 第一章 緒論 ...................................................................................................... 1 課題來源 ....................................................................................................................... 1 開發(fā)背景 ...................................................................................................................
點(diǎn)擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1