freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

畢業(yè)設計論文--桌面搜索工具的設計與實現-全文預覽

2024-12-31 16:31 上一頁面

下一頁面
  

【正文】 OException { Document doc=new Document()。i。//索引后結果進行優(yōu)化 ()。 } IndexWriter writer=new IndexWriter(indexDir,new ChineseAnalyzer(),true)。 //進行索引的文檔位置 long start=new Date().getTime()。適合于網頁的正文或文檔。適合 URL、文件路徑、日期、個人姓名等。在此次設計中,將采用 ChineseAnalyzer進行中分 分詞。 經過這個分析階段可以去除文本中的一些空格或者一些停止詞 (指一些很常用、但不能用來幫助區(qū)分文檔的詞 ),對中文則可以切分成有意義的詞組。 Directory 的 還有個 子類是 RAMDirectory。 2. Directory Directory 類代表一個 Lucene 索引的位置。 利用 IndexerTest類測試索引后得到的結果,搜索內容為 ”overview”,結果如圖 : 圖 測試搜索 HTML格式文檔 純文本索引 至此,在上述的 doc解析模塊和 html解析模塊中,都看到了對文件建立索引并寫入到doc對象的語句,在經過 doc解析和 html解析后,可以使用 Lucene包提供的一些類方便快速的對純文本格式的文檔進行索引,下面將詳細講述其索引的過程。 case : (((Text) child).getData())。 i++) { Node child = (i)。 { NodeList children = ()。 //getBody方法調用 getText方法從 HTML文檔讀取所有文本。 NodeList children = (body)。 if (text != null) { title = ()。 if (() 0) { Element titleElement = ((Element) (0))。} return doc。 (!())) { (new Field(html_body, body,))。amp。 String body = getBody(rawDoc)。 //調用 Jtidy的 parseDOM方法,解析 傳給 getDocument方法的 InputStream對象, //建立一個可用于遍歷的 DOM樹。 (true)。 在此桌面搜索工具的 html 解析模塊中,采用 Jtidy 進行,通過實現 DocumentHandler接口,為 parseDOM 方法傳入一個 HTML 文檔的 InputStream對象,進而調用了 Jtidy 類[19]。由于建立了文檔解析框架,實現一個 DocumentHandler接口,用于解析 html 格式文檔。 } return doc。 //建立個域名為 filepath,把所得到的文本經過索引但不分詞,得到的結果存 //儲到filepath域中,供以后需要的時候查詢。 (().length() 0)) { Document doc = new Document()。 // API僅需要這個類 WordExtractor以及該類的一個方法 //extracText(InputStream)來處理文檔,這個方法能將 Microsoft Word文檔中的 //所有文本轉換成一個字符串對象。 3. 庫不能提取那些已經被刪除但仍然留在文檔中作為修訂標記的文本,而 POI 不能。 而在此桌面搜索工具的實現過程中, doc 格式的解析部分將采用 中的 API。 主要技術、方法 與其它文檔的格式不同, MS DOC 文檔的格式是私有的,換句話說, Microsoft 公司對這個格式進行了保密處理,這使得其他人很難編寫應用程序去讀寫 MS WORD 格式的文檔。 //根據提取出來的文件擴展名和屬性實例,對 DocumentHandler類進行實 //例化。 String handlerClassName = (ext)。 if ((dotIndex 0) amp。//建立一個 Properties屬性文件 public ExtensionFileHandler(Properties props) { handlerProps = props。 圖 文檔解析處理結構圖 從圖可以看出,此文檔解析框架的核心部分是 ExtensionFileHandler 類,每次當FileIndexer 里實例后一個 ExtensionFileHandler 后,通過 ExtensionFileHandler 的內部處理,分析得到每個文件的后綴名,然后從 里面匹配支持的解析格式, 長沙學院 畢業(yè)設計 (論文 ) 12 并對應出相應的解析器。 表 DocumentHandler接口通用的實現步驟 步驟 描述 InputStream 對象 將 InputStream 對象作為輸入 讀取并解析 InputStream 對象 從 InputStream 對象中提取文本 2. 生成一個 Lucene 的Document 實例 創(chuàng)建一個 Lucene 的 Document 實例 基于 InputStream 對象中提取的文本值創(chuàng)建 Lucene 的域 (Field)對象 將這些域添加到 Lucene 的 Document 對象中 返回 Lucene 的 Document 對象,交給調用程序進行索引 在此已經創(chuàng)建了對各種文檔的處理的基本構架由 DocumentHandler 接口和與之配套的 DocumentHandlerException 所組成,在這個基本架構上新增一個 FileHandler 接口和FileHandlerException。例如, HTML類型的文檔通常都含有標題,而 XML類型文檔沒有這一項。 import 。 首先定義一個通用的 DocumentHandler 接口,該接口為各個獨立的文檔解析器做了約定。 桌面搜索工具的設計 通過上述可行性分析 ,以及 具體功能模塊 的 分析 , 此桌面搜索工具 將 借助 Lucene開源搜索引擎包以及一些處理文檔解析的 API, 并 遵循大多數桌面搜索軟件的設計模式,分為兩個大模塊 進行設計:爬蟲索引模塊和檢索模塊 [17]。 3. Html 解析模塊 通過 html 的解析后,以純文本方式提取 html 文件里面的內容,使得相應模塊得到純文本格式的內容進行后續(xù)處理。 6.查詢顯示 利用 Lucene 包建立好索引文件后,使用 Lucene 包里面的提供的類 IndexSearcher和 Query對其的相應域進行檢索,并通過高亮顯示的方法截取出查找關鍵字周面的字段,從而明了的顯示給用戶共用戶選擇。 3. html 解析模塊 在 html 解析處理上,可以通過為 parseDOM方法傳入一個 html 文檔的 InputerStream對象,進而調用了 Jtdiy 類,然后使用標準的 DOM API 方法可以得到兩個 html 元素的文本值,即文檔的 title 和 body。 6. 設計既要突出重點,又要細致周到。 4. 簡單方便的系統(tǒng)界面。 2. 采用面向對象的開發(fā)與設計理念。同時桌面搜索引擎資料的查找和調研分析在網絡上也可以進行 [15]。 Lucene 用簡單易用的 API 隱藏了復雜的索引 和搜索操作的實現過程 [16]。在開源方面, Lucene 是一個由 Java 實現的成熟、自由、開源的信息檢索軟件包 [14]。 基本框架如下: 圖 Struts框架結構圖 2. Apache Tomcat 介紹 Tomcat 是一個小型的輕量級應用服務器,在中小型系統(tǒng)和并發(fā)訪問用戶不是很多的場合下被普遍使用,是開發(fā)和調試 JSP 程序的首選。 開發(fā)工具 此次設計主要采用 MyEclipse 加 Tomcat 后臺服務器進行,設計過程中還會用到Lucene 組件和 Struts 框架,下面 對 Struts 和 Tomcat 進行簡要介紹。另一種是基于生理學的模擬方法 , 神經網絡旨在模擬人腦的神經系統(tǒng)機構的運作機制來實現一定的功能。因此在將來的發(fā)展過程中一些更加復雜的技術會運用到軟件的設計中,新技術的研究也不會停止,比如:語義桌面的索引建立,基于自然語言的檢索,基于概念的檢索,行為關聯的的搜索等等 [13],或者借助與另外一些配套 數據庫的結合,可能對數據存取的效率會有提高。而對于基于統(tǒng)計的分詞方法,字與字相鄰共現的頻率或概率能夠較好的反映成詞的可信度,但這種方法實際上只是對語料種的字組頻度進行統(tǒng)計,不需要切分詞典,所以也有 一定的局限性,會經常抽出一些共現頻度高、但并不是常用字組,并且對常用詞的識別精度差,時空開銷大 [10]。檢索模塊是桌面搜索系統(tǒng)面向用戶的接口,它接收到用戶的請求,在索引中查找相匹配的文件,然后返回給用戶 [7]。 對于一個暫時還不完全成熟的市場和相關技術, 通過一次實際的帶有研究性的開發(fā),對自己的自學能力以及研究性能力都會有個較大的提升,并對以后的工作或者學習將是一筆不菲的經驗財富 。 到目前為止,網上推出的桌面搜索工具已經不下 20 款,用戶比較常用并比較常見的有: Windows Desktop Search、百度硬盤搜索、 Google Desktop Search、快易搜、 Yahoo Desktop Search 等等。即使借助于操作系統(tǒng)中的搜索服務(如 Windows 系統(tǒng)中的搜索)效果也不佳 ,因為一般其自帶的搜索只支持文件名以及一些文件名的相關模糊查詢 [2],不能精確到相關文檔里面的內容,而往往用戶當時在查找所需文檔的時候只是記得文檔里的某些內容 。 The fifth chapter has introduced the simple test of the systeml。在最后一章總結了系統(tǒng)在開發(fā)中的具體經歷過程以及系統(tǒng)的一些不足。長 沙 學 院 CHANGSHA UNIVERSITY 畢業(yè)設計(論文) 資 料 設計(論文)題目: 桌面搜索工具的設計與實現 系 部: 計算機科學與技術系 專 業(yè): 計算機科學與技術 學 生 姓 名: 班 級: 軟 件 三班 學號 指導教師姓名: 職稱 副教授 最終評定成績 長沙學院教務處 二○○七年十月制 目 錄 第一部分 畢業(yè)論文 一、 畢業(yè)論文 第 二 部分 外文資料翻譯 一、外文資料 原 文 二、外文資料翻譯 第 三 部分 過程管理資料 一、 畢業(yè)設計(論文)課題任務書 二、 本科畢業(yè)設計(論文)開題報告 三、 本科畢業(yè)設計(論文)中期報告 四、 畢業(yè)設計(論文)指導教師評閱表 五、 畢業(yè)設計(論文)評閱教師評閱表 六、 畢業(yè)設計(論文)答辯評 審 表 20 09 屆 本科生畢業(yè)設計(論文)資料 第 一 部分 畢業(yè)論文 ( 2021 屆) 本科生畢業(yè) 論文 桌面搜索工具的設計與實現 系 部: 計算機科學與技術系 專 業(yè): 計算機科學與技術 學 生 姓 名: 班 級: 學號 指導教師姓名: 職稱 副教授 最終評定成績 2021 年 5 月 長沙學 院 本科 生 畢業(yè) 論文 桌面搜索工具的設計與實現 系 (部): 計算機科學與技術系 專 業(yè): 計算機科學與技術
點擊復制文檔內容
公司管理相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1