freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

畢業(yè)設計論文--桌面搜索工具的設計與實現(編輯修改稿)

2025-01-08 16:31 本頁面
 

【文章內容簡介】 3 都要使用一部基本的分詞詞典進行串匹配分詞,同樣使用統(tǒng)計方法識別一些新詞,即將串頻統(tǒng)計和串匹配結合起來,發(fā)揮匹配分詞切分速度快、效率高的特點,又利用了無詞典分詞結合上下文識別生詞、自動消除歧義的優(yōu)點。 盡管目前的各類桌面搜索工具都能較好的滿足用戶的基本需求,但隨著用戶成份的多元化,用戶需求日漸增長并變化,目前以及以后桌面搜索技術主要在三個方面進行提升:速度,精確度,個人化 [11]。 首先, 目前的桌面搜索工具,一般都采用建立文件索引的方式來增強桌面的檢索效率,然而,即使使用了這樣的工具,在個人計算機(相對小的集合)上搜索文檔仍然比不上在 Web(較大集合)上的搜索文檔方便,其根本原因在于目前的搜索工具既無法使用 PageRank 這樣的排序機制 [12],也沒有充分利用個人計算機的特性,特別是上下文信息。因此在將來的發(fā)展過程中一些更加復雜的技術會運用到軟件的設計中,新技術的研究也不會停止,比如:語義桌面的索引建立,基于自然語言的檢索,基于概念的檢索,行為關聯(lián)的的搜索等等 [13],或者借助與另外一些配套 數據庫的結合,可能對數據存取的效率會有提高。 第二, 中分分詞的是精確度的一個最重要的因素。 對于以后的中文分詞發(fā)展前景,主要還是利用人工智能進行處理。 人工智能是對信息進行智能化處理的一種模式 ,主要有兩種處理方式 : 一種是基于心理學的符號處理方法 , 模擬人腦的功能 , 像專家系統(tǒng)即是希望模擬人腦的功能 , 構造推理網絡 , 經過符號轉換 , 從而可以進行解釋性處理。另一種是基于生理學的模擬方法 , 神經網絡旨在模擬人腦的神經系統(tǒng)機構的運作機制來實現一定的功能。以上兩種思路也是近年來人工智能領域研究的熱點問題 , 應用到分詞 方法上 , 于是產生了專家系統(tǒng)分詞法和神經網絡分詞法 。而中文分詞的技術突破不僅是在搜索這塊能得到很好的應用, 涉及到眾多的學科和研究領域 。 第三,就像 google 最近推出的 igoogle 一樣,個性化的搜索不僅是網頁上的搜索趨勢,也同樣是桌面搜索的發(fā)展趨勢,軟件會提供給用戶不同偏向的算法,不同的用戶進行同樣的搜索會得到不同的結果,一對一的服務才更能滿足用戶,才會更具有優(yōu)勢。 開發(fā)工具 此次設計主要采用 MyEclipse 加 Tomcat 后臺服務器進行,設計過程中還會用到Lucene 組件和 Struts 框架,下面 對 Struts 和 Tomcat 進行簡要介紹。 介紹 Struts 是 Apache 軟件組織提供的一項開放源碼項目,它為 Java Web 應用提供了模型 視圖 控制器( ModelView Controller,簡稱 MVC)框架,尤其適用于開發(fā)大型可擴展的 Web 應用。 Struts 為 Web 應用提供了一個通用的框架,使得開發(fā)人員可以把精力 長沙學院 畢業(yè)設計 (論文 ) 4 集中在如何解決實際業(yè)務問題上。此外, Struts 框架提供了許多供擴展和定制的地方,應用程序可以方便的擴展框架,來更好的適應用戶的實際需求。 基本框架如下: 圖 Struts框架結構圖 2. Apache Tomcat 介紹 Tomcat 是一個小型的輕量級應用服務器,在中小型系統(tǒng)和并發(fā)訪問用戶不是很多的場合下被普遍使用,是開發(fā)和調試 JSP 程序的首選。對于一個初學者來說,可以這樣認為,當在一臺機器上配置好 Apahce 服務器,可利用它響應對 HTML 頁面的訪問請求。實際上 Tomcat 部分是 Apache 服務器的擴展,但它是獨立運行的,所以當你運行 tomcat 時,它實際上作為一個與 Apache 獨立的進程單獨運行的。 軟硬件需求 硬件需求: CPU: AMD Athlon TM 3000+ 內存 : 512M 以上 軟件需求 操作系統(tǒng)版本: Windows XP SP2 開發(fā)工具: MyEclipse Java 組件: 后臺服務器: Apache Tomcat 開發(fā)語言: Java 瀏覽器: BROWSER (Controller) Servlet Request (View) JSP 1 Responsese 5 3 4 (Model) JavaBean Instantiate 2 Application Server Enterprise Server/ Data Sources 長沙學院 畢業(yè)設計 (論文 ) 5 第二章 概要設計 可行性分析 目前,眾多公司都推出了自己的桌面搜索軟件,由于已存在的網頁搜索 的相關經驗,一些公司都擁有自己的核心算法。在開源方面, Lucene 是一個由 Java 實現的成熟、自由、開源的信息檢索軟件包 [14]。它并不具備搜索應用程序的完整特征,它只關注于文本的索引和搜索。 Lucene 的檢索算法屬于索引檢索,即用空間來換取時間,對需要檢索的文件、字符流進行全文索引,在檢索的時候對索引進行快速的檢索,得到檢索位置,這個位置記錄檢索詞出現的文件路徑或者某個關鍵詞。 Lucene 具有清晰的整體架構、強大的索引、分析、過濾、搜索功能以及高度的可擴展性。 Lucene 用簡單易用的 API 隱藏了復雜的索引 和搜索操作的實現過程 [16]。所以利用 Lucene 進行桌面搜索的設計 具有可行性。 該桌面搜索引擎主要采用單機開發(fā),在個人電腦上即可進行。因為桌面搜索引擎是設計給經常使用計算機的普通用戶的,所以關于桌面搜索引擎的需求分析等在同學之間基本上就可以進行。同時桌面搜索引擎資料的查找和調研分析在網絡上也可以進行 [15]。 所以從經濟角度分析,創(chuàng)建桌面搜索引擎也是可行的。 綜上所述,設計桌面搜索引擎具有較高的實用價值,在技術上和經濟上都是可行的。 設計的基本思想 設計思想遵循以下幾點: 1. 采用 C/S 模式進行開發(fā),其優(yōu)點是后臺與前臺處理層次分明,而且符合眾多已經習慣網頁搜索方式的用戶。 2. 采用面向對象的開發(fā)與設計理念。運用面向對象技術的前提是對整體系統(tǒng)的高度和準確抽象,通過它可以保證系統(tǒng)良好的框架,進而帶來產品較強的穩(wěn)定性和運行效率。 3. 采用模塊化設計。模塊化設計要求將整個系統(tǒng)劃分成基于小的模塊,有利于代碼的重載,簡化設計和實現過程。 4. 簡單方便的系統(tǒng)界面。設計簡單友好的系統(tǒng)界面,方便用戶較快的適應系統(tǒng)的操作。 長沙學院 畢業(yè)設計 (論文 ) 6 5.速度優(yōu)先原則。由于此工具最重要的評測標準就是速度,因此在設計過程 中,具體過程盡量做到資源占用少,速度快。 6. 設計既要突出重點,又要細致周到。要符合設計需求,在有可能改進的地方進行擴充,使系統(tǒng)更適應用戶的需要。 設計的實現方法 1.用戶界面模塊 利用 JSP頁面設計以及配合 CSS達到界面的清晰,用戶的操作以及使用簡單而明確。 2. doc 解析模塊 API 提供了一個可替換 Jakarta POI API 的接口,使得從 Microsoft Word 文檔中提取文本的操作變得十分輕松,從使得 doc 解析功能的得以實現。 3. html 解析模塊 在 html 解析處理上,可以通過為 parseDOM方法傳入一個 html 文檔的 InputerStream對象,進而調用了 Jtdiy 類,然后使用標準的 DOM API 方法可以得到兩個 html 元素的文本值,即文檔的 title 和 body。 4.中文分詞模塊 利用 Lucene 提供的兩個中文分析器 (ChineseAnalyzer 和 CJKAnalyzer)進行中文分析,或實現一個更優(yōu)化的中文分詞工具,盡量提高分詞的準確率,消除歧義的影響。 5.索引文件建立 利用 Lucene 包自帶的函數,在經過中文分詞后,進行倒排索引文件的建立 。建立相應后綴的各種文件,比如:域名 (.fnm),項詞典 (.tis),項頻率 (.frg),項位置 (.prx)。 6.查詢顯示 利用 Lucene 包建立好索引文件后,使用 Lucene 包里面的提供的類 IndexSearcher和 Query對其的相應域進行檢索,并通過高亮顯示的方法截取出查找關鍵字周面的字段,從而明了的顯示給用戶共用戶選擇。 任務概述 綜合上述分析,本次設計的主要目的是搜索硬盤里 Html 網頁、 Word 文檔 、 txt 純文本,根據不同的后綴名進行相應的解析,并最后通過中文分詞等處理,生成適合查找的相應的倒排索引文件,而在搜索階段,對用戶輸入的不同要求,對輸入的內容進行中文分詞,并提取出關鍵字,然后在索引文件里面進行查找,并返回所需查找文件的路徑以及相應關鍵字段周圍的截斷部分。 長沙學院 畢業(yè)設計 (論文 ) 7 任務模塊圖 任務 模塊圖如圖 所示 圖 系統(tǒng)功能模塊圖 系統(tǒng)功能描述 設計一個操作簡單,用戶易用的界面,使用戶使用方便。 解析模塊 通過 doc 的解析后 ,以純文本方式提取 doc 文件里面的內容,使得相應模塊得到純文本格式的內容進行后續(xù)處理。 3. Html 解析模塊 通過 html 的解析后,以純文本方式提取 html 文件里面的內容,使得相應模塊得到純文本格式的內容進行后續(xù)處理。 4.中文分詞模塊 桌面搜索工具 建立索引 搜索 收集文件信息 分析文件類型 文件處理 存入索引文件 中文分詞 提取關鍵字 結果顯示 中文分詞 直接讀入 查詢索引文件 解析 html 解析 doc 長沙學院 畢業(yè)設計 (論文 ) 8 通過中文分詞,使得用戶輸入的內容得到切分,得到切分后的部分一般為常用詞組,盡量減少無意義詞組的出現,并盡量達到消除日常中文詞組的歧義,進而得到較準確的搜索結果。 5. 索引文件的建立 通過建立索引文件,相當建立了一個數據映射表,使得在搜索階段,可以迅速的查詢到所要查詢的信息 ,這也是桌面搜索速度快的關鍵因素。 6. 查詢顯示 用戶通過輸入查詢內容,查詢顯示模塊會通過中文分詞得到相應關鍵字,對索引文件進行查詢,得到的結果通過高亮顯示的方法截取字段顯示出來。 桌面搜索工具的設計 通過上述可行性分析 ,以及 具體功能模塊 的 分析 , 此桌面搜索工具 將 借助 Lucene開源搜索引擎包以及一些處理文檔解析的 API, 并 遵循大多數桌面搜索軟件的設計模式,分為兩個大模塊 進行設計:爬蟲索引模塊和檢索模塊 [17]。 爬蟲索引模塊以及其一些索引測試程序在工程 IndexFiles 里實現,而檢索模塊以及其 一些搜索測試測試程序在工程FilesSearcher 里實現 。 基本的 系統(tǒng) 結構如下圖所示: 圖 系統(tǒng)結構圖 索引文件 索引庫 搜索索引 收集數據 獲得用戶的請求 返回搜索結果 用戶 本機硬盤 長沙學院 畢業(yè)設計 (論文 ) 9 第三章 索引 功能的 設計 按功能模塊詳細介紹設計流程和實現方法, 本章 從中選取了重要模塊進行詳細的設計介紹。 建立索引的功能級數據流圖如下: 圖 建立索引的功能級數據流圖 文檔解析框架 到目前為 止,已經在上章的概要設計中提出了 解析 所支持格式的 單獨的 解決方案,但是如果構建一個軟件框架能夠處理 這些 不同的文件類型,并且這個框架會還能夠自動地將每一種文件類型中的數據按照統(tǒng)一的文本格式提取出來的話, 這樣會使工作效率大大提高。 首先定義一個通用的 DocumentHandler 接口,該接口為各個獨立的文檔解析器做了約定。 在這里將 InputerStream對象作為 getDocument()方法的輸入參數,因為在本章中,使用的所有工具都能夠從 InputStream類型的對象中提取文本數據。同時, InputStream對象的使用方便,因為可以通過 (File)的構造函數把各種 File 類型的對象轉換成 FileInputStream類型的對象。 import 。 import 。 Html文件 Txt文件 Doc 文件 純文本 純文本 純文本 詞匯 目錄 信息 文件 信息 索引表 索引信息 收集 目錄下的文件信息 分析文件后綴名 解析HTML 直接讀入 解析 DOC 中文分詞 保存 長沙學院 畢業(yè)設計 (論文 ) 10 import 。 public interface DocumentHandler { Document getDo
點擊復制文檔內容
公司管理相關推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1