freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

畢業(yè)設(shè)計(jì)論文--桌面搜索工具的設(shè)計(jì)與實(shí)現(xiàn)-在線瀏覽

2025-02-05 16:31本頁面
  

【正文】 ........................................................................................... 32 第五章 測(cè)試 .................................................................................................... 35 測(cè)試綜述 ..................................................................................................................... 35 測(cè)試過程 .................................................................................................................... 35 程序錯(cuò)誤 .......................................................................................................... 35 第六章 總結(jié) .................................................................................................... 37 系統(tǒng)的缺點(diǎn)不足 ......................................................................................................... 37 心得體會(huì) ..................................................................................................................... 37 致謝 ................................................................................................................. 38 參考 文獻(xiàn) ......................................................................................................... 39 長(zhǎng)沙學(xué)院 畢業(yè)設(shè)計(jì) (論文 ) 1 第一章 緒論 課題來源 課題任務(wù)是 設(shè)計(jì)并實(shí)現(xiàn)一個(gè)桌面搜索工具,通過瀏覽器,讓用戶在自己的計(jì)算機(jī)的本地硬盤中,迅速找到 Html 網(wǎng)頁、 Word 文檔 、 txt 純文本,要求精確到各種格式文檔里面的內(nèi)容。 隨著 軟硬件的飛速發(fā)展, 個(gè)人計(jì)算機(jī)硬盤容量不斷擴(kuò)大, 軟件儲(chǔ)存的數(shù)據(jù)越來越多, 用戶 也 在自己計(jì)算機(jī)上存放越來越多的數(shù)據(jù),使得人們經(jīng)常花費(fèi)大量時(shí)間在自己 龐大的 計(jì)算機(jī) 硬盤里 搜尋某篇文檔資料、演示文檔、表格或電子郵件。人們非常希望在自己容量龐大的硬盤里尋找 Word 文檔、 PDF 或者文本文件,或者 c,cpp,pas,java,asp,php 等程序的源代碼文件時(shí),就像 在網(wǎng)頁上 進(jìn)行關(guān)鍵字搜索那么簡(jiǎn)單。 盡管目前在技術(shù)和應(yīng)用方面還存在一定的問題,但桌面搜索已經(jīng)成為一個(gè)被普遍看好的熱門市場(chǎng),因?yàn)榉?wù)商相信桌面搜索比傳統(tǒng)的基于瀏覽器的搜索引擎有助于增加消費(fèi)者的忠誠度,并為發(fā)布個(gè)性化廣告奠定基礎(chǔ) —— 在這方面,可能有點(diǎn)類似于即 時(shí) 信息的廣告形式,這也是各種網(wǎng)絡(luò)服務(wù)工 長(zhǎng)沙學(xué)院 畢業(yè)設(shè)計(jì) (論文 ) 2 具相互影響、相互吸收優(yōu)點(diǎn)的發(fā)展所致 [3]。對(duì)于中國(guó)用戶來說比較受用戶歡迎的是 Google Desktop Search 和Windows Desktop Search,因?yàn)檫@兩款搜索工具在搜索精確度和資源耗費(fèi)上都相比同類產(chǎn)品具有優(yōu)勢(shì)。 而 Google 硬盤搜索,實(shí)力強(qiáng)大 , 多搜索渠道,能夠讓我們更方便地找到所需數(shù)據(jù) [4]。 國(guó)內(nèi)外研究現(xiàn)狀及前景 目前已經(jīng)有許多大公司投入桌面搜索的研究當(dāng)中,比如:百度,谷歌,中搜,微軟等。爬蟲和索引模塊實(shí)現(xiàn)兩大功能,首先桌面搜索系統(tǒng)定期激活該模塊中的一個(gè)或多個(gè)爬蟲,對(duì)存在硬盤中的相關(guān)文件逐一分析并抽取相關(guān)信息,這些信息不僅包含文件名、存儲(chǔ)位置,而且包 括這些文件的內(nèi)容和元數(shù)據(jù)等;其次桌面搜索系統(tǒng)利用這些信息對(duì)該文件建立索引并保存到索引文件中,用于以后的檢索 [6]。 而在桌面搜索關(guān)鍵的中分分詞方面,目前 現(xiàn)有的分詞算法可以分為三類:基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計(jì)的分詞方法 [8]?;诶斫獾姆衷~方法通過進(jìn)行句法、語義分析和相關(guān)存儲(chǔ)信息讓就計(jì)算機(jī)模擬人對(duì)句子的理解,達(dá)到識(shí)別詞的效果,這種分詞方法需要大量的語言知識(shí)和信息,由于漢語語言知識(shí)的籠統(tǒng)、復(fù)雜性,難以將各種語言信息組織成機(jī)器可讀取的形式,因此目前還只是處于試驗(yàn)階段。實(shí)際應(yīng)用的統(tǒng)計(jì)方法 長(zhǎng)沙學(xué)院 畢業(yè)設(shè)計(jì) (論文 ) 3 都要使用一部基本的分詞詞典進(jìn)行串匹配分詞,同樣使用統(tǒng)計(jì)方法識(shí)別一些新詞,即將串頻統(tǒng)計(jì)和串匹配結(jié)合起來,發(fā)揮匹配分詞切分速度快、效率高的特點(diǎn),又利用了無詞典分詞結(jié)合上下文識(shí)別生詞、自動(dòng)消除歧義的優(yōu)點(diǎn)。 首先, 目前的桌面搜索工具,一般都采用建立文件索引的方式來增強(qiáng)桌面的檢索效率,然而,即使使用了這樣的工具,在個(gè)人計(jì)算機(jī)(相對(duì)小的集合)上搜索文檔仍然比不上在 Web(較大集合)上的搜索文檔方便,其根本原因在于目前的搜索工具既無法使用 PageRank 這樣的排序機(jī)制 [12],也沒有充分利用個(gè)人計(jì)算機(jī)的特性,特別是上下文信息。 第二, 中分分詞的是精確度的一個(gè)最重要的因素。 人工智能是對(duì)信息進(jìn)行智能化處理的一種模式 ,主要有兩種處理方式 : 一種是基于心理學(xué)的符號(hào)處理方法 , 模擬人腦的功能 , 像專家系統(tǒng)即是希望模擬人腦的功能 , 構(gòu)造推理網(wǎng)絡(luò) , 經(jīng)過符號(hào)轉(zhuǎn)換 , 從而可以進(jìn)行解釋性處理。以上兩種思路也是近年來人工智能領(lǐng)域研究的熱點(diǎn)問題 , 應(yīng)用到分詞 方法上 , 于是產(chǎn)生了專家系統(tǒng)分詞法和神經(jīng)網(wǎng)絡(luò)分詞法 。 第三,就像 google 最近推出的 igoogle 一樣,個(gè)性化的搜索不僅是網(wǎng)頁上的搜索趨勢(shì),也同樣是桌面搜索的發(fā)展趨勢(shì),軟件會(huì)提供給用戶不同偏向的算法,不同的用戶進(jìn)行同樣的搜索會(huì)得到不同的結(jié)果,一對(duì)一的服務(wù)才更能滿足用戶,才會(huì)更具有優(yōu)勢(shì)。 介紹 Struts 是 Apache 軟件組織提供的一項(xiàng)開放源碼項(xiàng)目,它為 Java Web 應(yīng)用提供了模型 視圖 控制器( ModelView Controller,簡(jiǎn)稱 MVC)框架,尤其適用于開發(fā)大型可擴(kuò)展的 Web 應(yīng)用。此外, Struts 框架提供了許多供擴(kuò)展和定制的地方,應(yīng)用程序可以方便的擴(kuò)展框架,來更好的適應(yīng)用戶的實(shí)際需求。對(duì)于一個(gè)初學(xué)者來說,可以這樣認(rèn)為,當(dāng)在一臺(tái)機(jī)器上配置好 Apahce 服務(wù)器,可利用它響應(yīng)對(duì) HTML 頁面的訪問請(qǐng)求。 軟硬件需求 硬件需求: CPU: AMD Athlon TM 3000+ 內(nèi)存 : 512M 以上 軟件需求 操作系統(tǒng)版本: Windows XP SP2 開發(fā)工具: MyEclipse Java 組件: 后臺(tái)服務(wù)器: Apache Tomcat 開發(fā)語言: Java 瀏覽器: BROWSER (Controller) Servlet Request (View) JSP 1 Responsese 5 3 4 (Model) JavaBean Instantiate 2 Application Server Enterprise Server/ Data Sources 長(zhǎng)沙學(xué)院 畢業(yè)設(shè)計(jì) (論文 ) 5 第二章 概要設(shè)計(jì) 可行性分析 目前,眾多公司都推出了自己的桌面搜索軟件,由于已存在的網(wǎng)頁搜索 的相關(guān)經(jīng)驗(yàn),一些公司都擁有自己的核心算法。它并不具備搜索應(yīng)用程序的完整特征,它只關(guān)注于文本的索引和搜索。 Lucene 具有清晰的整體架構(gòu)、強(qiáng)大的索引、分析、過濾、搜索功能以及高度的可擴(kuò)展性。所以利用 Lucene 進(jìn)行桌面搜索的設(shè)計(jì) 具有可行性。因?yàn)樽烂嫠阉饕媸窃O(shè)計(jì)給經(jīng)常使用計(jì)算機(jī)的普通用戶的,所以關(guān)于桌面搜索引擎的需求分析等在同學(xué)之間基本上就可以進(jìn)行。 所以從經(jīng)濟(jì)角度分析,創(chuàng)建桌面搜索引擎也是可行的。 設(shè)計(jì)的基本思想 設(shè)計(jì)思想遵循以下幾點(diǎn): 1. 采用 C/S 模式進(jìn)行開發(fā),其優(yōu)點(diǎn)是后臺(tái)與前臺(tái)處理層次分明,而且符合眾多已經(jīng)習(xí)慣網(wǎng)頁搜索方式的用戶。運(yùn)用面向?qū)ο蠹夹g(shù)的前提是對(duì)整體系統(tǒng)的高度和準(zhǔn)確抽象,通過它可以保證系統(tǒng)良好的框架,進(jìn)而帶來產(chǎn)品較強(qiáng)的穩(wěn)定性和運(yùn)行效率。模塊化設(shè)計(jì)要求將整個(gè)系統(tǒng)劃分成基于小的模塊,有利于代碼的重載,簡(jiǎn)化設(shè)計(jì)和實(shí)現(xiàn)過程。設(shè)計(jì)簡(jiǎn)單友好的系統(tǒng)界面,方便用戶較快的適應(yīng)系統(tǒng)的操作。由于此工具最重要的評(píng)測(cè)標(biāo)準(zhǔn)就是速度,因此在設(shè)計(jì)過程 中,具體過程盡量做到資源占用少,速度快。要符合設(shè)計(jì)需求,在有可能改進(jìn)的地方進(jìn)行擴(kuò)充,使系統(tǒng)更適應(yīng)用戶的需要。 2. doc 解析模塊 API 提供了一個(gè)可替換 Jakarta POI API 的接口,使得從 Microsoft Word 文檔中提取文本的操作變得十分輕松,從使得 doc 解析功能的得以實(shí)現(xiàn)。 4.中文分詞模塊 利用 Lucene 提供的兩個(gè)中文分析器 (ChineseAnalyzer 和 CJKAnalyzer)進(jìn)行中文分析,或?qū)崿F(xiàn)一個(gè)更優(yōu)化的中文分詞工具,盡量提高分詞的準(zhǔn)確率,消除歧義的影響。建立相應(yīng)后綴的各種文件,比如:域名 (.fnm),項(xiàng)詞典 (.tis),項(xiàng)頻率 (.frg),項(xiàng)位置 (.prx)。 任務(wù)概述 綜合上述分析,本次設(shè)計(jì)的主要目的是搜索硬盤里 Html 網(wǎng)頁、 Word 文檔 、 txt 純文本,根據(jù)不同的后綴名進(jìn)行相應(yīng)的解析,并最后通過中文分詞等處理,生成適合查找的相應(yīng)的倒排索引文件,而在搜索階段,對(duì)用戶輸入的不同要求,對(duì)輸入的內(nèi)容進(jìn)行中文分詞,并提取出關(guān)鍵字,然后在索引文件里面進(jìn)行查找,并返回所需查找文件的路徑以及相應(yīng)關(guān)鍵字段周圍的截?cái)嗖糠帧? 解析模塊 通過 doc 的解析后 ,以純文本方式提取 doc 文件里面的內(nèi)容,使得相應(yīng)模塊得到純文本格式的內(nèi)容進(jìn)行后續(xù)處理。 4.中文分詞模塊 桌面搜索工具 建立索引 搜索 收集文件信息 分析文件類型 文件處理 存入索引文件 中文分詞 提取關(guān)鍵字 結(jié)果顯示 中文分詞 直接讀入 查詢索引文件 解析 html 解析 doc 長(zhǎng)沙學(xué)院 畢業(yè)設(shè)計(jì) (論文 ) 8 通過中文分詞,使得用戶輸入的內(nèi)容得到切分,得到切分后的部分一般為常用詞組,盡量減少無意義詞組的出現(xiàn),并盡量達(dá)到消除日常中文詞組的歧義,進(jìn)而得到較準(zhǔn)確的搜索結(jié)果。 6. 查詢顯示 用戶通過輸入查詢內(nèi)容,查詢顯示模塊會(huì)通過中文分詞得到相應(yīng)關(guān)鍵字,對(duì)索引文件進(jìn)行查詢,得到的結(jié)果通過高亮顯示的方法截取字段顯示出來。 爬蟲索引模塊以及其一些索引測(cè)試程序在工程 IndexFiles 里實(shí)現(xiàn),而檢索模塊以及其 一些搜索測(cè)試測(cè)試程序在工程FilesSearcher 里實(shí)現(xiàn) 。 建立索引的功能級(jí)數(shù)據(jù)流圖如下: 圖 建立索引的功能級(jí)數(shù)據(jù)流圖 文檔解析框架 到目前為 止,已經(jīng)在上章的概要設(shè)計(jì)中提出了 解析 所支持格式的 單獨(dú)的 解決方案,但是如果構(gòu)建一個(gè)軟件框架能夠處理 這些 不同的文件類型,并且這個(gè)框架會(huì)還能夠自動(dòng)地將每一種文件類型中的數(shù)據(jù)按照統(tǒng)一的文本格式提取出來的話, 這樣會(huì)使工作效率大大提高。 在這里將 InputerStream對(duì)象作為 getDocument()方法的輸入?yún)?shù),因?yàn)樵诒菊轮?,使用的所有工具都能夠?InputStream類型的對(duì)象中提取文本數(shù)據(jù)。 import 。 Html文件 Txt文件 Doc 文件 純文本 純文本 純文本 詞匯 目錄 信息 文件 信息 索引表 索引信息 收集 目錄下的文件信息 分析文件后綴名 解析HTML 直接讀入 解析 DOC 中文分詞 保存 長(zhǎng)沙學(xué)院 畢業(yè)設(shè)計(jì) (論文 ) 10 import 。 } 所有實(shí)現(xiàn)了這個(gè)接口的類型都會(huì)返回 Lucene的 Document類的一個(gè)實(shí)例,這個(gè)Document實(shí)例可以包含一個(gè)或多個(gè)域 (Field),包含不同類型域是因?yàn)椴煌愋偷奈臋n中所存儲(chǔ)的元數(shù)據(jù)是不一樣的。 假如在處理過程中發(fā)生了任何類型的錯(cuò)誤,所有實(shí)現(xiàn)了 DocumentHan
點(diǎn)擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1