freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于web搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)本科畢業(yè)論文-閱讀頁(yè)

2025-07-08 21:36本頁(yè)面
  

【正文】 d2...) \ indexer / _____________ | Lucene Index| / searcher \ 結(jié)果輸出:Hits(doc(field1,field2) doc(field1...))Document:一個(gè)需要進(jìn)行索引的“單元”,一個(gè) Document由多個(gè)字段組成Field:字段Hits:查詢結(jié)果集,由匹配的 Document組成 Lucene 的索引效率 由于數(shù)據(jù)庫(kù)索引不是為全文索引設(shè)計(jì)的,因此,使用 like %keyword%時(shí),數(shù)據(jù)庫(kù)索引是不起作用的,在使用 like查詢時(shí),搜索過程又變成類似于一頁(yè)頁(yè)翻書的遍歷過程了,所以對(duì)于含有模糊查詢的數(shù)據(jù)庫(kù)服務(wù)來說,LIKE 對(duì)性能的危害是極大的。所以建立一個(gè)高效檢索系統(tǒng)的關(guān)鍵是建立一個(gè)類似于科技索引一樣的反向索引機(jī)制,將數(shù)據(jù)源(比如多篇文章)排序順序21存儲(chǔ)的同時(shí),有另外一個(gè)排好序的關(guān)鍵詞列表,用于存儲(chǔ)關(guān)鍵詞==文章映射關(guān)系,利用這樣的映射關(guān)系索引:[關(guān)鍵詞==出現(xiàn)關(guān)鍵詞的文章編號(hào),出現(xiàn)次數(shù)(甚至包括位置:起始偏移量,結(jié)束偏移量),出現(xiàn)頻率],檢索過程就是把模糊查詢變成多個(gè)可以利用索引的精確查詢的邏輯組合的過程。由此可以看出模糊查詢相對(duì)數(shù)據(jù)庫(kù)的精確查詢是一個(gè)非常不確定的問題,這也是大部分?jǐn)?shù)據(jù)庫(kù)對(duì)全文檢索支持有限的原因??梢酝ㄟ^一下表格對(duì)比一下數(shù)據(jù)庫(kù)的模糊查詢: 表 1 Lucene 全文索引引擎和數(shù)據(jù)庫(kù)的模糊查詢對(duì)比  Lucene全文索引引擎 數(shù)據(jù)庫(kù)索引 將數(shù)據(jù)源中的數(shù)據(jù)都通過全文索引一一建立反向索引對(duì)于 LIKE查詢來說,數(shù)據(jù)傳統(tǒng)的索引是根本用不上的。匹配效果通過詞元(term)進(jìn)行匹配,通過語言分析接口的實(shí)現(xiàn),可以實(shí)現(xiàn)對(duì)中文等非英語的支持。沒有匹配程度的控制:比如有記錄中 出現(xiàn) 5次和出現(xiàn) 1次的,結(jié)果是一樣的。 量的內(nèi)存存放這些臨時(shí)結(jié)果集。首先,肯定不能用單個(gè)字符作為索引單元,否則查“上?!睍r(shí),不能讓含有“海上”也匹配。另外一個(gè)解決的辦法是采用自動(dòng)切分算法:將單詞按照 2元語法方式切分出來,比如:北京天安門 == 北京 京天 天安 安門。這種方式對(duì)于其他亞洲語言:韓文,日文都是通用的。還需要包括詞頻統(tǒng)計(jì)等內(nèi)容適用領(lǐng)域嵌入式系統(tǒng):運(yùn)行環(huán)境資源有限分布式系統(tǒng):無詞表同步問題多語言環(huán)境:無詞表維護(hù)成本對(duì)查詢和存儲(chǔ)效率要求高的專業(yè)搜索引擎 Lucene 與 Spider 的結(jié)合首先構(gòu)造一個(gè) Index類用來實(shí)現(xiàn)對(duì)內(nèi)容進(jìn)行索引。24/** * 新聞搜索引擎* 計(jì)算機(jī) 99630 沈晨 * 版本 */import 。import 。import 。 Index() throws Exception { _writer = new IndexWriter(c:\\News\\index, new ChineseAnalyzer(), true)。 ((title, title))。 (_doc)。 ()。圖 2 HTML 解析類程序結(jié)構(gòu)圖代碼分析如下:package news。import 。import 。public class HTMLParse { HTTP _ = null。26 } /** * 對(duì) Web頁(yè)面進(jìn)行解析后建立索引 */ public void start() { try { HTMLPage _page = new HTMLPage(_)。 Vector _links = ()。 Iterator _it = ()。 while (()) { Link _link = (Link) ()。 String _title = input(().trim())。 n++。 ()。 } } /** * 解決 java中的中文問題 * param str 輸入的中文 * return 經(jīng)過解碼的中文 */ public static String input(String str) { String temp = null。 } catch (Exception e) { } } return temp。最后,還結(jié)合了具體代碼說明了如何把 Lucene全文搜索引擎和 Spider程序互相集合來實(shí)現(xiàn)新聞搜索的功能。Web 服務(wù)器如何工作:在 Web頁(yè)面處理中大致可分為三個(gè)步驟,第一步,Web 瀏覽器向一個(gè)特定的服務(wù)器發(fā)出 Web頁(yè)面請(qǐng)求;第二步,Web 服務(wù)器接收到 Web頁(yè)面請(qǐng)求后,尋找所請(qǐng)求的 Web頁(yè)面,并將所請(qǐng)求的 Web頁(yè)面?zhèn)魉徒o Web瀏覽器;第三步,Web 服務(wù)器接收到所請(qǐng)求的 Web頁(yè)面,并將它顯示出來。Tomcat 由 ApacheJakarta子項(xiàng)目支持并由來自開放性源代碼Java社區(qū)的志愿者進(jìn)行維護(hù)。 用戶接口設(shè)計(jì) 客戶端設(shè)計(jì)一個(gè)良好的查詢界面非常重要,例如 Googl就以它簡(jiǎn)潔的查詢界面而聞名。查詢界面截圖如下:28 圖 1 查詢界面截圖 搜索結(jié)果截圖如下:圖 2 搜索結(jié)果截圖 服務(wù)端設(shè)計(jì)主要利用 JavaTM Servlet技術(shù)實(shí)現(xiàn),用戶通過 GET方法從客戶端向服務(wù)端提交查詢條件,服務(wù)端通過 Tomcat的 Servlet容器接受并分析提交參數(shù),再調(diào)用 lucene的開發(fā)包進(jìn)行搜索操作。服務(wù)端 Servlet程序的結(jié)構(gòu)如下:29圖 3 服務(wù)端 Servlet 程序的結(jié)構(gòu)實(shí)現(xiàn)的關(guān)鍵代碼如下:public void Search(String qc, PrintWriter out) throws Exception { // 從索引目錄創(chuàng)建索引 IndexSearcher _searcher = new IndexSearcher(c:\\news\\index)。 // 查詢條件 String line = qc。 (html)。 (body bgcolor=ffffff)。/NewsServer/results39。get39。華文中宋39。3399FF39。text39。QueryContent39。2039。submit39。submit39。開始搜索39。 (p搜索關(guān)鍵字:font color=red + (title) + /font/p)。 ( 總共找到font color=red + () + /font條新聞br)。 for (int start = 0。 start += HITS_PER_PAGE) { int end = ((), start + HITS_PER_PAGE)。 i end。 String url = (url)。 + url + 39。} else { (沒有找到!)。 ()。31 在 Tomcat 上部署項(xiàng)目Tomcat中的應(yīng)用程序是一個(gè) WAR(Web Archive)文件。這個(gè)包中的文件按一定目錄結(jié)構(gòu)來組織:通常其根目錄下包含有 Html和 Jsp文件或者包含這兩種文件的目錄,另外還會(huì)有一個(gè) WEBINF目錄,這個(gè)目錄很重要。通常這些所依賴的類也可以打包成 JAR放到 WEBINF下的 lib目錄下,當(dāng)然也可以放到系統(tǒng)的 CLASSPATH中。你在瀏覽器中訪問這個(gè)應(yīng)用的 Jsp時(shí),通常第一次會(huì)很慢,因?yàn)?Tomcat要將 Jsp轉(zhuǎn)化為 Servlet文件,然后編譯。 小結(jié)本章中詳細(xì)介紹了如何構(gòu)架基于 Tomcat的 Web服務(wù)器,使得用戶通過瀏覽器進(jìn)行新聞的搜索,最后還對(duì) Tomcat如何部署進(jìn)行了說明。在兩個(gè)月的學(xué)習(xí)和實(shí)踐開發(fā)中,對(duì)搜索引擎各方面的理解逐步加深,包括它的發(fā)展歷史和它的工作原理,同時(shí)對(duì)一些主流的搜索引擎例如百度,谷歌,雅虎也有所了解。 未來工作展望由于時(shí)間緊迫,且整個(gè)系統(tǒng)涵蓋的范圍很大,涉及到的技術(shù)細(xì)節(jié)多,有部分的實(shí)現(xiàn)采用了比較簡(jiǎn)單的方法,以便于整個(gè)系統(tǒng)的順利實(shí)現(xiàn)。 1.對(duì)于當(dāng)搜索深度加深后,單機(jī)的網(wǎng)頁(yè)下載速度和處理能力都要受到限制。這方面的改進(jìn)將會(huì)使搜索引擎的搜索范圍更加廣闊。今后的工作需要進(jìn)一步的優(yōu)化程序代碼,以實(shí)現(xiàn)系統(tǒng)真正的高效率運(yùn)行。33參考文獻(xiàn)[1] 盧亮,、實(shí)踐與應(yīng)用[M].北京:出版社,[2] 李曉明 閆宏飛 王繼民。雷老師嚴(yán)肅的科學(xué)態(tài)度,嚴(yán)謹(jǐn)?shù)闹螌W(xué)精神,精益求精的工作作風(fēng),深深地感染和激勵(lì)著我。 我還要感謝在一起愉快的度過畢業(yè)論文小組的同學(xué)們,正是由于你們的幫助和支持,我才能克服一個(gè)一個(gè)的困難和疑惑,直至本文的順利完成。記不清從開始進(jìn)入課題到論文的順利完成,有多少可敬的同學(xué)、朋友給了我無言的幫助,在這里請(qǐng)接受我誠(chéng)摯的謝意!最后我還要感謝含辛茹苦培養(yǎng)我長(zhǎng)大的父母,謝謝你們! 最后,再次對(duì)關(guān)心、幫助我的老師和同學(xué)表示衷心地感
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1