【正文】
基于Lucene的搜索引擎作者姓名:王旭 專業(yè)班級:2010050704 指導教師:涂德志摘要 從1994年至今,萬維網經過了二十年的飛速發(fā)展,當前的萬維網數(shù)據(jù)規(guī)模到底有多大無從估量。隨著網絡信息資源的急劇增長,現(xiàn)如今,信息已經不再是一種稀缺的資源,我們的注意力反而變得稀缺了。人們越來越多地關注如何快速有效地從海量的網絡信息中,抽取出潛在的、有價值的信息,使之有效地在管理和決策中發(fā)揮作用。搜索引擎提供了一種便捷的獲取網絡信息的途徑,只要你能在電腦上打字,那么你就能通過“輸入關鍵字+自行瀏覽”的用戶交互方式快速查找到自己感興趣的資源。目前Web搜索引擎(Search Engine) 技術正成為計算機科學界和信息產業(yè)界爭相研究、開發(fā)的對象。 搜索引擎是指互聯(lián)網上一種提供用戶查詢的一類應用。通過人工目錄整理或者是網絡爬蟲收集互聯(lián)網上已經存在的網頁,在用戶輸入查詢詞后,將相關網頁迅速展現(xiàn)給用戶。用戶自行瀏覽后選擇最合適期望的鏈接,進入查看。關鍵詞:網絡信息資源 Web搜索引擎 查詢ABSTRACTSince 1994, the World Wide Web after two decades of rapid development, how much the current size of the World Wide Web is incalculable. With the rapid growth of network information resources, nowadays, the information is no longer a scarce resource, however,our attention became scarce . more and more concerned about how quickly and efficiently from the vast amounts of network information, to extract potentially valuable information to effectively play a role in the management and decisionmaking. Search engines provide a convenient way to obtain network information, as long as you can type on a puter, then you can through the mode: keywords + browse ,to quickly find the resources you are interested. Currently Web search engine (Search Engine) technology is being the target puter science and information industry pete on development.Search engine on the Internet refers to a method of providing a user queries a class of applications. Sorting through artificial catalog or web crawlers to collect Web pages on the Internet already exist, after the user enters the query words, the relevant pages quickly presented to the user. Choose the most appropriate link , browse the desired post into view.Keywords: Network Information Resources Web Search Engine Consult目錄第1章 前 言 1 搜索引擎的學術背景與實際意義 1 國內外文獻綜述 2 課題來源及主要研究內容 2第2章 相關技術介紹 4 JSP與Tomcat 4 SQL Sever數(shù)據(jù)庫 4 Ajax簡介 5 Lucene介紹 5第3章 搜索引擎原理 8 搜索引擎體系結構 8 搜索引擎主要模塊功能介紹 9 搜索器 (Crawler) 10 索引器 (Indexer) 11 檢索器(Searcher) 12 用戶接口((UserInterface) 12第4章 系統(tǒng)分析 13 需求分析 13 系統(tǒng)可行性分析 13 社會可行性分析 13 技術可行性分析 14 經濟可行性分析 14第5章 總體設計 15 系統(tǒng)構架 15 索引建立子系統(tǒng) 16 用戶接口子系統(tǒng) 16 數(shù)據(jù)庫設計 16 實現(xiàn)環(huán)境配置 18第6章 詳細設計 19 建立索引 19 文件搜索實現(xiàn) 19 數(shù)據(jù)庫搜索實現(xiàn) 21 后臺數(shù)據(jù)編輯實現(xiàn) 22第7章 系統(tǒng)測試 24 測試重要性 24 測試用例 25結 論 27致 謝 28參考文獻 29II成都理工大學2014屆學士學位論文(設計)第1章 前 言 搜索引擎的學術背景與實際意義萬維網是互聯(lián)網最主要的組成部分,也是人們獲取網絡信息的最主要的來源。1994年,蒂姆伯納斯李創(chuàng)立萬維網聯(lián)盟(World Wide Web Consortium,),在萬維網的整體構架中,通用資源標識符、超文本標記語言和超文本傳輸協(xié)議這三個元素是萬維網的核心,缺一不可。再隨后的幾十年當中,由于萬維網的開放性和其上信息廣泛的可訪問性,不出意料的成為了互聯(lián)網的霸主。目前,是以網頁為主的互聯(lián)網時代,以Web網頁為對象的搜索引擎檢索系統(tǒng)相繼產生了,搜索引擎成為人們上網找尋信息的重要手段,搜索引擎的產生,使得人們能夠快速的從互聯(lián)網找到與自己需求相關的網頁鏈接。人工智能、數(shù)據(jù)挖掘的進一步研究以及現(xiàn)在網頁的特性使得搜索引擎技術進一步發(fā)展,在搜索后,甚至還有意料之外的收獲。2008年,Google在其官方博客上稱,僅其頁面搜索量就已經高達1萬億個網頁,而且現(xiàn)在互聯(lián)網上的網頁數(shù)每天都有數(shù)以萬計的數(shù)量增長。Yahoo是出現(xiàn)最早的目錄式搜索引擎, 全文搜索引擎Google的出現(xiàn)得到了廣大網民的認可,并迅速占領了全球市場,到現(xiàn)今國內的如Baidu、新浪愛問、騰訊搜搜、Sogou等,搜索引擎的品牌愈來愈多,服務也越來越豐富。同時,網絡信息的膨脹速