正文內(nèi)容

基于web搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)本科畢業(yè)論文-閱讀頁(yè)

2025-07-08 21:36本頁(yè)面

　　

【正文】 d2...) \ indexer / _____________ | Lucene Index| / searcher \ 結(jié)果輸出：Hits(doc(field1,field2) doc(field1...))Document：一個(gè)需要進(jìn)行索引的“單元”，一個(gè) Document由多個(gè)字段組成Field：字段Hits：查詢結(jié)果集，由匹配的 Document組成 Lucene 的索引效率由于數(shù)據(jù)庫(kù)索引不是為全文索引設(shè)計(jì)的，因此，使用 like %keyword%時(shí)，數(shù)據(jù)庫(kù)索引是不起作用的，在使用 like查詢時(shí)，搜索過程又變成類似于一頁(yè)頁(yè)翻書的遍歷過程了，所以對(duì)于含有模糊查詢的數(shù)據(jù)庫(kù)服務(wù)來說，LIKE 對(duì)性能的危害是極大的。所以建立一個(gè)高效檢索系統(tǒng)的關(guān)鍵是建立一個(gè)類似于科技索引一樣的反向索引機(jī)制，將數(shù)據(jù)源（比如多篇文章）排序順序21存儲(chǔ)的同時(shí)，有另外一個(gè)排好序的關(guān)鍵詞列表，用于存儲(chǔ)關(guān)鍵詞==文章映射關(guān)系，利用這樣的映射關(guān)系索引：[關(guān)鍵詞==出現(xiàn)關(guān)鍵詞的文章編號(hào)，出現(xiàn)次數(shù)（甚至包括位置：起始偏移量，結(jié)束偏移量），出現(xiàn)頻率]，檢索過程就是把模糊查詢變成多個(gè)可以利用索引的精確查詢的邏輯組合的過程。由此可以看出模糊查詢相對(duì)數(shù)據(jù)庫(kù)的精確查詢是一個(gè)非常不確定的問題，這也是大部分?jǐn)?shù)據(jù)庫(kù)對(duì)全文檢索支持有限的原因?？梢酝ㄟ^一下表格對(duì)比一下數(shù)據(jù)庫(kù)的模糊查詢：表 1 Lucene 全文索引引擎和數(shù)據(jù)庫(kù)的模糊查詢對(duì)比　 Lucene全文索引引擎數(shù)據(jù)庫(kù)索引將數(shù)據(jù)源中的數(shù)據(jù)都通過全文索引一一建立反向索引對(duì)于 LIKE查詢來說，數(shù)據(jù)傳統(tǒng)的索引是根本用不上的。匹配效果通過詞元(term)進(jìn)行匹配，通過語言分析接口的實(shí)現(xiàn)，可以實(shí)現(xiàn)對(duì)中文等非英語的支持。沒有匹配程度的控制：比如有記錄中出現(xiàn) 5次和出現(xiàn) 1次的，結(jié)果是一樣的。量的內(nèi)存存放這些臨時(shí)結(jié)果集。首先，肯定不能用單個(gè)字符作為索引單元，否則查“上?！睍r(shí)，不能讓含有“海上”也匹配。另外一個(gè)解決的辦法是采用自動(dòng)切分算法：將單詞按照 2元語法方式切分出來，比如：北京天安門 == 北京京天天安安門。這種方式對(duì)于其他亞洲語言：韓文，日文都是通用的。還需要包括詞頻統(tǒng)計(jì)等內(nèi)容適用領(lǐng)域嵌入式系統(tǒng)：運(yùn)行環(huán)境資源有限分布式系統(tǒng)：無詞表同步問題多語言環(huán)境：無詞表維護(hù)成本對(duì)查詢和存儲(chǔ)效率要求高的專業(yè)搜索引擎 Lucene 與 Spider 的結(jié)合首先構(gòu)造一個(gè) Index類用來實(shí)現(xiàn)對(duì)內(nèi)容進(jìn)行索引。24/** * 新聞搜索引擎* 計(jì)算機(jī) 99630 沈晨 * 版本 */import 。import 。import 。 Index() throws Exception { _writer = new IndexWriter(c:\\News\\index, new ChineseAnalyzer(), true)。 ((title, title))。 (_doc)。 ()。圖 2 HTML 解析類程序結(jié)構(gòu)圖代碼分析如下：package news。import 。import 。public class HTMLParse { HTTP _ = null。26 } /** * 對(duì) Web頁(yè)面進(jìn)行解析后建立索引 */ public void start() { try { HTMLPage _page = new HTMLPage(_)。 Vector _links = ()。 Iterator _it = ()。 while (()) { Link _link = (Link) ()。 String _title = input(().trim())。 n++。 ()。 } } /** * 解決 java中的中文問題 * param str 輸入的中文 * return 經(jīng)過解碼的中文 */ public static String input(String str) { String temp = null。 } catch (Exception e) { } } return temp。最后，還結(jié)合了具體代碼說明了如何把 Lucene全文搜索引擎和 Spider程序互相集合來實(shí)現(xiàn)新聞搜索的功能。Web 服務(wù)器如何工作：在 Web頁(yè)面處理中大致可分為三個(gè)步驟，第一步，Web 瀏覽器向一個(gè)特定的服務(wù)器發(fā)出 Web頁(yè)面請(qǐng)求；第二步，Web 服務(wù)器接收到 Web頁(yè)面請(qǐng)求后，尋找所請(qǐng)求的 Web頁(yè)面，并將所請(qǐng)求的 Web頁(yè)面?zhèn)魉徒o Web瀏覽器；第三步，Web 服務(wù)器接收到所請(qǐng)求的 Web頁(yè)面，并將它顯示出來。Tomcat 由 ApacheJakarta子項(xiàng)目支持并由來自開放性源代碼Java社區(qū)的志愿者進(jìn)行維護(hù)。用戶接口設(shè)計(jì) 客戶端設(shè)計(jì)一個(gè)良好的查詢界面非常重要，例如 Googl就以它簡(jiǎn)潔的查詢界面而聞名。查詢界面截圖如下：28 圖 1 查詢界面截圖搜索結(jié)果截圖如下：圖 2 搜索結(jié)果截圖服務(wù)端設(shè)計(jì)主要利用 JavaTM Servlet技術(shù)實(shí)現(xiàn)，用戶通過 GET方法從客戶端向服務(wù)端提交查詢條件，服務(wù)端通過 Tomcat的 Servlet容器接受并分析提交參數(shù)，再調(diào)用 lucene的開發(fā)包進(jìn)行搜索操作。服務(wù)端 Servlet程序的結(jié)構(gòu)如下：29圖 3 服務(wù)端 Servlet 程序的結(jié)構(gòu)實(shí)現(xiàn)的關(guān)鍵代碼如下：public void Search(String qc, PrintWriter out) throws Exception { // 從索引目錄創(chuàng)建索引 IndexSearcher _searcher = new IndexSearcher(c:\\news\\index)。 // 查詢條件 String line = qc。 (html)。 (body bgcolor=ffffff)。/NewsServer/results39。get39。華文中宋39。3399FF39。text39。QueryContent39。2039。submit39。submit39。開始搜索39。 (p搜索關(guān)鍵字：font color=red + (title) + /font/p)。 ( 總共找到font color=red + () + /font條新聞br)。 for (int start = 0。 start += HITS_PER_PAGE) { int end = ((), start + HITS_PER_PAGE)。 i end。 String url = (url)。 + url + 39。} else { (沒有找到！)。 ()。31 在 Tomcat 上部署項(xiàng)目Tomcat中的應(yīng)用程序是一個(gè) WAR（Web Archive）文件。這個(gè)包中的文件按一定目錄結(jié)構(gòu)來組織：通常其根目錄下包含有 Html和 Jsp文件或者包含這兩種文件的目錄，另外還會(huì)有一個(gè) WEBINF目錄，這個(gè)目錄很重要。通常這些所依賴的類也可以打包成 JAR放到 WEBINF下的 lib目錄下，當(dāng)然也可以放到系統(tǒng)的 CLASSPATH中。你在瀏覽器中訪問這個(gè)應(yīng)用的 Jsp時(shí)，通常第一次會(huì)很慢，因?yàn)?Tomcat要將 Jsp轉(zhuǎn)化為 Servlet文件，然后編譯。小結(jié)本章中詳細(xì)介紹了如何構(gòu)架基于 Tomcat的 Web服務(wù)器，使得用戶通過瀏覽器進(jìn)行新聞的搜索，最后還對(duì) Tomcat如何部署進(jìn)行了說明。在兩個(gè)月的學(xué)習(xí)和實(shí)踐開發(fā)中，對(duì)搜索引擎各方面的理解逐步加深，包括它的發(fā)展歷史和它的工作原理，同時(shí)對(duì)一些主流的搜索引擎例如百度，谷歌，雅虎也有所了解。未來工作展望由于時(shí)間緊迫，且整個(gè)系統(tǒng)涵蓋的范圍很大，涉及到的技術(shù)細(xì)節(jié)多，有部分的實(shí)現(xiàn)采用了比較簡(jiǎn)單的方法，以便于整個(gè)系統(tǒng)的順利實(shí)現(xiàn)。 1．對(duì)于當(dāng)搜索深度加深后，單機(jī)的網(wǎng)頁(yè)下載速度和處理能力都要受到限制。這方面的改進(jìn)將會(huì)使搜索引擎的搜索范圍更加廣闊。今后的工作需要進(jìn)一步的優(yōu)化程序代碼，以實(shí)現(xiàn)系統(tǒng)真正的高效率運(yùn)行。33參考文獻(xiàn)[1] 盧亮，、實(shí)踐與應(yīng)用[M].北京：出版社，[2] 李曉明閆宏飛王繼民。雷老師嚴(yán)肅的科學(xué)態(tài)度，嚴(yán)謹(jǐn)?shù)闹螌W(xué)精神，精益求精的工作作風(fēng)，深深地感染和激勵(lì)著我。我還要感謝在一起愉快的度過畢業(yè)論文小組的同學(xué)們，正是由于你們的幫助和支持，我才能克服一個(gè)一個(gè)的困難和疑惑，直至本文的順利完成。記不清從開始進(jìn)入課題到論文的順利完成，有多少可敬的同學(xué)、朋友給了我無言的幫助，在這里請(qǐng)接受我誠(chéng)摯的謝意!最后我還要感謝含辛茹苦培養(yǎng)我長(zhǎng)大的父母，謝謝你們! 最后，再次對(duì)關(guān)心、幫助我的老師和同學(xué)表示衷心地感

點(diǎn)擊復(fù)制文檔內(nèi)容

環(huán)評(píng)公示相關(guān)推薦

畢業(yè)論文基于lucene的桌面搜索引擎-閱讀頁(yè)

【摘要】畢業(yè)論文題目：基于Lucene的桌面搜索引擎學(xué)院：管理科學(xué)與工程學(xué)院專業(yè)：信息管理與信息系統(tǒng)

2025-06-21 21:17

基于文本web圖片搜索引擎的研究論文-閱讀頁(yè)

【摘要】基于文本的Web圖片搜索引擎的研究論文題目：基于文本的Web圖片搜索引擎的研究姓名：學(xué)號(hào)：系別：計(jì)算機(jī)科學(xué)技術(shù)系專業(yè)：計(jì)算機(jī)應(yīng)用

2024-12-07 21:00

基于java的搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)-閱讀頁(yè)

【摘要】摘要網(wǎng)絡(luò)中的資源非常豐富，但是如何有效的搜索信息卻是一件困難的事情。建立搜索引擎就是解決這個(gè)問題的最好方法。本文首先詳細(xì)介紹了基于英特網(wǎng)的搜索引擎的系統(tǒng)結(jié)構(gòu)，然后從網(wǎng)絡(luò)機(jī)器人、索引引擎、Web服務(wù)器三個(gè)方面進(jìn)行詳細(xì)的說明。為了更加深刻的理解這種技術(shù)，本人還親自實(shí)現(xiàn)了一個(gè)自己的搜索引擎——新聞搜索引擎。新聞搜索引擎是從指定的Web頁(yè)面中按照超連接進(jìn)行解析、搜索

2025-07-08 07:09

基于internet的全文搜索引擎的模型設(shè)計(jì)畢業(yè)論文-閱讀頁(yè)

【摘要】-1-基于Inter的全文搜索引擎的模型設(shè)計(jì)摘要根據(jù)搜索引擎與信息獲取的原理,設(shè)計(jì)了一個(gè)基于Inter的全文搜索引擎,該模型從技術(shù)上可以適用于任何有全文搜索需求的應(yīng)用,并且由于基于Java語言設(shè)計(jì),從而特別適于跨平臺(tái)應(yīng)用。該模型還采用了數(shù)據(jù)庫(kù)管理作業(yè)和多線程技術(shù),從而使全文搜索的性能和效率得到了進(jìn)一步的提高。

2025-03-18 09:46

基于lucene與heritrix的搜索引擎構(gòu)建畢業(yè)論文-閱讀頁(yè)

【摘要】1基于Lucene與Heritrix的搜索引擎構(gòu)建畢業(yè)論文摘要...............IAbstract..............II第1章緒論.......1課題的背景及意義................................................................................

2025-07-12 17:38

基于lucene的站內(nèi)搜索引擎的設(shè)計(jì)實(shí)現(xiàn)論文-閱讀頁(yè)

【摘要】畢業(yè)論文第I頁(yè)基于LUCENE的站內(nèi)搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)摘要LUCENE[1]是apache軟件基金會(huì)jakarta項(xiàng)目組的一個(gè)子項(xiàng)目，是一個(gè)開放源代碼的全文檢索引擎工具包，即它不是一個(gè)完整的全文檢索引擎，而是一個(gè)全文檢索引擎的架構(gòu)，提供了完整的查詢引擎和索引引擎，LUCENE

2024-11-30 15:58

畢業(yè)設(shè)計(jì)-基于ajaxlucene構(gòu)建搜索引擎的設(shè)計(jì)和實(shí)現(xiàn)-論文-閱讀頁(yè)

【摘要】畢業(yè)設(shè)計(jì)(論文)基于Ajax+Lucene構(gòu)建搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)論文作者姓名：申請(qǐng)學(xué)位專業(yè)：申請(qǐng)學(xué)位類別：指導(dǎo)教師姓名（職稱）：論文提交日期：基于Ajax+Lucene構(gòu)建搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)摘要通過搜索引擎從互聯(lián)網(wǎng)上獲取有用信息已經(jīng)成為人們生活的重要組成部分，Lucene是構(gòu)建搜索引擎的其

2024-09-12 11:23

基于lucene的圖書搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)-閱讀頁(yè)

【摘要】濱江學(xué)院畢業(yè)論文(設(shè)計(jì))題目基于Lucene的圖書搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)院系計(jì)算機(jī)系專業(yè)軟件工程學(xué)生姓名學(xué)號(hào)指導(dǎo)教師

2024-12-07 21:52

web圖片搜索引擎設(shè)計(jì)-閱讀頁(yè)

【摘要】Web圖片搜索引擎設(shè)計(jì)——基于文本的圖片信息提取大綱?圖片檢索技術(shù)簡(jiǎn)介?我們?cè)O(shè)計(jì)的系統(tǒng)總體結(jié)構(gòu)?圖片文字信息提取?無用圖片過濾?一些統(tǒng)計(jì)規(guī)律?結(jié)合文本與內(nèi)容的方法（后期打算）圖片檢索技術(shù)分類?基于文本?利用某種提取方法獲得與圖片內(nèi)容相關(guān)的文本信息，利用傳統(tǒng)文本檢索方法提供檢索。?

2025-08-08 16:18

web圖片搜索引擎設(shè)計(jì)-閱讀頁(yè)

2025-08-16 12:34

聚焦搜索引擎的設(shè)計(jì)與開發(fā)查詢系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)論文-閱讀頁(yè)

【摘要】畢業(yè)設(shè)計(jì)(論文)題目聚焦搜索引擎的設(shè)計(jì)與開發(fā)查詢系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)前言隨著Inter的迅速發(fā)展，人們的工作、學(xué)習(xí)和生活都已經(jīng)離不開網(wǎng)絡(luò)，網(wǎng)上信息正以爆炸性的速度增長(zhǎng)，其資源內(nèi)容幾乎涉及所有領(lǐng)域，已經(jīng)成為知識(shí)、信息的集合體，是人們獲取信息的基本工

2025-07-30 20:14

元搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)-閱讀頁(yè)

【摘要】本科畢業(yè)設(shè)計(jì)院系計(jì)算機(jī)科學(xué)與技術(shù)系專業(yè)計(jì)算機(jī)科學(xué)與技術(shù)題目元搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)年級(jí)2020級(jí)學(xué)號(hào)學(xué)生姓名劉宣

2024-09-22 07:18

基于lucene的站內(nèi)新聞搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)-閱讀頁(yè)

【摘要】基于Lucene的站內(nèi)新聞搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)基于Lucene的站內(nèi)新聞搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)摘要Lucene是一個(gè)開源的用于制作搜索引擎的框架。目前第二代搜索引擎的設(shè)計(jì)思路為利用網(wǎng)絡(luò)爬蟲建立數(shù)據(jù)源，結(jié)合分詞技術(shù)把數(shù)據(jù)源建成索引，利用索引從海量的數(shù)據(jù)源中得到搜索結(jié)果，對(duì)搜索的結(jié)

2024-11-27 08:40

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

基于web搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)本科畢業(yè)論文-閱讀頁(yè)

畢業(yè)論文基于lucene的桌面搜索引擎-閱讀頁(yè)

基于文本web圖片搜索引擎的研究論文-閱讀頁(yè)

基于java的搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)-閱讀頁(yè)

基于internet的全文搜索引擎的模型設(shè)計(jì)畢業(yè)論文-閱讀頁(yè)

基于lucene與heritrix的搜索引擎構(gòu)建畢業(yè)論文-閱讀頁(yè)

基于lucene的站內(nèi)搜索引擎的設(shè)計(jì)實(shí)現(xiàn)論文-閱讀頁(yè)

畢業(yè)設(shè)計(jì)-基于ajaxlucene構(gòu)建搜索引擎的設(shè)計(jì)和實(shí)現(xiàn)-論文-閱讀頁(yè)

基于lucene的圖書搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)-閱讀頁(yè)

web圖片搜索引擎設(shè)計(jì)-閱讀頁(yè)

web圖片搜索引擎設(shè)計(jì)-閱讀頁(yè)

聚焦搜索引擎的設(shè)計(jì)與開發(fā)查詢系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)論文-閱讀頁(yè)

元搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)-閱讀頁(yè)

基于lucene的站內(nèi)新聞搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)-閱讀頁(yè)

站內(nèi)全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)-閱讀頁(yè)

畢業(yè)設(shè)計(jì)-基于ajaxlucene構(gòu)建搜索引擎的設(shè)計(jì)和實(shí)現(xiàn)-論文-閱讀頁(yè)

基于web搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)本科畢業(yè)論文(已改無錯(cuò)字)

基于web搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)本科畢業(yè)論文-資料下載頁(yè)

基于web搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)本科畢業(yè)論文(參考版)

基于web搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)本科畢業(yè)論文-文庫(kù)吧資料

基于web搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)本科畢業(yè)論文-展示頁(yè)