正文內(nèi)容

畢業(yè)設(shè)計(jì)-基于ajaxlucene構(gòu)建搜索引擎的設(shè)計(jì)和實(shí)現(xiàn)-論文-在線(xiàn)瀏覽

2024-10-04 11:23本頁(yè)面

　　

【正文】 useful information from web by search engines has bee the important part of people39。 Asynchronous update。 Search engines目錄論文總頁(yè)數(shù)：19頁(yè)1 引言 1 課題背景 1 國(guó)內(nèi)外研究現(xiàn)狀 1 本課題研究的意義 1 本課題的研究方法 12 2 全文搜索引擎 2 搜索引擎的分類(lèi) 2 搜索引擎的工作原理 2 Lucene與搜索引擎 3 索引和搜索 4 Ajax技術(shù) 43 需求分析 5 同步環(huán)境 5 6 性能需求 6 輸入輸出要求 7 運(yùn)行需求 74 方案設(shè)計(jì) 7 搜索引擎模型 7 數(shù)據(jù)庫(kù)的設(shè)計(jì) 7 模塊設(shè)計(jì) 85 系統(tǒng)實(shí)現(xiàn) 10 開(kāi)發(fā)環(huán)境 10 關(guān)鍵代碼詳解 10 代碼結(jié)構(gòu) 10 爬蟲(chóng)部分 11 12 136 測(cè)試 14 功能測(cè)試 14結(jié) 論 16參考文獻(xiàn) 17致謝 18聲明 191 引言課題背景Lucene是一個(gè)基于Java的全文信息檢索工具包，它為應(yīng)用程序提供索引和搜索功能。也是目前最為流行的基于Java開(kāi)源全文檢索工具包。主要目標(biāo)傾向于和Java Lucene兼容：一個(gè)是索引格式兼容，達(dá)到可以共同工作的目的；一個(gè)是命名接近（只相差很少，比如大小寫(xiě)等），目的是可以方便開(kāi)發(fā)者使用Java Lucene相關(guān)的代碼和資料。無(wú)論搜索技術(shù)本身還是搜索范圍與深度，Google搜索總是所有搜索引擎的目標(biāo)。Google在低層次的智能搜索方面已經(jīng)開(kāi)始研究很多年了，實(shí)際的成果就是翻譯方面。但是翻譯僅僅是學(xué)術(shù)方面的應(yīng)用，更重要的是Google建立起來(lái)的海量搜索歷史記錄。國(guó)內(nèi)，對(duì)搜索引擎的專(zhuān)注和對(duì)中文的理解能力也是中國(guó)本土搜索引擎行業(yè)獨(dú)特的競(jìng)爭(zhēng)力。中文的意思多種多樣，是很難用程序處理的。為了滿(mǎn)足用戶(hù)更深層次的需求，國(guó)內(nèi)的搜索引擎也在不斷的完善自己。中國(guó)網(wǎng)民對(duì)智能化搜索需求也是顯而易見(jiàn)的。本課題研究的意義隨著計(jì)算機(jī)技術(shù)和互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展，網(wǎng)絡(luò)上的信息量急劇增長(zhǎng)，要在浩如煙海的網(wǎng)絡(luò)世界中尋找需要的信息，作為現(xiàn)代信息獲取技術(shù)的主要應(yīng)用，那么搜索引擎是必不可少的。本課題的研究方法在本系統(tǒng)的開(kāi)發(fā)過(guò)程中，首先分析了搜索引擎的相關(guān)功能，寫(xiě)出需求分析；其次，綜合運(yùn)用以前所學(xué)的相關(guān)知識(shí)（數(shù)據(jù)庫(kù)，C＃等），選擇所熟悉的開(kāi)發(fā)工具進(jìn)行開(kāi)發(fā)（本系統(tǒng)選擇了Microsoft Visual Studio .NET 2003作為開(kāi)發(fā)平臺(tái)，開(kāi)發(fā)語(yǔ)言選擇了C；數(shù)據(jù)庫(kù)采用Microsoft SQL Server 2000）。為文檔建立索引，關(guān)鍵詞搜索的功能，通過(guò)Ajax優(yōu)化系統(tǒng)，完成頁(yè)面的局部刷新功能，給用戶(hù)好的體驗(yàn)。真正意義上的搜索引擎，通常指的是收集了因特網(wǎng)上幾千萬(wàn)到幾十億個(gè)網(wǎng)頁(yè)并對(duì)網(wǎng)頁(yè)中的每一個(gè)詞（即關(guān)鍵詞）進(jìn)行索引，建立索引數(shù)據(jù)庫(kù)的全文搜索引擎。在經(jīng)過(guò)復(fù)雜的算法進(jìn)行排序后，這些結(jié)果將按照與搜索關(guān)鍵詞的相關(guān)度排列。全文搜索引擎通過(guò)從互聯(lián)網(wǎng)上提取的各個(gè)網(wǎng)站的信息（以網(wǎng)頁(yè)文字為主）而建立的數(shù)據(jù)庫(kù)中，檢索與用戶(hù)查詢(xún)條件匹配的相關(guān)記錄，然后按一定的排列順序?qū)⒔Y(jié)果返回給用戶(hù)。分類(lèi)目錄則是通過(guò)人工的方式收集整理網(wǎng)站資料形成數(shù)據(jù)庫(kù)的，比如雅虎中國(guó)以及國(guó)內(nèi)的搜狐、新浪、網(wǎng)易分類(lèi)目錄。搜索引擎的工作原理搜索引擎的原理，可以看作三步：從互聯(lián)網(wǎng)上抓取網(wǎng)頁(yè)，建立索引數(shù)據(jù)庫(kù)，在索引數(shù)據(jù)庫(kù)中搜索。它為保證采集的資料最新，還會(huì)回訪(fǎng)已抓取過(guò)的網(wǎng)頁(yè)。我們平時(shí)看到的全文搜索引擎，實(shí)際上只是一個(gè)搜索引擎系統(tǒng)的檢索界面，當(dāng)你輸入關(guān)鍵詞進(jìn)行查詢(xún)時(shí)，搜索引擎會(huì)從龐大的數(shù)據(jù)庫(kù)中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁(yè)的索引，并按一定規(guī)則呈現(xiàn)給我們。利用能夠從互聯(lián)網(wǎng)上自動(dòng)收集網(wǎng)頁(yè)的Spider程序，自動(dòng)訪(fǎng)問(wèn)互聯(lián)網(wǎng)，并沿著網(wǎng)頁(yè)中的所有URL爬到其它網(wǎng)頁(yè)，重復(fù)這過(guò)程，并把爬過(guò)的所有網(wǎng)頁(yè)收集回來(lái)。接下來(lái)在索引數(shù)據(jù)庫(kù)中搜索排序，當(dāng)用戶(hù)輸入關(guān)鍵詞搜索后，由搜索系統(tǒng)程序從網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁(yè)。搜索引擎只能搜到它網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)里儲(chǔ)存的內(nèi)容。和Java 。比如你要對(duì)一些HTML文檔，PDF文檔進(jìn)行索引的話(huà)你就首先需要把HTML文檔和PDF文檔轉(zhuǎn)化成文本格式的，然后將轉(zhuǎn)化后的內(nèi)容交給Lucene進(jìn)行索引，然后把創(chuàng)建好的索引文件保存到磁盤(pán)或者內(nèi)存中，最后根據(jù)用戶(hù)輸入的查詢(xún)條件在索引文件上進(jìn)行查詢(xún)。如圖1表示了搜索應(yīng)用程序和Lucene之間的關(guān)系，也反映了利用Lucene構(gòu)建搜索應(yīng)用程序的流程：圖1 應(yīng)用程序和Lucene 索引和搜索索引是現(xiàn)代搜索引擎的核心，建立索引是把數(shù)據(jù)源處理成非常方便查詢(xún)的索引文件的過(guò)程。這就是由于建立了索引的原因，你可以把索引想象成這樣一種數(shù)據(jù)結(jié)構(gòu)，他能夠使你快速的隨機(jī)訪(fǎng)問(wèn)存儲(chǔ)在索引中的關(guān)鍵詞，進(jìn)而找到該關(guān)鍵詞所關(guān)聯(lián)的文檔。反向索引就是說(shuō)我們維護(hù)了一個(gè)詞/短語(yǔ)表，對(duì)于這個(gè)表中的每個(gè)詞/短語(yǔ)，都有一個(gè)鏈表描述了有哪些文檔包含了這個(gè)詞/短語(yǔ)。我們將在本系列文章的第二部分詳細(xì)介紹Lucene的索引機(jī)制，由于Lucene提供了簡(jiǎn)單易用的API，所以也可以非常容易的使用Lucene對(duì)文檔實(shí)現(xiàn)索引的建立。搜索引擎首先會(huì)對(duì)搜索的關(guān)鍵詞進(jìn)行解析，然后再在建立好的索引上面進(jìn)行查找，最終返回和用戶(hù)輸入的關(guān)鍵詞相關(guān)聯(lián)的文檔。Ajax技術(shù)是目前在瀏覽器中通過(guò)JavaScript腳本可以使用的所有技術(shù)的集合。Ajax技術(shù)之中，核心的技術(shù)就是XMLHttpRequest，它最初的名稱(chēng)叫做XMLHTTP，是微軟公司為了滿(mǎn)足開(kāi)發(fā)者的需要。它正是Ajax技術(shù)之所以與眾不同的地方。頁(yè)面內(nèi)的JavaScript可以在不刷新頁(yè)面的情況下從服務(wù)器獲取數(shù)據(jù)，或者向服務(wù)器提交數(shù)據(jù)。它可以使我們以一種全新的方式來(lái)做Web開(kāi)發(fā)，為用戶(hù)提供更好的交互體驗(yàn)。從Ajax的角度看來(lái)，Web應(yīng)用應(yīng)由少量的頁(yè)面組成，其中每個(gè)頁(yè)面其實(shí)是一個(gè)更小型的Ajax應(yīng)用。這些組件使用XMLHttpRequest對(duì)象以異步的方式與服務(wù)器通信，從服務(wù)器獲取需要的數(shù)據(jù)后使用DOM API來(lái)更新頁(yè)面中的一部分內(nèi)容。2. 使用異步方式與服務(wù)器通信，不需要打斷用戶(hù)的操作，具有更加迅速的響應(yīng)能力。大部分交互在頁(yè)面之內(nèi)完成，不需要切換整個(gè)頁(yè)面。3 需求分析同步環(huán)境本系統(tǒng)的同步環(huán)境如圖3：圖3 同步環(huán)境檢索服務(wù)器通過(guò)Internet檢索Web頁(yè)面。2. 能夠?qū)崿F(xiàn)一定鏈接深度的網(wǎng)頁(yè)收集,也就是在Internet上實(shí)現(xiàn)一定的URL級(jí)的數(shù)據(jù)收錄。4. 網(wǎng)站信息庫(kù)中的信息會(huì)不斷的變動(dòng)，對(duì)收集到的數(shù)據(jù)需要定期的自動(dòng)維護(hù)，做到定期的刪除、從新收集。6. 對(duì)檢索出的數(shù)據(jù)要可定位性，即可以顯示對(duì)數(shù)據(jù)的出處的鏈接。8. 實(shí)現(xiàn)無(wú)刷新的顯示搜索結(jié)果，對(duì)搜索用時(shí)的計(jì)算、顯示，關(guān)鍵字高亮顯示等。性能需求1. 精度：，即對(duì)鏈接層次里的每個(gè)鏈接頁(yè)面都能夠收集得到，并寫(xiě)入

點(diǎn)擊復(fù)制文檔內(nèi)容

醫(yī)療健康相關(guān)推薦

畢業(yè)設(shè)計(jì)-一個(gè)小型搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)-論文-在線(xiàn)瀏覽

【摘要】畢業(yè)設(shè)計(jì)(論文)一個(gè)小型搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)論文作者姓名：申請(qǐng)學(xué)位專(zhuān)業(yè)：申請(qǐng)學(xué)位類(lèi)別：指導(dǎo)教師姓名（職稱(chēng)）：論文提交日期：一個(gè)小型搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)摘要隨著互聯(lián)網(wǎng)和寬帶上網(wǎng)的普

2025-02-03 17:24

全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)-畢業(yè)論文-在線(xiàn)瀏覽

【摘要】江漢大學(xué)本科畢業(yè)論文（設(shè)計(jì)）I作者聲明本人鄭重聲明：所呈交的學(xué)位論文是本人在導(dǎo)師的指導(dǎo)下獨(dú)立進(jìn)行研究所取得的研究成果。除了文中特別加以標(biāo)注引用的內(nèi)容外，本論文不包含任何其他個(gè)人或集體已經(jīng)發(fā)表或撰寫(xiě)的成果作品。本人完全了解有關(guān)保障、使用學(xué)位論文的規(guī)定，同意學(xué)校保留并向有關(guān)學(xué)位論文管理機(jī)構(gòu)送交論文的復(fù)印件和電子版。同意省級(jí)優(yōu)秀學(xué)位

2024-08-08 13:40

淺議seo搜索引擎優(yōu)化_畢業(yè)設(shè)計(jì)論文-在線(xiàn)瀏覽

【摘要】淺議SEO搜索引擎優(yōu)化_畢業(yè)設(shè)計(jì)論文畢業(yè)設(shè)計(jì)（論文）題目：淺議SEO搜索引擎優(yōu)化系別：信息技術(shù)系專(zhuān)業(yè)：電子商務(wù)年級(jí)：09電子商務(wù)G3（年月）目錄摘要4第一章SEO概述5SEO的定義

2025-02-04 06:25

全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)-畢業(yè)論文-在線(xiàn)瀏覽

2024-10-30 16:43

基于java的搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)-在線(xiàn)瀏覽

【摘要】摘要網(wǎng)絡(luò)中的資源非常豐富，但是如何有效的搜索信息卻是一件困難的事情。建立搜索引擎就是解決這個(gè)問(wèn)題的最好方法。本文首先詳細(xì)介紹了基于英特網(wǎng)的搜索引擎的系統(tǒng)結(jié)構(gòu)，然后從網(wǎng)絡(luò)機(jī)器人、索引引擎、Web服務(wù)器三個(gè)方面進(jìn)行詳細(xì)的說(shuō)明。為了更加深刻的理解這種技術(shù)，本人還親自實(shí)現(xiàn)了一個(gè)自己的搜索引擎——新聞搜索引擎。新聞搜索引擎是從指定的Web頁(yè)面中按照超連接進(jìn)行解析、搜索

2024-08-03 07:09

基于網(wǎng)絡(luò)爬蟲(chóng)的搜索引擎設(shè)計(jì)與實(shí)現(xiàn)—計(jì)算機(jī)畢業(yè)設(shè)計(jì)-在線(xiàn)瀏覽

【摘要】本科畢業(yè)設(shè)計(jì)題目：基于網(wǎng)絡(luò)爬蟲(chóng)的搜索引擎設(shè)計(jì)與實(shí)現(xiàn)系別：專(zhuān)業(yè)：計(jì)算機(jī)科學(xué)與技術(shù)班級(jí)：學(xué)號(hào)：

2025-02-01 10:20

基于web搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)本科畢業(yè)論文-在線(xiàn)瀏覽

【摘要】本科畢業(yè)論文（設(shè)計(jì)、創(chuàng)作）題目：基于Web搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)DesignandImplementationofWeb-basedsearchengine2摘要網(wǎng)絡(luò)中的資源非常豐富，但是如何有效的搜索信息卻是一件困難的事情。建立搜索引擎就是解決這個(gè)問(wèn)題的最好方法。本文首先詳細(xì)介紹了基于英特網(wǎng)的搜索引擎的系

2024-08-03 21:36

基于nutch的新聞主題搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)論文-在線(xiàn)瀏覽

【摘要】山東大學(xué)本科畢業(yè)論文畢業(yè)論文(設(shè)計(jì))論文（設(shè)計(jì)）題目:基于Nutch的新聞主題搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)姓名學(xué)號(hào)學(xué)院專(zhuān)業(yè)

2024-09-12 14:32

基于lucene的圖書(shū)搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)-在線(xiàn)瀏覽

【摘要】濱江學(xué)院畢業(yè)論文(設(shè)計(jì))題目基于Lucene的圖書(shū)搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)院系計(jì)算機(jī)系專(zhuān)業(yè)軟件工程學(xué)生姓名學(xué)號(hào)指導(dǎo)教師

2025-01-20 21:52

基于nutch的新聞主題搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)論文-在線(xiàn)瀏覽

【摘要】山東大學(xué)本科畢業(yè)論文畢業(yè)論文(設(shè)計(jì))論文（設(shè)計(jì)）題目:基于Nutch的新聞主題搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)姓名學(xué)號(hào) 學(xué)院專(zhuān)業(yè) 年級(jí) 指

2024-08-07 22:53

一個(gè)小型搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)—免費(fèi)畢業(yè)設(shè)計(jì)論文-在線(xiàn)瀏覽

2025-02-01 11:23

基于lucene的全文搜索引擎設(shè)計(jì)-在線(xiàn)瀏覽

【摘要】畢業(yè)設(shè)計(jì)基于Lucene的全文搜索引擎設(shè)計(jì)學(xué)生承諾書(shū)本人鄭重承諾：所呈交的論文是本人在導(dǎo)師的指導(dǎo)下獨(dú)立進(jìn)行研究所取得的研究成果。除了文中特別加以標(biāo)注引用的內(nèi)容外，本論文不包含任何其他個(gè)人或集體已經(jīng)發(fā)表或撰寫(xiě)的成果作品。

2025-02-06 01:01

基于lucene的全文搜索引擎設(shè)計(jì)-在線(xiàn)瀏覽

2024-09-17 15:00

元搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)-在線(xiàn)瀏覽

【摘要】本科畢業(yè)設(shè)計(jì)院系計(jì)算機(jī)科學(xué)與技術(shù)系專(zhuān)業(yè)計(jì)算機(jī)科學(xué)與技術(shù)題目元搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)年級(jí)2020級(jí)學(xué)號(hào)學(xué)生姓名劉宣

2024-11-05 07:18

基于lucene與heritrix的搜索引擎構(gòu)建畢業(yè)論文-在線(xiàn)瀏覽

【摘要】1基于Lucene與Heritrix的搜索引擎構(gòu)建畢業(yè)論文摘要...............IAbstract..............II第1章緒論.......1課題的背景及意義................................................................................

2024-08-07 17:38