freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

畢業(yè)設(shè)計-基于ajaxlucene構(gòu)建搜索引擎的設(shè)計和實現(xiàn)-論文-在線瀏覽

2024-10-04 11:23本頁面
  

【正文】 useful information from web by search engines has bee the important part of people39。 Asynchronous update。 Search engines目 錄論文總頁數(shù):19頁1 引言 1 課題背景 1 國內(nèi)外研究現(xiàn)狀 1 本課題研究的意義 1 本課題的研究方法 12 2 全文搜索引擎 2 搜索引擎的分類 2 搜索引擎的工作原理 2 Lucene與搜索引擎 3 索引和搜索 4 Ajax技術(shù) 43 需求分析 5 同步環(huán)境 5 6 性能需求 6 輸入輸出要求 7 運行需求 74 方案設(shè)計 7 搜索引擎模型 7 數(shù)據(jù)庫的設(shè)計 7 模塊設(shè)計 85 系統(tǒng)實現(xiàn) 10 開發(fā)環(huán)境 10 關(guān)鍵代碼詳解 10 代碼結(jié)構(gòu) 10 爬蟲部分 11 12 136 測試 14 功能測試 14結(jié) 論 16參考文獻(xiàn) 17致 謝 18聲 明 191 引言 課題背景Lucene是一個基于Java的全文信息檢索工具包,它為應(yīng)用程序提供索引和搜索功能。也是目前最為流行的基于Java開源全文檢索工具包。主要目標(biāo)傾向于和Java Lucene兼容:一個是索引格式兼容,達(dá)到可以共同工作的目的;一個是命名接近(只相差很少,比如大小寫等),目的是可以方便開發(fā)者使用Java Lucene相關(guān)的代碼和資料。無論搜索技術(shù)本身還是搜索范圍與深度,Google搜索總是所有搜索引擎的目標(biāo)。Google在低層次的智能搜索方面已經(jīng)開始研究很多年了,實際的成果就是翻譯方面。但是翻譯僅僅是學(xué)術(shù)方面的應(yīng)用,更重要的是Google建立起來的海量搜索歷史記錄。國內(nèi),對搜索引擎的專注和對中文的理解能力也是中國本土搜索引擎行業(yè)獨特的競爭力。中文的意思多種多樣,是很難用程序處理的。為了滿足用戶更深層次的需求,國內(nèi)的搜索引擎也在不斷的完善自己。中國網(wǎng)民對智能化搜索需求也是顯而易見的。 本課題研究的意義隨著計算機(jī)技術(shù)和互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,網(wǎng)絡(luò)上的信息量急劇增長,要在浩如煙海的網(wǎng)絡(luò)世界中尋找需要的信息,作為現(xiàn)代信息獲取技術(shù)的主要應(yīng)用,那么搜索引擎是必不可少的。 本課題的研究方法在本系統(tǒng)的開發(fā)過程中,首先分析了搜索引擎的相關(guān)功能,寫出需求分析;其次,綜合運用以前所學(xué)的相關(guān)知識(數(shù)據(jù)庫,C#等),選擇所熟悉的開發(fā)工具進(jìn)行開發(fā)(本系統(tǒng)選擇了Microsoft Visual Studio .NET 2003作為開發(fā)平臺,開發(fā)語言選擇了C;數(shù)據(jù)庫采用Microsoft SQL Server 2000)。為文檔建立索引,關(guān)鍵詞搜索的功能,通過Ajax優(yōu)化系統(tǒng),完成頁面的局部刷新功能,給用戶好的體驗。真正意義上的搜索引擎,通常指的是收集了因特網(wǎng)上幾千萬到幾十億個網(wǎng)頁并對網(wǎng)頁中的每一個詞(即關(guān)鍵詞)進(jìn)行索引,建立索引數(shù)據(jù)庫的全文搜索引擎。在經(jīng)過復(fù)雜的算法進(jìn)行排序后,這些結(jié)果將按照與搜索關(guān)鍵詞的相關(guān)度排列。全文搜索引擎通過從互聯(lián)網(wǎng)上提取的各個網(wǎng)站的信息(以網(wǎng)頁文字為主)而建立的數(shù)據(jù)庫中,檢索與用戶查詢條件匹配的相關(guān)記錄,然后按一定的排列順序?qū)⒔Y(jié)果返回給用戶。分類目錄則是通過人工的方式收集整理網(wǎng)站資料形成數(shù)據(jù)庫的,比如雅虎中國以及國內(nèi)的搜狐、新浪、網(wǎng)易分類目錄。 搜索引擎的工作原理搜索引擎的原理,可以看作三步:從互聯(lián)網(wǎng)上抓取網(wǎng)頁,建立索引數(shù)據(jù)庫,在索引數(shù)據(jù)庫中搜索。它為保證采集的資料最新,還會回訪已抓取過的網(wǎng)頁。我們平時看到的全文搜索引擎,實際上只是一個搜索引擎系統(tǒng)的檢索界面,當(dāng)你輸入關(guān)鍵詞進(jìn)行查詢時,搜索引擎會從龐大的數(shù)據(jù)庫中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁的索引,并按一定規(guī)則呈現(xiàn)給我們。利用能夠從互聯(lián)網(wǎng)上自動收集網(wǎng)頁的Spider程序,自動訪問互聯(lián)網(wǎng),并沿著網(wǎng)頁中的所有URL爬到其它網(wǎng)頁,重復(fù)這過程,并把爬過的所有網(wǎng)頁收集回來。接下來在索引數(shù)據(jù)庫中搜索排序,當(dāng)用戶輸入關(guān)鍵詞搜索后,由搜索系統(tǒng)程序從網(wǎng)頁索引數(shù)據(jù)庫中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁。搜索引擎只能搜到它網(wǎng)頁索引數(shù)據(jù)庫里儲存的內(nèi)容。和Java 。比如你要對一些HTML文檔,PDF文檔進(jìn)行索引的話你就首先需要把HTML文檔和PDF文檔轉(zhuǎn)化成文本格式的,然后將轉(zhuǎn)化后的內(nèi)容交給Lucene進(jìn)行索引,然后把創(chuàng)建好的索引文件保存到磁盤或者內(nèi)存中,最后根據(jù)用戶輸入的查詢條件在索引文件上進(jìn)行查詢。如圖1表示了搜索應(yīng)用程序和Lucene之間的關(guān)系,也反映了利用Lucene構(gòu)建搜索應(yīng)用程序的流程:圖1 應(yīng)用程序和Lucene 索引和搜索索引是現(xiàn)代搜索引擎的核心,建立索引是把數(shù)據(jù)源處理成非常方便查詢的索引文件的過程。這就是由于建立了索引的原因,你可以把索引想象成這樣一種數(shù)據(jù)結(jié)構(gòu),他能夠使你快速的隨機(jī)訪問存儲在索引中的關(guān)鍵詞,進(jìn)而找到該關(guān)鍵詞所關(guān)聯(lián)的文檔。反向索引就是說我們維護(hù)了一個詞/短語表,對于這個表中的每個詞/短語,都有一個鏈表描述了有哪些文檔包含了這個詞/短語。我們將在本系列文章的第二部分詳細(xì)介紹Lucene的索引機(jī)制,由于Lucene提供了簡單易用的API,所以也可以非常容易的使用Lucene對文檔實現(xiàn)索引的建立。搜索引擎首先會對搜索的關(guān)鍵詞進(jìn)行解析,然后再在建立好的索引上面進(jìn)行查找,最終返回和用戶輸入的關(guān)鍵詞相關(guān)聯(lián)的文檔。Ajax技術(shù)是目前在瀏覽器中通過JavaScript腳本可以使用的所有技術(shù)的集合。Ajax技術(shù)之中,核心的技術(shù)就是XMLHttpRequest,它最初的名稱叫做XMLHTTP,是微軟公司為了滿足開發(fā)者的需要。它正是Ajax技術(shù)之所以與眾不同的地方。頁面內(nèi)的JavaScript可以在不刷新頁面的情況下從服務(wù)器獲取數(shù)據(jù),或者向服務(wù)器提交數(shù)據(jù)。它可以使我們以一種全新的方式來做Web開發(fā),為用戶提供更好的交互體驗。從Ajax的角度看來,Web應(yīng)用應(yīng)由少量的頁面組成,其中每個頁面其實是一個更小型的Ajax應(yīng)用。這些組件使用XMLHttpRequest對象以異步的方式與服務(wù)器通信,從服務(wù)器獲取需要的數(shù)據(jù)后使用DOM API來更新頁面中的一部分內(nèi)容。2. 使用異步方式與服務(wù)器通信,不需要打斷用戶的操作,具有更加迅速的響應(yīng)能力。大部分交互在頁面之內(nèi)完成,不需要切換整個頁面。3 需求分析 同步環(huán)境本系統(tǒng)的同步環(huán)境如圖3:圖3 同步環(huán)境檢索服務(wù)器通過Internet檢索Web頁面。2. 能夠?qū)崿F(xiàn)一定鏈接深度的網(wǎng)頁收集,也就是在Internet上實現(xiàn)一定的URL級的數(shù)據(jù)收錄。4. 網(wǎng)站信息庫中的信息會不斷的變動,對收集到的數(shù)據(jù)需要定期的自動維護(hù),做到定期的刪除、從新收集。6. 對檢索出的數(shù)據(jù)要可定位性,即可以顯示對數(shù)據(jù)的出處的鏈接。8. 實現(xiàn)無刷新的顯示搜索結(jié)果,對搜索用時的計算、顯示,關(guān)鍵字高亮顯示等。 性能需求1. 精度:,即對鏈接層次里的每個鏈接頁面都能夠收集得到,并寫入
點擊復(fù)制文檔內(nèi)容
醫(yī)療健康相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1