freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

畢業(yè)設(shè)計(jì)-基于ajaxlucene構(gòu)建搜索引擎的設(shè)計(jì)和實(shí)現(xiàn)-論文-在線(xiàn)瀏覽

2024-10-04 11:23本頁(yè)面
  

【正文】 useful information from web by search engines has bee the important part of people39。 Asynchronous update。 Search engines目 錄論文總頁(yè)數(shù):19頁(yè)1 引言 1 課題背景 1 國(guó)內(nèi)外研究現(xiàn)狀 1 本課題研究的意義 1 本課題的研究方法 12 2 全文搜索引擎 2 搜索引擎的分類(lèi) 2 搜索引擎的工作原理 2 Lucene與搜索引擎 3 索引和搜索 4 Ajax技術(shù) 43 需求分析 5 同步環(huán)境 5 6 性能需求 6 輸入輸出要求 7 運(yùn)行需求 74 方案設(shè)計(jì) 7 搜索引擎模型 7 數(shù)據(jù)庫(kù)的設(shè)計(jì) 7 模塊設(shè)計(jì) 85 系統(tǒng)實(shí)現(xiàn) 10 開(kāi)發(fā)環(huán)境 10 關(guān)鍵代碼詳解 10 代碼結(jié)構(gòu) 10 爬蟲(chóng)部分 11 12 136 測(cè)試 14 功能測(cè)試 14結(jié) 論 16參考文獻(xiàn) 17致 謝 18聲 明 191 引言 課題背景Lucene是一個(gè)基于Java的全文信息檢索工具包,它為應(yīng)用程序提供索引和搜索功能。也是目前最為流行的基于Java開(kāi)源全文檢索工具包。主要目標(biāo)傾向于和Java Lucene兼容:一個(gè)是索引格式兼容,達(dá)到可以共同工作的目的;一個(gè)是命名接近(只相差很少,比如大小寫(xiě)等),目的是可以方便開(kāi)發(fā)者使用Java Lucene相關(guān)的代碼和資料。無(wú)論搜索技術(shù)本身還是搜索范圍與深度,Google搜索總是所有搜索引擎的目標(biāo)。Google在低層次的智能搜索方面已經(jīng)開(kāi)始研究很多年了,實(shí)際的成果就是翻譯方面。但是翻譯僅僅是學(xué)術(shù)方面的應(yīng)用,更重要的是Google建立起來(lái)的海量搜索歷史記錄。國(guó)內(nèi),對(duì)搜索引擎的專(zhuān)注和對(duì)中文的理解能力也是中國(guó)本土搜索引擎行業(yè)獨(dú)特的競(jìng)爭(zhēng)力。中文的意思多種多樣,是很難用程序處理的。為了滿(mǎn)足用戶(hù)更深層次的需求,國(guó)內(nèi)的搜索引擎也在不斷的完善自己。中國(guó)網(wǎng)民對(duì)智能化搜索需求也是顯而易見(jiàn)的。 本課題研究的意義隨著計(jì)算機(jī)技術(shù)和互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,網(wǎng)絡(luò)上的信息量急劇增長(zhǎng),要在浩如煙海的網(wǎng)絡(luò)世界中尋找需要的信息,作為現(xiàn)代信息獲取技術(shù)的主要應(yīng)用,那么搜索引擎是必不可少的。 本課題的研究方法在本系統(tǒng)的開(kāi)發(fā)過(guò)程中,首先分析了搜索引擎的相關(guān)功能,寫(xiě)出需求分析;其次,綜合運(yùn)用以前所學(xué)的相關(guān)知識(shí)(數(shù)據(jù)庫(kù),C#等),選擇所熟悉的開(kāi)發(fā)工具進(jìn)行開(kāi)發(fā)(本系統(tǒng)選擇了Microsoft Visual Studio .NET 2003作為開(kāi)發(fā)平臺(tái),開(kāi)發(fā)語(yǔ)言選擇了C;數(shù)據(jù)庫(kù)采用Microsoft SQL Server 2000)。為文檔建立索引,關(guān)鍵詞搜索的功能,通過(guò)Ajax優(yōu)化系統(tǒng),完成頁(yè)面的局部刷新功能,給用戶(hù)好的體驗(yàn)。真正意義上的搜索引擎,通常指的是收集了因特網(wǎng)上幾千萬(wàn)到幾十億個(gè)網(wǎng)頁(yè)并對(duì)網(wǎng)頁(yè)中的每一個(gè)詞(即關(guān)鍵詞)進(jìn)行索引,建立索引數(shù)據(jù)庫(kù)的全文搜索引擎。在經(jīng)過(guò)復(fù)雜的算法進(jìn)行排序后,這些結(jié)果將按照與搜索關(guān)鍵詞的相關(guān)度排列。全文搜索引擎通過(guò)從互聯(lián)網(wǎng)上提取的各個(gè)網(wǎng)站的信息(以網(wǎng)頁(yè)文字為主)而建立的數(shù)據(jù)庫(kù)中,檢索與用戶(hù)查詢(xún)條件匹配的相關(guān)記錄,然后按一定的排列順序?qū)⒔Y(jié)果返回給用戶(hù)。分類(lèi)目錄則是通過(guò)人工的方式收集整理網(wǎng)站資料形成數(shù)據(jù)庫(kù)的,比如雅虎中國(guó)以及國(guó)內(nèi)的搜狐、新浪、網(wǎng)易分類(lèi)目錄。 搜索引擎的工作原理搜索引擎的原理,可以看作三步:從互聯(lián)網(wǎng)上抓取網(wǎng)頁(yè),建立索引數(shù)據(jù)庫(kù),在索引數(shù)據(jù)庫(kù)中搜索。它為保證采集的資料最新,還會(huì)回訪(fǎng)已抓取過(guò)的網(wǎng)頁(yè)。我們平時(shí)看到的全文搜索引擎,實(shí)際上只是一個(gè)搜索引擎系統(tǒng)的檢索界面,當(dāng)你輸入關(guān)鍵詞進(jìn)行查詢(xún)時(shí),搜索引擎會(huì)從龐大的數(shù)據(jù)庫(kù)中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁(yè)的索引,并按一定規(guī)則呈現(xiàn)給我們。利用能夠從互聯(lián)網(wǎng)上自動(dòng)收集網(wǎng)頁(yè)的Spider程序,自動(dòng)訪(fǎng)問(wèn)互聯(lián)網(wǎng),并沿著網(wǎng)頁(yè)中的所有URL爬到其它網(wǎng)頁(yè),重復(fù)這過(guò)程,并把爬過(guò)的所有網(wǎng)頁(yè)收集回來(lái)。接下來(lái)在索引數(shù)據(jù)庫(kù)中搜索排序,當(dāng)用戶(hù)輸入關(guān)鍵詞搜索后,由搜索系統(tǒng)程序從網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁(yè)。搜索引擎只能搜到它網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)里儲(chǔ)存的內(nèi)容。和Java 。比如你要對(duì)一些HTML文檔,PDF文檔進(jìn)行索引的話(huà)你就首先需要把HTML文檔和PDF文檔轉(zhuǎn)化成文本格式的,然后將轉(zhuǎn)化后的內(nèi)容交給Lucene進(jìn)行索引,然后把創(chuàng)建好的索引文件保存到磁盤(pán)或者內(nèi)存中,最后根據(jù)用戶(hù)輸入的查詢(xún)條件在索引文件上進(jìn)行查詢(xún)。如圖1表示了搜索應(yīng)用程序和Lucene之間的關(guān)系,也反映了利用Lucene構(gòu)建搜索應(yīng)用程序的流程:圖1 應(yīng)用程序和Lucene 索引和搜索索引是現(xiàn)代搜索引擎的核心,建立索引是把數(shù)據(jù)源處理成非常方便查詢(xún)的索引文件的過(guò)程。這就是由于建立了索引的原因,你可以把索引想象成這樣一種數(shù)據(jù)結(jié)構(gòu),他能夠使你快速的隨機(jī)訪(fǎng)問(wèn)存儲(chǔ)在索引中的關(guān)鍵詞,進(jìn)而找到該關(guān)鍵詞所關(guān)聯(lián)的文檔。反向索引就是說(shuō)我們維護(hù)了一個(gè)詞/短語(yǔ)表,對(duì)于這個(gè)表中的每個(gè)詞/短語(yǔ),都有一個(gè)鏈表描述了有哪些文檔包含了這個(gè)詞/短語(yǔ)。我們將在本系列文章的第二部分詳細(xì)介紹Lucene的索引機(jī)制,由于Lucene提供了簡(jiǎn)單易用的API,所以也可以非常容易的使用Lucene對(duì)文檔實(shí)現(xiàn)索引的建立。搜索引擎首先會(huì)對(duì)搜索的關(guān)鍵詞進(jìn)行解析,然后再在建立好的索引上面進(jìn)行查找,最終返回和用戶(hù)輸入的關(guān)鍵詞相關(guān)聯(lián)的文檔。Ajax技術(shù)是目前在瀏覽器中通過(guò)JavaScript腳本可以使用的所有技術(shù)的集合。Ajax技術(shù)之中,核心的技術(shù)就是XMLHttpRequest,它最初的名稱(chēng)叫做XMLHTTP,是微軟公司為了滿(mǎn)足開(kāi)發(fā)者的需要。它正是Ajax技術(shù)之所以與眾不同的地方。頁(yè)面內(nèi)的JavaScript可以在不刷新頁(yè)面的情況下從服務(wù)器獲取數(shù)據(jù),或者向服務(wù)器提交數(shù)據(jù)。它可以使我們以一種全新的方式來(lái)做Web開(kāi)發(fā),為用戶(hù)提供更好的交互體驗(yàn)。從Ajax的角度看來(lái),Web應(yīng)用應(yīng)由少量的頁(yè)面組成,其中每個(gè)頁(yè)面其實(shí)是一個(gè)更小型的Ajax應(yīng)用。這些組件使用XMLHttpRequest對(duì)象以異步的方式與服務(wù)器通信,從服務(wù)器獲取需要的數(shù)據(jù)后使用DOM API來(lái)更新頁(yè)面中的一部分內(nèi)容。2. 使用異步方式與服務(wù)器通信,不需要打斷用戶(hù)的操作,具有更加迅速的響應(yīng)能力。大部分交互在頁(yè)面之內(nèi)完成,不需要切換整個(gè)頁(yè)面。3 需求分析 同步環(huán)境本系統(tǒng)的同步環(huán)境如圖3:圖3 同步環(huán)境檢索服務(wù)器通過(guò)Internet檢索Web頁(yè)面。2. 能夠?qū)崿F(xiàn)一定鏈接深度的網(wǎng)頁(yè)收集,也就是在Internet上實(shí)現(xiàn)一定的URL級(jí)的數(shù)據(jù)收錄。4. 網(wǎng)站信息庫(kù)中的信息會(huì)不斷的變動(dòng),對(duì)收集到的數(shù)據(jù)需要定期的自動(dòng)維護(hù),做到定期的刪除、從新收集。6. 對(duì)檢索出的數(shù)據(jù)要可定位性,即可以顯示對(duì)數(shù)據(jù)的出處的鏈接。8. 實(shí)現(xiàn)無(wú)刷新的顯示搜索結(jié)果,對(duì)搜索用時(shí)的計(jì)算、顯示,關(guān)鍵字高亮顯示等。 性能需求1. 精度:,即對(duì)鏈接層次里的每個(gè)鏈接頁(yè)面都能夠收集得到,并寫(xiě)入
點(diǎn)擊復(fù)制文檔內(nèi)容
醫(yī)療健康相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1