freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于lucene的全文搜索引擎設(shè)計(jì)-文庫(kù)吧資料

2025-06-28 19:21本頁(yè)面
  

【正文】 Pos2…Doc21 PosqDoc22 Pos1……………..……TermDocN1 Pos1DocN1 PosN..DocN1 PosqDocN2 Pos1…Termi表示一個(gè)詞項(xiàng),i表示詞項(xiàng)的編號(hào)。索引表也要記錄索引項(xiàng)在文檔中出現(xiàn)的位置,以便檢索器計(jì)算索引項(xiàng)之間的相鄰或接近關(guān)系 (proximity)。倒排索引是搜索引擎最常用的單詞到文檔的一種實(shí)現(xiàn)方式。 索引器 (Indexer) 搜索器搜索到的海量數(shù)據(jù),搜索引擎如何管理這些海量的數(shù)據(jù)?索引器的主要功能就是對(duì)海量的網(wǎng)頁(yè)內(nèi)容,從中抽取出索引項(xiàng),用于表示文檔以及生成文檔庫(kù)的索引表,實(shí)現(xiàn)快速查找包含用戶關(guān)鍵字的網(wǎng)頁(yè)。面對(duì)差異如此大的更新頻率,對(duì)每一個(gè)網(wǎng)頁(yè)采取同樣的更新策略無(wú)疑會(huì)浪費(fèi)大量的資源,甚至不能保持搜索引擎數(shù)據(jù)與萬(wàn)維網(wǎng)數(shù)據(jù)的同步。更新頻率很高的,跟新周期以分鐘甚至秒來(lái)計(jì)算,如:新聞網(wǎng)站,天氣情況股票指數(shù)等。商業(yè)搜索引擎的信息發(fā)現(xiàn)可以達(dá)到每天幾百萬(wàn)網(wǎng)頁(yè)。目前的商用搜索引擎中,還包括反向鏈接數(shù)策略、局部PageRank策略、網(wǎng)頁(yè)的重訪策略等。廣度優(yōu)先策略與深度優(yōu)先策略類似,只是前者是以網(wǎng)頁(yè)中的一個(gè)連接為起點(diǎn),盡量多的網(wǎng)下漫游,廣度優(yōu)先則是遍歷網(wǎng)頁(yè)中的所有超鏈接再網(wǎng)下漫游。搜索器的主要功能就是漫游整個(gè)互聯(lián)網(wǎng),以一個(gè)超鏈接為起始點(diǎn),盡可能廣和深的遍歷網(wǎng)頁(yè)上的其它連接,存儲(chǔ)找到的新的網(wǎng)頁(yè),和跟新已經(jīng)存在的文檔內(nèi)容。 搜索器 (Crawler) 搜索器的功能是在互聯(lián)網(wǎng)中漫游,及時(shí)、高效地收集數(shù)量盡可能多的有用的Web網(wǎng)頁(yè),以及建立他們之間的超鏈接關(guān)系。在搜索結(jié)果排列方面,有的直接按來(lái)源引擎排列搜索結(jié)果,有的則按自定的規(guī)則將結(jié)果重新排列組合。  元搜索引擎在接受用戶查詢請(qǐng)求時(shí),同時(shí)在其他多個(gè)引擎上進(jìn)行搜索,并將結(jié)果返回給用戶。目錄索引雖然有搜索功能,但在嚴(yán)格意義上算不上是真正的搜索引擎。全文搜索引擎是真正的搜索引擎,簡(jiǎn)單的操作方式,廣泛的搜索范圍,始一出現(xiàn)就得到了廣大網(wǎng)名的認(rèn)可,并在很大程度上取代了目錄式索引類網(wǎng)站。圖31 美國(guó)俄勒崗達(dá)拉斯附近的數(shù)據(jù)中心搜索引擎按其工作方式主要可分為三種,分別是全文搜索引擎(Full Text Search Engine)、目錄索引類搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。為了容納萬(wàn)維網(wǎng)以爆炸式增長(zhǎng)的數(shù)據(jù),各大搜索引擎都是用規(guī)模浩繁的計(jì)算機(jī)集群系統(tǒng)對(duì)這些大量的數(shù)據(jù)加以存儲(chǔ)和處理。第3章 搜索引擎原理 搜索引擎體系結(jié)構(gòu)根據(jù)百度百科的定義,體系結(jié)構(gòu)包括一組部件及部件之間的聯(lián)系。Analyzer是一個(gè)開(kāi)源的,基于java為了使檢索系統(tǒng)能更好的處理中文信息,本文采用了IK Analyzer作為分詞器。IndexSearcher調(diào)用search對(duì)查詢語(yǔ)法樹(shù)Query進(jìn)行搜索,得到查詢結(jié)果存放在TopScoreDocCollector。(6)QueryParser調(diào)用parser進(jìn)行語(yǔ)法分析,形成查詢語(yǔ)法樹(shù),放到Query中。(4)(3)創(chuàng)建IndexSearcher準(zhǔn)備進(jìn)行搜索。(1)Lucene建立了功能強(qiáng)大的索引機(jī)制為搜索服務(wù),這是因?yàn)樵跈z索系統(tǒng)的使用中,用戶體驗(yàn)最深的還是搜索部分。(4)IndexWriter調(diào)用函數(shù)addDocument將索引寫(xiě)到索引文件夾中。將不同的Field加入到文檔中。(2)創(chuàng)建一個(gè)IndexWriter用來(lái)寫(xiě)索引文件,它有幾個(gè)參數(shù),INDEX_DIR就是索引文件所存放的位置,Analyzer便是用來(lái)對(duì)文檔進(jìn)行詞法分析和語(yǔ)言處理的。索引過(guò)程如下:Document向Lucene提供原始的要索引的文本內(nèi)容,Lucene從Document中取出相關(guān)的數(shù)據(jù)源,并根據(jù)屬性配置進(jìn)行相應(yīng)的處理,建立索引。索引是信息檢索引擎工作的第一步,只有建立了索引才能進(jìn)行信息檢索。最基本的是索引管理和檢索管理。Lucene是apache軟件基金會(huì)4 jakarta項(xiàng)目組的一個(gè)子項(xiàng)目,是一個(gè)開(kāi)放源代碼的全文檢索引擎工具包,即它不是一個(gè)完整的全文檢索引擎,而是一個(gè)全文檢索引擎的架構(gòu)。如此,充分利用了客戶端閑置的處理能力,減輕服務(wù)器負(fù)擔(dān),節(jié)省帶寬,也提高了用戶體驗(yàn)。如果傳輸?shù)臄?shù)據(jù)量比較大,用戶能夠明顯的看到在頁(yè)面上顯示的效果就是,整個(gè)頁(yè)面都將刷新一次,在刷新的過(guò)程中,用戶只能等待,而這,無(wú)疑是一項(xiàng)很不好的用戶體驗(yàn)。它允許把用戶和Web頁(yè)面間的交互與Web瀏覽器和服務(wù)器間的通信分開(kāi)來(lái)。Microsoft SQL Server 2005數(shù)據(jù)庫(kù)引擎為關(guān)系型數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)提供了更安全可靠的存儲(chǔ)功能,可以構(gòu)建和管理用于業(yè)務(wù)的高可用和高性能的數(shù)據(jù)應(yīng)用程序。先進(jìn)的技術(shù)、穩(wěn)定的性能、源碼開(kāi)放和免費(fèi)獲取的機(jī)制,使得Tomcat深受Java愛(ài)好者的喜愛(ài)并得到許多開(kāi)發(fā)商的認(rèn)可,曾為目前相當(dāng)流行的Web應(yīng)用服務(wù)器。因此,Servlet和JSP的最新規(guī)范都可以在Tomcat的新版本中得到實(shí)現(xiàn)。Tomcat是Sun的JSWDK(Java Server Web Development Kit)中的Servlet容器,由Apache、Sun和其他一些公司和個(gè)人共同開(kāi)發(fā)而成。JSP頁(yè)面的Java代碼在服務(wù)器端執(zhí)行,執(zhí)行生成HTML頁(yè)面返回給客戶端。HTML不能處理訪問(wèn)數(shù)據(jù)庫(kù)數(shù)據(jù),Java代碼卻能訪問(wèn)數(shù)據(jù)庫(kù)。HTML語(yǔ)法不支持動(dòng)態(tài)顯示,及在HTMl頁(yè)面中,不能訪問(wèn)數(shù)據(jù)庫(kù)和對(duì)數(shù)據(jù)加工處理。支持分詞查詢;支持全文搜索;能夠高亮顯示搜索關(guān)鍵字;顯示查詢所用的時(shí)間;顯示搜索歷史、過(guò)濾關(guān)鍵字。根據(jù)自己在校期間多次實(shí)踐開(kāi)發(fā)經(jīng)驗(yàn),采用MyEclipse集成開(kāi)發(fā)環(huán)境,SQL Sever2005數(shù)據(jù)庫(kù)。同時(shí),對(duì)于互聯(lián)網(wǎng)上大量頁(yè)面的檢索及結(jié)果排序也產(chǎn)生了濃厚的興趣。 課題來(lái)源及主要研究?jī)?nèi)容課題來(lái)自于指導(dǎo)老師意見(jiàn),幾經(jīng)思考,最終由本人自擬。目前,搜索引擎市場(chǎng)上流行的是不分用戶對(duì)象的搜索引擎,獨(dú)辟蹊徑,開(kāi)發(fā)針對(duì)特殊群體的搜索引擎,近幾年也籠絡(luò)了不少的用戶。包括如Google翻譯,地圖,百度文庫(kù),百度貼吧等。搜索引擎能夠?qū)崿F(xiàn)的功能也多樣化。到目前,成功的搜索引擎系統(tǒng)也很多,如Yahoo,Google,baidu等。網(wǎng)絡(luò)目錄則是和搜索引擎完全不同,它沒(méi)有不停的為收集信息而工作的“網(wǎng)絡(luò)蜘蛛”,而是由專業(yè)人員謹(jǐn)慎地選擇網(wǎng)站的首頁(yè),并將其放入自己網(wǎng)站相應(yīng)的分類類目中,因此,這種模式下,大多數(shù)的網(wǎng)頁(yè)是不能被訪問(wèn)到的。根據(jù)查詢方式的不同,搜索引擎也有不同的分類,它們有的提供分類和關(guān)鍵詞檢索途徑,有的僅提供關(guān)鍵詞檢索途徑。搜索引擎構(gòu)建的社區(qū)正在慢慢的融入人們的生活與學(xué)習(xí)。Google是目前不可爭(zhēng)議的第一大搜索引擎,在這個(gè)社區(qū)里你可以瀏覽新聞、地圖查看、瀏覽新聞、收發(fā)郵件、翻譯你想要翻譯的外文文
點(diǎn)擊復(fù)制文檔內(nèi)容
高考資料相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1