freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于lucene的全文搜索引擎設(shè)計-在線瀏覽

2025-08-09 19:21本頁面
  

【正文】 求相關(guān)的網(wǎng)頁鏈接。2008年,Google在其官方博客上稱,僅其頁面搜索量就已經(jīng)高達1萬億個網(wǎng)頁,而且現(xiàn)在互聯(lián)網(wǎng)上的網(wǎng)頁數(shù)每天都有數(shù)以萬計的數(shù)量增長。同時,網(wǎng)絡(luò)信息的膨脹速度呈指數(shù)急速增長,各種各樣的網(wǎng)站都需要為其加入檢索功能,以滿足用戶的需要。目前,搜索引擎已經(jīng)不僅僅是采集網(wǎng)頁中已經(jīng)存在的信息并提供給用戶訪問的工具,它正朝著組建一個大的社區(qū)方向發(fā)展。另外,如大家比較熟悉的百度,相繼開發(fā)的百度百科、百度知道、百度貼吧、百度文庫等一系列的社區(qū)功能,也吸引了大量用戶。 國內(nèi)外文獻綜述搜索引擎,又稱搜索機,Web搜索器,是伴隨WWW網(wǎng)絡(luò)出現(xiàn)的檢索網(wǎng)上信息資源的新工具,實質(zhì)上是一種網(wǎng)頁網(wǎng)址檢索系統(tǒng)。提供關(guān)鍵詞檢索是通過主要由Crawler、Spider、Worm、Robot等計算機軟件程序不停地、盡可能廣的在互聯(lián)網(wǎng)上漫游,搜索到網(wǎng)頁,然后自動給網(wǎng)頁上的某些或全部字符做上索引,形成目標摘要格式文件以及網(wǎng)絡(luò)可訪問的數(shù)據(jù)庫,供人們檢索網(wǎng)絡(luò)信息的檢索工具。網(wǎng)絡(luò)目錄中的分類網(wǎng)站是人工整理的,網(wǎng)頁質(zhì)量高,但其跟新速度慢,有限的覆蓋范圍使得用戶還是跟傾向與使用后者。從最開始的人工目錄分類,到關(guān)鍵詞檢索,全文檢索,搜索引擎的發(fā)展。除了傳統(tǒng)的從互聯(lián)網(wǎng)上收集網(wǎng)頁信息,各大引擎還加入了自己獨特的功能。除了各大搜索引擎大佬,還有眾多的搜索引擎活躍在互聯(lián)網(wǎng)舞臺上。同樣的,也有面向老人的,病人的一系列的搜索引擎。到現(xiàn)在,B/S結(jié)構(gòu)的應(yīng)用已經(jīng)占據(jù)了軟件開發(fā)中的大半江山,從大一學(xué)C++,到QT“退伍”,再到學(xué)習(xí)Java Web開發(fā),通過幾年的努力,基本掌握了Web開發(fā)技術(shù)。此次課題類型為應(yīng)用軟件開發(fā),一個基于Lucene全文檢索引擎工具包的搜索引擎。它具有以下特點:支持桌面文件搜索,格式包括txt、doc、xls和ppt。第2章 相關(guān)技術(shù)介紹 JSP與Tomcat HTMl頁面時靜態(tài)頁面,寫好后,由瀏覽器執(zhí)行。隨著網(wǎng)頁類型的多元化,現(xiàn)如今,單純的靜態(tài)網(wǎng)頁已經(jīng)不能滿足用戶的需求。在HTML代碼中混入Java代碼的一種技術(shù)就是JSP(Java Sever Pages)。因此,在一個采用JSP技術(shù)的項目中,服務(wù)器的選擇也是必須的。Tomcat既是一個開放源碼、免費支持JSP和Servlet技術(shù)的容器,同時又是一個Web服務(wù)器軟件,受到了Sun公司的大力推薦和支持。Tomcat是一個小型的輕量級應(yīng)用服務(wù)器,運行時占用系統(tǒng)資源少、擴展性好、支持負載平衡與郵件服務(wù)器等開發(fā)應(yīng)用系統(tǒng)中的常用功能,并且不斷改進和改善。 SQL Sever數(shù)據(jù)庫 Microsoft SQL Server 2005 是一個全面的數(shù)據(jù)庫平臺,使用集成的商業(yè)智能 (BI)工具提供了企業(yè)級的數(shù)據(jù)管理。 Ajax簡介Ajax是一種Web應(yīng)用客戶端技術(shù),它結(jié)合了JavaScript、CSS、HTML、XMLHttpRequest對象和文檔對象模型(DOM)等多種技術(shù)。在傳統(tǒng)的Web應(yīng)用中,用戶提交表單實際上就是向服務(wù)器發(fā)送一個請求,服務(wù)器接受數(shù)據(jù)并處理,最終返回一個新的網(wǎng)頁。在Ajax技術(shù)中,當提交表單時,數(shù)據(jù)首先被轉(zhuǎn)交給Ajax引擎的中間層,然后由中間層負責(zé)發(fā)送給服務(wù)器端程序,處理完成后,再將相應(yīng)發(fā)回給Ajax引擎的中間層,并通過Ajax引擎的中間層將數(shù)據(jù)返回給客戶端界面顯示出來。 Lucene介紹 Lucene結(jié)構(gòu)和源碼組織結(jié)構(gòu)如圖21:圖21 Lucene結(jié)構(gòu)和源碼組織結(jié)構(gòu)Lucene的核心工包括7個子包,每個包完成特定的功能。往Lucene中放的是文檔,查詢的是詞,查詢返回的也是文檔。Lucene用Document邏輯文件和Field域來組織各種數(shù)據(jù)源。(1)創(chuàng)建一個Document代表我們要索引的文檔。(3)我們知道,一篇文檔有多種信息,如題目,作者,修改時間,內(nèi)容等,不同類型的信息用不同的Field來表示。如果這一部分的性能無法達到用戶要求,那么軟件就沒有太大的意義。搜索過程如下:IndexReader將磁盤上的索引信息讀入到內(nèi)存,INDEX_DIR就是索引文件存放的位置。(2)創(chuàng)建Analyer用來對查詢語句進行詞法分析和語言處理。創(chuàng)建QueryParser用來對查詢語句進行語法分析。(5)由于Lucene自帶的分詞器對英文的分詞效果較好,但對中文的分詞效果并不如意。IK語言開發(fā)的輕量級的中文分詞工具包。對于搜索引擎而言,其體系結(jié)構(gòu)是指為搜索引擎運行而設(shè)置的軟硬件系統(tǒng),以及軟硬件系統(tǒng)之間相互聯(lián)系的總和。如圖31所示的Google在美國俄勒崗達拉斯附近的數(shù)據(jù)中心,有圖可以看出,整個數(shù)據(jù)中心由3個巨大的集群機房組成,其中每個機房占地面積都超過一個標準足球場的大小。全文搜索引擎最具代表性的如Google,國內(nèi)的有百度,搜搜等。目錄索引算是互聯(lián)網(wǎng)上出現(xiàn)的最早的索引,大名鼎鼎的Yahoo雅虎便是其中之一,國內(nèi)的搜狐、新浪、網(wǎng)易搜索也都屬于這一類。網(wǎng)絡(luò)信息日新月異的變更,人們總是期望挑出最新的信息,人工的組織連接分類既不能在覆蓋度上滿足用戶搜索需求,也使得互聯(lián)網(wǎng)的信息與現(xiàn)實信息之間存在一定時間差。中文元搜索引擎中具代表性的有搜星搜索引擎。 搜索引擎主要模塊功能介紹圖32 搜索引擎基本組成 如圖32所示,搜索器(Crawler)、索引器(Indexer)、檢索器 (Searcher)和用戶接口(Ul)等四個部分組成了一個完整的的搜索引擎程序,頁面存儲器 (Repository)和存儲桶 (Barrel)兩部分組成存儲設(shè)備。它在整個搜索引擎系統(tǒng)中承擔(dān)著與互聯(lián)網(wǎng)數(shù)據(jù)進行交互的任務(wù)。目前有搜集信息的策略: 深度優(yōu)先算法是搜索引擎發(fā)展早期廣泛采取的一種信息收集策略,這種算法的優(yōu)點就是能夠盡可能多的遍歷到互聯(lián)網(wǎng)上的所有信息。然而,互聯(lián)網(wǎng)上很多的網(wǎng)頁在很多時候都不是被大量用戶所訪問的,一味最求可訪問量并不能帶來很好的用戶體驗。 搜索器的實現(xiàn)常常用分布式、并行計算技術(shù),以提高信息發(fā)現(xiàn)和更新的速度。 然而我們知道,不同類型的網(wǎng)絡(luò)數(shù)據(jù),其更新頻率有很大的差距。跟新頻率相對比較高的,幾個小時到幾天不等周期的,例如大家的博客,空間,以及學(xué)校公共主頁等。為此,搜索引擎往往采用不同的抓取更新頻率的方法,保證數(shù)據(jù)集合總體的新鮮度維持在一個較高水平。搜索引擎的索引實際上就是一種單詞文檔數(shù)據(jù)結(jié)構(gòu)。在搜索引擎內(nèi)部,會為每個文檔和單詞(關(guān)鍵字)賦予一個唯一的ID,在倒排表中,實際存儲的就是單詞編號和文檔編號。 如表31。Docij表示一個文檔,也就是一個文檔,對應(yīng)的上下標j、i表示包含第i個詞項的第j個文檔。 檢索器(Searcher) 檢索器的功能是根據(jù)用戶的查詢,對將要輸出的結(jié)果進行排序
點擊復(fù)制文檔內(nèi)容
高考資料相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1