freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

基于lucene的全文搜索引擎設計(編輯修改稿)

2025-07-19 19:21 本頁面
 

【文章內容簡介】 60。索引過程如下:(1)創(chuàng)建一個IndexWriter用來寫索引文件,它有幾個參數(shù),INDEX_DIR就是索引文件所存放的位置,Analyzer便是用來對文檔進行詞法分析和語言處理的。(2)創(chuàng)建一個Document代表我們要索引的文檔。(3)將不同的Field加入到文檔中。我們知道,一篇文檔有多種信息,如題目,作者,修改時間,內容等,不同類型的信息用不同的Field來表示。(4)IndexWriter調用函數(shù)addDocument將索引寫到索引文件夾中。Lucene建立了功能強大的索引機制為搜索服務,這是因為在檢索系統(tǒng)的使用中,用戶體驗最深的還是搜索部分。如果這一部分的性能無法達到用戶要求,那么軟件就沒有太大的意義。搜索過程如下:(1)IndexReader將磁盤上的索引信息讀入到內存,INDEX_DIR就是索引文件存放的位置。(2)創(chuàng)建IndexSearcher準備進行搜索。(3)創(chuàng)建Analyer用來對查詢語句進行詞法分析和語言處理。(4)創(chuàng)建QueryParser用來對查詢語句進行語法分析。(5)QueryParser調用parser進行語法分析,形成查詢語法樹,放到Query中。(6)IndexSearcher調用search對查詢語法樹Query進行搜索,得到查詢結果存放在TopScoreDocCollector。由于Lucene自帶的分詞器對英文的分詞效果較好,但對中文的分詞效果并不如意。為了使檢索系統(tǒng)能更好的處理中文信息,本文采用了IK Analyzer作為分詞器。IKAnalyzer是一個開源的,基于java語言開發(fā)的輕量級的中文分詞工具包。第3章 搜索引擎原理 搜索引擎體系結構根據百度百科的定義,體系結構包括一組部件及部件之間的聯(lián)系。對于搜索引擎而言,其體系結構是指為搜索引擎運行而設置的軟硬件系統(tǒng),以及軟硬件系統(tǒng)之間相互聯(lián)系的總和。為了容納萬維網以爆炸式增長的數(shù)據,各大搜索引擎都是用規(guī)模浩繁的計算機集群系統(tǒng)對這些大量的數(shù)據加以存儲和處理。如圖31所示的Google在美國俄勒崗達拉斯附近的數(shù)據中心,有圖可以看出,整個數(shù)據中心由3個巨大的集群機房組成,其中每個機房占地面積都超過一個標準足球場的大小。圖31 美國俄勒崗達拉斯附近的數(shù)據中心搜索引擎按其工作方式主要可分為三種,分別是全文搜索引擎(Full Text Search Engine)、目錄索引類搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。全文搜索引擎最具代表性的如Google,國內的有百度,搜搜等。全文搜索引擎是真正的搜索引擎,簡單的操作方式,廣泛的搜索范圍,始一出現(xiàn)就得到了廣大網名的認可,并在很大程度上取代了目錄式索引類網站。目錄索引算是互聯(lián)網上出現(xiàn)的最早的索引,大名鼎鼎的Yahoo雅虎便是其中之一,國內的搜狐、新浪、網易搜索也都屬于這一類。目錄索引雖然有搜索功能,但在嚴格意義上算不上是真正的搜索引擎。網絡信息日新月異的變更,人們總是期望挑出最新的信息,人工的組織連接分類既不能在覆蓋度上滿足用戶搜索需求,也使得互聯(lián)網的信息與現(xiàn)實信息之間存在一定時間差?! ≡阉饕嬖诮邮苡脩舨樵冋埱髸r,同時在其他多個引擎上進行搜索,并將結果返回給用戶。中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索結果排列方面,有的直接按來源引擎排列搜索結果,有的則按自定的規(guī)則將結果重新排列組合。 搜索引擎主要模塊功能介紹圖32 搜索引擎基本組成 如圖32所示,搜索器(Crawler)、索引器(Indexer)、檢索器 (Searcher)和用戶接口(Ul)等四個部分組成了一個完整的的搜索引擎程序,頁面存儲器 (Repository)和存儲桶 (Barrel)兩部分組成存儲設備。 搜索器 (Crawler) 搜索器的功能是在互聯(lián)網中漫游,及時、高效地收集數(shù)量盡可能多的有用的Web網頁,以及建立他們之間的超鏈接關系。它在整個搜索引擎系統(tǒng)中承擔著與互聯(lián)網數(shù)據進行交互的任務。搜索器的主要功能就是漫游整個互聯(lián)網,以一個超鏈接為起始點,盡可能廣和深的遍歷網頁上的其它連接,存儲找到的新的網頁,和跟新已經存在的文檔內容。目前有搜集信息的策略: 深度優(yōu)先算法是搜索引擎發(fā)展早期廣泛采取的一種信息收集策略,這種算法的優(yōu)點就是能夠盡可能多的遍歷到互聯(lián)網上的所有信息。廣度優(yōu)先策略與深度優(yōu)先策略類似,只是前者是以網頁中的一個連接為起點,盡量多的網下漫游,廣度優(yōu)先則是遍歷網頁中的所有超鏈接再網下漫游。然而,互聯(lián)網上很多的網頁在很多時候都不是被大量用戶所訪問的,一味最求可訪問量并不能帶來很好的用戶體驗。目前的商用搜索引擎中,還包括反向鏈接數(shù)策略、局部PageRank策略、網頁的重訪策略等。 搜索器的實現(xiàn)常常用分布式、并行計算技術,以提高信息發(fā)現(xiàn)和更新的速度。商業(yè)搜索引擎的信息發(fā)現(xiàn)可以達到每天幾百萬網頁。 然而我們知道,不同類型的網絡數(shù)據,其更新頻率有很大的差距。更新頻率很高的,跟新周期以分鐘甚至秒來計算,如:新聞網站,天氣情況股票指數(shù)等。跟新頻率相對比較高的,幾個小時到幾天不等周期的,例如大家的博客,空間,以及學校公共主頁等。面對差異如此大的更新頻率,對每一個網頁采取同樣的更新策略無疑會浪費大量的資源,甚至不能保持搜索引擎數(shù)據與萬維網數(shù)據的同步。為此,搜索引擎往往采用不同的抓取更新頻率的方法,保證數(shù)據集合總體的新鮮度維持在一個較高水平。 索引器 (Indexer) 搜索器搜索到的海量數(shù)據,搜索引擎如何管理這些海量的數(shù)據?索引器的主要功能就是對海量的網頁內容,從中抽取出索引項,用于表示文檔以及生成文檔庫的索引表,實現(xiàn)快速查找包含用戶關鍵字的網頁。搜索引擎的索引實際上就是一種單詞文檔數(shù)據結構。倒排索引是搜索引擎最常用的單詞到文檔的一種實現(xiàn)方式。在搜索引擎內部,會為每個文檔和單詞(關鍵字)賦予一個唯一的ID,在倒排表中,實際存儲的就是單詞編號和文檔編號。索引表也要記錄索引項在文檔中出現(xiàn)的位置,以便檢索器計算索引項之間的相鄰或接近關系 (proximity)。 如表31。表31 倒排索引結構圖Term1Doc11 Pos1Doc11 Pos2…Doc11 PosqDoc12 Pos1…Term2Doc2 Pos1Doc21 Pos2…Doc21 PosqDoc22 Pos1……………..……TermDocN1 Pos1DocN1 PosN
點擊復制文檔內容
高考資料相關推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1