freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)-畢業(yè)論文-wenkub.com

2025-08-13 16:43 本頁(yè)面
   

【正文】 在抓取完成以后, segment 目錄下會(huì)產(chǎn)生很多以日期命名的文件夾,這些文件夾下面都存放著段的索引和數(shù)據(jù)信息。 [rootbogon local] bin/nutch readdb Usage: CrawlDbReader crawldb (stats | dump out_dir | topN nnnn out_dir [min] | url url) crawldb directory name where crawldb is located stats [sort] print overall statistics to [sort] list status sorted by host dump out_dir [format normal|csv|crawldb] dump the whole db to a text file in out_dir [format csv] dump in Csv format [format normal] dump in standard format (default option) [format crawldb] dump as CrawlDB [regex expr] filter records with expression [status status] filter records by CrawlDatum status url url print information on url to topN nnnn out_dir [min] dump top nnnn urls sorted by score to out_dir [min] skip records with scores below this value. This can significantly improve performance. 下面給出 stats 的統(tǒng)計(jì)信息。常見(jiàn)的應(yīng)用場(chǎng)合是:你有數(shù)據(jù)源,需要為這些數(shù)據(jù)提供一個(gè)搜索頁(yè)面。 研究 Nutch 的目標(biāo) nutch 致力于讓每個(gè)人能很容易 , 同時(shí)花費(fèi)很少就可以配置世界一流的 Web 搜索引擎 . 為了完成這一宏偉的目標(biāo) , nutch 必須能夠做到 : ? 每個(gè)月取幾十億網(wǎng)頁(yè) ? 為這些網(wǎng)頁(yè)維護(hù)一個(gè)索引 ? 對(duì)索引文件進(jìn)行每秒上千次的搜索 ? 提供高質(zhì)量的搜索結(jié)果 ? 以 最小的成本運(yùn)作 Nutch 和 Lucene 比較 簡(jiǎn)單的說(shuō) , Lucene 不是完整的應(yīng)用程序,而是一個(gè)用于實(shí)現(xiàn)全文檢索的軟件庫(kù)。并且 Nutch 也吸引了很多研究者,他們非常樂(lè)于嘗試新的搜索算法,因?yàn)閷?duì) Nutch 來(lái)說(shuō),這是非常容易實(shí)現(xiàn)擴(kuò)展的。 (2) 對(duì)搜索引擎的理解:我們并沒(méi)有 google 的源代碼,因此學(xué)習(xí)搜索引擎 Nutch是個(gè)不錯(cuò)的選擇。 研究 Nutch 的原因 可能有的朋友會(huì)有疑問(wèn) ,已經(jīng) 有 google,有百度 ,為 何還需要建立自己的搜索引擎呢?這里我列出 3點(diǎn)原因: (1) 透明度: nutch 是開(kāi)放源代碼的,因此任何人都可以查看 他的排序算法是如何工作的。接下來(lái)就是 Apache Solr 所要做的。 } catch (Exception e) { 江漢大 學(xué)本科畢業(yè)論文(設(shè)計(jì)) 21 ()。 //會(huì)將索引合并為 3段,這 3段中被刪除的數(shù)據(jù)會(huì)被清空 //特別注意:此處 Lucene在 ,因?yàn)闀?huì)消耗大量的開(kāi)銷, Lucene會(huì)自動(dòng)優(yōu)化 (3)。 (Index Writer Close Error ~~)。 (Index where id = 1 delete ok!)。 } } 江漢大 學(xué)本科畢業(yè)論文(設(shè)計(jì)) 20 } public void forceDelete(){ IndexWriter writer = null。 } catch (Exception e) { ()。 } } } } public void unewdelete(){ IndexReader reader = null。 } catch (Exception e) { ()。 try { iwc = new IndexWriterConfig(, new StandardAnalyzer())。 (Index Reader Close Error ~!)。 (maxDoc: + ())。 表 32給出了通過(guò)檢索索引的一個(gè)例子。 } finally { try { ()。 (new Field(name, names[i], , ))。 i++){ doc = new Document()。 writer = new IndexWriter(directory, iwc)。 directory = new RAMDirectory()。 private String[] names = {tom, lily, john, jack, mike, bob}。 .表 41 建立索引 public class IndexUtil { private String[] ids = {1, 2, 3, 4, 5, 6}。 第三步:搜索索引,得到符合 語(yǔ) 法 樹 的文 檔 。 2. 語(yǔ) 法分析主要是根據(jù)查 詢語(yǔ) 句的 語(yǔ) 法 規(guī)則來(lái) 形成一棵 語(yǔ) 。 第二步: 對(duì) 查 詢語(yǔ) 句 進(jìn) 行 詞 法分析, 語(yǔ) 法分析,及 語(yǔ) 言 處 理。 查 詢語(yǔ) 句的 語(yǔ) 法根據(jù)全文 搜索引擎 的 實(shí)現(xiàn) 而不同。 那么什么叫做全文檢索呢? 生活中的數(shù)據(jù)總體分為兩種:結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。 江漢大 學(xué)本科畢業(yè)論文(設(shè)計(jì)) 16 3 Nutch 相關(guān)框架 研究 Lucene 研究 Lucene 概述 Lucene 是一套用于全文檢索和搜尋的開(kāi)放源碼程序庫(kù),由 Apache 軟件基金會(huì)支持和提供的,高效的,基于 Java 的全文檢索庫(kù)。 小結(jié) 本 章主要介紹了 搜索引擎 的相關(guān)理論。當(dāng)用戶輸入某個(gè)查詢,他一般是希望摘要中能夠突出顯示和查詢直 接對(duì)應(yīng)的文字,希望摘要中出現(xiàn)和他關(guān)心的文字相關(guān)的句子。這樣形成的摘要存放在查詢子系統(tǒng)中,一旦相關(guān)文檔被選中與查詢項(xiàng)匹配,就讀出返回給用戶。但相關(guān)的技術(shù)用到網(wǎng)絡(luò)搜索引擎來(lái)有兩個(gè)基本困難。通過(guò)在預(yù)處理階段為每篇網(wǎng)頁(yè)形成一個(gè)獨(dú)立于查詢?cè)~(也就和網(wǎng)頁(yè)內(nèi)容無(wú)關(guān))的重要性指標(biāo),將它和查詢過(guò)程中形成的相關(guān)性指標(biāo)結(jié)合形成一個(gè)最終的排序,是目前 搜索引擎給出查詢結(jié)果排序的主要方法。這樣一種思路不僅有一 定直覺(jué)上的道理,而且在倒排文件數(shù)據(jù)結(jié)構(gòu)上很容易實(shí)現(xiàn)。但是,有效地定義相關(guān)性本身是很困難的,從原理上講它不僅和查詢?cè)~有關(guān),而且還和用戶的背景,以及 用戶的查詢歷史有關(guān)。上述 過(guò)程的基本假設(shè)是:用戶是希望網(wǎng)頁(yè)包含所輸入查詢文字的。然后需要?jiǎng)h除那些沒(méi)有查詢意義或者幾乎在每篇文檔中都會(huì)出現(xiàn)的詞(例如 “ 的 ” ),在本例中即為 “ 與 ” 。這樣,一般來(lái)講,系統(tǒng)面對(duì)的是查詢短語(yǔ)。這是三種相當(dāng)不同的需求。考慮到各種用戶的不同背景和不同 江漢大 學(xué)本科畢業(yè)論文(設(shè)計(jì)) 13 的信息需求不可能有一種普適的方式。 a: {(2, 2)} banana: {(2, 3)} is: {(0, 1), (0, 4), (1, 1), (2, 1)} 江漢大 學(xué)本科畢業(yè)論文(設(shè)計(jì)) 12 it: {(0, 0), (0, 3), (1, 2), (2, 0)} what: {(0, 2), (1, 0)} 如果 執(zhí)行短語(yǔ)搜索 what is it 將 得到這個(gè)短語(yǔ)的全部單詞各自的結(jié)果所在文檔為文檔 0 和文檔 1。 圖 26 正向索引 江漢大 學(xué)本科畢業(yè)論文(設(shè)計(jì)) 11 圖 27 倒排索引 以 英文 為例,下面是要被索引的文本: it is what it is what is it it is a banana 這樣 就能得到下面的反向文件索引: a: {2} banana: {2} is: {0, 1, 2} it: {0, 1, 2} what: {0, 1} 檢索的條件 what, is 和 it 將 對(duì) 應(yīng) 這 個(gè) 集合 :。 有兩 種不同的反向索引形式: 一條記錄的水平反向索引(或者反向檔案索引)包含每個(gè)引用單詞的文檔的 列表 。 分詞的結(jié)果對(duì)于搜索的精準(zhǔn)性有著至關(guān)重要的影響,好的分詞策略經(jīng)常是由若干個(gè) 江漢大 學(xué)本科畢業(yè)論文(設(shè)計(jì)) 10 簡(jiǎn)單算法拼接而成的,所以您也可以試著實(shí)現(xiàn)雙向最大減字匹配法來(lái)提高分詞的準(zhǔn)確率。還有需要注意的是對(duì)于停用詞的過(guò)濾,停用詞即漢語(yǔ)中 “ 的,了,和,么 ”等字詞,在 搜索 引擎 中是忽略的,所以對(duì)于分詞后的結(jié)果, 需要在用停用詞列表進(jìn)行一下停用詞過(guò)濾。按照掃描方向的不同,串匹配分詞方法可以分為正向匹配和逆向匹配;按照不同長(zhǎng)度優(yōu)先匹配的情況,可以分為最大(最長(zhǎng))匹配和最?。ㄗ疃蹋┢ヅ洹? 江漢大 學(xué)本科畢業(yè)論文(設(shè)計(jì)) 9 分詞 中文分詞是指將一個(gè)漢字序列切分成一個(gè)一個(gè)單獨(dú)的詞,從而達(dá)到計(jì)算機(jī)可以自動(dòng)識(shí)別的效果。這一處理過(guò)程稱為分析。 分析文本 。 建立索引頁(yè)面庫(kù) 索引的主要過(guò)程: 江漢大 學(xué)本科畢業(yè)論文(設(shè)計(jì)) 8 圖 25 索引的主要過(guò)程 索引過(guò)程可分為三個(gè)主要的操作階段: 將數(shù)據(jù)轉(zhuǎn)換成文本 分析文本 將分析過(guò)的文本保存到數(shù)據(jù)庫(kù)中 轉(zhuǎn)換成文本 。 網(wǎng)頁(yè)預(yù)處理 網(wǎng)頁(yè)預(yù) 處理 的主要目標(biāo)是 將 原始網(wǎng)頁(yè)通過(guò)一步步的數(shù)據(jù) 處 理變成可方便搜索的數(shù) 江漢大 學(xué)本科畢業(yè)論文(設(shè)計(jì)) 7 據(jù)形式。 鏈接數(shù)據(jù)庫(kù)的更新 鏈接的注入:抓取程序會(huì)根據(jù)預(yù)先提供的 URL 集合進(jìn)行標(biāo)準(zhǔn)化,根據(jù)設(shè)定的正則檢驗(yàn)來(lái)過(guò)濾 URL,將這些符合標(biāo)準(zhǔn)的 URL放入到 map 中,并在構(gòu)造 map 過(guò)程中給 URL初始化得分,分?jǐn)?shù)可以影響 URL 對(duì)應(yīng)主機(jī)的搜索排序和采集優(yōu)先級(jí)。累積式抓取一般用戶數(shù)據(jù)集合的整體建立或大規(guī)模更新階段;而增量式抓取則主要針對(duì)數(shù)據(jù)集合的日常維護(hù)和及時(shí)更新。但由于 Web數(shù)據(jù)的動(dòng)態(tài)特性,集合中的網(wǎng)頁(yè)的抓取時(shí)間點(diǎn)是不同的,頁(yè)面被更新的情況也不同,因此累積式抓取到的網(wǎng)頁(yè)集合事實(shí)上并無(wú)法與真實(shí)環(huán)境中的網(wǎng)絡(luò)數(shù)據(jù)保持一致。綜上,Spider 收集網(wǎng)頁(yè)的過(guò)程如下:從初始 URL 集合獲得目標(biāo)網(wǎng)頁(yè)地址,通過(guò)網(wǎng)絡(luò)連接接收網(wǎng)頁(yè)數(shù)據(jù),將獲得的網(wǎng)頁(yè)數(shù)據(jù)添加到網(wǎng)頁(yè)庫(kù)中并且分析該網(wǎng)頁(yè)中的其他 URL 鏈接,放入未訪問(wèn) URL 集合 中 用于網(wǎng)頁(yè)收集。 江漢大 學(xué)本科畢業(yè)論文(設(shè)計(jì)) 5 有了上述的對(duì)與 搜索 引擎 的整體了解, 下面對(duì) 搜索 引 擎的各個(gè)模塊進(jìn)行說(shuō)明 。 搜索 引擎 三段式工作流程 三者的關(guān)系如圖 21: 圖 21 搜索引擎三段式工作流程 在介紹 搜索 引擎 的整體結(jié)構(gòu)之前, 現(xiàn)在 借鑒《計(jì)算機(jī)網(wǎng)絡(luò) —— 自頂向下的方法描述因特網(wǎng)特色》一書的敘事方法,從普通用戶使用搜索引擎的角度來(lái)介紹 搜索 引擎 的具體工作流程。 下面將 具體 介紹 全文搜索 引擎 的相關(guān)理論,使讀者 全文 搜索 引擎的基本技術(shù)有所了解,為后續(xù)章節(jié)的閱讀打下基礎(chǔ)。 索引生成器 對(duì)搜索器收集到的網(wǎng)頁(yè)和相關(guān)的描述信息經(jīng)索引組織后存儲(chǔ)在索引庫(kù)中。主要的目的是方便用戶使用搜索引擎,高效率、多方式地從搜索引擎中得到有效、及時(shí)的信息。該課題要求設(shè)計(jì)一個(gè) Web 應(yīng)用程序,學(xué)習(xí)搜索引擎的基本原理和設(shè)計(jì)方法,應(yīng)用開(kāi)源的全 文搜索引擎 Lucene 框架和 Lucene 的子項(xiàng)目 Nutch 實(shí)現(xiàn)一個(gè)全文搜索引擎。 全文搜索引擎是目前最為普及的應(yīng)用 ,通過(guò)從互聯(lián)網(wǎng)上提取各個(gè)網(wǎng)站的信息 (以網(wǎng)頁(yè)文字為主 )建立數(shù)據(jù)庫(kù),用戶查詢的時(shí)候便在數(shù)據(jù)庫(kù)中檢索與用戶查詢條件相匹配的記錄,最終將匹配的那些記錄,按一定的排列順序顯示給用戶。 關(guān)鍵詞 Nutch、 Solr、 Hadoop、 Lucene、 搜索引擎
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1