freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)-畢業(yè)論文-閱讀頁(yè)

2025-07-13 13:40本頁(yè)面
  

【正文】 義或者幾乎在每篇文檔中都會(huì)出現(xiàn)的詞(例如“的”),在本例中即為“與”。倒排文件就是用詞來(lái)作為索引的一個(gè)數(shù)據(jù)結(jié)構(gòu),顯然,q 中的詞必須是包含在倒排文件詞表中才有意義。上述過(guò)程的基本假設(shè)是:用戶是希望網(wǎng)頁(yè)包含所輸入查詢文字的。給定一個(gè)查詢結(jié)果集合,R={r1, r2, …, rn},所謂列表,就是按照某種評(píng)價(jià)方式,確定出 R 中元素的一個(gè)順序,讓這些元素以這種順序呈現(xiàn)出來(lái)。但是,有效地定義相關(guān)性本身是很困難的,從原理上講它不僅和查詢?cè)~有關(guān),而且還和用戶的背景,以及用戶的查詢歷史有關(guān)。為了形成一個(gè)合適的順序,在搜索引擎出現(xiàn)的早期人們采用了傳統(tǒng)信息檢索領(lǐng)域很成熟 江漢大學(xué)本科畢業(yè)論文(設(shè)計(jì))14的基于詞匯出現(xiàn)頻度的方法。這樣一種思路不僅有一定直覺(jué)上的道理,而且在倒排文件數(shù)據(jù)結(jié)構(gòu)上很容易實(shí)現(xiàn)。然而,由于網(wǎng)頁(yè)編寫(xiě)的自發(fā)性、隨意性較強(qiáng),僅僅針對(duì)詞的出現(xiàn)來(lái)決定文檔的順序,在 Web 上做信息檢索表現(xiàn)出明顯的缺點(diǎn),需要有其他技術(shù)的補(bǔ)充。通過(guò)在預(yù)處理階段為每篇網(wǎng)頁(yè)形成一個(gè)獨(dú)立于查詢?cè)~(也就和網(wǎng)頁(yè)內(nèi)容無(wú)關(guān))的重要性指標(biāo),將它和查詢過(guò)程中形成的相關(guān)性指標(biāo)結(jié)合形成一個(gè)最終的排序,是目前搜索引擎給出查詢結(jié)果排序的主要方法。其中的摘要需要從網(wǎng)頁(yè)正文中生成。但相關(guān)的技術(shù)用到網(wǎng)絡(luò)搜索引擎來(lái)有兩個(gè)基本困難。據(jù)統(tǒng)計(jì),即使是分詞這一項(xiàng)工作(文本理解的基礎(chǔ)),在高檔微機(jī)上每秒鐘也只能完成 10 篇左右網(wǎng)頁(yè)的處理。這樣形成的摘要存放在查詢子系統(tǒng)中,一旦相關(guān)文檔被選中與查詢項(xiàng)匹配,就讀出返回給用戶。但這種方式的一個(gè)最大的缺點(diǎn)是摘要和查詢無(wú)關(guān)。當(dāng)用戶輸入某個(gè)查詢,他一般是希望摘要中能夠突出顯示和查詢直接對(duì)應(yīng)的文字,希望摘要中出現(xiàn)和他關(guān)心的文字相關(guān)的句子。這是目前大多數(shù)搜索引擎采用的方式。 小結(jié)本章主要介紹了搜索引擎的相關(guān)理論。首先,從 Web 搜索引擎原理和結(jié)構(gòu)介紹,闡述了搜索引擎三段式的工作原理,以及給出了目前主流搜索引擎實(shí)現(xiàn)的整體結(jié)構(gòu)描述。 江漢大學(xué)本科畢業(yè)論文(設(shè)計(jì))163 Nutch 相關(guān)框架研究 Lucene 研究 Lucene 概述Lucene 是一套用于全文檢索和搜尋的開(kāi)放源碼程序庫(kù),由 Apache 軟件基金會(huì)支持和提供的,高效的,基于 Java 的全文檢索庫(kù)。Lucene 是一個(gè)高效的基于 Java 的全文檢索庫(kù)。 那么什么叫做全文檢索呢? 生活中的數(shù)據(jù)總體分為兩種:結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。 查詢語(yǔ)句同我們普通的語(yǔ)言一樣,也是有一定語(yǔ)法的。 查詢語(yǔ)句的語(yǔ)法根據(jù)全文搜索引擎的實(shí)現(xiàn)而不同。 舉個(gè)例子,用戶輸入語(yǔ)句:lucene AND learned NOT hadoop。 第二步:對(duì)查詢語(yǔ)句進(jìn)行詞法分析,語(yǔ)法分析,及語(yǔ)言處理。 1. 詞法分析主要用來(lái)識(shí)別單詞和關(guān)鍵字。2. 語(yǔ)法分析主要是根據(jù)查詢語(yǔ)句的語(yǔ)法規(guī)則來(lái)形成一棵語(yǔ) 。3. 語(yǔ)言處理同索引過(guò)程中的語(yǔ)言處理幾乎相同 。第三步:搜索索引,得到符合語(yǔ)法樹(shù)的文檔。 江漢大學(xué)本科畢業(yè)論文(設(shè)計(jì))17 Lucene 增刪改索引的 APILucene 可對(duì) ,網(wǎng)頁(yè),文本資料,doc,pdf 之類(lèi)的文檔進(jìn)行索引建立,在建立索引的時(shí)候可為以后的排序做些處理。.表 41 建立索引public class IndexUtil {private String[] ids = {1, 2, 3, 4, 5, 6}。private String[] contents = {wel to sina aa, how are you ss88817, are you ok 496008642,what are you doing, 496008642, Have a good night, ,good morning ,ss88817}。private String[] names = {tom, lily, john, jack, mike, bob}。private IndexWriterConfig iwc = null。directory = new RAMDirectory()。}}public void index(){IndexWriter writer = null。writer = new IndexWriter(directory, iwc)。for(int i=0。 i++){ 江漢大學(xué)本科畢業(yè)論文(設(shè)計(jì))18doc = new Document()。(new Field(, s[i], , ))。(new Field(name, names[i], , ))。}(Index Create OK~!)。} finally {try {()。(Index Writer Close Error ~!)。表 32 給出了通過(guò)檢索索引的一個(gè)例子。try {reader = (directory)。(maxDoc: + ())。} finally {try {()。 江漢大學(xué)本科畢業(yè)論文(設(shè)計(jì))19(Index Reader Close Error ~!)。表 33,表 34 給出了刪除、恢復(fù)、強(qiáng)制刪除索引的一個(gè)例子。try {iwc = new IndexWriterConfig(, new StandardAnalyzer())。(new Term(id, 1))。} catch (Exception e) {()。} catch (Exception e) {()。}}}}public void unewdelete(){IndexReader reader = null。()。} catch (Exception e) {()。} catch (IOException e) { 江漢大學(xué)本科畢業(yè)論文(設(shè)計(jì))20()。}}}public void forceDelete(){IndexWriter writer = null。writer = new IndexWriter(directory, iwc)。(Index where id = 1 delete ok!)。} finally {if(writer != null){try {()。(Index Writer Close Error ~~)。try {iwc = new IndexWriterConfig(, new StandardAnalyzer())。//會(huì)將索引合并為3段,這3段中被刪除的數(shù)據(jù)會(huì)被清空//特別注意:此處Lucene ,因?yàn)闀?huì)消耗大量的開(kāi)銷(xiāo),Lucene會(huì)自動(dòng)優(yōu)化(3)。} catch (Exception e) {()。} catch (Exception e) {()。}}}} Nutch 研究 Nutch 概述Apache Nutch 是一個(gè)用 Java 編寫(xiě)的開(kāi)源網(wǎng)絡(luò)爬蟲(chóng)。接下來(lái)就是 Apache Solr所要做的。Apache Nutch 對(duì)于 Solr 已經(jīng)支持得很好,這大大簡(jiǎn)化了 Nutch 與 Solr 的整合。 研究 Nutch 的原因可能有的朋友會(huì)有疑問(wèn),已經(jīng)有 google,有百度,為何還需要建立自己的搜索引擎呢?這里我列出 3 點(diǎn)原因: (1) 透明度:nutch 是開(kāi)放源代碼的,因此任何人都可以查看他的排序算法是如何工作的。更進(jìn)一步,一些搜索引擎允許競(jìng)價(jià)排名,比如百度,這樣的索引結(jié)果并不是和站點(diǎn)內(nèi)容相關(guān)的。(2) 對(duì)搜索引擎的理解:我們并沒(méi)有 google 的源代碼,因此學(xué)習(xí)搜索引擎 Nutch是個(gè)不錯(cuò)的選擇。在寫(xiě) Nutch 的過(guò)程中,從學(xué)院派和工業(yè)派借鑒了很多知識(shí):比如,Nutch 的核心部分目 江漢大學(xué)本科畢業(yè)論文(設(shè)計(jì))22前已經(jīng)被重新用 Map Reduce 實(shí)現(xiàn)了。并且 Nutch 也吸引了很多研究者,他們非常樂(lè)于嘗試新的搜索算法,因?yàn)閷?duì) Nutch 來(lái)說(shuō),這是非常容易實(shí)現(xiàn)擴(kuò)展的。 Nutch 是非常靈活的:他可以被很好的客戶訂制并集成到你的應(yīng)用程序中,使用 Nutch 的插件機(jī)制,Nutch 可以作為一個(gè)搜索不同信息載體的搜索平臺(tái)。 研究 Nutch 的目標(biāo)nutch 致力于讓每個(gè)人能很容易, 同時(shí)花費(fèi)很少就可以配置世界一流的 Web 搜索引擎. 為了完成這一宏偉的目標(biāo), nutch 必須能夠做到: ? 每個(gè)月取幾十億網(wǎng)頁(yè) ? 為這些網(wǎng)頁(yè)維護(hù)一個(gè)索引 ? 對(duì)索引文件進(jìn)行每秒上千次的搜索 ? 提供高質(zhì)量的搜索結(jié)果 ? 以最小的成本運(yùn)作 Nutch 和 Lucene 比較 簡(jiǎn)單的說(shuō),Lucene 不是完整的應(yīng)用程序,而是一個(gè)用于實(shí)現(xiàn)全文檢索的軟件庫(kù)。Lucene 為 Nutch 提供了文本索引和搜索的 API。常見(jiàn)的應(yīng)用場(chǎng)合是:你有數(shù)據(jù)源,需要為這些數(shù)據(jù)提供一個(gè)搜索頁(yè)面。 Nutch 常用命令1. 抓取命令 crawl,輸入 bin/nutch crawl,顯示 crawl 命令參數(shù)選項(xiàng)。[rootbogon local] bin/nutch readdbUsage: CrawlDbReader crawldb (stats | dump out_dir | topN nnnn out_dir [min] | url url)crawldb directory name where crawldb is locatedstats [sort] print overall statistics to [sort] list status sorted by hostdump out_dir [format normal|csv|crawldb] dump the whole db to a text file in out_dir[format csv] dump in Csv format[format normal] dump in standard format (default option)[format crawldb]dump as CrawlDB[regex expr] filter records with expression[status status] filter records by CrawlDatum status 江漢大學(xué)本科畢業(yè)論文(設(shè)計(jì))25url urlprint information on url to topN nnnn out_dir [min] dump top nnnn urls sorted by score to out_dir[min] skip records with scores below this value.This can significantly improve performance.下面給出stats 的統(tǒng)計(jì)信息。3. segment 信息查看命令 readseg,輸入 bin/nutch readseg,顯示 readseg 命令參數(shù)選項(xiàng)。在抓取完成以后,segment 目錄下會(huì)產(chǎn)生很多以日期命名的文件夾,這些文件夾下面都存放著段的索引和數(shù)據(jù)信息。bin/nutch readseg dump noparse noparsetext一下是對(duì)抓取連接的一個(gè)統(tǒng)計(jì),如圖 35: 江漢大學(xué)本科畢業(yè)論文(設(shè)計(jì))28圖 35 抓取一個(gè)鏈接的統(tǒng)計(jì)信息4. 連接數(shù)據(jù)庫(kù)信息的讀取命令 readlinkdb,輸入 bin/nutch readlinkdb,顯示readlinkdb 命令參數(shù)選項(xiàng)。圖 36 運(yùn)行 readlinkdb 命令信息查看統(tǒng)計(jì)后的 linkdb 的信息[rootbogon local] vi 江漢大學(xué)本科畢業(yè)論文(設(shè)計(jì))29圖 37 查看鏈接數(shù)據(jù)庫(kù) dump 后的信息一些常用的命令還包括 invertlinks,parsechecker,domainstats,webgraph 等等,這里不作介紹。定制 Solr 索引的實(shí)現(xiàn)方法很簡(jiǎn)單,用 POST 方法向 Solr 服務(wù)器發(fā)送一個(gè)描述所有 Field 及其內(nèi)容的 XML 文檔就可以了。Solr 版本開(kāi)始支持從數(shù)據(jù)庫(kù)(通過(guò) JDBC)、RSS 提要、Web 頁(yè)面和文件中導(dǎo)入數(shù)據(jù),但是不直接支持從二進(jìn)制文件格式中提取內(nèi)容,比如 MS Office、Adobe PDF 或其他專(zhuān)有格式。通過(guò)對(duì) Solr 進(jìn)行適當(dāng)?shù)呐渲?,某些情況下可能需要進(jìn)行編碼,Solr 可以閱讀和使用構(gòu)建到其他 Lucene 應(yīng)用程序中的索引。直到提交后才能搜索到這些添加和更新。optimize 重構(gòu) Lucene 的文件以改進(jìn)搜索性能。如果更新比較頻繁,則應(yīng)該在使用率較低的時(shí)候安排優(yōu)化。優(yōu)化是一個(gè)耗時(shí)較多的過(guò)程。按 id 刪除將刪除具有指定 id 的文檔;按查詢刪除將刪除查詢返回的所有文檔。(索引接口:文:注:多核心時(shí)為這個(gè)地址 add doc field name=idTWINX2
點(diǎn)擊復(fù)制文檔內(nèi)容
外語(yǔ)相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1