freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)本科畢業(yè)論文(完整版)

  

【正文】 .......... 28 Solr 索引 .................................................................. 29 Solr 搜索 .................................................................. 30 江 漢大學(xué)本科畢業(yè)論文(設(shè)計(jì)) VI Lucene 索引查看工具 Luke .................................................... 32 HADOOP 研究 ..................................................................... 33 Hadoop 概述 ................................................................ 33 Hadoop 單機(jī)本地模式 ......................................................... 35 Hadoop 單機(jī)偽分布式模式 ..................................................... 35 小結(jié) .......................................................................... 37 4 全文搜索引擎系統(tǒng)分析與技術(shù)選型 .............................................. 38 系統(tǒng)目標(biāo)需求 ................................................................... 38 系統(tǒng)功能項(xiàng) ..................................................................... 38 可行性分析與決策 ............................................................... 39 技術(shù)可行性 ................................................................. 39 經(jīng)濟(jì)可行性 ................................................................. 39 小結(jié) .......................................................................... 40 5 全文搜索引擎系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn) ................................................. 41 系統(tǒng)功能圖 ..................................................................... 41 系統(tǒng)實(shí)體設(shè)計(jì) ................................................................... 42 實(shí)體 ...................................................................... 42 實(shí)體的屬性 ................................................................. 42 實(shí)體間的聯(lián)系 ............................................................... 43 系統(tǒng)實(shí)現(xiàn) ...................................................................... 43 系統(tǒng)需要的環(huán)境 ............................................................. 43 系統(tǒng)中 Nutch的配置 ......................................................... 44 對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行抓取 ......................................................... 45 Solr 安裝配置和使用 ........................................................ 48 給 Solr 添加 mmseg4j ..................................................... 49 客戶端應(yīng)用程序的實(shí)現(xiàn) ....................................................... 50 小結(jié) .......................................................................... 57 6 全文搜索引擎系統(tǒng)評(píng)價(jià) ...................................................... 58 系統(tǒng)特色 ...................................................................... 58 系統(tǒng)存在的不足和解決方案 ....................................................... 58 系統(tǒng)存在的不足 ............................................................. 58 改進(jìn)措施 ................................................................... 59 畢業(yè)設(shè)計(jì)心得與收獲 ......................................................... 59 7 結(jié)束語(yǔ) .................................................................. 60 致謝 ..................................................................... 61 參考文獻(xiàn) .................................................................. 62 江 漢大學(xué)本科畢業(yè)論文(設(shè)計(jì)) 1 1 緒論 課題背景及介紹 隨著互聯(lián)網(wǎng)的快速發(fā)展,越來(lái)越豐富的信息呈現(xiàn)在用戶面前,但同時(shí)伴隨的問(wèn)題是用戶越來(lái)越難以獲得其最需要的信息。 本文闡述了一個(gè)全文 搜索引擎 的原理及其設(shè)計(jì) 和實(shí)現(xiàn)過(guò)程。 江 漢大學(xué)本科畢業(yè)論文(設(shè)計(jì)) I 全文搜索引擎的 設(shè)計(jì) 與 實(shí)現(xiàn) 作者聲明 本人鄭重聲明:所呈交的學(xué)位論文是本人在導(dǎo)師的指導(dǎo)下獨(dú)立進(jìn)行研究所取得的研究成果。該系統(tǒng)采用 B/S 模式的Java Web 平臺(tái)架構(gòu)實(shí)現(xiàn),采用 Nutch 相關(guān)框架,包括 Nutch, Solr, Hadoop,以及 Nutch的基礎(chǔ) 框架 Lucene 對(duì)全網(wǎng)信息的采集和檢索。為了解決此問(wèn)題,出現(xiàn)了網(wǎng)絡(luò)搜索引擎。 課題研究目的及應(yīng)用 針對(duì)搜索引擎廣闊的應(yīng)用前景以及分析國(guó)內(nèi)外搜索引擎的發(fā)展現(xiàn)狀,根據(jù)搜索引擎系統(tǒng)的工作原理設(shè)計(jì)一種基于 Inter 的全文搜索引擎模型,它從互聯(lián)網(wǎng)上獲取網(wǎng)頁(yè),建立索引數(shù)據(jù)庫(kù),并采用數(shù)據(jù)庫(kù)管理作業(yè)和多線程技術(shù)以提高全文搜索的性能和效率,從技術(shù)上可以適用于任何有全文搜索需求的應(yīng)用。 查詢(xún) 處理器的功能 是根據(jù)用戶的查詢(xún)?cè)谒饕龓?kù)中快速檢出 文檔,進(jìn)行文檔與查詢(xún)的相關(guān)度評(píng)價(jià), 對(duì)將要輸出的結(jié)果進(jìn)行排序,并實(shí)現(xiàn)某種用戶相關(guān)性反饋機(jī)制。 自頂向下的方法描述搜索引擎執(zhí)行過(guò)程: 1. 用戶通過(guò)瀏覽器提 交查詢(xún)的詞或者短語(yǔ) P,搜索引擎根據(jù)用戶的查詢(xún)返回匹配的網(wǎng)頁(yè)信息列表 L; 2. 上述過(guò)程涉及到兩個(gè)問(wèn)題,如何匹配用戶的查詢(xún)以及網(wǎng)頁(yè)信息列表從何而來(lái),根據(jù)什么而排序?用戶的查詢(xún) P 經(jīng)過(guò)分詞器被切割成小詞組 p1,p2 ? pn 并被剔除停用詞 ( 的、了、啊等字 ),根據(jù)系統(tǒng)維護(hù)的一個(gè)倒排索引可以查詢(xún)某個(gè)詞 pi 在哪些網(wǎng)頁(yè)中出現(xiàn)過(guò),匹配那些 p1,p2 ? pn 都出現(xiàn)的網(wǎng)頁(yè)集即可作為初始結(jié)果,更進(jìn)一步,返回的初始網(wǎng)頁(yè)集通過(guò)計(jì)算與查詢(xún)?cè)~的相關(guān)度從而得到網(wǎng)頁(yè)排名,即 Page Rank,按照網(wǎng)頁(yè)的 排名順序即可得到最終的網(wǎng)頁(yè)列表; 3. 假設(shè)分詞器和網(wǎng)頁(yè)排名的計(jì)算公式都是既定的,那么倒排索引以及原始網(wǎng)頁(yè)集 江 漢大學(xué)本科畢業(yè)論文(設(shè)計(jì)) 4 從何而來(lái)?原始網(wǎng)頁(yè)集在之前的數(shù)據(jù)流程的介紹中,可以得知是由爬蟲(chóng) spider 爬取網(wǎng)頁(yè)并且保存在本地的,而倒排索引,即詞組到網(wǎng)頁(yè)的映射表是建立在正排索引的基礎(chǔ)上的,后者是分析了網(wǎng)頁(yè)的內(nèi)容并對(duì)其內(nèi)容進(jìn)行分詞后,得到的網(wǎng)頁(yè)到詞組的映射表,將正排索引倒置即可得到倒排索引; 4. 網(wǎng)頁(yè)的分析具體做什么呢?由于爬蟲(chóng)收集來(lái)的原始網(wǎng)頁(yè)中包含很多信息,比如 html 表單以及一些垃圾信息比如廣告,網(wǎng)頁(yè)分析去除這些信息 ,并抽取其中的正文信息作為后續(xù)的基礎(chǔ)數(shù)據(jù)。下圖表示了這個(gè)過(guò)程: 圖 23 Spider 工作流程 爬蟲(chóng)的抓取策略 爬蟲(chóng)的工作策略一般分為累積式抓?。?cumulative crawling)和增量式抓?。?incremental crawing)兩種。 鏈接數(shù)據(jù)庫(kù)的建立 初始 URL 的建立有兩種方式:超鏈接和站長(zhǎng)提交。 預(yù)處理模塊的整體結(jié)構(gòu)如下: 圖 24 預(yù) 處理模塊的整體結(jié)構(gòu) 通過(guò) 爬蟲(chóng) 的收集,保存下來(lái)的網(wǎng)頁(yè)信息具有較好的信息存儲(chǔ)格式,但是還是有一個(gè)缺點(diǎn) ,就是不能按照網(wǎng)頁(yè) URL 直接定 位到所指向的網(wǎng)頁(yè)。 在對(duì)數(shù)據(jù)進(jìn)行索引錢(qián),還必須進(jìn)行預(yù)處理,對(duì)數(shù)據(jù)進(jìn)行分析是之更加適合被索引。中文分詞主要有三種方法:第一種基于字符串匹配,第二種基于語(yǔ)義理解,第三種 基于統(tǒng)計(jì)。 您也許有疑問(wèn),如何獲得分詞字典或者是停用詞字典。 一個(gè)單詞的水平反向索引(或者完全反向索引)又包含每個(gè)單詞在一個(gè)文檔中的位置。但是這個(gè)短語(yǔ)檢索的連續(xù)的條件僅僅在文檔 1得到。在其他一些情況下,用戶可能關(guān)心 的是間接的信息,例如“江漢大學(xué)錄取分?jǐn)?shù)線”, 450 分應(yīng)該是他需要的,但不可能包含在這個(gè)短語(yǔ)中。最后形成一個(gè)用于參加匹配的查詢(xún)?cè)~表, q = {t1, t2, ?, tm} ,在本例中就是 q = {網(wǎng)絡(luò),分布式,系統(tǒng),實(shí)驗(yàn)室 }。不同需求的用戶可能輸入同一個(gè)查詢(xún),同一個(gè)用戶在不同的時(shí)間輸入的相同的查詢(xún)可能是針對(duì)不同的信息需求。 文檔摘要 搜索引擎給出的結(jié)果是一個(gè)有序的條目列表,每一個(gè)條目有三個(gè)基本的元素:標(biāo)題,網(wǎng)址和摘要。顯然,這種方式對(duì)查詢(xún)子系統(tǒng)來(lái)說(shuō)是最輕松的,不需要做另外的處理工作。 以 web 搜索引擎為主要介紹對(duì)象。 Lucene 如何 對(duì) 索引 進(jìn) 行搜索 第一步:用 戶輸 入查 詢(xún)語(yǔ) 句。 由于查 詢(xún)語(yǔ) 句有 語(yǔ) 法,因而也要 進(jìn) 行 語(yǔ) 法分析, 語(yǔ) 法分析及 語(yǔ) 言 處 理。 第四步:根據(jù)得到的文 檔 和查 詢(xún)語(yǔ) 句的相 關(guān) 性, 對(duì)結(jié) 果 進(jìn) 行排序。 private Directory directory = null。 Document doc = null。 (doc)。 表 32 查詢(xún)服務(wù) public void query(){ IndexReader reader = null。 } } } 江 漢大學(xué)本科畢業(yè)論文(設(shè)計(jì)) 19 Lucene 索引更新 是根據(jù) 提供的新信息,刪除,回復(fù),修改索引的過(guò)程 。 } finally { if(writer != null){ try { ()。 } finally { try { ()。 } catch (Exception e) { ()。 (Index where id = 1 delete ok!)。 Solr 是一個(gè)開(kāi)源的全文搜索框架,通過(guò) Solr 能夠搜索 Nutch 已經(jīng)訪問(wèn)過(guò)的網(wǎng)頁(yè)。了 解一個(gè)大型分布式的搜索引擎如何工作是一件讓人很受益的事情。 Nutch 是一個(gè)應(yīng)用程序,可以以 Lucene 為基礎(chǔ)實(shí)現(xiàn)搜索引擎應(yīng)用。 輸入: [rootbogon local] bin/nutch readdb 圖 32 讀取連接數(shù)據(jù)庫(kù) 信息 江 漢大學(xué)本科畢業(yè)論文(
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報(bào)告相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1