freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)本科畢業(yè)論文-文庫吧

2025-06-08 18:41 本頁面


【正文】 ............................................. 22 Nutch 常用命令 ............................................................. 22 SOLR 研究 ....................................................................... 28 Solr 概述 .................................................................. 28 Solr 索引 .................................................................. 29 Solr 搜索 .................................................................. 30 江 漢大學(xué)本科畢業(yè)論文(設(shè)計(jì)) VI Lucene 索引查看工具 Luke .................................................... 32 HADOOP 研究 ..................................................................... 33 Hadoop 概述 ................................................................ 33 Hadoop 單機(jī)本地模式 ......................................................... 35 Hadoop 單機(jī)偽分布式模式 ..................................................... 35 小結(jié) .......................................................................... 37 4 全文搜索引擎系統(tǒng)分析與技術(shù)選型 .............................................. 38 系統(tǒng)目標(biāo)需求 ................................................................... 38 系統(tǒng)功能項(xiàng) ..................................................................... 38 可行性分析與決策 ............................................................... 39 技術(shù)可行性 ................................................................. 39 經(jīng)濟(jì)可行性 ................................................................. 39 小結(jié) .......................................................................... 40 5 全文搜索引擎系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn) ................................................. 41 系統(tǒng)功能圖 ..................................................................... 41 系統(tǒng)實(shí)體設(shè)計(jì) ................................................................... 42 實(shí)體 ...................................................................... 42 實(shí)體的屬性 ................................................................. 42 實(shí)體間的聯(lián)系 ............................................................... 43 系統(tǒng)實(shí)現(xiàn) ...................................................................... 43 系統(tǒng)需要的環(huán)境 ............................................................. 43 系統(tǒng)中 Nutch的配置 ......................................................... 44 對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行抓取 ......................................................... 45 Solr 安裝配置和使用 ........................................................ 48 給 Solr 添加 mmseg4j ..................................................... 49 客戶端應(yīng)用程序的實(shí)現(xiàn) ....................................................... 50 小結(jié) .......................................................................... 57 6 全文搜索引擎系統(tǒng)評(píng)價(jià) ...................................................... 58 系統(tǒng)特色 ...................................................................... 58 系統(tǒng)存在的不足和解決方案 ....................................................... 58 系統(tǒng)存在的不足 ............................................................. 58 改進(jìn)措施 ................................................................... 59 畢業(yè)設(shè)計(jì)心得與收獲 ......................................................... 59 7 結(jié)束語 .................................................................. 60 致謝 ..................................................................... 61 參考文獻(xiàn) .................................................................. 62 江 漢大學(xué)本科畢業(yè)論文(設(shè)計(jì)) 1 1 緒論 課題背景及介紹 隨著互聯(lián)網(wǎng)的快速發(fā)展,越來越豐富的信息呈現(xiàn)在用戶面前,但同時(shí)伴隨的問題是用戶越來越難以獲得其最需要的信息。為了解決此問題,出現(xiàn)了網(wǎng)絡(luò)搜索引擎。網(wǎng)絡(luò)搜索引擎中以基于 WWW 的搜索引擎應(yīng)用范圍最為廣泛。網(wǎng)絡(luò)搜索引擎是指對(duì) WWW 站點(diǎn)資源和其它資源進(jìn)行索引和檢索的一類檢索 機(jī)制。 全文搜索引擎是目前最為普及的應(yīng)用 ,通過從互聯(lián)網(wǎng)上提取各個(gè)網(wǎng)站的信息 (以網(wǎng)頁文字為主 )建立數(shù)據(jù)庫,用戶查詢的時(shí)候便在數(shù)據(jù)庫中檢索與用戶查詢條件相匹配的記錄,最終將匹配的那些記錄,按一定的排列順序顯示給用戶。國外具代表性的全文檢索搜索引擎有 Google、 Yahoo、 Bing等 ,國內(nèi)著名的有百度、中搜等。 目前網(wǎng)絡(luò)中的資源非常豐富,但是如何有效的搜索信息卻是一件困難的事情。建立搜索引擎就是解決這個(gè)問題的最好方法之一。該課題要求設(shè)計(jì)一個(gè) Web 應(yīng)用程序,學(xué)習(xí)搜索引擎的基本原理和設(shè)計(jì)方法,應(yīng)用開源的全 文搜索引擎 Lucene 框架和 Lucene 的子項(xiàng)目 Nutch 實(shí)現(xiàn)一個(gè)全文搜索引擎。 課題研究目的及應(yīng)用 針對(duì)搜索引擎廣闊的應(yīng)用前景以及分析國內(nèi)外搜索引擎的發(fā)展現(xiàn)狀,根據(jù)搜索引擎系統(tǒng)的工作原理設(shè)計(jì)一種基于 Inter 的全文搜索引擎模型,它從互聯(lián)網(wǎng)上獲取網(wǎng)頁,建立索引數(shù)據(jù)庫,并采用數(shù)據(jù)庫管理作業(yè)和多線程技術(shù)以提高全文搜索的性能和效率,從技術(shù)上可以適用于任何有全文搜索需求的應(yīng)用。 課題研究 范圍 一般來說搜索引擎都由:用戶接口,搜索器,索引生成器和查詢處理器 4個(gè)部分組成。 用戶接口的作用 是輸入用戶查詢、顯示查詢結(jié)果、提供用戶相關(guān)性反饋機(jī)制。主要的目的是方便用戶使用搜索引擎,高效率、多方式地從搜索引擎中得到有效、及時(shí)的信息。用戶接口的設(shè)計(jì)和實(shí)現(xiàn)使用人機(jī)交互的理論和方法,以充分適應(yīng)人類的思維習(xí)慣。 江 漢大學(xué)本科畢業(yè)論文(設(shè)計(jì)) 2 搜索器 用于 WWW 的遍歷和網(wǎng)頁的下載。從一個(gè)起始 URL 集合開始,順著這些 URL 中的超鏈 (Hyperlink),以寬度優(yōu)先、深度優(yōu)先或啟發(fā)式方式循環(huán)地在互聯(lián)網(wǎng)中發(fā)現(xiàn)信息。 索引生成器 對(duì)搜索器收集到的網(wǎng)頁和相關(guān)的描述信息經(jīng)索引組織后存儲(chǔ)在索引庫中。 查詢 處理器的功能 是根據(jù)用戶的查詢?cè)谒饕龓熘锌焖贆z出 文檔,進(jìn)行文檔與查詢的相關(guān)度評(píng)價(jià), 對(duì)將要輸出的結(jié)果進(jìn)行排序,并實(shí)現(xiàn)某種用戶相關(guān)性反饋機(jī)制。 小結(jié) 本章內(nèi)容主要介紹了課題背景,課題目的,及課題的研究方法與內(nèi)容這些方面。 闡述了搜索引擎在顯示應(yīng)用中的重要性 , 目前 全文 搜索 引擎 的工作組成部分 以及各個(gè)工作組成部分到底是什么 。 下面將 具體 介紹 全文搜索 引擎 的相關(guān)理論,使讀者 全文 搜索 引擎的基本技術(shù)有所了解,為后續(xù)章節(jié)的閱讀打下基礎(chǔ)。 江 漢大學(xué)本科畢業(yè)論文(設(shè)計(jì)) 3 2 搜索 引擎 相關(guān)理論 研究 Web 搜索引擎 原理和結(jié)構(gòu) 全文 搜索 引擎 是一款網(wǎng)絡(luò)應(yīng)用軟件系統(tǒng) ,論文中全部以搜索引擎稱 。最基本的 搜索引擎 應(yīng)該包含三個(gè)模塊:網(wǎng)頁搜集,預(yù)處理,查詢服務(wù)。事實(shí)上,這三個(gè)部分是相互獨(dú)立、分別工作的,主要的關(guān)系體現(xiàn)在前一部分得到的數(shù)據(jù)結(jié)果為后一部分提供原始數(shù)據(jù)。 搜索 引擎 三段式工作流程 三者的關(guān)系如圖 21: 圖 21 搜索引擎三段式工作流程 在介紹 搜索 引擎 的整體結(jié)構(gòu)之前, 現(xiàn)在 借鑒《計(jì)算機(jī)網(wǎng)絡(luò) —— 自頂向下的方法描述因特網(wǎng)特色》一書的敘事方法,從普通用戶使用搜索引擎的角度來介紹 搜索 引擎 的具體工作流程。 自頂向下的方法描述搜索引擎執(zhí)行過程: 1. 用戶通過瀏覽器提 交查詢的詞或者短語 P,搜索引擎根據(jù)用戶的查詢返回匹配的網(wǎng)頁信息列表 L; 2. 上述過程涉及到兩個(gè)問題,如何匹配用戶的查詢以及網(wǎng)頁信息列表從何而來,根據(jù)什么而排序?用戶的查詢 P 經(jīng)過分詞器被切割成小詞組 p1,p2 ? pn 并被剔除停用詞 ( 的、了、啊等字 ),根據(jù)系統(tǒng)維護(hù)的一個(gè)倒排索引可以查詢某個(gè)詞 pi 在哪些網(wǎng)頁中出現(xiàn)過,匹配那些 p1,p2 ? pn 都出現(xiàn)的網(wǎng)頁集即可作為初始結(jié)果,更進(jìn)一步,返回的初始網(wǎng)頁集通過計(jì)算與查詢?cè)~的相關(guān)度從而得到網(wǎng)頁排名,即 Page Rank,按照網(wǎng)頁的 排名順序即可得到最終的網(wǎng)頁列表; 3. 假設(shè)分詞器和網(wǎng)頁排名的計(jì)算公式都是既定的,那么倒排索引以及原始網(wǎng)頁集 江 漢大學(xué)本科畢業(yè)論文(設(shè)計(jì)) 4 從何而來?原始網(wǎng)頁集在之前的數(shù)據(jù)流程的介紹中,可以得知是由爬蟲 spider 爬取網(wǎng)頁并且保存在本地的,而倒排索引,即詞組到網(wǎng)頁的映射表是建立在正排索引的基礎(chǔ)上的,后者是分析了網(wǎng)頁的內(nèi)容并對(duì)其內(nèi)容進(jìn)行分詞后,得到的網(wǎng)頁到詞組的映射表,將正排索引倒置即可得到倒排索引; 4. 網(wǎng)頁的分析具體做什么呢?由于爬蟲收集來的原始網(wǎng)頁中包含很多信息,比如 html 表單以及一些垃圾信息比如廣告,網(wǎng)頁分析去除這些信息 ,并抽取其中的正文信息作為后續(xù)的基礎(chǔ)數(shù)據(jù)。 搜索 引擎 整體結(jié)構(gòu) 圖 22 搜索引擎整體結(jié)構(gòu) 爬蟲從 Inter 中爬取眾多的網(wǎng)頁作為原始網(wǎng)頁庫存儲(chǔ)于本地,然后網(wǎng)頁分析器抽取網(wǎng)頁中的主題內(nèi)容交給分詞器進(jìn)行分詞,得到的結(jié)果用索引器建立正排和倒排索引,這樣就得到了索引數(shù)據(jù)庫,用戶查詢時(shí),在通過分詞器切割輸入的查詢?cè)~組并通過檢索器在索引數(shù)據(jù)庫中進(jìn)行查詢,得到的結(jié)果
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報(bào)告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1