freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于nosql技術(shù)的搜索引擎設(shè)計與實現(xiàn)畢業(yè)論文(已修改)

2025-03-14 09:12 本頁面
 

【正文】 學(xué)校代碼: 10200 學(xué)號: 1272409029 本科 畢業(yè)論文 基于 NoSQL技術(shù) 的搜索引擎設(shè)計與實現(xiàn) Design and Implementation a Search Engine based on the NoSQL 摘 要 網(wǎng)絡(luò)中的資源非常豐富,但是如何有效的搜索信息卻是一件困難的事情,建 立搜索引擎就是解決這個問題的最好方法。搜索引擎,通常指的是收集了因特網(wǎng)數(shù)百 億個網(wǎng)頁并對網(wǎng)頁中的每一個詞(即關(guān)鍵詞)進行索引,建立 索引數(shù)據(jù)庫的全文搜索引擎。當用戶查找某個關(guān)鍵詞的時候,所有包含了該關(guān)鍵詞的網(wǎng)頁都將作為搜索結(jié)果被檢索到并展示出來。 本文 主要是研究了搜索引擎的 基本 實現(xiàn)。首先 是 數(shù)據(jù)抓取 , 基于 Nutch 爬蟲系統(tǒng)的 部署 和實現(xiàn), 抓取 命令執(zhí)行 完畢 ,后臺會自動抓取 網(wǎng)頁 ,并 存儲 到 偽 分布式 HBase 數(shù)據(jù)庫中 。 其次 為 基于 NoSQL 的數(shù)據(jù) 偽分布存儲 ,為 本文的實現(xiàn)重點,Hadoop, HBase, Zookeeper 部署 偽 分布式 環(huán)境 , Nutch 抓取 到 的 數(shù)據(jù) 存儲 到偽分布式 NoSQL 數(shù)據(jù)庫 HBase 中, 索引 器為存儲的數(shù)據(jù)進行索引。 還有關(guān)鍵字 的索引 , 目前 關(guān)鍵字的索引工作做得很少,只是基本實現(xiàn)了數(shù)據(jù)的基本索引,沒有真正 實現(xiàn)倒排索引; 但實現(xiàn)了以 Http 請求 方式對外提供請求接口,做到組件低耦合,各組件 維護 提升 自由 獨立 。最后結(jié)果 列表的展示 ,基于 Bootstrap, 以及 Java提供 的 Http 接口 ,將 以 關(guān)鍵字向內(nèi)部發(fā)起請求,獲取數(shù)據(jù)展示于前端。 此外引擎 實現(xiàn)所需要的 偽 分布運行環(huán)境 部署 ,配置好 NoSQL 偽分布 與 開發(fā)環(huán)境, 調(diào)試環(huán)境,測試環(huán)境, 這個 是 所有 部件能正常運行的基礎(chǔ)。 本文基于 NoSQL 技術(shù)實現(xiàn)了一個搜索引擎構(gòu)架,通過爬蟲 抓取網(wǎng)頁數(shù)據(jù),存儲到偽分布式 NoSQL 數(shù)據(jù)庫 中 , Java 類 實現(xiàn)對 前端 提供查詢接口, PHP 調(diào)用接口獲取關(guān)鍵字索引的數(shù)據(jù),并展示給用戶。 關(guān)鍵詞:搜索引擎;網(wǎng)絡(luò) 爬蟲 ;檢索; NoSQL; HBase Abstract Network is very rich in resources, but how to search the effective information is a difficult thing, the best way to build a search engine is to solve this problem. Search engine, usually refers to the collection of the hundreds of billions of webpage and webpage in each word (. keywords) index, fulltext indexing database search engine. When a user searches a keyword, all contain the keyword webpage will be as the search results retrieved and displayed. This paper is a basic implementation of the search engine. The first is data capture, and implementation of the Nutch crawler system based on the deployment, grab the mand has pleted, the background will be automatically crawl the webpage, and stored in the pseudo distributed HBase database. Then NoSQL data storage based on pseudo distribution, as the key point, the realization of the Hadoop, HBase, Zookeeper deployment pseudo distributed environment, Nutch to capture data storage to the pseudo distributed NoSQL database in HBase. The work of the indexing keywords is little, but the basic realization of the basic index data。 on other hand in order to realize the Http request request interface providing, do ponent and low coupling, each ponent maintenance upgrade free and independent. Finally, the results display of the list, based on Bootstrap, Http interface and Java, will be key to the internal request, gets the data displayed on the front. In addition the e ngine to achieve the deployment environment pseudo distribution operation needed, configure NoSQL pseudo distribution and development environment, the debugging environment, test environment, they are the basic of system. In this paper, the NoSQL technology to achieve a search engine crawler frame based on, through the webpage data, stored into the pseudo distributed NoSQL database, the Java class implements the query interface of frontend, keyword index to obtain PHP interface data, and displayed to the user. Keywords: Search engine。 Index。 Retrieval。 NoSQL。HBase 目 錄 摘 要 ................................................................ I ABSTRACT .............................................................. II 第一章 緒 論 .......................................................... 1 選題背景及意義 ...........................................................................................................1 國內(nèi)外發(fā)展狀況 ...........................................................................................................1 論文使用的研究方法與工具 .........................................................................................2 論文的基本思路與邏輯結(jié)構(gòu) .........................................................................................2 第二章 可行性研究 ...................................................... 3 概述 .............................................................................................................................3 可行性 分析 ..................................................................................................................3 結(jié)論 .............................................................................................................................3 第三章 搜索引擎 分析 .................................................... 5 搜索引擎的體系結(jié)構(gòu) ....................................................................................................5 搜索引擎的工作流程 ....................................................................................................8 搜索引擎 分析的遺留問題 .............................................................................................9 第 四 章 系統(tǒng)設(shè)計 ....................................................... 10 爬蟲 系統(tǒng) .................................................................................................................... 10 索引器 +分析器 ........................................................................................................... 11 存儲器 ....................................................................................................................... 12 UI 前端 ...................................................................................................................... 15 第 五 章 系統(tǒng)實施 ....................................................... 18 Ubuntu 及應(yīng)用 工具配置 ............................................................................................. 18 Hadoop 配置 .............................................................................................................. 21 HBase 配置 ................................................................................................................ 22 zookeeper 配置 ........................................................................................................... 24 服務(wù)器啟動 腳本 ......................................................................................................... 24 Nut
點擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫吧 www.dybbs8.com
公安備案圖鄂ICP備17016276號-1