freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于nosql技術(shù)的搜索引擎設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)論文-wenkub

2023-03-09 09:12:04 本頁面
 

【正文】 偽分布存儲(chǔ) ,為 本文的實(shí)現(xiàn)重點(diǎn),Hadoop, HBase, Zookeeper 部署 偽 分布式 環(huán)境 , Nutch 抓取 到 的 數(shù)據(jù) 存儲(chǔ) 到偽分布式 NoSQL 數(shù)據(jù)庫 HBase 中, 索引 器為存儲(chǔ)的數(shù)據(jù)進(jìn)行索引。搜索引擎,通常指的是收集了因特網(wǎng)數(shù)百 億個(gè)網(wǎng)頁并對(duì)網(wǎng)頁中的每一個(gè)詞(即關(guān)鍵詞)進(jìn)行索引,建立 索引數(shù)據(jù)庫的全文搜索引擎。當(dāng)用戶查找某個(gè)關(guān)鍵詞的時(shí)候,所有包含了該關(guān)鍵詞的網(wǎng)頁都將作為搜索結(jié)果被檢索到并展示出來。 還有關(guān)鍵字 的索引 , 目前 關(guān)鍵字的索引工作做得很少,只是基本實(shí)現(xiàn)了數(shù)據(jù)的基本索引,沒有真正 實(shí)現(xiàn)倒排索引; 但實(shí)現(xiàn)了以 Http 請(qǐng)求 方式對(duì)外提供請(qǐng)求接口,做到組件低耦合,各組件 維護(hù) 提升 自由 獨(dú)立 。 關(guān)鍵詞:搜索引擎;網(wǎng)絡(luò) 爬蟲 ;檢索; NoSQL; HBase Abstract Network is very rich in resources, but how to search the effective information is a difficult thing, the best way to build a search engine is to solve this problem. Search engine, usually refers to the collection of the hundreds of billions of webpage and webpage in each word (. keywords) index, fulltext indexing database search engine. When a user searches a keyword, all contain the keyword webpage will be as the search results retrieved and displayed. This paper is a basic implementation of the search engine. The first is data capture, and implementation of the Nutch crawler system based on the deployment, grab the mand has pleted, the background will be automatically crawl the webpage, and stored in the pseudo distributed HBase database. Then NoSQL data storage based on pseudo distribution, as the key point, the realization of the Hadoop, HBase, Zookeeper deployment pseudo distributed environment, Nutch to capture data storage to the pseudo distributed NoSQL database in HBase. The work of the indexing keywords is little, but the basic realization of the basic index data。 NoSQL。中國十年多來互聯(lián)網(wǎng)的不斷發(fā)展 , 截至 2021 年 12 月底 ,我國網(wǎng)民規(guī)模達(dá) 億 ,全年共計(jì)新增網(wǎng)民 5090 萬人 ,搜索引擎也出現(xiàn)空前的火熱。互聯(lián)網(wǎng)的低谷由此演變?yōu)榈诙胃叻?。在網(wǎng)絡(luò)中,盡管大型搜索引擎非常重要,但是學(xué)術(shù)界卻很少研究它。百度擁有全球最大的中文網(wǎng)頁庫,每天向全球 100 多個(gè)國家的網(wǎng)絡(luò)用戶提供超過 1 億次以上的搜索服務(wù)。 論文的基本思路與邏輯結(jié)構(gòu) 這篇論文按照網(wǎng)站系統(tǒng)開發(fā)的順序一共分為六個(gè)章節(jié):緒論、可行性分析、搜索引擎分析、系統(tǒng)設(shè)計(jì)、系統(tǒng)實(shí)施和結(jié)論,逐步介紹了搜索引擎開發(fā)進(jìn)程中數(shù)據(jù)交流原理與邏輯模型建立過程。 用戶 輸入關(guān)鍵字 , 點(diǎn)擊 查詢,期待 快速 、準(zhǔn)確得到他想要的查詢結(jié)果 。 Yahoo! 選擇了它, Facebook 選擇了它, Google 也選擇了它,而分布式 NoSQL 數(shù)據(jù)庫并沒有讓這些互聯(lián)網(wǎng)巨頭失望,成就了當(dāng)下最大的互聯(lián)網(wǎng)社區(qū),最佳搜索引擎的有力后盾。 分布式計(jì) 算就好比螞蟻吃大象,廉價(jià)的機(jī)器群可以匹敵任何高性能的計(jì)算機(jī),縱向擴(kuò)展始終抵不過橫向擴(kuò)展 [3]。 東北師范大學(xué)學(xué)士學(xué)位論文 5 第三章 搜索引擎分析 搜索引擎的體系結(jié)構(gòu) 一切以數(shù)據(jù)為核心,數(shù)據(jù)的爬取,數(shù)據(jù)的 索引,數(shù)據(jù)的檢索,以及數(shù)據(jù)與用戶交互都是基于數(shù)據(jù)。 Nutch 抓取指定網(wǎng)址數(shù)據(jù),存儲(chǔ)在 HBase 數(shù)據(jù)庫中,存儲(chǔ)過程由 zookeeper 管理。綜合當(dāng)下數(shù)據(jù)庫的特點(diǎn),關(guān)系數(shù)據(jù)庫在解決這個(gè)工作顯得成本過高,而新生 NoSQL 數(shù)據(jù)庫 HBase 具有分布式存儲(chǔ),對(duì)實(shí)時(shí)查詢進(jìn)行有良好支持,堪比 MySQL 的隨機(jī)訪問性能,更是對(duì)大數(shù)據(jù)冗余處理讓人滿意,不會(huì)出現(xiàn)單點(diǎn)故障等優(yōu)點(diǎn),在這么一個(gè)需要對(duì)大數(shù)據(jù)進(jìn)行隨機(jī)、實(shí)時(shí)訪問的場合中, HBase是數(shù)據(jù)庫的最佳選擇。 配置 host 文件: /etc/hosts paopaoK55VD localhost master 本 機(jī) 網(wǎng)卡 IP 地址 : eth0: 起動(dòng) 所有引擎 系統(tǒng) 所有進(jìn)程 , 查看 java 進(jìn)程 : rootpaopaoK55VD:/usr/local/zookeeper jps 9774 DataNode 5348 JobTracker 10011 SecondaryNameNode 9523 NameNode 10857 HRegionServer 10384 QuorumPeerMain 5580 TaskTracker 31097 Main 13709 Jps 10570 HMaster 10206 MyEclipse 9450 Bootstrap 東北師范大學(xué)學(xué)士學(xué)位論文 7 Hadoop 偽 分布部署 java 進(jìn)程: 主機(jī)服務(wù)器(本機(jī)): Hadoop: NameNode, SecondaryNameNode, JobTracker HBase: HMaster 從機(jī)服務(wù)器(本機(jī)): Hadoop: DataNode, TaskTracker HBase: HQuorumPeer, HRegionServer 主從服務(wù)器 java 進(jìn)程關(guān)系如圖 。 圖 搜索引擎的工作流程 Bee 搜索引擎的數(shù)據(jù)來源由 Nutch 爬蟲系統(tǒng)抓取,存儲(chǔ)到 HBase, HBase 是 依托于 Hadoop 的 分布式 HDFS 作為存儲(chǔ)基礎(chǔ), HBase 的 結(jié)構(gòu) 與 Hadoop 的 MasterSlave模式 類似。要真正發(fā)揮 HBase的實(shí)時(shí)響應(yīng)特性,需要部署成完全分布方式,在后續(xù)開發(fā)的過程中,需要多臺(tái)服務(wù)器實(shí)現(xiàn)全分布。 一個(gè)交互友好的搜索引擎,首先要提供準(zhǔn)確的檢索數(shù)據(jù),也是一個(gè) 用戶體驗(yàn) 流暢的平臺(tái)。 4. 2 索引器 +分析器 Nutch 抓取下來的頁面先進(jìn)入 solr,數(shù)據(jù)的索引加工在后臺(tái)進(jìn)行,對(duì)已下載的網(wǎng)頁進(jìn)行索引,并對(duì)索 引進(jìn)行保存到 solr,把所有結(jié)果保存到 HBase 中, BeeSearch 類 : public class BeeSearch { static private String keyWord = 。 preSearch()。 regEx = content: + keyWord。 try { rsp = (query)。 } } Java BeeSearch 類的 Unit Test 結(jié)果 如圖 : 圖 BeeSearch 類的 Unit Test 結(jié)果 4. 3 存儲(chǔ)器 Hadoop, HBase, Zookeeper, 分別簡單來說就是: Hadoop 分布式計(jì)算開源框架,它實(shí)現(xiàn)了 MapReduce 計(jì)算模型的可以運(yùn)用于大型集群并行計(jì)算的分布式并行計(jì)算編程 [8] HBase Key/Value 的分布式數(shù)據(jù)庫 東北師范大學(xué)學(xué)士學(xué)位論文 13 Zookeeper 支撐分布式應(yīng)用的協(xié)作系統(tǒng) Hadoop, HBase, Zookeeper,三者 互相之間的聯(lián)系關(guān)系 如 下圖 。 Zookeeper: Zookeeper Quorum 存儲(chǔ) ROOT表地址、 HMaster 地址。 主要負(fù)責(zé) Table 和 Region 的管理工作: 管理用戶對(duì)表的增刪改查操作 管理 HRegionServer 的負(fù)載均衡,調(diào)整 Region 分布 東北師范大學(xué)學(xué)士學(xué)位論文 14 Region Split 后,負(fù)責(zé)新 Region 的分布。由 MemStore 和 StoreFile 組成 [14]。 (, localhost)。 ()。 ()。 東北師范大學(xué)學(xué)士學(xué)位論文 15 return (true) ? 0 : 1。 for(Result r:ss){ for(KeyValue kv:()){ (new String(()))。 分析器 BeeSearch PHP 代碼: class BeeSearch { // 關(guān)鍵字 public static $keyWord = null。 self::getUrl()。 public function formatParams() { self::$keyWord = $_POST[39。] : *。 self::$data = file_get_contents(self::$url)。response39。 } 用戶提交 檢索 ,信息列表響應(yīng)展示效果如圖 : 東北師范大學(xué)學(xué)士學(xué)位論文 17 圖 響應(yīng)展示效果圖 前端結(jié)果列表展示需要短內(nèi)容預(yù)覽, 截取前 300 字 。 本系統(tǒng) 基于 系統(tǒng)上搭建 Nginx+PHP運(yùn)行環(huán)境, java環(huán)境, Tomcat環(huán)境 , Hadoop+HBase+zookeeper 環(huán)境,使用到的開發(fā)工具: svn, ivy, ant, vi, NetBean,myeclipse, ssh。liconv39。 f ~/.ssh/id_dsa cat ~/.ssh/ ~/.ssh/authorized_keys 東北師范大學(xué)學(xué)士學(xué)位論文 21 Bootstrap 介紹 Bootstrap 是 Twitter 技術(shù)成員開發(fā)的一個(gè)框架,一套易用、優(yōu)雅、靈活、可擴(kuò)展的前端工具集,目的是有個(gè)工具可以方便快速搞起一個(gè)項(xiàng)目。 MyEclipse 它是 Eclipse 的插件,也是一款功能強(qiáng)大的 J2EE 集成開發(fā)環(huán)境! 5. 2 Hadoop 配置 Hadoop 安裝路徑: /usr/local/hadoop 配 置 : $Hadoop/conf/ configuration property name/name value/usr/local/hadoop/datalog1,/usr/local/hadoop/datalog2/value /property property name/name value/usr/local/hadoop/data1,/usr/local/hadoop/data2/value /property property name/name value2/value /property /configuration 配置 : $Hadoop/conf/ 東北師范大學(xué)學(xué)士學(xué)位論文 22 export JAVA_HOME=/usr/local/java conf/ configuration property name/name value /property /configuration hadoop 前端管理界面: 5. 3 HBase 配置 HBase 安裝路徑: /usr/local/HBase 配置 : /etc/hosts paopaoK55VD localhost master 配置 : $HBase/conf/ export HBase_MANAGES_ZK=false $HBase/conf/ n 100 configuration property name/name value descriptionThe directory shared by RegionServers. /description /property
點(diǎn)擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1