freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于nosql技術(shù)的搜索引擎設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)論文(存儲版)

2025-04-07 09:12上一頁面

下一頁面
  

【正文】 he NoSQL 摘 要 網(wǎng)絡(luò)中的資源非常豐富,但是如何有效的搜索信息卻是一件困難的事情,建 立搜索引擎就是解決這個(gè)問題的最好方法。 此外引擎 實(shí)現(xiàn)所需要的 偽 分布運(yùn)行環(huán)境 部署 ,配置好 NoSQL 偽分布 與 開發(fā)環(huán)境, 調(diào)試環(huán)境,測試環(huán)境, 這個(gè) 是 所有 部件能正常運(yùn)行的基礎(chǔ)。 托 Google、 Baidu 成功的福,搜索引擎火了半邊天,人們上網(wǎng)方式也被徹底改變了。搜索引擎為上億個(gè)網(wǎng) 頁建立索引,其中包含大量迥然不同的詞匯。 論文使用的研究方法與工具 本論文采用信息研究方法,根據(jù)信息論、控制論、系統(tǒng)論的原理 [1],通過對互聯(lián)網(wǎng)頁面信息的收集、索引,并應(yīng)用于實(shí)踐,以實(shí)現(xiàn)搜索引擎功能。 而數(shù)據(jù)每天都在增長,增長速度是 也在 加快,面對大數(shù)據(jù)的處理以及快速響應(yīng),傳統(tǒng)數(shù)據(jù)模型越顯吃力。可以嘗試開發(fā)一個(gè)基于分布式 NoSQL 平臺的搜索引擎。 其中最為關(guān)鍵為:爬蟲系統(tǒng),數(shù)據(jù)存儲,數(shù)據(jù)索引,以及檢索。具體一點(diǎn),細(xì)一點(diǎn)說,單只 HBase 中 ZooKeeper 實(shí)例負(fù)責(zé)的工作就有:存儲 HBase 的 Schema,實(shí)時(shí)監(jiān)控 HRegionServer,存儲所有 Region 的尋址入口, 另外也 保證 HBase 集群中只有一個(gè) Master[6]。 東北師范大學(xué)學(xué)士學(xué)位論文 9 其次,也有很多細(xì)節(jié)問題, 網(wǎng)頁的 權(quán) 值判定, 消除噪音,比如版權(quán)聲明文字、導(dǎo)航條、廣告等, 正向索引 , 鏈接關(guān)系計(jì)算 , 特殊文件處理 。 static public SolrDocumentList docs= new SolrDocumentList ()。 (regEx)。 Client 與 HMaster 進(jìn)行通信進(jìn)行管理類操作。 HRegionServer: HBase 中最核心的模塊,主要負(fù)責(zé)響應(yīng)用戶 I/O 請求,向 HDFS 文件系統(tǒng)中讀寫數(shù)據(jù) [13]。 } HBase數(shù)據(jù)庫插入: public bool setData(String[] args) throws IOException { Job job = new Job(config, Sample MR Application)。 (job, new Path(/usr/data/hbase/out ))。 } } } 4. 4 UI 前端 調(diào)用 PHP BeeSearch 類,前端使用 BootStrap 框架。 return self::$data。 public function getUrl() { self::$url .= amp。docs39。amp。因此, Bootstrap 就成為了我前端框架,表現(xiàn)甚佳! MyEclipse 介紹 MyEclipse 是當(dāng)前可用于 Eclispse 開源平臺的最實(shí)惠、綜合全面的 J2EE IDE與 Web 開發(fā)工具套件。 0 row(s) in seconds hbase(main):001:0 put 39。 0 row(s) in seconds hbase(main):002:0 put 39。 0 row(s) in seconds hbase(main):003:0 put 39。 0 row(s) in seconds hbase(main):006:0 put 39。 0 row(s) in seconds 東北師范大學(xué)學(xué)士學(xué)位論文 24 hbase(main):007:0 get 39。 ./bin/hadoop dfsadmin safemode leave echo zookeeper ... cd /usr/local/zookeeper。 但 Bee Search 存在很多 需要優(yōu)化的地方,首先是網(wǎng)頁的 權(quán) 值判定,去停止詞 ,消除噪音,比如版權(quán)聲明文字、導(dǎo)航條、廣告等, 正 向索引 , 鏈接關(guān)系計(jì)算 , 特殊文件處理 。Reilly Definitive Guide : MapReduce for the Cloud. [M].2021 [ 7] Elliotte Rusty Harold ,朱濤江,林劍 . Hadoop 實(shí)戰(zhàn)(第 2版) [M].中國電力 .2021. [ 8] Tom White,周傲英,曾大聃 .Hadoop權(quán)威指南(中文版) [M].清華大學(xué)出版社 .2021 [ 9] O39。是你們在背后的默默支持和鼓勵(lì)才使得我順利的完成大學(xué)四年的求學(xué)生涯。 6a*CZ7H$dq8Kqqf HVZFedswSyXTyamp。 qYpEh5pDx2zVkum amp。 qYpEh5pDx2zVkumamp。 qYpEh5pDx2zVkumamp。 qYpEh5pDx2zVkum amp。 gTXRm 6X4NGpP$vSTTamp。qYpEh5pDx2zVkumamp。 qYpEh5pDx2zVkum amp。 gTXRm 6X4NGpP$vSTTamp。 gTXRm 6X4NGpP$vSTTamp。gTXRm 6X4NGpP$vSTTamp。 gTXRm 6X4NGpP$vSTTamp。 gTXRm 6X4NGpP$vSTTamp。 gTXRm 6X4NGpP$vSTTamp。MuWFA5ux^Gjqv^$UE9wEwZQcUE% amp。 MuWFA5uxY7JnD6YWRrWwc^vR9CpbK! zn%Mz849Gx^Gj qv^$UE9wEwZQcUE%amp。 MuWFA5ux^Gj qv^$UE9wEwZQcUE%amp。 849Gx^Gj qv^$UE9wEwZQcUE% amp。MuWFA5ux^Gj qv^$UE9wEwZQcUE%amp。 849Gx^Gjqv^$UE9wEwZQcUE%amp。 ksv*3t nGK8!z89Am YWpazadNuKNamp。 ksv*3t nGK8!z89Am YWpazadNuKNamp。849Gx^Gj qv^$UE9wEwZQcUE%amp。 ksv*3t nGK8! z89Am YWpazadNuKNamp。 ksv*3tnGK8! z89Am YWpazadNuKNamp。 ksv*3t nGK8! z89Am YWpazadNuKNamp。ksv*3t nGK8!z89Am YWpazadNuKNamp。ae39。 感謝專業(yè)里的領(lǐng)導(dǎo)為我們提供良好的學(xué)習(xí)環(huán)境,以及對我們理解和支持,正是由于他們?yōu)槲覀冏隽舜罅康墓ぷ鳎M(jìn)行細(xì)致周到的考慮,我們才能如期完成學(xué)習(xí)任務(wù)。 畢業(yè)設(shè)計(jì)做完了,當(dāng)開始準(zhǔn)備論文材料時(shí)才發(fā)現(xiàn),自己做的是那么有限,功能少、細(xì)節(jié)處理不完美,但回想整個(gè)開發(fā)的過程我感覺很充實(shí),這是一種難得的經(jīng)歷,相信當(dāng)我再次面對一個(gè)新語言和項(xiàng)目的時(shí)候我不會再那么無助。我 不敢妄自稱自己學(xué)會了搜索引擎技術(shù), 只是 學(xué)會了環(huán)境的搭建,只是在已有的開源基礎(chǔ)上 搭建 起 一個(gè) 具有抓取 和 存儲,檢索功能的平臺。./ echo hadoop ... cd /usr/local/hadoop。,39。,39。,39。,39。,39。 f ~/.ssh/id_dsa cat ~/.ssh/ ~/.ssh/authorized_keys 東北師范大學(xué)學(xué)士學(xué)位論文 21 Bootstrap 介紹 Bootstrap 是 Twitter 技術(shù)成員開發(fā)的一個(gè)框架,一套易用、優(yōu)雅、靈活、可擴(kuò)展的前端工具集,目的是有個(gè)工具可以方便快速搞起一個(gè)項(xiàng)目。 本系統(tǒng) 基于 系統(tǒng)上搭建 Nginx+PHP運(yùn)行環(huán)境, java環(huán)境, Tomcat環(huán)境 , Hadoop+HBase+zookeeper 環(huán)境,使用到的開發(fā)工具: svn, ivy, ant, vi, NetBean,myeclipse, ssh。response39。] : *。 self::getUrl()。 for(Result r:ss){ for(KeyValue kv:()){ (new String(()))。 ()。 (, localhost)。 主要負(fù)責(zé) Table 和 Region 的管理工作: 管理用戶對表的增刪改查操作 管理 HRegionServer 的負(fù)載均衡,調(diào)整 Region 分布 東北師范大學(xué)學(xué)士學(xué)位論文 14 Region Split 后,負(fù)責(zé)新 Region 的分布。 } } Java BeeSearch 類的 Unit Test 結(jié)果 如圖 : 圖 BeeSearch 類的 Unit Test 結(jié)果 4. 3 存儲器 Hadoop, HBase, Zookeeper, 分別簡單來說就是: Hadoop 分布式計(jì)算開源框架,它實(shí)現(xiàn)了 MapReduce 計(jì)算模型的可以運(yùn)用于大型集群并行計(jì)算的分布式并行計(jì)算編程 [8] HBase Key/Value 的分布式數(shù)據(jù)庫 東北師范大學(xué)學(xué)士學(xué)位論文 13 Zookeeper 支撐分布式應(yīng)用的協(xié)作系統(tǒng) Hadoop, HBase, Zookeeper,三者 互相之間的聯(lián)系關(guān)系 如 下圖 。 regEx = content: + keyWord。 4. 2 索引器 +分析器 Nutch 抓取下來的頁面先進(jìn)入 solr,數(shù)據(jù)的索引加工在后臺進(jìn)行,對已下載的網(wǎng)頁進(jìn)行索引,并對索 引進(jìn)行保存到 solr,把所有結(jié)果保存到 HBase 中, BeeSearch 類 : public class BeeSearch { static private String keyWord = 。要真正發(fā)揮 HBase的實(shí)時(shí)響應(yīng)特性,需要部署成完全分布方式,在后續(xù)開發(fā)的過程中,需要多臺服務(wù)器實(shí)現(xiàn)全分布。 配置 host 文件: /etc/hosts paopaoK55VD localhost master 本 機(jī) 網(wǎng)卡 IP 地址 : eth0: 起動 所有引擎 系統(tǒng) 所有進(jìn)程 , 查看 java 進(jìn)程 : rootpaopaoK55VD:/usr/local/zookeeper jps 9774 DataNode 5348 JobTracker 10011 SecondaryNameNode 9523 NameNode 10857 HRegionServer 10384 QuorumPeerMain 5580 TaskTracker 31097 Main 13709 Jps 10570 HMaster 10206 MyEclipse 9450 Bootstrap 東北師范大學(xué)學(xué)士學(xué)位論文 7 Hadoop 偽 分布部署 java 進(jìn)程: 主機(jī)服務(wù)器(本機(jī)): Hadoop: NameNode, SecondaryNameNode, JobTracker HBase: HMaster 從機(jī)服務(wù)器(本機(jī)): Hadoop: DataNode, TaskTracker HBase: HQuorumPeer, HRegionServer 主從服務(wù)器 java 進(jìn)程關(guān)系如圖 。 Nutch 抓取指定網(wǎng)址數(shù)據(jù),存儲在 HBase 數(shù)據(jù)庫中,存儲過程由 zookeeper 管理。 分布式計(jì) 算就好比螞蟻吃大象,廉價(jià)的機(jī)器群可以匹敵任何高性能的計(jì)算機(jī),縱向擴(kuò)展始終抵不過橫向擴(kuò)展 [3]。 用戶 輸入關(guān)鍵字 , 點(diǎn)擊 查詢,期待 快速 、準(zhǔn)確得到他想要的查詢結(jié)果 。百度擁有全球最大的中文網(wǎng)頁庫,每天向全球 100 多個(gè)國家的網(wǎng)絡(luò)用戶提供超過 1 億次以上的搜索服務(wù)。互聯(lián)網(wǎng)的低谷由此演變?yōu)榈诙胃叻濉?NoSQL。 還有關(guān)鍵字 的索引 , 目前 關(guān)鍵字的索引工作做得很少,只是基本實(shí)現(xiàn)了數(shù)據(jù)的基本索引,沒有真正 實(shí)現(xiàn)倒排索引; 但實(shí)現(xiàn)了以 Http 請求 方式對外提供請求接口,做到組件低耦合,各組件 維護(hù) 提升 自由 獨(dú)立 。搜索引擎,通常指的是收集了因特網(wǎng)數(shù)百 億個(gè)網(wǎng)頁并對網(wǎng)頁中的每一個(gè)詞(即關(guān)鍵詞)進(jìn)行索引,建立 索引數(shù)據(jù)庫的全文搜索引擎。 本文基于 NoSQL 技術(shù)實(shí)現(xiàn)了一個(gè)搜索引擎構(gòu)架,通過爬蟲 抓取網(wǎng)頁數(shù)據(jù),存儲到偽分布式 NoSQL 數(shù)據(jù)庫 中 , Java 類 實(shí)現(xiàn)對 前端 提供查詢接口, PHP 調(diào)用接口獲取關(guān)鍵字索引的數(shù)據(jù),并展示給用戶。隨著網(wǎng)絡(luò)的不斷發(fā)展和壯大 , 搜索引擎越來越成為人們生活中重要的一部分,找資料、查地圖、聽音樂,只有想不到的,沒有搜索不到的。而且每天要回答成千上萬個(gè)查詢。 使用到的工具有: 操作系統(tǒng), vi, myeclipse, bean, ivy, ant, ssh等。分布式 NoSQL 數(shù)據(jù)庫的發(fā)展,給出了一個(gè)解決方案,它對于大數(shù)據(jù)的存儲以及查詢,保持?jǐn)?shù)據(jù)的容災(zāi)都表現(xiàn)出了極佳的性能。 此次 開發(fā)的系統(tǒng) 命名為 Bee 搜索引擎,本文 以下 所有 Bee 搜索引擎均代指基于NoSQL 的搜索引擎。 東北師范大學(xué)學(xué)士學(xué)位論文 6 數(shù)據(jù)的存放直接決定搜索速度的瓶頸,既要爬取數(shù)據(jù)快速存儲,又要考慮數(shù)據(jù)的冗余,還要考慮數(shù)據(jù)的檢索速度。 搜索引擎的工作流程 由上節(jié) Bee 搜索引擎分析已了解到, Bee 是基于 NoSQL 數(shù)據(jù)庫 HBase 的偽分布東北師范大學(xué)學(xué)士學(xué)位論文
點(diǎn)擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1