freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于nosql技術(shù)的搜索引擎設(shè)計與實現(xiàn)畢業(yè)論文-在線瀏覽

2025-05-01 09:12本頁面
  

【正文】 ...................................................................................8 搜索引擎 分析的遺留問題 .............................................................................................9 第 四 章 系統(tǒng)設(shè)計 ....................................................... 10 爬蟲 系統(tǒng) .................................................................................................................... 10 索引器 +分析器 ........................................................................................................... 11 存儲器 ....................................................................................................................... 12 UI 前端 ...................................................................................................................... 15 第 五 章 系統(tǒng)實施 ....................................................... 18 Ubuntu 及應(yīng)用 工具配置 ............................................................................................. 18 Hadoop 配置 .............................................................................................................. 21 HBase 配置 ................................................................................................................ 22 zookeeper 配置 ........................................................................................................... 24 服務(wù)器啟動 腳本 ......................................................................................................... 24 Nutch 配置 .................................................................................................................. 25 結(jié)束語 ................................................................ 26 參考文獻 .............................................................. 27 致 謝 ................................................................ 28 東北師范大學學士學位論文 1 第一章 緒 論 選題背景及意義 自從互聯(lián)網(wǎng)開始發(fā)展起,經(jīng)歷了漫長發(fā)展。隨著網(wǎng)絡(luò)的不斷發(fā)展和壯大 , 搜索引擎越來越成為人們生活中重要的一部分,找資料、查地圖、聽音樂,只有想不到的,沒有搜索不到的。在互聯(lián)網(wǎng)出現(xiàn)的初期,雅虎、新浪、網(wǎng)易等大型門戶網(wǎng)站擁有著 高 比例的瀏覽量,原因在于當初的大部分網(wǎng) 站在技術(shù)上無法與門戶網(wǎng)站相媲美,多數(shù)質(zhì)量較差,內(nèi)容不豐富,所以大型門戶網(wǎng)站優(yōu)秀的網(wǎng)頁設(shè)計風格,大量的信息及時更新贏得了用戶的認可,創(chuàng)造了第一次互聯(lián)網(wǎng)的高峰。通用搜索引擎就如同互聯(lián)網(wǎng)第一次出現(xiàn)的門戶網(wǎng)站一樣,大量的信息整合導航,極快的查詢,將所有網(wǎng)站上的信息整理在一個平臺上供網(wǎng)民使用,于是信息的價值第一次普遍的被眾多商家認可,迅速成為互聯(lián)網(wǎng)中最有價值的領(lǐng)域。 設(shè)計搜索引擎是一項富有挑戰(zhàn)性的工作。而且每天要回答成千上萬個查詢。 國內(nèi)外發(fā)展狀況 目前 Google 已經(jīng)成為全球最大的全文搜索引擎 ,并在 2021 年已經(jīng)開始提供中文搜索服務(wù)。 Google 國外做的很成功并且不斷擴張的的時候,中國的市場做的不是很好,百度抓住這個時間差讓 “ 百度更懂中文 ” 成功占據(jù)了大部分的份額,成為世界上最大規(guī)東北師范大學學士學位論文 2 模的中文搜索引擎,致力于向人們 提供最便捷的信息獲取方式。由于百度在技術(shù)上的領(lǐng)先,奠定了其在中國互聯(lián)網(wǎng)高科技公司的優(yōu)勢地位,成為中國互聯(lián)網(wǎng)信息服務(wù)的旗幟之一。 使用到的工具有: 操作系統(tǒng), vi, myeclipse, bean, ivy, ant, ssh等。主要內(nèi)容有抓取網(wǎng)頁,數(shù)據(jù)存儲,檢索,以及安裝配置等。 可行性分析 檢索 無處 不在 ,在電商中,顯得 尤為 重量,沒有人愿意等待延遲的查詢結(jié)果,沒有快速響應(yīng)就 等于 沒有用戶 。 這個 過程 包含了巨大的商業(yè)價值,查詢結(jié)果的排名,流量的導 流, 直接決定著電商 網(wǎng)站 的業(yè)衰 。分布式 NoSQL 數(shù)據(jù)庫的發(fā)展,給出了一個解決方案,它對于大數(shù)據(jù)的存儲以及查詢,保持數(shù)據(jù)的容災(zāi)都表現(xiàn)出了極佳的性能。 NoSQL數(shù)據(jù)庫 HBase 具有高可靠性、面向列、可伸縮、高效性、可在廉價 PC Server搭建大規(guī)模結(jié)構(gòu)化存儲集群等優(yōu)點。主要用來存儲非結(jié)構(gòu)化和半結(jié)構(gòu)化的松散數(shù)據(jù)。 總結(jié) 經(jīng)過對當下傳統(tǒng)數(shù)據(jù)模型在面對大數(shù)據(jù)呈現(xiàn)吃力的情況的分析,接受分布式東北師范大學學士學位論文 4 NoSQL 并借以開發(fā)搜索引擎的實際應(yīng)用,是一個可靠方案。 此次 開發(fā)的系統(tǒng) 命名為 Bee 搜索引擎,本文 以下 所有 Bee 搜索引擎均代指基于NoSQL 的搜索引擎。首先由爬蟲 Nutch Crawl 抓取數(shù)據(jù),并做保存,為加快檢索的速度,由索引器對抓取下來的數(shù)據(jù)進行索引;經(jīng)過索引的數(shù)據(jù)在用戶檢索時,將變得更為高效。 圖 基于 NoSQL 數(shù)據(jù)庫 HBase 搜索引擎的體系結(jié)構(gòu) 簡單的來說,在單機上搭建偽分布部署來實現(xiàn)爬取數(shù)據(jù)和數(shù)據(jù)存取。腳本調(diào)用索引器部件將數(shù)據(jù)索引化,經(jīng)過索引化的數(shù)據(jù)被前端檢索查詢,最后前端 展示查詢結(jié)果,用戶點擊結(jié)果列表查看目標資料。 東北師范大學學士學位論文 6 數(shù)據(jù)的存放直接決定搜索速度的瓶頸,既要爬取數(shù)據(jù)快速存儲,又要考慮數(shù)據(jù)的冗余,還要考慮數(shù)據(jù)的檢索速度。 本系 統(tǒng)只需要功能單一的爬蟲,而 就是一個僅具有爬蟲功能的一個應(yīng)用, 從分布式處理來說, Nutch 支持分布式處理,于是它與 HBase 成了絕佳的組合。 由于機器條件原因,沒有兩臺和兩臺以上的電腦進行開發(fā),以單機偽分布部署模仿完全分布部署。 圖 主從服務(wù)器 java 進程關(guān)系 Zookeeper 同步 HBase 服務(wù)狀態(tài)、監(jiān)控集群防止單點失效,管理 Hadoop 集群中的NameNode, HBase 中 HBaseMaster 的選舉, Servers 之間狀態(tài)同步等 [5]。 搜索引擎的工作流程 由上節(jié) Bee 搜索引擎分析已了解到, Bee 是基于 NoSQL 數(shù)據(jù)庫 HBase 的偽分布東北師范大學學士學位論文 8 式搜索引擎,其數(shù)據(jù)存儲、更新,刪除均是操作 HBase 實現(xiàn),其原理如圖 。偽分布的 HBase 集群的穩(wěn)定服務(wù)需要一個監(jiān)控服務(wù),而 zookeeper 就是是HBase 集群的 協(xié)調(diào)器 ,一個 zookeeper 集群管理多個 HBase 集群 [7]。 搜索引擎分析的遺留問題 Bee 搜索引擎是基于 NoSQL 數(shù)據(jù)庫 HBase 開發(fā)的,此系統(tǒng)在開發(fā)的過程中,是采用偽分布方式部署, HBase 的優(yōu)點體現(xiàn)在海量數(shù)據(jù)的實時響應(yīng)。這個是問題也是決定著搜索引擎是否實時響應(yīng)高并發(fā)請求。 當然 還有 一些如快 照 ,排名,自動提示,關(guān)鍵詞的更新 這些 功能,應(yīng)當是搜索引擎必需具有的 。這只是開發(fā)的起步,離成型還有遙遠的路要走,堅持學習直至 Bee 小蜜蜂飛出實驗室,實現(xiàn)社會價值。 圖 Nutch 抓取 流程 原理 Nutch 抓取流程: 1.)InjectorJob = 2.)GeneratorJob = 3.)FetcherJob = 4.)ParserJob = 5.)DbUpdaterJob = SolrIndexerJob InjectorJob : 從文件中得到一批種子網(wǎng)頁,把它們放到抓取數(shù)據(jù)庫中去 GeneratorJob: 從抓取數(shù)據(jù)庫中產(chǎn)生要抓取的頁面放到抓取隊列中去 FetcherJob:對抓取隊列中的網(wǎng)頁進行抓取 ,在 reducer 中使用了生產(chǎn) /消費 者模型 ParserJob: 對抓取完成的網(wǎng)頁進行解析,產(chǎn)生一些新的鏈接與網(wǎng)頁內(nèi)容的解析結(jié)果 DbUpdaterJob: 把新產(chǎn)生的鏈接更新到抓取數(shù)據(jù)庫中去 SolrIndexerJob: 對解析后的內(nèi)容進行索引建立 東北師范大學學士學位論文 11 在 已經(jīng)部署好 Nutch 的 掉系統(tǒng)上 (部署詳見系統(tǒng) 實施之 Nutch 介紹 ),開始執(zhí)行抓取任務(wù) , 抓取命令: ./bin/nutch crawl urls solr depth 3 topN 5 ./bin/nutch solrindex data/crawldb linkdb data/linkdb data/segments/* 這個命令調(diào)用的是: ,接收請求的是:BinaryUpdateRequestHandler ,會把 Nutch 傳進來的 內(nèi)容轉(zhuǎn)換成 Lucene 的索引。 static public SolrServer serverHandle = new HttpSolrServer()。 } 當前端提交關(guān)鍵字時,要求返回查詢結(jié)果,對傳入的關(guān) 鍵字進行預(yù)搜索,等待 獲取前端展示數(shù)據(jù) : public ArrayList getResult (String kw) { formatKeyWord(kw)。 return docs。 String regEx = new String()。 SolrQuery query = new SolrQuery()。 東北師范大學學士學位論文 12 QueryResponse rsp。 docs = ()。 } return docs 。 圖 Hadoop, HBase, Zookeeper 關(guān)系聯(lián)系圖 Client: 使用 HBase RPC 機制與 HMaster 和 HRegionServer 進行通信 [9]。 Client 與 HRegionServer 進行數(shù)據(jù)讀寫類操作。 HRegionServer 把自己以 Ephedral 方式注冊到 Zookeeper 中, HMaster 隨時感知 各個 HRegionServer 的健康狀況 [10]。 HMaster: HMaster 沒有單點問題, HBase 中可以啟動多個 HMaster,通過 Zookeeper 的 Master Election 機制保證總有一個 Master 在運行 [11]。 在 HRegionServer 停機后,負責失效 HRegionServer 上 Region 遷移 [12]。 HStore: HBase 存儲的核心。 MemStore 是 Sorted Memory Buffer。 } HBase數(shù)據(jù)庫連接: public void connection() throws IOException { String tablename = pao。 HBaseAdmin admin = new HBaseAdmin((HBase_CONFIG))。 ()。 ()。 ()。 (job, new Path(/usr/data/hbase/input))。 (true)。 } HBase顯示所有數(shù)據(jù): public static void getAllData (String tablename) throws Exception{ HTable table = new HTable(config, ta
點擊復制文檔內(nèi)容
公司管理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1