freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于nosql技術(shù)的搜索引擎設(shè)計與實現(xiàn)畢業(yè)論文-文庫吧

2025-02-06 09:12 本頁面


【正文】 ch 配置 .................................................................................................................. 25 結(jié)束語 ................................................................ 26 參考文獻 .............................................................. 27 致 謝 ................................................................ 28 東北師范大學(xué)學(xué)士學(xué)位論文 1 第一章 緒 論 選題背景及意義 自從互聯(lián)網(wǎng)開始發(fā)展起,經(jīng)歷了漫長發(fā)展。 托 Google、 Baidu 成功的福,搜索引擎火了半邊天,人們上網(wǎng)方式也被徹底改變了。隨著網(wǎng)絡(luò)的不斷發(fā)展和壯大 , 搜索引擎越來越成為人們生活中重要的一部分,找資料、查地圖、聽音樂,只有想不到的,沒有搜索不到的。中國十年多來互聯(lián)網(wǎng)的不斷發(fā)展 , 截至 2021 年 12 月底 ,我國網(wǎng)民規(guī)模達 億 ,全年共計新增網(wǎng)民 5090 萬人 ,搜索引擎也出現(xiàn)空前的火熱。在互聯(lián)網(wǎng)出現(xiàn)的初期,雅虎、新浪、網(wǎng)易等大型門戶網(wǎng)站擁有著 高 比例的瀏覽量,原因在于當初的大部分網(wǎng) 站在技術(shù)上無法與門戶網(wǎng)站相媲美,多數(shù)質(zhì)量較差,內(nèi)容不豐富,所以大型門戶網(wǎng)站優(yōu)秀的網(wǎng)頁設(shè)計風(fēng)格,大量的信息及時更新贏得了用戶的認可,創(chuàng)造了第一次互聯(lián)網(wǎng)的高峰。 搜索引擎的出現(xiàn),整合了眾多網(wǎng)站信息,恰恰起到了信息導(dǎo)航的作用。通用搜索引擎就如同互聯(lián)網(wǎng)第一次出現(xiàn)的門戶網(wǎng)站一樣,大量的信息整合導(dǎo)航,極快的查詢,將所有網(wǎng)站上的信息整理在一個平臺上供網(wǎng)民使用,于是信息的價值第一次普遍的被眾多商家認可,迅速成為互聯(lián)網(wǎng)中最有價值的領(lǐng)域?;ヂ?lián)網(wǎng)的低谷由此演變?yōu)榈诙胃叻濉? 設(shè)計搜索引擎是一項富有挑戰(zhàn)性的工作。搜索引擎為上億個網(wǎng) 頁建立索引,其中包含大量迥然不同的詞匯。而且每天要回答成千上萬個查詢。在網(wǎng)絡(luò)中,盡管大型搜索引擎非常重要,但是學(xué)術(shù)界卻很少研究它。 國內(nèi)外發(fā)展狀況 目前 Google 已經(jīng)成為全球最大的全文搜索引擎 ,并在 2021 年已經(jīng)開始提供中文搜索服務(wù)。 Google 每天提供超過 2 億次查詢服務(wù) ,搜索時間不到半秒 ,成為網(wǎng)上最快捷的信息查詢方法。 Google 國外做的很成功并且不斷擴張的的時候,中國的市場做的不是很好,百度抓住這個時間差讓 “ 百度更懂中文 ” 成功占據(jù)了大部分的份額,成為世界上最大規(guī)東北師范大學(xué)學(xué)士學(xué)位論文 2 模的中文搜索引擎,致力于向人們 提供最便捷的信息獲取方式。百度擁有全球最大的中文網(wǎng)頁庫,每天向全球 100 多個國家的網(wǎng)絡(luò)用戶提供超過 1 億次以上的搜索服務(wù)。由于百度在技術(shù)上的領(lǐng)先,奠定了其在中國互聯(lián)網(wǎng)高科技公司的優(yōu)勢地位,成為中國互聯(lián)網(wǎng)信息服務(wù)的旗幟之一。 論文使用的研究方法與工具 本論文采用信息研究方法,根據(jù)信息論、控制論、系統(tǒng)論的原理 [1],通過對互聯(lián)網(wǎng)頁面信息的收集、索引,并應(yīng)用于實踐,以實現(xiàn)搜索引擎功能。 使用到的工具有: 操作系統(tǒng), vi, myeclipse, bean, ivy, ant, ssh等。 論文的基本思路與邏輯結(jié)構(gòu) 這篇論文按照網(wǎng)站系統(tǒng)開發(fā)的順序一共分為六個章節(jié):緒論、可行性分析、搜索引擎分析、系統(tǒng)設(shè)計、系統(tǒng)實施和結(jié)論,逐步介紹了搜索引擎開發(fā)進程中數(shù)據(jù)交流原理與邏輯模型建立過程。主要內(nèi)容有抓取網(wǎng)頁,數(shù)據(jù)存儲,檢索,以及安裝配置等。 東北師范大學(xué)學(xué)士學(xué)位論文 3 第二章 可行性研究 概述 在目前 Google, Baidu 等主流搜索引擎占領(lǐng)著,而我們上網(wǎng)需求并沒有得到完全的滿足,還有很多開發(fā)領(lǐng)域等著我們嘗試 ,而 在當下大數(shù)據(jù)時代,數(shù)據(jù)的存儲和快速檢索成為了互聯(lián)網(wǎng)發(fā)展 的趨勢 ,也是工 程師解決用戶快速響應(yīng)需求的一個問題。 可行性分析 檢索 無處 不在 ,在電商中,顯得 尤為 重量,沒有人愿意等待延遲的查詢結(jié)果,沒有快速響應(yīng)就 等于 沒有用戶 。 用戶 輸入關(guān)鍵字 , 點擊 查詢,期待 快速 、準確得到他想要的查詢結(jié)果 。 這個 過程 包含了巨大的商業(yè)價值,查詢結(jié)果的排名,流量的導(dǎo) 流, 直接決定著電商 網(wǎng)站 的業(yè)衰 。 而數(shù)據(jù)每天都在增長,增長速度是 也在 加快,面對大數(shù)據(jù)的處理以及快速響應(yīng),傳統(tǒng)數(shù)據(jù)模型越顯吃力。分布式 NoSQL 數(shù)據(jù)庫的發(fā)展,給出了一個解決方案,它對于大數(shù)據(jù)的存儲以及查詢,保持數(shù)據(jù)的容災(zāi)都表現(xiàn)出了極佳的性能。 Yahoo! 選擇了它, Facebook 選擇了它, Google 也選擇了它,而分布式 NoSQL 數(shù)據(jù)庫并沒有讓這些互聯(lián)網(wǎng)巨頭失望,成就了當下最大的互聯(lián)網(wǎng)社區(qū),最佳搜索引擎的有力后盾。 NoSQL數(shù)據(jù)庫 HBase 具有高可靠性、面向列、可伸縮、高效性、可在廉價 PC Server搭建大規(guī)模結(jié)構(gòu)化存儲集群等優(yōu)點。它介于 NoSQL 和 RDBMS 之間,僅能通過主鍵(row key)和主鍵的 range 來檢索數(shù)據(jù),僅支持單行事務(wù) (可通過 hive 支持來實現(xiàn)多表join 等復(fù)雜操作 ) [2]。主要用來存儲非結(jié)構(gòu)化和半結(jié)構(gòu)化的松散數(shù)據(jù)。 分布式計 算就好比螞蟻吃大象,廉價的機器群可以匹敵任何高性能的計算機,縱向擴展始終抵不過橫向擴展 [3]。 總結(jié) 經(jīng)過對當下傳統(tǒng)數(shù)據(jù)模型在面對大數(shù)據(jù)呈現(xiàn)吃力的情況的分析,接受分布式東北師范大學(xué)學(xué)士學(xué)位論文 4 NoSQL 并借以開發(fā)搜索引擎的實際應(yīng)用,是一個可靠方案??梢試L試開發(fā)一個基于分布式 NoSQL 平臺的搜索引擎。 此次 開發(fā)的系統(tǒng) 命名為 Bee 搜索引擎,本文 以下 所有 Bee 搜索引擎均代指基于NoSQL 的搜索引擎。 東北師范大學(xué)學(xué)士學(xué)位論文 5 第三章 搜索引擎分析 搜索引擎的體系結(jié)構(gòu) 一切以數(shù)據(jù)為核心,數(shù)據(jù)的爬取,數(shù)據(jù)的 索引,數(shù)據(jù)的檢索,以及數(shù)據(jù)與用戶交互都是基于數(shù)據(jù)。首先由爬蟲 Nutch Crawl 抓取數(shù)據(jù),并做保存,為加快檢索的速度,由索引器對抓取下來的數(shù)據(jù)進行索引;經(jīng)過索引的數(shù)據(jù)在用戶檢索時,將變得更為高效。 總體系結(jié)構(gòu)如下圖 。 圖 基于 NoSQL 數(shù)據(jù)庫 HBase 搜索引擎的體系結(jié)構(gòu) 簡單的來說,在單機上搭建偽分布部署來實現(xiàn)爬取數(shù)據(jù)和數(shù)據(jù)存取。 Nutch 抓取指定網(wǎng)址數(shù)據(jù),存儲在 HBase 數(shù)據(jù)庫中,存儲過程由 zookeeper 管理。腳本調(diào)用索引器部件將數(shù)據(jù)索引化,經(jīng)過索引化的數(shù)據(jù)被前端檢索查詢,最后前端 展示查詢結(jié)果,用戶點擊結(jié)果列表查看目標資料。 其中最為關(guān)鍵為:爬蟲系統(tǒng),數(shù)據(jù)存儲,數(shù)據(jù)索引,以及檢索。 東北師范大學(xué)學(xué)士學(xué)位論文 6 數(shù)據(jù)的存放直接決定搜索速度的瓶頸,既要爬取數(shù)據(jù)快速存儲,又要考慮數(shù)據(jù)的冗余,還要考慮數(shù)據(jù)的檢索速度。綜合當下數(shù)據(jù)庫的特點,關(guān)系數(shù)據(jù)庫在解決這個工作顯得成本過高,而新生 NoSQL 數(shù)據(jù)庫 HBase 具有分布式存儲,對實時查詢進行有良好支持,堪比 MySQL 的隨機訪問性能,更是對大數(shù)據(jù)冗余處理讓人滿意,不會出現(xiàn)單點故障等優(yōu)點,在這么一個需要對大數(shù)據(jù)進行隨機、實時訪問的場合中, HBase是數(shù)據(jù)庫的最佳選擇。 本系 統(tǒng)只需要功能單一的爬蟲,而 就是一個僅具有爬蟲功能的一個應(yīng)用, 從分布式處理來說, Nutch 支持分布式處理,于是它與 HBase 成了絕佳的組合。Nutch 類似 Google 的完整網(wǎng)絡(luò)搜索引擎解決方案,基于 Hadoop 的分布式處理模型保證了系統(tǒng)的性能類似 Eclipse 的插件機制保證了系統(tǒng)的可客戶化,而且很容易集成到自己的應(yīng)用之中 [4]。 由于機器條件原因,沒有兩臺和兩臺以上的電腦進行開發(fā),以單機偽分布部署模仿完全分布部署。 配置 host 文件: /etc/hosts paopaoK55VD localhost master 本 機 網(wǎng)卡 IP 地址 : eth0: 起動 所有引擎 系統(tǒng) 所有進程 , 查看 java 進程 : root@paopaoK55VD:/usr/local/zookeeper jps 9774 DataNode 5348 JobTracker 10011 SecondaryNameNode 9523 NameNode 10857 HRegionServer 10384 QuorumPeerMain 5580 TaskTracker 31097 Main 13709 Jps 10570 HMaster 10206 MyEclipse 9450 Bootstrap 東北師范大學(xué)學(xué)士學(xué)位論文 7 Hadoop 偽 分布部署 java 進程: 主機服務(wù)器(本機): Hadoop: NameNode, SecondaryNameNode, JobTracker HBase: HMaster 從機服務(wù)器(本機): Hadoop: DataNode, TaskTracker HBase: HQuorumPeer, HRegionServer 主從服務(wù)器 java 進程關(guān)系如圖 。 圖 主從服務(wù)器 java 進程關(guān)系 Zookeeper 同步 HBase 服務(wù)狀態(tài)、監(jiān)控集群防止單點失效,管理 Hadoop 集群中的NameNode, HBase 中 HBaseMaster 的選舉, Servers 之間狀態(tài)同步等 [5]。具體一點,細一點說,單只 HBase 中 ZooKeeper 實例負責(zé)的工作就有:存儲 HBase 的 Schema,實時監(jiān)控 HRegionServer,存儲所有 Region 的尋址入口, 另外也 保證 HBase 集群中只有一個 Master[6]。 搜索引擎的工作流程 由上節(jié) Bee 搜索引擎分析已了解到, Bee 是基于 NoSQL 數(shù)據(jù)庫 HBase 的偽分布東北師范大學(xué)學(xué)士學(xué)位論文 8 式搜索引擎,其數(shù)據(jù)存儲、更新,刪除均是操作 HBase 實現(xiàn),其原理如圖 。 圖 搜索引擎的工作流程 Bee 搜索引擎的數(shù)據(jù)來源由 Nutch 爬蟲系統(tǒng)抓取,存儲到 HBase, HBase 是 依托于 Hadoop 的 分布式 HDFS 作為存儲基礎(chǔ), HBase 的 結(jié)構(gòu) 與 Hadoop 的 MasterSlave模式 類似。偽分布的 HBase 集群的穩(wěn)定服務(wù)需要一個監(jiān)控服務(wù),而 zookeeper 就是是HBase 集群的 協(xié)調(diào)器 ,一個 zookeeper 集群管理多個 HBase 集群 [7]。 Solr 為調(diào)用檢索API 提供 Http 接口,前端的 PHP 搜索查詢發(fā)起請求,經(jīng)由搜索 client 向 solr 請求檢索數(shù)據(jù), solr 為前端與數(shù)據(jù)搭起連接橋梁。 搜索引擎分析的遺留問題 Bee 搜索引擎是基于 NoSQL 數(shù)據(jù)庫 HBase 開發(fā)的,此系統(tǒng)在開發(fā)的過程中,是采用偽分布方式部署, HBase 的優(yōu)點體現(xiàn)在海量數(shù)據(jù)的實時響應(yīng)。要真正發(fā)揮 HBase的實時響應(yīng)特性,需要部署成完全分布方式,在后續(xù)開發(fā)的過程中,需要多臺服務(wù)器實現(xiàn)全分布。這個是問題也是決定著搜索引擎是否實時響應(yīng)高并發(fā)請求。 東北師范大學(xué)學(xué)士學(xué)位論文 9 其次,也有很多細節(jié)問題, 網(wǎng)頁的 權(quán) 值判定, 消除噪音,比如版權(quán)聲明文字、導(dǎo)航條、廣告等, 正向索引 , 鏈接關(guān)系計算 , 特殊文件處理 。 當然 還有 一些如快 照 ,排名,自動提示,關(guān)鍵詞的更新 這些 功能,應(yīng)當是搜索引擎必需具有的 。 一個交互友好的搜索引擎,首先要提供準確的檢索數(shù)據(jù),也是一個 用戶體驗 流暢的平臺。這只是開發(fā)的起步,離成型還有遙遠的路要走,堅持學(xué)習(xí)直至 Bee 小蜜蜂飛出實驗室,實現(xiàn)社會價值。 東北師范大學(xué)學(xué)士學(xué)位論文 10 第四章 搜索引擎設(shè)計 4. 1 爬蟲 系統(tǒng) 爬蟲 系統(tǒng)基于 Nutch, 圖 為 Nutch 抓取 流程 原理 。 圖 Nutch 抓取 流程 原理 Nutch 抓取流程: 1.)InjectorJob = 2.)GeneratorJob = 3.)FetcherJob = 4.)ParserJob = 5.)DbUpdaterJob = SolrIndexerJob InjectorJob : 從文件中得到一批種子網(wǎng)頁,把它們放到抓取數(shù)據(jù)庫中去 GeneratorJob: 從抓取數(shù)據(jù)庫中產(chǎn)生要抓取的頁面放到抓取隊列中去 FetcherJob:對抓取隊列中的網(wǎng)頁進行抓取 ,在 reducer 中使用了生產(chǎn) /消費 者模型 ParserJob: 對抓取完成的網(wǎng)頁進行解析,產(chǎn)生一些新的鏈接與網(wǎng)頁內(nèi)容的解析結(jié)果 DbUpdaterJob:
點擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1