正文內(nèi)容

基于nosql技術(shù)的搜索引擎設(shè)計與實現(xiàn)畢業(yè)論文-文庫吧

2025-02-06 09:12 本頁面

【正文】 ch 配置 .................................................................................................................. 25 結(jié)束語 ................................................................ 26 參考文獻 .............................................................. 27 致謝 ................................................................ 28 東北師范大學(xué)學(xué)士學(xué)位論文 1 第一章緒論選題背景及意義自從互聯(lián)網(wǎng)開始發(fā)展起，經(jīng)歷了漫長發(fā)展。托 Google、 Baidu 成功的福，搜索引擎火了半邊天，人們上網(wǎng)方式也被徹底改變了。隨著網(wǎng)絡(luò)的不斷發(fā)展和壯大，搜索引擎越來越成為人們生活中重要的一部分，找資料、查地圖、聽音樂，只有想不到的，沒有搜索不到的。中國十年多來互聯(lián)網(wǎng)的不斷發(fā)展 , 截至 2021 年 12 月底 ,我國網(wǎng)民規(guī)模達億 ,全年共計新增網(wǎng)民 5090 萬人，搜索引擎也出現(xiàn)空前的火熱。在互聯(lián)網(wǎng)出現(xiàn)的初期，雅虎、新浪、網(wǎng)易等大型門戶網(wǎng)站擁有著高比例的瀏覽量，原因在于當初的大部分網(wǎng) 站在技術(shù)上無法與門戶網(wǎng)站相媲美，多數(shù)質(zhì)量較差，內(nèi)容不豐富，所以大型門戶網(wǎng)站優(yōu)秀的網(wǎng)頁設(shè)計風(fēng)格，大量的信息及時更新贏得了用戶的認可，創(chuàng)造了第一次互聯(lián)網(wǎng)的高峰。搜索引擎的出現(xiàn)，整合了眾多網(wǎng)站信息，恰恰起到了信息導(dǎo)航的作用。通用搜索引擎就如同互聯(lián)網(wǎng)第一次出現(xiàn)的門戶網(wǎng)站一樣，大量的信息整合導(dǎo)航，極快的查詢，將所有網(wǎng)站上的信息整理在一個平臺上供網(wǎng)民使用，于是信息的價值第一次普遍的被眾多商家認可，迅速成為互聯(lián)網(wǎng)中最有價值的領(lǐng)域?；ヂ?lián)網(wǎng)的低谷由此演變?yōu)榈诙胃叻濉? 設(shè)計搜索引擎是一項富有挑戰(zhàn)性的工作。搜索引擎為上億個網(wǎng) 頁建立索引，其中包含大量迥然不同的詞匯。而且每天要回答成千上萬個查詢。在網(wǎng)絡(luò)中，盡管大型搜索引擎非常重要，但是學(xué)術(shù)界卻很少研究它。國內(nèi)外發(fā)展狀況目前 Google 已經(jīng)成為全球最大的全文搜索引擎 ,并在 2021 年已經(jīng)開始提供中文搜索服務(wù)。 Google 每天提供超過 2 億次查詢服務(wù) ,搜索時間不到半秒 ,成為網(wǎng)上最快捷的信息查詢方法。 Google 國外做的很成功并且不斷擴張的的時候，中國的市場做的不是很好，百度抓住這個時間差讓 “ 百度更懂中文 ” 成功占據(jù)了大部分的份額，成為世界上最大規(guī)東北師范大學(xué)學(xué)士學(xué)位論文 2 模的中文搜索引擎，致力于向人們提供最便捷的信息獲取方式。百度擁有全球最大的中文網(wǎng)頁庫，每天向全球 100 多個國家的網(wǎng)絡(luò)用戶提供超過 1 億次以上的搜索服務(wù)。由于百度在技術(shù)上的領(lǐng)先，奠定了其在中國互聯(lián)網(wǎng)高科技公司的優(yōu)勢地位，成為中國互聯(lián)網(wǎng)信息服務(wù)的旗幟之一。論文使用的研究方法與工具本論文采用信息研究方法，根據(jù)信息論、控制論、系統(tǒng)論的原理 [1]，通過對互聯(lián)網(wǎng)頁面信息的收集、索引，并應(yīng)用于實踐，以實現(xiàn)搜索引擎功能。使用到的工具有：操作系統(tǒng)， vi， myeclipse， bean， ivy， ant， ssh等。論文的基本思路與邏輯結(jié)構(gòu) 這篇論文按照網(wǎng)站系統(tǒng)開發(fā)的順序一共分為六個章節(jié)：緒論、可行性分析、搜索引擎分析、系統(tǒng)設(shè)計、系統(tǒng)實施和結(jié)論，逐步介紹了搜索引擎開發(fā)進程中數(shù)據(jù)交流原理與邏輯模型建立過程。主要內(nèi)容有抓取網(wǎng)頁，數(shù)據(jù)存儲，檢索，以及安裝配置等。東北師范大學(xué)學(xué)士學(xué)位論文 3 第二章可行性研究概述在目前 Google， Baidu 等主流搜索引擎占領(lǐng)著，而我們上網(wǎng)需求并沒有得到完全的滿足，還有很多開發(fā)領(lǐng)域等著我們嘗試，而在當下大數(shù)據(jù)時代，數(shù)據(jù)的存儲和快速檢索成為了互聯(lián)網(wǎng)發(fā)展的趨勢，也是工程師解決用戶快速響應(yīng)需求的一個問題。可行性分析檢索無處不在，在電商中，顯得尤為重量，沒有人愿意等待延遲的查詢結(jié)果，沒有快速響應(yīng)就等于沒有用戶。用戶輸入關(guān)鍵字，點擊查詢，期待快速、準確得到他想要的查詢結(jié)果。這個過程包含了巨大的商業(yè)價值，查詢結(jié)果的排名，流量的導(dǎo) 流，直接決定著電商網(wǎng)站的業(yè)衰。而數(shù)據(jù)每天都在增長，增長速度是也在加快，面對大數(shù)據(jù)的處理以及快速響應(yīng)，傳統(tǒng)數(shù)據(jù)模型越顯吃力。分布式 NoSQL 數(shù)據(jù)庫的發(fā)展，給出了一個解決方案，它對于大數(shù)據(jù)的存儲以及查詢，保持數(shù)據(jù)的容災(zāi)都表現(xiàn)出了極佳的性能。 Yahoo！選擇了它， Facebook 選擇了它， Google 也選擇了它，而分布式 NoSQL 數(shù)據(jù)庫并沒有讓這些互聯(lián)網(wǎng)巨頭失望，成就了當下最大的互聯(lián)網(wǎng)社區(qū)，最佳搜索引擎的有力后盾。 NoSQL數(shù)據(jù)庫 HBase 具有高可靠性、面向列、可伸縮、高效性、可在廉價 PC Server搭建大規(guī)模結(jié)構(gòu)化存儲集群等優(yōu)點。它介于 NoSQL 和 RDBMS 之間，僅能通過主鍵(row key)和主鍵的 range 來檢索數(shù)據(jù)，僅支持單行事務(wù) (可通過 hive 支持來實現(xiàn)多表join 等復(fù)雜操作 ) [2]。主要用來存儲非結(jié)構(gòu)化和半結(jié)構(gòu)化的松散數(shù)據(jù)。分布式計算就好比螞蟻吃大象，廉價的機器群可以匹敵任何高性能的計算機，縱向擴展始終抵不過橫向擴展 [3]。總結(jié) 經(jīng)過對當下傳統(tǒng)數(shù)據(jù)模型在面對大數(shù)據(jù)呈現(xiàn)吃力的情況的分析，接受分布式東北師范大學(xué)學(xué)士學(xué)位論文 4 NoSQL 并借以開發(fā)搜索引擎的實際應(yīng)用，是一個可靠方案?？梢試L試開發(fā)一個基于分布式 NoSQL 平臺的搜索引擎。此次開發(fā)的系統(tǒng) 命名為 Bee 搜索引擎，本文以下所有 Bee 搜索引擎均代指基于NoSQL 的搜索引擎。東北師范大學(xué)學(xué)士學(xué)位論文 5 第三章搜索引擎分析搜索引擎的體系結(jié)構(gòu) 一切以數(shù)據(jù)為核心，數(shù)據(jù)的爬取，數(shù)據(jù)的索引，數(shù)據(jù)的檢索，以及數(shù)據(jù)與用戶交互都是基于數(shù)據(jù)。首先由爬蟲 Nutch Crawl 抓取數(shù)據(jù)，并做保存，為加快檢索的速度，由索引器對抓取下來的數(shù)據(jù)進行索引；經(jīng)過索引的數(shù)據(jù)在用戶檢索時，將變得更為高效。總體系結(jié)構(gòu)如下圖。圖基于 NoSQL 數(shù)據(jù)庫 HBase 搜索引擎的體系結(jié)構(gòu) 簡單的來說，在單機上搭建偽分布部署來實現(xiàn)爬取數(shù)據(jù)和數(shù)據(jù)存取。 Nutch 抓取指定網(wǎng)址數(shù)據(jù)，存儲在 HBase 數(shù)據(jù)庫中，存儲過程由 zookeeper 管理。腳本調(diào)用索引器部件將數(shù)據(jù)索引化，經(jīng)過索引化的數(shù)據(jù)被前端檢索查詢，最后前端展示查詢結(jié)果，用戶點擊結(jié)果列表查看目標資料。其中最為關(guān)鍵為：爬蟲系統(tǒng)，數(shù)據(jù)存儲，數(shù)據(jù)索引，以及檢索。東北師范大學(xué)學(xué)士學(xué)位論文 6 數(shù)據(jù)的存放直接決定搜索速度的瓶頸，既要爬取數(shù)據(jù)快速存儲，又要考慮數(shù)據(jù)的冗余，還要考慮數(shù)據(jù)的檢索速度。綜合當下數(shù)據(jù)庫的特點，關(guān)系數(shù)據(jù)庫在解決這個工作顯得成本過高，而新生 NoSQL 數(shù)據(jù)庫 HBase 具有分布式存儲，對實時查詢進行有良好支持，堪比 MySQL 的隨機訪問性能，更是對大數(shù)據(jù)冗余處理讓人滿意，不會出現(xiàn)單點故障等優(yōu)點，在這么一個需要對大數(shù)據(jù)進行隨機、實時訪問的場合中， HBase是數(shù)據(jù)庫的最佳選擇。本系統(tǒng)只需要功能單一的爬蟲，而就是一個僅具有爬蟲功能的一個應(yīng)用，從分布式處理來說， Nutch 支持分布式處理，于是它與 HBase 成了絕佳的組合。Nutch 類似 Google 的完整網(wǎng)絡(luò)搜索引擎解決方案，基于 Hadoop 的分布式處理模型保證了系統(tǒng)的性能類似 Eclipse 的插件機制保證了系統(tǒng)的可客戶化，而且很容易集成到自己的應(yīng)用之中 [4]。由于機器條件原因，沒有兩臺和兩臺以上的電腦進行開發(fā)，以單機偽分布部署模仿完全分布部署。配置 host 文件： /etc/hosts paopaoK55VD localhost master 本機網(wǎng)卡 IP 地址： eth0: 起動所有引擎系統(tǒng) 所有進程，查看 java 進程： root@paopaoK55VD:/usr/local/zookeeper jps 9774 DataNode 5348 JobTracker 10011 SecondaryNameNode 9523 NameNode 10857 HRegionServer 10384 QuorumPeerMain 5580 TaskTracker 31097 Main 13709 Jps 10570 HMaster 10206 MyEclipse 9450 Bootstrap 東北師范大學(xué)學(xué)士學(xué)位論文 7 Hadoop 偽分布部署 java 進程：主機服務(wù)器（本機）： Hadoop: NameNode, SecondaryNameNode, JobTracker HBase: HMaster 從機服務(wù)器（本機）： Hadoop: DataNode, TaskTracker HBase: HQuorumPeer, HRegionServer 主從服務(wù)器 java 進程關(guān)系如圖。圖主從服務(wù)器 java 進程關(guān)系 Zookeeper 同步 HBase 服務(wù)狀態(tài)、監(jiān)控集群防止單點失效，管理 Hadoop 集群中的NameNode， HBase 中 HBaseMaster 的選舉， Servers 之間狀態(tài)同步等 [5]。具體一點，細一點說，單只 HBase 中 ZooKeeper 實例負責(zé)的工作就有：存儲 HBase 的 Schema，實時監(jiān)控 HRegionServer,存儲所有 Region 的尋址入口，另外也保證 HBase 集群中只有一個 Master[6]。搜索引擎的工作流程由上節(jié) Bee 搜索引擎分析已了解到， Bee 是基于 NoSQL 數(shù)據(jù)庫 HBase 的偽分布東北師范大學(xué)學(xué)士學(xué)位論文 8 式搜索引擎，其數(shù)據(jù)存儲、更新，刪除均是操作 HBase 實現(xiàn)，其原理如圖。圖搜索引擎的工作流程 Bee 搜索引擎的數(shù)據(jù)來源由 Nutch 爬蟲系統(tǒng)抓取，存儲到 HBase， HBase 是依托于 Hadoop 的分布式 HDFS 作為存儲基礎(chǔ)， HBase 的結(jié)構(gòu) 與 Hadoop 的 MasterSlave模式類似。偽分布的 HBase 集群的穩(wěn)定服務(wù)需要一個監(jiān)控服務(wù)，而 zookeeper 就是是HBase 集群的協(xié)調(diào)器，一個 zookeeper 集群管理多個 HBase 集群 [7]。 Solr 為調(diào)用檢索API 提供 Http 接口，前端的 PHP 搜索查詢發(fā)起請求，經(jīng)由搜索 client 向 solr 請求檢索數(shù)據(jù)， solr 為前端與數(shù)據(jù)搭起連接橋梁。搜索引擎分析的遺留問題 Bee 搜索引擎是基于 NoSQL 數(shù)據(jù)庫 HBase 開發(fā)的，此系統(tǒng)在開發(fā)的過程中，是采用偽分布方式部署， HBase 的優(yōu)點體現(xiàn)在海量數(shù)據(jù)的實時響應(yīng)。要真正發(fā)揮 HBase的實時響應(yīng)特性，需要部署成完全分布方式，在后續(xù)開發(fā)的過程中，需要多臺服務(wù)器實現(xiàn)全分布。這個是問題也是決定著搜索引擎是否實時響應(yīng)高并發(fā)請求。東北師范大學(xué)學(xué)士學(xué)位論文 9 其次，也有很多細節(jié)問題，網(wǎng)頁的權(quán) 值判定，消除噪音，比如版權(quán)聲明文字、導(dǎo)航條、廣告等，正向索引，鏈接關(guān)系計算，特殊文件處理。當然還有一些如快照，排名，自動提示，關(guān)鍵詞的更新這些功能，應(yīng)當是搜索引擎必需具有的。一個交互友好的搜索引擎，首先要提供準確的檢索數(shù)據(jù)，也是一個用戶體驗流暢的平臺。這只是開發(fā)的起步，離成型還有遙遠的路要走，堅持學(xué)習(xí)直至 Bee 小蜜蜂飛出實驗室，實現(xiàn)社會價值。東北師范大學(xué)學(xué)士學(xué)位論文 10 第四章搜索引擎設(shè)計 4． 1 爬蟲系統(tǒng) 爬蟲系統(tǒng)基于 Nutch，圖為 Nutch 抓取流程原理。圖 Nutch 抓取流程原理 Nutch 抓取流程： 1.)InjectorJob = 2.)GeneratorJob = 3.)FetcherJob = 4.)ParserJob = 5.)DbUpdaterJob = SolrIndexerJob InjectorJob : 從文件中得到一批種子網(wǎng)頁，把它們放到抓取數(shù)據(jù)庫中去 GeneratorJob: 從抓取數(shù)據(jù)庫中產(chǎn)生要抓取的頁面放到抓取隊列中去 FetcherJob：對抓取隊列中的網(wǎng)頁進行抓取 ,在 reducer 中使用了生產(chǎn) /消費者模型 ParserJob: 對抓取完成的網(wǎng)頁進行解析，產(chǎn)生一些新的鏈接與網(wǎng)頁內(nèi)容的解析結(jié)果 DbUpdaterJob:

點擊復(fù)制文檔內(nèi)容

公司管理相關(guān)推薦

基于lucene的全文搜索引擎設(shè)計-資料下載頁

【總結(jié)】畢業(yè)設(shè)計基于Lucene的全文搜索引擎設(shè)計學(xué)生承諾書本人鄭重承諾：所呈交的論文是本人在導(dǎo)師的指導(dǎo)下獨立進行研究所取得的研究成果。除了文中特別加以標注引用的內(nèi)容外，本論文不包含任何其他個人或集體已經(jīng)發(fā)表或撰寫的成果作品。

2025-11-25 01:01

基于lucene的全文搜索引擎設(shè)計-資料下載頁

2025-08-07 15:00

畢業(yè)設(shè)計-一個小型搜索引擎的設(shè)計與實現(xiàn)-論文-資料下載頁

【總結(jié)】畢業(yè)設(shè)計(論文)一個小型搜索引擎的設(shè)計與實現(xiàn)論文作者姓名：申請學(xué)位專業(yè)：申請學(xué)位類別：指導(dǎo)教師姓名（職稱）：論文提交日期：一個小型搜索引擎的設(shè)計與實現(xiàn)摘要隨著互聯(lián)網(wǎng)和寬帶上網(wǎng)的普

2025-11-22 17:24

全文搜索引擎技術(shù)的研究和實現(xiàn)-資料下載頁

【總結(jié)】目錄摘要：······························

2025-10-30 01:37

全文搜索引擎的設(shè)計與實現(xiàn)-外文翻譯-資料下載頁

【總結(jié)】江漢大學(xué)畢業(yè)論文（設(shè)計）外文翻譯原文來源TheHadoopDistributedFileSystem:ArchitectureandDesign中文譯文Hadoop分布式文件系統(tǒng)：架構(gòu)和設(shè)計姓名XXXX

2025-01-18 14:15

基于javaweb的搜索引擎的實現(xiàn)報告模板-資料下載頁

【總結(jié)】仁愛學(xué)院長實習(xí)設(shè)計說明書題目:基于Javaweb的搜索引擎的實現(xiàn)系別：專業(yè)班級：學(xué)號：

2025-10-29 22:01

搜索引擎技術(shù)-資料下載頁

【總結(jié)】搜索引擎技術(shù)閆宏飛，北京大學(xué)計算機系網(wǎng)絡(luò)實驗室2020年12月24日@CERNET2020內(nèi)容提要?搜索引擎工作原理?信息檢索相關(guān)研究和機構(gòu)搜索引擎—WebSearchEngines?定義：允許用戶遞交查詢，檢索出與查詢相關(guān)的網(wǎng)頁結(jié)果列表，并且排序輸出。?創(chuàng)建索引的方法–手工索引

2025-08-23 10:45

基于ajaxlucene構(gòu)建搜索引擎的設(shè)計和實現(xiàn)—免費畢業(yè)設(shè)計論文-資料下載頁

【總結(jié)】畢業(yè)設(shè)計(論文)基于Ajax+Lucene構(gòu)建搜索引擎的設(shè)計與實現(xiàn)論文作者姓名：申請學(xué)位專業(yè)：申請學(xué)位類別：指導(dǎo)教師姓名（職稱）：論文提交日期：基于Ajax+Lucene構(gòu)建搜索引擎的設(shè)計與實現(xiàn)摘要通過搜索引擎從互聯(lián)網(wǎng)上獲取有用信息

2025-11-14 00:25

基于網(wǎng)絡(luò)爬蟲的搜索引擎設(shè)計與實現(xiàn)—計算機畢業(yè)設(shè)計-資料下載頁

【總結(jié)】本科畢業(yè)設(shè)計題目：基于網(wǎng)絡(luò)爬蟲的搜索引擎設(shè)計與實現(xiàn)系別：專業(yè)：計算機科學(xué)與技術(shù)班級：學(xué)號：

2025-11-20 10:20

基于java語言的搜索引擎開發(fā)論文-資料下載頁

【總結(jié)】1基于JAVA語言的搜索引擎開發(fā)摘要：隨著計算機和網(wǎng)絡(luò)技術(shù)的發(fā)展與普及，如何在較短的時間內(nèi)從海量的網(wǎng)絡(luò)數(shù)據(jù)中搜索全面且準確的信息成為人們越來越關(guān)注的問題。搜索引擎的出現(xiàn)為人們在網(wǎng)絡(luò)中查找信息提供了極大的方便。因此，網(wǎng)絡(luò)搜索引擎的開發(fā)及相關(guān)技術(shù)的研究有著重要的意義。本畢業(yè)設(shè)計利用JAVA語言開發(fā)了一個基于機器人和全文索

2025-11-08 21:54

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

基于nosql技術(shù)的搜索引擎設(shè)計與實現(xiàn)畢業(yè)論文-文庫吧

基于lucene的全文搜索引擎設(shè)計-資料下載頁

基于lucene的全文搜索引擎設(shè)計-資料下載頁

畢業(yè)設(shè)計-一個小型搜索引擎的設(shè)計與實現(xiàn)-論文-資料下載頁

全文搜索引擎技術(shù)的研究和實現(xiàn)-資料下載頁

全文搜索引擎的設(shè)計與實現(xiàn)-外文翻譯-資料下載頁

基于javaweb的搜索引擎的實現(xiàn)報告模板-資料下載頁

搜索引擎技術(shù)-資料下載頁

基于ajaxlucene構(gòu)建搜索引擎的設(shè)計和實現(xiàn)—免費畢業(yè)設(shè)計論文-資料下載頁

基于網(wǎng)絡(luò)爬蟲的搜索引擎設(shè)計與實現(xiàn)—計算機畢業(yè)設(shè)計-資料下載頁

基于java語言的搜索引擎開發(fā)論文-資料下載頁

關(guān)于seo搜索引擎優(yōu)化的實施畢業(yè)論文-資料下載頁

jsp基于產(chǎn)品的搜索引擎-資料下載頁

基于php的圖片搜索引擎-資料下載頁

一個java搜索引擎的實現(xiàn)論文-資料下載頁

基于lucene的圖書搜索引擎的設(shè)計與實現(xiàn)外文文獻-資料下載頁

基于nosql技術(shù)的搜索引擎設(shè)計與實現(xiàn)畢業(yè)論文-預(yù)覽頁

基于nosql技術(shù)的搜索引擎設(shè)計與實現(xiàn)畢業(yè)論文-免費閱讀

基于nosql技術(shù)的搜索引擎設(shè)計與實現(xiàn)畢業(yè)論文(存儲版)

基于nosql技術(shù)的搜索引擎設(shè)計與實現(xiàn)畢業(yè)論文-文庫吧在線文庫

基于nosql技術(shù)的搜索引擎設(shè)計與實現(xiàn)畢業(yè)論文(完整版)