freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于nosql技術(shù)的搜索引擎設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)論文-展示頁(yè)

2025-03-10 09:12本頁(yè)面
  

【正文】 點(diǎn),在這么一個(gè)需要對(duì)大數(shù)據(jù)進(jìn)行隨機(jī)、實(shí)時(shí)訪(fǎng)問(wèn)的場(chǎng)合中, HBase是數(shù)據(jù)庫(kù)的最佳選擇。 其中最為關(guān)鍵為:爬蟲(chóng)系統(tǒng),數(shù)據(jù)存儲(chǔ),數(shù)據(jù)索引,以及檢索。 Nutch 抓取指定網(wǎng)址數(shù)據(jù),存儲(chǔ)在 HBase 數(shù)據(jù)庫(kù)中,存儲(chǔ)過(guò)程由 zookeeper 管理。 總體系結(jié)構(gòu)如下圖 。 東北師范大學(xué)學(xué)士學(xué)位論文 5 第三章 搜索引擎分析 搜索引擎的體系結(jié)構(gòu) 一切以數(shù)據(jù)為核心,數(shù)據(jù)的爬取,數(shù)據(jù)的 索引,數(shù)據(jù)的檢索,以及數(shù)據(jù)與用戶(hù)交互都是基于數(shù)據(jù)。可以嘗試開(kāi)發(fā)一個(gè)基于分布式 NoSQL 平臺(tái)的搜索引擎。 分布式計(jì) 算就好比螞蟻吃大象,廉價(jià)的機(jī)器群可以匹敵任何高性能的計(jì)算機(jī),縱向擴(kuò)展始終抵不過(guò)橫向擴(kuò)展 [3]。它介于 NoSQL 和 RDBMS 之間,僅能通過(guò)主鍵(row key)和主鍵的 range 來(lái)檢索數(shù)據(jù),僅支持單行事務(wù) (可通過(guò) hive 支持來(lái)實(shí)現(xiàn)多表join 等復(fù)雜操作 ) [2]。 Yahoo! 選擇了它, Facebook 選擇了它, Google 也選擇了它,而分布式 NoSQL 數(shù)據(jù)庫(kù)并沒(méi)有讓這些互聯(lián)網(wǎng)巨頭失望,成就了當(dāng)下最大的互聯(lián)網(wǎng)社區(qū),最佳搜索引擎的有力后盾。 而數(shù)據(jù)每天都在增長(zhǎng),增長(zhǎng)速度是 也在 加快,面對(duì)大數(shù)據(jù)的處理以及快速響應(yīng),傳統(tǒng)數(shù)據(jù)模型越顯吃力。 用戶(hù) 輸入關(guān)鍵字 , 點(diǎn)擊 查詢(xún),期待 快速 、準(zhǔn)確得到他想要的查詢(xún)結(jié)果 。 東北師范大學(xué)學(xué)士學(xué)位論文 3 第二章 可行性研究 概述 在目前 Google, Baidu 等主流搜索引擎占領(lǐng)著,而我們上網(wǎng)需求并沒(méi)有得到完全的滿(mǎn)足,還有很多開(kāi)發(fā)領(lǐng)域等著我們嘗試 ,而 在當(dāng)下大數(shù)據(jù)時(shí)代,數(shù)據(jù)的存儲(chǔ)和快速檢索成為了互聯(lián)網(wǎng)發(fā)展 的趨勢(shì) ,也是工 程師解決用戶(hù)快速響應(yīng)需求的一個(gè)問(wèn)題。 論文的基本思路與邏輯結(jié)構(gòu) 這篇論文按照網(wǎng)站系統(tǒng)開(kāi)發(fā)的順序一共分為六個(gè)章節(jié):緒論、可行性分析、搜索引擎分析、系統(tǒng)設(shè)計(jì)、系統(tǒng)實(shí)施和結(jié)論,逐步介紹了搜索引擎開(kāi)發(fā)進(jìn)程中數(shù)據(jù)交流原理與邏輯模型建立過(guò)程。 論文使用的研究方法與工具 本論文采用信息研究方法,根據(jù)信息論、控制論、系統(tǒng)論的原理 [1],通過(guò)對(duì)互聯(lián)網(wǎng)頁(yè)面信息的收集、索引,并應(yīng)用于實(shí)踐,以實(shí)現(xiàn)搜索引擎功能。百度擁有全球最大的中文網(wǎng)頁(yè)庫(kù),每天向全球 100 多個(gè)國(guó)家的網(wǎng)絡(luò)用戶(hù)提供超過(guò) 1 億次以上的搜索服務(wù)。 Google 每天提供超過(guò) 2 億次查詢(xún)服務(wù) ,搜索時(shí)間不到半秒 ,成為網(wǎng)上最快捷的信息查詢(xún)方法。在網(wǎng)絡(luò)中,盡管大型搜索引擎非常重要,但是學(xué)術(shù)界卻很少研究它。搜索引擎為上億個(gè)網(wǎng) 頁(yè)建立索引,其中包含大量迥然不同的詞匯。互聯(lián)網(wǎng)的低谷由此演變?yōu)榈诙胃叻濉? 搜索引擎的出現(xiàn),整合了眾多網(wǎng)站信息,恰恰起到了信息導(dǎo)航的作用。中國(guó)十年多來(lái)互聯(lián)網(wǎng)的不斷發(fā)展 , 截至 2021 年 12 月底 ,我國(guó)網(wǎng)民規(guī)模達(dá) 億 ,全年共計(jì)新增網(wǎng)民 5090 萬(wàn)人 ,搜索引擎也出現(xiàn)空前的火熱。 托 Google、 Baidu 成功的福,搜索引擎火了半邊天,人們上網(wǎng)方式也被徹底改變了。 NoSQL。 Index。 關(guān)鍵詞:搜索引擎;網(wǎng)絡(luò) 爬蟲(chóng) ;檢索; NoSQL; HBase Abstract Network is very rich in resources, but how to search the effective information is a difficult thing, the best way to build a search engine is to solve this problem. Search engine, usually refers to the collection of the hundreds of billions of webpage and webpage in each word (. keywords) index, fulltext indexing database search engine. When a user searches a keyword, all contain the keyword webpage will be as the search results retrieved and displayed. This paper is a basic implementation of the search engine. The first is data capture, and implementation of the Nutch crawler system based on the deployment, grab the mand has pleted, the background will be automatically crawl the webpage, and stored in the pseudo distributed HBase database. Then NoSQL data storage based on pseudo distribution, as the key point, the realization of the Hadoop, HBase, Zookeeper deployment pseudo distributed environment, Nutch to capture data storage to the pseudo distributed NoSQL database in HBase. The work of the indexing keywords is little, but the basic realization of the basic index data。 此外引擎 實(shí)現(xiàn)所需要的 偽 分布運(yùn)行環(huán)境 部署 ,配置好 NoSQL 偽分布 與 開(kāi)發(fā)環(huán)境, 調(diào)試環(huán)境,測(cè)試環(huán)境, 這個(gè) 是 所有 部件能正常運(yùn)行的基礎(chǔ)。 還有關(guān)鍵字 的索引 , 目前 關(guān)鍵字的索引工作做得很少,只是基本實(shí)現(xiàn)了數(shù)據(jù)的基本索引,沒(méi)有真正 實(shí)現(xiàn)倒排索引; 但實(shí)現(xiàn)了以 Http 請(qǐng)求 方式對(duì)外提供請(qǐng)求接口,做到組件低耦合,各組件 維護(hù) 提升 自由 獨(dú)立 。首先 是 數(shù)據(jù)抓取 , 基于 Nutch 爬蟲(chóng)系統(tǒng)的 部署 和實(shí)現(xiàn), 抓取 命令執(zhí)行 完畢 ,后臺(tái)會(huì)自動(dòng)抓取 網(wǎng)頁(yè) ,并 存儲(chǔ) 到 偽 分布式 HBase 數(shù)據(jù)庫(kù)中 。當(dāng)用戶(hù)查找某個(gè)關(guān)鍵詞的時(shí)候,所有包含了該關(guān)鍵詞的網(wǎng)頁(yè)都將作為搜索結(jié)果被檢索到并展示出來(lái)。 學(xué)校代碼: 10200 學(xué)號(hào): 1272409029 本科 畢業(yè)論文 基于 NoSQL技術(shù) 的搜索引擎設(shè)計(jì)與實(shí)現(xiàn) Design and Implementation a Search Engine based on the NoSQL 摘 要 網(wǎng)絡(luò)中的資源非常豐富,但是如何有效的搜索信息卻是一件困難的事情,建 立搜索引擎就是解決這個(gè)問(wèn)題的最好方法。搜索引擎,通常指的是收集了因特網(wǎng)數(shù)百 億個(gè)網(wǎng)頁(yè)并對(duì)網(wǎng)頁(yè)中的每一個(gè)詞(即關(guān)鍵詞)進(jìn)行索引,建立 索引數(shù)據(jù)庫(kù)的全文搜索引擎。 本文 主要是研究了搜索引擎的 基本 實(shí)現(xiàn)。 其次 為 基于 NoSQL 的數(shù)據(jù) 偽分布存儲(chǔ) ,為 本文的實(shí)現(xiàn)重點(diǎn),Hadoop, HBase, Zookeeper 部署 偽 分布式 環(huán)境 , Nutch 抓取 到 的 數(shù)據(jù) 存儲(chǔ) 到偽分布式 NoSQL 數(shù)據(jù)庫(kù) HBase 中, 索引 器為存儲(chǔ)的數(shù)據(jù)進(jìn)行索引。最后結(jié)果 列表的展示 ,基于 Bootstrap, 以及 Java提供 的 Http 接口 ,將 以 關(guān)鍵字向內(nèi)部發(fā)起請(qǐng)求,獲取數(shù)據(jù)展示于前端。 本文基于 NoSQL 技術(shù)實(shí)現(xiàn)了一個(gè)搜索引擎構(gòu)架,通過(guò)爬蟲(chóng) 抓取網(wǎng)頁(yè)數(shù)據(jù),存儲(chǔ)到偽分布式 NoSQL 數(shù)據(jù)庫(kù) 中 , Java 類(lèi) 實(shí)現(xiàn)對(duì) 前端 提供查詢(xún)接口, PHP 調(diào)用接口獲取關(guān)鍵字索引的數(shù)據(jù),并展示給用戶(hù)。 on other hand in order to realize the Http request request interface providing, do ponent and low coupling, each ponent maintenance upgrade free and independent. Finally, the results display of the list, based on Bootstrap, Http interface and Java, will be key to the internal request, gets the data displayed on the front. In addition the e ngine to achieve the deployment environment pseudo distribution operation needed, configure NoSQL pseudo distribution and development environment, the debugging environment, test environment, they are the basic of system. In this paper, the NoSQL technology to achieve a search engine crawler frame based on, through the webpage data, stored into the pseudo distributed NoSQL database, the Java class implements the query interface of frontend, keyword index to obtain PHP interface data, and displayed to the user. Keywords: Search engine。 Retrieval。HBase 目 錄 摘 要 ................................................................ I ABSTRACT .............................................................. II 第一章 緒 論 .......................................................... 1 選題背景及意義 ...........................................................................................................1 國(guó)內(nèi)外發(fā)展?fàn)顩r ...........................................................................................................1 論文使用的研究方法與工具 .........................................................................................2 論文的基本思路與邏輯結(jié)構(gòu) .........................................................................................2 第二章 可行性研究 ...................................................... 3 概述 .............................................................................................................................3 可行性 分析 ..................................................................................................................3 結(jié)論 .............................................................................................................................3 第三章 搜索引擎 分析 .................................................... 5 搜索引擎的體系結(jié)構(gòu) ....................................................................................................5 搜索引擎的工作流程 .................
點(diǎn)擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1