正文內(nèi)容

hadoop實(shí)戰(zhàn)手冊入門資料(編輯修改稿)

2025-11-19 08:48 本頁面

　

【文章內(nèi)容簡介】 ......... 47 與 MapReduce 有關(guān)的地址及端口屬性 ........................................................... 48 8 附錄 ............................................................................................................................ 49 hadoop 歷史 .......................................................................................................... 49 Hadoop 大記事 ...................................................................................................... 50 Hadoop 的幾個(gè)主要子項(xiàng)目 .................................................................................... 51 官方集群搭建參考 ................................................................................................ 51 配置文件 ......................................................................................................... 51 集群配置說明 .................................................................................................. 52 北京寬連十方數(shù)字技術(shù)有限公司公開絕密 1 概述作什么事情之前，第一步是要知道 What（是什么），然后是 Why（為什么），最后才是 How（怎么做）。避免將技術(shù)誤用于不適合的場景，這一點(diǎn)非常重要。什么是 Hadoop？ Hadoop 由 Apache Software Foundation 公司于 2020 年秋天作為 Lucene 的子項(xiàng)目 Nutch 的一部分正式引入。它受到最先由 Google Lab 開發(fā)的 MapReduce 和 Google File System 的啟發(fā)。 2020 年 3 月份， MapReduce 和 Nutch Distributed File System (NDFS) 分別被納入稱為 Hadoop 的項(xiàng)目中。 Hadoop 并不僅僅是一個(gè)用于存儲的分布式文件系統(tǒng)，而是設(shè)計(jì)用來在由通用計(jì)算設(shè)備組成的大型集群上執(zhí)行分布式應(yīng)用的基礎(chǔ)框架。它由 Apache 基金會開發(fā)。用戶可以在不了解分布式底層細(xì)節(jié) 的情況下，開發(fā)分布式程序。充分利用集群的威力高速運(yùn)算和存儲。簡單地說來， Hadoop 是一個(gè)可以更容易開發(fā)和運(yùn)行處理大規(guī)模數(shù)據(jù)的軟件平臺。下圖是 Hadoop 的體系結(jié)構(gòu)： Hadoop 框架中最核心的設(shè)計(jì)就是： MapReduce 和 HDFS。 1) MapReduce 的思想是由 Google 的一篇論文所提及而被廣為流傳的，簡單的一句話解釋 MapReduce 就是 ―任務(wù)的分解與結(jié)果的匯總 ‖。 2) HDFS 是 Hadoop 分布式文件系統(tǒng)（ Hadoop Distributed File System）的縮寫，為分布式計(jì)算存儲提供了底層支持。為什么要選擇 Hadoop？系統(tǒng)特點(diǎn) 下面列舉 hadoop 主要的一些特點(diǎn)： 1) 擴(kuò)容能力（ Scalable）：能可靠地（ reliably）存儲和處理千兆字節(jié)（ PB）數(shù)據(jù)。 2) 北京寬連十方數(shù)字技術(shù)有限公司公開絕密成本低（ Economical）：可以通過普通機(jī)器組成的服務(wù)器群來分發(fā)以及處理數(shù)據(jù)。這些服務(wù)器群總計(jì) 可達(dá)數(shù)千個(gè)節(jié)點(diǎn)。 3) 高效率（ Efficient）：通過分發(fā)數(shù)據(jù)， hadoop 可以在數(shù)據(jù)所在的節(jié)點(diǎn)上并行地（ parallel）處理它們，這使得處理非常的快速。 4) 可靠性（ Reliable）： hadoop 能自動(dòng)地維護(hù)數(shù)據(jù)的多份復(fù)制，并且在任務(wù)失敗后能自動(dòng)地重新部署（ redeploy）計(jì)算任務(wù)。使用場景個(gè)人覺得最適合的就是海量數(shù)據(jù)的分析，其實(shí) Google 最早提出 MapReduce 也就是為了海量數(shù)據(jù)分析。同時(shí) HDFS 最早是為了搜索引擎實(shí)現(xiàn)而開發(fā)的，后來才被用于分布式計(jì)算框架中。海量數(shù)據(jù)被分割于多個(gè)節(jié)點(diǎn)，然后由每一個(gè)節(jié)點(diǎn)并行計(jì)算，將得出的結(jié)果歸并到輸出。同時(shí) 第一階段的輸出又可以作為下一階段計(jì)算的輸入，因此可以想象到一個(gè)樹狀結(jié)構(gòu)的分布式計(jì)算圖，在不同階段都有不同產(chǎn)出，同時(shí)并行和串行結(jié)合的計(jì)算也可以很好地在分布式集群的資源下得以高效的處理。 2 術(shù)語 1) Namenode: HDFS 采用 master/slave 架構(gòu)。一個(gè) HDFS 集群是由一個(gè) Namenode 和一定數(shù)目的 Datanodes 組成。 Namenode 是一個(gè)中心服務(wù)器，負(fù)責(zé)管理文件系統(tǒng)的名字空間 (namespace)以及客戶端對文件的訪問。 Namenode 執(zhí)行文件系統(tǒng)的名字空間操作，比如打開、關(guān)閉、重命名文件或目錄。它也負(fù)責(zé)確定數(shù)據(jù)塊到具體 Datanode 節(jié)點(diǎn)的映射 2) Datanode: 集群中的 Datanode 一般是一個(gè)節(jié)點(diǎn)一個(gè)，負(fù)責(zé)管理它所在節(jié)點(diǎn)上的存儲。 HDFS 暴露了文件系統(tǒng)的名字空間，用戶能夠以文件的形式在上面存儲數(shù)據(jù)。從 JobTracker是 MapReduce 框架中最主要的類之一，所有 job 的執(zhí)行都由它來調(diào)度，而且 Hadoop 系統(tǒng)中只配置一個(gè) JobTracker 應(yīng) 用。它們都是由一個(gè) master 服務(wù) JobTracker 和多個(gè)運(yùn)行于多個(gè)節(jié)點(diǎn)的 slaver 服務(wù)TaskTracker兩個(gè)類提供的服務(wù)調(diào)度的。 master負(fù)責(zé)調(diào)度 job的每一個(gè)子任務(wù) task運(yùn)行于 slave上，并監(jiān)控它們，如果發(fā)現(xiàn)有失敗的 task 就重新運(yùn)行它， slave 則負(fù)責(zé)直接執(zhí)行每一個(gè) task。北京寬連十方數(shù)字技術(shù)有限公司公開絕密 TaskTracker 都需要運(yùn)行在 HDFS 的 DataNode 上，而 JobTracker 則不需要，一般情況應(yīng)該把 JobTracker 部署在單獨(dú)的機(jī)器上。 3 Hadoop 的單機(jī)部署參考：目的本章節(jié)的目的是幫助你快速完成單機(jī)上的 Hadoop 安裝與使用以便你對 Hadoop 分布式文件系統(tǒng) (HDFS)和 MapReduce 框架有所體會，比如在 HDFS 上運(yùn)行示例程序或簡單作業(yè)等。先決條件支持平臺 1) GNU/Linux 是產(chǎn)品開發(fā)和運(yùn)行的平臺。 Hadoop 已在有 2020 個(gè)節(jié)點(diǎn)的 GNU/Linux 主機(jī)組成的集群系統(tǒng)上得到驗(yàn)證。 2) Win32 平臺是作為開發(fā)平臺支持的。由于分布式操作尚未在 Win32 平臺上充分測試，所以還不作為一個(gè)生產(chǎn)平臺被支持。所需軟件 Linux 和 Windows 所需軟件包括 : 1. Sun ，必須安裝。 2. ssh 必須安裝并且保證 sshd 一直運(yùn)行，以便用 Hadoop 腳本管理遠(yuǎn)端 Hadoop 守護(hù) 進(jìn)程。安裝軟件如果你的集群尚未安裝所需軟件，你得

點(diǎn)擊復(fù)制文檔內(nèi)容

試題試卷相關(guān)推薦

psasp入門手冊-資料下載頁

【總結(jié)】PSASP入門手冊1、概述《電力系統(tǒng)分析綜合程序》(PowerSystemAnalysisSoftwarePackage,PSASP)是一套歷史長久、功能強(qiáng)大、使用方便的電力系統(tǒng)分析程序，是高度集成和開放具有我國自主知識產(chǎn)權(quán)的大型軟件包。PSASP是電力系統(tǒng)規(guī)劃設(shè)計(jì)人員確定經(jīng)濟(jì)合理、技術(shù)可行的規(guī)劃設(shè)計(jì)方案的重要工具；是運(yùn)行調(diào)度人員確定系統(tǒng)運(yùn)行方式、分析系統(tǒng)事故、尋求反

2025-05-30 18:16

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

hadoop實(shí)戰(zhàn)手冊入門資料(編輯修改稿)

psasp入門手冊-資料下載頁

microstrategy入門手冊-資料下載頁

easyjweb入門手冊-資料下載頁

plc入門實(shí)戰(zhàn)教程百技-資料下載頁

[物流]實(shí)戰(zhàn)手冊-資料下載頁

物聯(lián)網(wǎng)入門手冊-資料下載頁

trio-入門手冊-資料下載頁

sqlite開發(fā)入門手冊-資料下載頁

mfc入門培訓(xùn)手冊-資料下載頁

黃金投資入門手冊-資料下載頁

法語入門自學(xué)手冊-資料下載頁

rpg開發(fā)入門手冊-資料下載頁

portal開發(fā)入門手冊-資料下載頁

laravel入門中文手冊-資料下載頁

教練技術(shù)入門手冊-資料下載頁

hadoop實(shí)戰(zhàn)手冊入門資料-wenkub

hadoop實(shí)戰(zhàn)手冊入門資料(已修改)

hadoop實(shí)戰(zhàn)手冊入門資料(編輯修改稿)

hadoop實(shí)戰(zhàn)手冊入門資料-wenkub.com

hadoop實(shí)戰(zhàn)手冊入門資料(已改無錯(cuò)字)