freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

hadoop實(shí)戰(zhàn)手冊入門資料(編輯修改稿)

2024-11-19 08:48 本頁面
 

【文章內(nèi)容簡介】 ......... 47 與 MapReduce 有關(guān)的地址及端口屬性 ........................................................... 48 8 附錄 ............................................................................................................................ 49 hadoop 歷史 .......................................................................................................... 49 Hadoop 大記事 ...................................................................................................... 50 Hadoop 的幾個(gè)主要子項(xiàng)目 .................................................................................... 51 官方集群搭建參考 ................................................................................................ 51 配置文件 ......................................................................................................... 51 集群配置說明 .................................................................................................. 52 北京寬連十方數(shù)字技術(shù)有限公司 公開 絕密 1 概述 作什么事情之前,第一步是要知道 What(是什么),然后是 Why(為什么),最后才是 How(怎么做)。避免將技術(shù)誤用于不適合的場景,這一點(diǎn)非常重要。 什么是 Hadoop? Hadoop 由 Apache Software Foundation 公司于 2020 年秋天作為 Lucene 的子項(xiàng)目 Nutch 的一部分正式引入。它受到最先由 Google Lab 開發(fā)的 MapReduce 和 Google File System 的啟發(fā)。 2020 年 3 月份, MapReduce 和 Nutch Distributed File System (NDFS) 分別被納入稱為 Hadoop 的項(xiàng)目中。 Hadoop 并不僅僅是一個(gè)用于存儲(chǔ)的分布式文件系統(tǒng),而是設(shè)計(jì)用來在由通用計(jì)算設(shè)備組成的大型集群上執(zhí)行分布式應(yīng)用的基礎(chǔ)框架。它由 Apache 基金會(huì)開發(fā)。用戶可以在不了解分布式底層細(xì)節(jié) 的情況下,開發(fā)分布式程序。充分利用集群的威力高速運(yùn)算和存儲(chǔ)。簡單地說來, Hadoop 是一個(gè)可以更容易開發(fā)和運(yùn)行處理大規(guī)模數(shù)據(jù)的軟件平臺(tái)。 下圖是 Hadoop 的體系結(jié)構(gòu): Hadoop 框架中最核心的設(shè)計(jì)就是: MapReduce 和 HDFS。 1) MapReduce 的思想是由 Google 的一篇論文所提及而被廣為流傳的,簡單的一句話解釋 MapReduce 就是 ―任務(wù)的分解與結(jié)果的匯總 ‖。 2) HDFS 是 Hadoop 分布式文件系統(tǒng)( Hadoop Distributed File System)的縮寫,為分布 式計(jì)算存儲(chǔ)提供了底層支持。 為什么要選擇 Hadoop? 系統(tǒng)特點(diǎn) 下面列舉 hadoop 主要的一些特點(diǎn): 1) 擴(kuò)容能力( Scalable):能可靠地( reliably)存儲(chǔ)和處理千兆字節(jié)( PB)數(shù)據(jù)。 2) 北京寬連十方數(shù)字技術(shù)有限公司 公開 絕密 成本低( Economical):可以通過普通機(jī)器組成的服務(wù)器群來分發(fā)以及處理數(shù)據(jù)。這些服務(wù)器群總計(jì) 可達(dá)數(shù)千個(gè)節(jié)點(diǎn)。 3) 高效率( Efficient):通過分發(fā)數(shù)據(jù), hadoop 可以在數(shù)據(jù)所在的節(jié)點(diǎn)上并行地( parallel)處理它們, 這使得處理非常的快速。 4) 可靠性( Reliable): hadoop 能自動(dòng)地維護(hù)數(shù)據(jù)的多份復(fù)制,并且在任務(wù)失敗后能自動(dòng)地重新部署 ( redeploy)計(jì)算任務(wù)。 使用場景 個(gè)人覺得最適合的就是海量數(shù)據(jù)的分析,其實(shí) Google 最早提出 MapReduce 也就是為了海量數(shù)據(jù)分析。同時(shí) HDFS 最早是為了搜索引擎實(shí)現(xiàn)而開發(fā)的,后來才被用于分布式計(jì)算框架中。海量數(shù)據(jù)被分割于多個(gè)節(jié)點(diǎn),然后由每一個(gè)節(jié)點(diǎn)并行計(jì)算 ,將得出的結(jié)果歸并到輸出。同時(shí) 第一階段的輸出又可以作為下一階段計(jì)算的輸入,因此可以想象到一個(gè)樹狀結(jié)構(gòu)的分布式計(jì)算圖,在不同階段都有不同產(chǎn)出,同時(shí)并行和串行結(jié)合的計(jì)算也可以很好地在分布式集群的資源下得以高效的處理。 2 術(shù)語 1) Namenode: HDFS 采用 master/slave 架構(gòu)。一個(gè) HDFS 集群是由一個(gè) Namenode 和一定數(shù)目的 Datanodes 組成。 Namenode 是一個(gè)中心服務(wù)器,負(fù)責(zé)管理文件系統(tǒng)的名字空間 (namespace)以及客戶端對(duì)文件的訪問。 Namenode 執(zhí)行文件系 統(tǒng)的名字空間操作,比如打開、關(guān)閉、重命名文件或目錄。它也負(fù)責(zé)確定數(shù)據(jù)塊到具體 Datanode 節(jié)點(diǎn)的映射 2) Datanode: 集群中的 Datanode 一般是一個(gè)節(jié)點(diǎn)一個(gè),負(fù)責(zé)管理它所在節(jié)點(diǎn)上的存 儲(chǔ)。 HDFS 暴露了文件系統(tǒng)的名字空間,用戶能夠以文件的形式在上面存儲(chǔ)數(shù)據(jù)。 從 JobTracker是 MapReduce 框架中最主要的類之一, 所有 job 的執(zhí)行都由它來調(diào)度,而且 Hadoop 系統(tǒng)中只配置一個(gè) JobTracker 應(yīng) 用。 它們都是由一個(gè) master 服務(wù) JobTracker 和多個(gè)運(yùn)行于 多個(gè)節(jié)點(diǎn)的 slaver 服務(wù)TaskTracker兩個(gè)類提供的服務(wù)調(diào)度的。 master負(fù)責(zé)調(diào)度 job的每一個(gè)子任務(wù) task運(yùn)行于 slave上,并監(jiān)控它們,如果發(fā)現(xiàn)有失敗的 task 就重新運(yùn)行它, slave 則負(fù)責(zé)直接執(zhí)行每一個(gè) task。 北京寬連十方數(shù)字技術(shù)有限公司 公開 絕密 TaskTracker 都需要運(yùn)行在 HDFS 的 DataNode 上,而 JobTracker 則不需要,一般情況應(yīng)該把 JobTracker 部署在單獨(dú)的機(jī)器上。 3 Hadoop 的單機(jī)部署 參考: 目的 本章節(jié)的目的是幫助你快速完成單機(jī)上的 Hadoop 安裝與使用以便你對(duì) Hadoop 分布式文件系統(tǒng) (HDFS)和 MapReduce 框架有所體會(huì),比如在 HDFS 上運(yùn)行示例程序或簡單作業(yè)等。 先決條件 支持平臺(tái) 1) GNU/Linux 是產(chǎn)品開發(fā)和運(yùn)行的平臺(tái)。 Hadoop 已在有 2020 個(gè)節(jié)點(diǎn)的 GNU/Linux 主機(jī)組成的集群系統(tǒng)上得到驗(yàn)證。 2) Win32 平臺(tái)是作為開發(fā)平臺(tái)支持的。由于分布式操作尚未在 Win32 平臺(tái)上充分測試, 所以還不作為一個(gè)生產(chǎn)平臺(tái)被支持。 所需軟件 Linux 和 Windows 所需軟件包括 : 1. Sun ,必須安裝。 2. ssh 必須安裝并且保證 sshd 一直運(yùn)行,以便用 Hadoop 腳本管理遠(yuǎn)端 Hadoop 守護(hù) 進(jìn)程。 安裝軟件 如果你的集群尚未安裝所需軟件,你得
點(diǎn)擊復(fù)制文檔內(nèi)容
試題試卷相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1