freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

hadoop實戰(zhàn)手冊入門資料(編輯修改稿)

2024-11-19 08:48 本頁面
 

【文章內(nèi)容簡介】 ......... 47 與 MapReduce 有關的地址及端口屬性 ........................................................... 48 8 附錄 ............................................................................................................................ 49 hadoop 歷史 .......................................................................................................... 49 Hadoop 大記事 ...................................................................................................... 50 Hadoop 的幾個主要子項目 .................................................................................... 51 官方集群搭建參考 ................................................................................................ 51 配置文件 ......................................................................................................... 51 集群配置說明 .................................................................................................. 52 北京寬連十方數(shù)字技術(shù)有限公司 公開 絕密 1 概述 作什么事情之前,第一步是要知道 What(是什么),然后是 Why(為什么),最后才是 How(怎么做)。避免將技術(shù)誤用于不適合的場景,這一點非常重要。 什么是 Hadoop? Hadoop 由 Apache Software Foundation 公司于 2020 年秋天作為 Lucene 的子項目 Nutch 的一部分正式引入。它受到最先由 Google Lab 開發(fā)的 MapReduce 和 Google File System 的啟發(fā)。 2020 年 3 月份, MapReduce 和 Nutch Distributed File System (NDFS) 分別被納入稱為 Hadoop 的項目中。 Hadoop 并不僅僅是一個用于存儲的分布式文件系統(tǒng),而是設計用來在由通用計算設備組成的大型集群上執(zhí)行分布式應用的基礎框架。它由 Apache 基金會開發(fā)。用戶可以在不了解分布式底層細節(jié) 的情況下,開發(fā)分布式程序。充分利用集群的威力高速運算和存儲。簡單地說來, Hadoop 是一個可以更容易開發(fā)和運行處理大規(guī)模數(shù)據(jù)的軟件平臺。 下圖是 Hadoop 的體系結(jié)構(gòu): Hadoop 框架中最核心的設計就是: MapReduce 和 HDFS。 1) MapReduce 的思想是由 Google 的一篇論文所提及而被廣為流傳的,簡單的一句話解釋 MapReduce 就是 ―任務的分解與結(jié)果的匯總 ‖。 2) HDFS 是 Hadoop 分布式文件系統(tǒng)( Hadoop Distributed File System)的縮寫,為分布 式計算存儲提供了底層支持。 為什么要選擇 Hadoop? 系統(tǒng)特點 下面列舉 hadoop 主要的一些特點: 1) 擴容能力( Scalable):能可靠地( reliably)存儲和處理千兆字節(jié)( PB)數(shù)據(jù)。 2) 北京寬連十方數(shù)字技術(shù)有限公司 公開 絕密 成本低( Economical):可以通過普通機器組成的服務器群來分發(fā)以及處理數(shù)據(jù)。這些服務器群總計 可達數(shù)千個節(jié)點。 3) 高效率( Efficient):通過分發(fā)數(shù)據(jù), hadoop 可以在數(shù)據(jù)所在的節(jié)點上并行地( parallel)處理它們, 這使得處理非常的快速。 4) 可靠性( Reliable): hadoop 能自動地維護數(shù)據(jù)的多份復制,并且在任務失敗后能自動地重新部署 ( redeploy)計算任務。 使用場景 個人覺得最適合的就是海量數(shù)據(jù)的分析,其實 Google 最早提出 MapReduce 也就是為了海量數(shù)據(jù)分析。同時 HDFS 最早是為了搜索引擎實現(xiàn)而開發(fā)的,后來才被用于分布式計算框架中。海量數(shù)據(jù)被分割于多個節(jié)點,然后由每一個節(jié)點并行計算 ,將得出的結(jié)果歸并到輸出。同時 第一階段的輸出又可以作為下一階段計算的輸入,因此可以想象到一個樹狀結(jié)構(gòu)的分布式計算圖,在不同階段都有不同產(chǎn)出,同時并行和串行結(jié)合的計算也可以很好地在分布式集群的資源下得以高效的處理。 2 術(shù)語 1) Namenode: HDFS 采用 master/slave 架構(gòu)。一個 HDFS 集群是由一個 Namenode 和一定數(shù)目的 Datanodes 組成。 Namenode 是一個中心服務器,負責管理文件系統(tǒng)的名字空間 (namespace)以及客戶端對文件的訪問。 Namenode 執(zhí)行文件系 統(tǒng)的名字空間操作,比如打開、關閉、重命名文件或目錄。它也負責確定數(shù)據(jù)塊到具體 Datanode 節(jié)點的映射 2) Datanode: 集群中的 Datanode 一般是一個節(jié)點一個,負責管理它所在節(jié)點上的存 儲。 HDFS 暴露了文件系統(tǒng)的名字空間,用戶能夠以文件的形式在上面存儲數(shù)據(jù)。 從 JobTracker是 MapReduce 框架中最主要的類之一, 所有 job 的執(zhí)行都由它來調(diào)度,而且 Hadoop 系統(tǒng)中只配置一個 JobTracker 應 用。 它們都是由一個 master 服務 JobTracker 和多個運行于 多個節(jié)點的 slaver 服務TaskTracker兩個類提供的服務調(diào)度的。 master負責調(diào)度 job的每一個子任務 task運行于 slave上,并監(jiān)控它們,如果發(fā)現(xiàn)有失敗的 task 就重新運行它, slave 則負責直接執(zhí)行每一個 task。 北京寬連十方數(shù)字技術(shù)有限公司 公開 絕密 TaskTracker 都需要運行在 HDFS 的 DataNode 上,而 JobTracker 則不需要,一般情況應該把 JobTracker 部署在單獨的機器上。 3 Hadoop 的單機部署 參考: 目的 本章節(jié)的目的是幫助你快速完成單機上的 Hadoop 安裝與使用以便你對 Hadoop 分布式文件系統(tǒng) (HDFS)和 MapReduce 框架有所體會,比如在 HDFS 上運行示例程序或簡單作業(yè)等。 先決條件 支持平臺 1) GNU/Linux 是產(chǎn)品開發(fā)和運行的平臺。 Hadoop 已在有 2020 個節(jié)點的 GNU/Linux 主機組成的集群系統(tǒng)上得到驗證。 2) Win32 平臺是作為開發(fā)平臺支持的。由于分布式操作尚未在 Win32 平臺上充分測試, 所以還不作為一個生產(chǎn)平臺被支持。 所需軟件 Linux 和 Windows 所需軟件包括 : 1. Sun ,必須安裝。 2. ssh 必須安裝并且保證 sshd 一直運行,以便用 Hadoop 腳本管理遠端 Hadoop 守護 進程。 安裝軟件 如果你的集群尚未安裝所需軟件,你得
點擊復制文檔內(nèi)容
試題試卷相關推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1