正文內(nèi)容

[工學(xué)]hadoop實戰(zhàn)手冊入門資料-文庫吧

2025-09-09 09:10 本頁面

【正文】 ......................... 41 其它日常問題說明 ............................................................................................ 43 datanode啟動失敗，各 slave節(jié)點的 namespaceIDs與 masters不同 .............. 43 taskTracker和 jobTracker 啟動失敗 ............................................................. 44 Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES。 bailingout... 45 Too many fetchfailures .............................................................................. 45 能夠啟動 datanode，但無法訪問，也無法結(jié)束的錯誤 ................................. 45 : Could not obtain block: ............................................... 46 : Java heap space ......................................... 46 解決 hadoop OutOfMemoryError問題： ....................................................... 46 Hadoop : ...................................................................... 46 防火墻的端口開放要求 ..................................................................................... 47 與 HDFS有關(guān)的地址及端口屬性 ................................................................... 47 與 MapReduce 有關(guān)的地址及端口屬性 ........................................................ 48 8 附錄 ....................................................................................................................... 49 hadoop歷史 ...................................................................................................... 49 Hadoop大記事 .................................................................................................. 50 Hadoop的幾個主要子項目 ................................................................................ 51 官方集群搭建參考 ............................................................................................ 51 配置文件 ..................................................................................................... 51 集群配置說明 .............................................................................................. 52 北京寬連十方數(shù)字技術(shù)有限公司公開內(nèi)部公開 √ 機密絕密 1 概述作什么事情之前，第一步是要知道 What（是什么），然后是 Why（為什么），最后才是 How（怎么做）。避免將技術(shù)誤用于不適合的場景，這一點非常重要。什么是 Hadoop？ Hadoop 由 Apache Software Foundation 公司于 2020 年秋天作為 Lucene 的子項目 Nutch 的一部分正式引入。它受到最先由 Google Lab 開發(fā)的 MapReduce 和 Google File System 的啟發(fā)。 2020 年 3 月份， MapReduce 和 Nutch Distributed File System (NDFS) 分別被納入稱為 Hadoop 的項目中。 Hadoop 并不僅僅是一個用于存儲的分布式文件系統(tǒng)，而是設(shè)計用來在由通用計算設(shè)備組成的大型集群上執(zhí)行分布式應(yīng)用的基礎(chǔ) 框架。它由 Apache 基金會開發(fā)。用戶可以在不了解分布式底層細(xì)節(jié)的情況下，開發(fā)分布式程序。充分利用集群的威力高速運算和存儲。簡單地說來， Hadoop 是一個可以更容易開發(fā)和運行處理大規(guī)模數(shù)據(jù)的軟件平臺。下圖是 Hadoop 的體系結(jié)構(gòu)： Hadoop框架中最核心的設(shè)計就是： MapReduce和 HDFS。 1) MapReduce的思想是由 Google的一篇論文所提及而被廣為流傳的，簡單的一句話解釋MapReduce就是 “任務(wù)的分解與結(jié)果的匯總 ”。 2) HDFS是 Hadoop分布式文件系統(tǒng)（ Hadoop Distributed File System）的縮寫，為分布式計算存儲提供了底層支持。為什么要選擇 Hadoop？系統(tǒng)特點下面列舉 hadoop 主要的一些特點： 1) 擴(kuò)容能力（ Scalable）：能可靠地（ reliably）存儲和處理千兆字節(jié)（ PB）數(shù)據(jù)。北京寬連十方數(shù)字技術(shù)有限公司公開內(nèi)部公開 √ 機密絕密 2) 成本低（ Economical）：可以通過普通機器組成的服務(wù)器群來分發(fā)以及處理數(shù)據(jù)。這些服務(wù)器群總計可達(dá)數(shù)千個節(jié)點。 3) 高效率（ Efficient）：通過分發(fā)數(shù)據(jù)， hadoop 可以在數(shù)據(jù)所在的節(jié)點上并行地（ parallel）處理它們，這使得處理非常的快速。 4) 可靠性（ Reliable）： hadoop 能自動地維護(hù)數(shù)據(jù)的多份復(fù)制，并且在任務(wù)失敗后能自動地重新部署（ redeploy）計算任務(wù)。使用場景個人覺得最適合的就是海量數(shù)據(jù)的分析，其實 Google最早提出 MapReduce也就是為了海量數(shù)據(jù)分析。同時 HDFS最早是為了搜索引擎實現(xiàn)而開發(fā)的，后來才被用于分布式計算框架中。海量數(shù)據(jù)被分割于多個節(jié)點，然后由每一個節(jié)點并行計算，將得出的結(jié)果歸并到輸出。同時第一階段的輸出又可以作為下一階段計算的輸入，因此可以想象到一個樹狀結(jié)構(gòu)的分布式計算圖，在不同階段都有不同產(chǎn)出，同時并行和串行結(jié)合的計算也可以很好地在分布式集群的資源下得以高效的處理。 2 術(shù)語 1) Namenode: HDFS 采用 master/slave 架構(gòu)。一個 HDFS 集群是由一個 Namenode和一定數(shù)目的 Datanodes 組成。 Namenode 是一個中心服務(wù)器，負(fù)責(zé)管理文件系統(tǒng)的名字空間 (namespace)以及客戶端對文件的訪問。 Namenode 執(zhí)行文件系統(tǒng)的名字空間操作，比如打開、關(guān)閉、重命名文件或目錄。它也負(fù)責(zé)確定數(shù)據(jù)塊到具體Datanode 節(jié)點的映射 2) Datanode: 集群中的 Datanode 一般是一個節(jié)點一個，負(fù)責(zé)管理它所在節(jié)點上的存儲。 HDFS 暴露了文件系統(tǒng)的名字空間，用戶能夠以文件的形式在上面存儲數(shù)據(jù)。從內(nèi)部看，一個文件其實被分成一個或多個數(shù)據(jù)塊，這些塊存儲在一組 Datanode上。 Datanode 負(fù)責(zé)處理文件系統(tǒng)客戶端的讀寫請求。在 Namenode 的統(tǒng)一調(diào)度下進(jìn)行數(shù)據(jù)塊的創(chuàng)建、刪除和復(fù)制。 3) Secondnamenode: 光從字面上來理解，很容易讓一些初學(xué)者先入為主的認(rèn)為：SecondaryNameNode（ snn）就是 NameNode（ nn）的熱備進(jìn)程。其實不是。 snn 是HDFS 架構(gòu)中的一個組成部分，但是經(jīng)常由于名字而被人誤解它真正的用途，其實它真正的用途，是用來保存 namenode 中對 HDFS metadata 的信息的備份，并減少namenode 重啟的時間。 4) Jobtracker 和 Tasktracher: JobTracker 是 MapReduce 框架中最主要的類之一，所有 job 的執(zhí)行都由它來調(diào)度，而且 Hadoop 系統(tǒng)中只配置一個 JobTracker 應(yīng)用。它們都是由一個 master 服務(wù) JobTracker 和多個運行于多個節(jié)點的slaver 服務(wù) TaskTracker 兩個類提供的服務(wù)調(diào)度的。 master 負(fù)責(zé)調(diào)度job 的每一個子任務(wù) task 運行于 slave 上，并監(jiān)控它們，如果發(fā)現(xiàn)有失敗的 task 就重新運行它， slave 則負(fù)責(zé)直接執(zhí)行每一個 task。北京寬連十方數(shù)字技術(shù)有限公司公開內(nèi)部公開 √ 機密絕密 TaskTracker 都需要運行在 HDFS 的 DataNode 上，而 JobTracker 則不需要，一般情況應(yīng)該把 JobTracker 部署在單獨的機器上。 3 Hadoop的單機部署參考：forms 目的本章節(jié) 的目的是幫助你快速完成單機上的 Hadoop 安裝與使用以便你對 Hadoop 分布式文件系統(tǒng) (HDFS)和 MapReduce 框架有所體會，比如在 HDFS 上運行示例程序或簡單作業(yè)等。先決條件支持平臺 1) GNU/Linux 是產(chǎn)品開發(fā)和運行的平臺。 Hadoop 已在有 2020 個節(jié)點的 GNU/Linux主機組成的集群系統(tǒng)上得到驗證。 2) Win32 平臺是作為開發(fā)平臺支持的。由于分布式操作尚未在 Win32 平臺上充分測試，所以還不作為一個生產(chǎn)平臺被支持。所需軟件 Linux和 Windows 所需軟件包括 : 1. Sun ，必須安裝。 2. ssh 必須安裝并且保證 sshd 一直運行，以便用 Hadoop 腳本管理遠(yuǎn)端 Hadoop 守護(hù)進(jìn)程。安裝軟件如果你的集群尚未安裝所需軟件，你得首先安裝它們。以 Linux為例 : $ sudo aptget install ssh $ sudo aptget install rsync 北京寬連十方數(shù)字技術(shù)有限公司公開內(nèi)部公開 √ 機密絕密下載為了獲取 Hadoop 的發(fā)行版，從 Apache 的某個鏡像服務(wù)器上下載最近的穩(wěn)定發(fā)行版。下載地址：運行 Hadoop集群的準(zhǔn)備工作解壓所下載的 Hadoop 發(fā)行版。編輯 conf/，至少需要將 JAVA_HOME設(shè)置為 Java 安裝根路徑。嘗試如下命令： $ bin/hadoop 將會顯示 hadoop 腳本的使用文檔。現(xiàn)在你可以用以下三種支持的模式中的一種啟動 Hadoop 集群： ? 單機模式 ? 偽分布式模式 ? 完全分布式模式單機模式的操作方法默認(rèn)情況下， Hadoop 被配置成以非分布式模式運行的一個獨立 Java 進(jìn)程。這對調(diào)試非常有幫助。下面的實例將已解壓的 conf 目錄拷貝作為輸入，查找并顯示匹配給定正則表達(dá)式的條目。輸出寫入到指定的 output 目錄。 $ mkdir input $ cp conf/*.xml input $ bin/hadoop jar grep input output 39。dfs[az.]+39。 $ cat output/* 注：語法不理解沒關(guān)系看下面進(jìn)一步說明顯示結(jié)果 1 dfsadmin 北京寬連十方數(shù)字技術(shù)有限公司公開內(nèi)部公開 √ 機密絕密偽分布式模式的操作方法 Hadoop 可以在單節(jié)點上以所謂的偽分布式模式運行，此時每一個 Hadoop 守護(hù)進(jìn)程都作為一個獨立的 Java 進(jìn)程運行。配置注：以前的版本是 ,可 hadoop 在版本，配置文件由以前的 ,hdfs ,.內(nèi)在的原因是因為 hadoop 代碼量越來越寵大，拆解成三個大的分支進(jìn)行獨立開發(fā)，配置文件也獨立了 conf/: configuration property name

點擊復(fù)制文檔內(nèi)容

畢業(yè)設(shè)計相關(guān)推薦

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

[工學(xué)]hadoop實戰(zhàn)手冊入門資料-文庫吧

[物流]實戰(zhàn)手冊-資料下載頁

物聯(lián)網(wǎng)入門手冊-資料下載頁

trio-入門手冊-資料下載頁

sqlite開發(fā)入門手冊-資料下載頁

mfc入門培訓(xùn)手冊-資料下載頁

黃金投資入門手冊-資料下載頁

法語入門自學(xué)手冊-資料下載頁

rpg開發(fā)入門手冊-資料下載頁

portal開發(fā)入門手冊-資料下載頁

laravel入門中文手冊-資料下載頁

教練技術(shù)入門手冊-資料下載頁

法語入門自學(xué)手冊-資料下載頁

網(wǎng)優(yōu)入門手冊-資料下載頁

[工學(xué)]matlab基礎(chǔ)準(zhǔn)備及入門-資料下載頁

精!精!炒股實戰(zhàn)必看技術(shù)圖表、股票實戰(zhàn)、股票入門、股票基礎(chǔ)知識、股市入門、炒股知識-資料下載頁

[工學(xué)]hadoop實戰(zhàn)手冊入門資料-wenkub

[工學(xué)]hadoop實戰(zhàn)手冊入門資料(已修改)

[工學(xué)]hadoop實戰(zhàn)手冊入門資料(編輯修改稿)

[工學(xué)]hadoop實戰(zhàn)手冊入門資料-wenkub.com

[工學(xué)]hadoop實戰(zhàn)手冊入門資料(已改無錯字)

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

[工學(xué)]hadoop實戰(zhàn)手冊入門資料-文庫吧

[物流]實戰(zhàn)手冊-資料下載頁

物聯(lián)網(wǎng)入門手冊-資料下載頁

trio-入門手冊-資料下載頁

sqlite開發(fā)入門手冊-資料下載頁

mfc入門培訓(xùn)手冊-資料下載頁

黃金投資入門手冊-資料下載頁

法語入門自學(xué)手冊-資料下載頁

rpg開發(fā)入門手冊-資料下載頁

portal開發(fā)入門手冊-資料下載頁

laravel入門中文手冊-資料下載頁

教練技術(shù)入門手冊-資料下載頁

法語入門自學(xué)手冊-資料下載頁

網(wǎng)優(yōu)入門手冊-資料下載頁

[工學(xué)]matlab基礎(chǔ)準(zhǔn)備及入門-資料下載頁

精!精!炒股實戰(zhàn)必看技術(shù)圖表、股票實戰(zhàn)、股票入門、股票基礎(chǔ)知識、股市入門、炒股知識-資料下載頁

[工學(xué)]hadoop實戰(zhàn)手冊入門資料-wenkub

[工學(xué)]hadoop實戰(zhàn)手冊入門資料(已修改)

[工學(xué)]hadoop實戰(zhàn)手冊入門資料(編輯修改稿)

[工學(xué)]hadoop實戰(zhàn)手冊入門資料-wenkub.com

[工學(xué)]hadoop實戰(zhàn)手冊入門資料(已改無錯字)

精!精!炒股實戰(zhàn)必看技術(shù)圖表、股票實戰(zhàn)、股票入門、股票基礎(chǔ)知識、股市入門、炒股知識-資料下載頁