正文內(nèi)容

[it計算機]hadoop入門實戰(zhàn)手冊-在線瀏覽

2024-12-16 22:48本頁面

　　

【正文】 .............................................................................................................. 39 Hadoop的系統(tǒng)監(jiān)控 ........................................................................................... 39 Hadoop中的命令（ Command）總結(jié) ...................................... 錯誤 !未定義書簽。 NameNode與 JobTracker單點故障說明 ............................................................. 40 經(jīng)驗總結(jié) .......................................................................................................... 40 如何在一個 hadoop集群新增或刪除一些機器而不重啟 ....................................... 41 新增節(jié)點 ..................................................................................................... 41 刪除節(jié)點 ..................................................................................................... 41 其它日常問題說明 ............................................................................................ 43 datanode啟動失敗，各 slave節(jié)點的 namespaceIDs與 masters不同 .............. 43 taskTracker和 jobTracker 啟動失敗 ............................................................. 44 Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES。避免將技術誤用于不適合的場景，這一點非常重要。它受到最先由 Google Lab 開發(fā)的 MapReduce 和 Google File System 的啟發(fā)。 Hadoop 并不僅僅是一個用于存儲的分布式文件系統(tǒng)，而是設計用來在由通用計算設備組成的大型集群上執(zhí)行分布式應用的基礎框架。用戶可以在不了解分布式底層細節(jié) 的情況下，開發(fā)分布式程序。簡單地說來， Hadoop 是一個可以更容易開發(fā)和運行處理大規(guī)模數(shù)據(jù)的軟件平臺。 1) MapReduce的思想是由 Google的一篇論文所提及而被廣為流傳的，簡單的一句話解釋MapReduce就是 “任務的分解與結(jié)果的匯總 ”。為什么要選擇 Hadoop？系統(tǒng)特點下面列舉 hadoop 主要的一些特點： 1) 擴容能力（ Scalable）：能可靠地（ reliably）存儲和處理千兆字節(jié)（ PB）數(shù)據(jù)。這些服務器群總計可達數(shù)千個節(jié)點。 4) 可靠性（ Reliable）： hadoop 能自動地維護數(shù)據(jù)的多份復制，并且在任務失敗后能自動地重新部署（ redeploy）計算任務。同時 HDFS最早是為了搜索引擎實現(xiàn)而開發(fā)的，后來才被用于分布式計算框架中。同時第一階段的輸出又可以作為下一階段計算的輸入，因此可以想象到一個樹狀結(jié)構的分布式計算圖，在不同階段都有不同產(chǎn)出，同時并行和串行結(jié)合的計算也可以很好地在分布式集群的資源下得以高效的處理。一個 HDFS 集群是由一個 Namenode和一定數(shù)目的 Datanodes 組成。 Namenode 執(zhí)行文件系統(tǒng)的名字空間操作，比如打開、關閉、重命名文件或目錄。 HDFS 暴露了文件系統(tǒng)的名字空間，用戶能夠以文件的形式在上面存儲數(shù)據(jù)。 Datanode 負責處理文件系統(tǒng)客戶端的讀寫請求。 3) Secondnamenode: 光從字面上來理解，很容易讓一些初學者先入為主的認為：SecondaryNameNode（ snn）就是 NameNode（ nn）的熱備進程。 snn 是HDFS 架構中的一個組成部分，但是經(jīng)常由于名字而被人誤解它真正的用途，其實它真正的用途，是用來保存 namenode 中對 HDFS metadata 的信息的備份，并減少namenode 重啟的時間。它們都是由一個 master服務 JobTracker 和多個運行于多個節(jié)點的slaver 服務 TaskTracker 兩個類提供的服務調(diào)度的。北京寬連十方數(shù)字技術有限公司公開內(nèi)部公開 √ 機密絕密 TaskTracker 都需要運行在 HDFS 的 DataNode 上，而 JobTracker 則不需要，一般情況應該把 JobTracker 部署在單獨的機器上。先決條件支持平臺 1) GNU/Linux 是產(chǎn)品開發(fā)和運行的平臺。 2) Win32 平臺是作為開發(fā)平臺支持的。所需軟件 Linux和 Windows 所需軟件包括 : 1. Sun ，必須安裝。安裝軟件如果你的集群尚未安裝所需軟件，你得首先安裝它們。下載地址：運行 Hadoop集群的準備工作解壓所下載的 Hadoop 發(fā)行版。嘗試如下命令： $ bin/hadoop 將會顯示 hadoop 腳本的使用文檔。這對調(diào)試非常有幫助。輸出寫入到指定的 output 目錄。dfs[az.]+39。配置注：以前的版本是 ,可 hadoop 在版本，配置文件由以前的 ,hdfs ,.內(nèi)在的原因是因為 hadoop 代碼量越來越寵大，拆解成三個大的分支進行獨立開發(fā)，配置文件也獨立了 conf/: configuration property name/name value /property /configuration conf/: configuration property name/name value1/value /property /configuration conf/: configuration property name/name valuelocalhost:9001/value /property /configuration 北京寬連十方數(shù)字技術有限公司公開內(nèi)部公開 √ 機密絕密免密碼 ssh設置現(xiàn)在確認能否不輸入口令就用 ssh 登錄 localhost: $ ssh localhost 如果不輸入口令就無法用 ssh登陸 localhost，執(zhí)行下面的命令： $ sshkeygen t dsa P 39。 f ~/.ssh/id_dsa $ cat ~/.ssh/ ~/.ssh/authorized_keys 執(zhí)行首先使用 hadoop 命令對 Hadoop File System (HDFS) 進行格式化。在安裝過程中完成了這個步驟，但是了解是否需要生成干凈的文件系統(tǒng)是有用的。 piled by 39。 on Wed May 4 07:57:50 PDT 2020 ************************************************************/ 11/07/12 17:47:12 INFO : VM type = 32bit 11/07/12 17:47:12 INFO : 2% max memory = MB 11/07/12 17:47:12 INFO : capacity = 2^22 = 4194304 entries 11/07/12 17:47:12 INFO : remended=4194304, actual=4194304 北京寬連十方數(shù)字技術有限公司公開內(nèi)部公開 √ 機密絕密 11/07/12 17:47:13 INFO : fsOwner=hadoop 11/07/12 17:47:13 INFO : supergroup=supergroup 11/07/12 17:47:13 INFO : isPermissionEnabled=true 11/07/12 17:47:13 INFO : =100 11/07/12 17:47:13 INFO : isAccessTokenEnabled=false accessKeyUpdateInterval=0 min(s), accessTokenLifetime=0 min(s) 11/07/12 17:47:13 INFO : Caching file names occuring more than 10 times 11/07/12 17:47:13 INFO : Image file of size 112 saved in 0 seconds. 11/07/12 17:47:13 INFO : Storage directory /tmp/hadoophadoop/dfs/name has been successfully formatted. 11/07/12 17:47:13 INFO : SHUTDOWN_MSG: /************************************************************ SHUTDOWN_MSG: Shutting down NameNode at TEST085/ ************************************************************/ 接下來，啟動 Hadoop 守護進程。在conf/ 里改下。dfs[az.]+39。在啟動每個守護進程時，會看到一些相關信息（指出存儲日志的位置）。圖 1 說明完成啟動之后偽分布式配置的架構。打通過程如下： 1) 名稱節(jié)點 85 和數(shù)據(jù)節(jié)點（ 160， 254）各自創(chuàng)建用戶 hadoop,使用相同的密碼。 3) 接下來，同樣也 hadoop 用戶登陸數(shù)據(jù)節(jié)點服務器（ 160， 254），創(chuàng)建 .ssh 目錄，并給與 600 權限（ chmod 600 .ssh）。 Hadoop軟件安裝以 hadoop 用戶登陸，將安裝軟件解壓到集群內(nèi)的所有機器上，編輯 conf/文件，至少需要將 JAVA_HOME 設置為 Java 安裝根路徑（安裝過程參考“ 3 hadoop 的單機部署 ”）。通常集群里的所有機器的 HADOOP_HOME路徑相同，安裝路徑定為： /home/hadoop/ 1) 進行 JDK 和內(nèi)存占用配置： conf/ 需要修改的內(nèi)容： The java implementation to use. Required. export JAVA_HOME=/usr/local/java 修改成你自己 jdk 安裝的目錄 The maximum amount of heap to use, in MB. Default is 1000. export HADOOP_HEAPSIZE=200 根據(jù)你的內(nèi)存大小調(diào)整 2) 修改 masters 和 slaves 配置北京寬連十方數(shù)字技術有限公司公開內(nèi)部公開 √ 機密絕密修改文件 /usr/local/hadoop/conf/slaves及 /usr/local/hadoop/conf/masters,把數(shù)據(jù)節(jié)點的主機名加到 slaves、名稱節(jié)點主機名加到 masters。注意主機名需要在每個服務器的 /etc/hosts映射好。內(nèi) 在的原因是因為 hadoop 代碼量越來越寵大，拆解成三個大的分支進行獨立開發(fā)，配置文件也獨立了。 $ bin/hadoop namenode – format 注：一看到 format 就和磁盤格式化聯(lián)想到一起，然后這個 format 是對 hdfs 來說的，所以有些人害怕真的是格式化自己的文件系統(tǒng)了，其實大可不必擔心 , namenode format 只是初始化一些目錄和文件而已。 [hadoopTEST085 ]$ bin/ starting jobtracker, logging to /home/hadoop/: starting tasktracker, logging to /home/hadoop/ut : starting tasktracker, log

點擊復制文檔內(nèi)容

試題試卷相關推薦

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

[it計算機]hadoop入門實戰(zhàn)手冊-在線瀏覽

[計算機]macbook安裝windowsxp實戰(zhàn)-在線瀏覽

大學計算機基礎——編程入門-在線瀏覽

計算機基礎知識入門-在線瀏覽

計算機維護手冊-在線瀏覽

[計算機]vmwareview虛擬桌面創(chuàng)建實戰(zhàn)-在線瀏覽

mongodb入門實戰(zhàn)手冊-在線瀏覽

[計算機]junit4入門教程-在線瀏覽

[計算機]用戶實施手冊-在線瀏覽

[計算機]coreldraw學習手冊-在線瀏覽

[計算機]全陪手冊-在線瀏覽

[計算機]hp安全手冊-在線瀏覽

[計算機]安全實戰(zhàn)：配置安全windowsserver-在線瀏覽

[計算機]查詢引擎部分功能實戰(zhàn)展示-在線瀏覽

[計算機軟件及應用]visualbasic快速入門-在線瀏覽

[計算機]計算機配置-在線瀏覽

[it計算機]hadoop入門實戰(zhàn)手冊-文庫吧資料

[it計算機]hadoop入門實戰(zhàn)手冊-展示頁

[it計算機]hadoop入門實戰(zhàn)手冊-在線瀏覽

[it計算機]hadoop入門實戰(zhàn)手冊-閱讀頁

[it計算機]hadoop入門實戰(zhàn)手冊(文件)