freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

[工學(xué)]hadoop實(shí)戰(zhàn)手冊(cè)入門資料-文庫(kù)吧

2024-09-23 09:10 本頁(yè)面


【正文】 ......................... 41 其它日常問(wèn)題說(shuō)明 ............................................................................................ 43 datanode啟動(dòng)失敗,各 slave節(jié)點(diǎn)的 namespaceIDs與 masters不同 .............. 43 taskTracker和 jobTracker 啟動(dòng)失敗 ............................................................. 44 Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES。 bailingout... 45 Too many fetchfailures .............................................................................. 45 能夠啟動(dòng) datanode,但無(wú)法訪問(wèn),也無(wú)法結(jié)束的錯(cuò)誤 ................................. 45 : Could not obtain block: ............................................... 46 : Java heap space ......................................... 46 解決 hadoop OutOfMemoryError問(wèn)題: ....................................................... 46 Hadoop : ...................................................................... 46 防火墻的端口開(kāi)放要求 ..................................................................................... 47 與 HDFS有關(guān)的地址及端口屬性 ................................................................... 47 與 MapReduce 有關(guān)的地址及端口屬性 ........................................................ 48 8 附錄 ....................................................................................................................... 49 hadoop歷史 ...................................................................................................... 49 Hadoop大記事 .................................................................................................. 50 Hadoop的幾個(gè)主要子項(xiàng)目 ................................................................................ 51 官方集群搭建參考 ............................................................................................ 51 配置文件 ..................................................................................................... 51 集群配置說(shuō)明 .............................................................................................. 52 北京寬連十方數(shù)字技術(shù)有限公司 公開(kāi) 內(nèi)部公開(kāi) √ 機(jī)密 絕密 1 概述 作 什么 事情 之前,第一步是要知道 What(是什么),然后是 Why(為什么),最后才是 How(怎么做)。 避免 將技術(shù)誤用于不適合的場(chǎng)景 ,這一點(diǎn)非常重要 。 什么是 Hadoop? Hadoop 由 Apache Software Foundation 公司于 2020 年秋天作 為 Lucene 的子項(xiàng)目 Nutch 的一部分正式引入。它受到最先由 Google Lab 開(kāi)發(fā)的 MapReduce 和 Google File System 的啟發(fā)。 2020 年 3 月份, MapReduce 和 Nutch Distributed File System (NDFS) 分別被納入稱為 Hadoop 的項(xiàng)目中。 Hadoop 并不僅僅是一個(gè)用于存儲(chǔ)的分布式文件系統(tǒng),而是設(shè)計(jì)用來(lái) 在由通用計(jì)算設(shè)備組成的大型集群上執(zhí)行分布式應(yīng)用的 基礎(chǔ) 框架 。 它 由 Apache 基金會(huì)開(kāi)發(fā)。用戶可以在不了解分布式底層 細(xì)節(jié)的情況下,開(kāi)發(fā)分布式程序。充分利用集群的威力高速運(yùn)算和存儲(chǔ)。簡(jiǎn)單地說(shuō)來(lái), Hadoop 是一個(gè)可以更容易開(kāi)發(fā)和運(yùn)行處理大規(guī)模數(shù)據(jù)的軟件平臺(tái)。 下圖是 Hadoop 的體系結(jié)構(gòu): Hadoop框架中最核心的設(shè)計(jì)就是: MapReduce和 HDFS。 1) MapReduce的思想是由 Google的一篇論文所提及而被廣為流 傳的,簡(jiǎn)單的一句話解釋MapReduce就是 “任務(wù)的分解與結(jié)果的匯總 ”。 2) HDFS是 Hadoop分布式文件系統(tǒng)( Hadoop Distributed File System)的縮寫,為分布式計(jì)算存儲(chǔ)提供了底層支持。 為什么要選擇 Hadoop? 系統(tǒng)特點(diǎn) 下面列舉 hadoop 主要的一些特點(diǎn): 1) 擴(kuò)容能力( Scalable):能可靠地( reliably)存儲(chǔ)和處理千兆字節(jié)( PB)數(shù)據(jù)。 北京寬連十方數(shù)字技術(shù)有限公司 公開(kāi) 內(nèi)部公開(kāi) √ 機(jī)密 絕密 2) 成本低( Economical):可以通過(guò)普通機(jī)器組成的服務(wù)器群來(lái)分發(fā)以及處理數(shù)據(jù)。這些服務(wù)器群總計(jì)可達(dá)數(shù)千個(gè)節(jié)點(diǎn)。 3) 高效率( Efficient):通過(guò)分發(fā)數(shù)據(jù), hadoop 可以在數(shù)據(jù)所在的節(jié)點(diǎn)上并行地( parallel)處理它們,這使得處理非常的快速。 4) 可靠性( Reliable): hadoop 能自動(dòng)地維護(hù)數(shù)據(jù)的多份復(fù)制,并且在任務(wù)失敗后能自動(dòng)地重新部署( redeploy)計(jì)算任務(wù)。 使用場(chǎng)景 個(gè)人覺(jué)得最適合的就是海量數(shù)據(jù)的分析,其實(shí) Google最早提出 MapReduce也就是為了海量數(shù)據(jù)分析。同時(shí) HDFS最早是為了搜索引擎實(shí)現(xiàn)而開(kāi)發(fā)的,后來(lái)才被用于分布式計(jì)算框架中。海量數(shù)據(jù)被分割于多個(gè)節(jié)點(diǎn),然后由每一個(gè)節(jié)點(diǎn)并行計(jì)算,將得出的結(jié)果歸 并到輸出。同時(shí)第一階段的輸出又可以作為下一階段計(jì)算的輸入,因此可以想象到一個(gè)樹狀結(jié)構(gòu)的分布式計(jì)算圖,在不同階段都有不同產(chǎn)出,同時(shí)并行和串行結(jié)合的計(jì)算也可以很好地在分布式集群的資源下得以高效的處理。 2 術(shù)語(yǔ) 1) Namenode: HDFS 采用 master/slave 架構(gòu)。一個(gè) HDFS 集群是由一個(gè) Namenode和一定數(shù)目的 Datanodes 組成。 Namenode 是一個(gè)中心服務(wù)器,負(fù)責(zé)管理文件系統(tǒng)的名字空間 (namespace)以及客戶端對(duì)文件的訪問(wèn) 。 Namenode 執(zhí)行文件系統(tǒng)的名字空間操作,比如打開(kāi)、關(guān)閉、重命 名文件或目錄。它也負(fù)責(zé)確定數(shù)據(jù)塊到具體Datanode 節(jié)點(diǎn)的映射 2) Datanode: 集群中的 Datanode 一般是一個(gè)節(jié)點(diǎn)一個(gè),負(fù)責(zé)管理它所在節(jié)點(diǎn)上的存儲(chǔ)。 HDFS 暴露了文件系統(tǒng)的名字空間,用戶能夠以文件的形式在上面存儲(chǔ)數(shù)據(jù)。從內(nèi)部看,一個(gè)文件其實(shí)被分成一個(gè)或多個(gè)數(shù)據(jù)塊,這些塊存儲(chǔ)在一組 Datanode上 。 Datanode 負(fù)責(zé)處理文件系統(tǒng)客戶端的讀寫請(qǐng)求。在 Namenode 的統(tǒng)一調(diào)度下進(jìn)行數(shù)據(jù)塊的創(chuàng)建、刪除和復(fù)制。 3) Secondnamenode: 光從字面上來(lái)理解,很容易讓一些初學(xué)者先入為主的認(rèn)為:SecondaryNameNode( snn)就是 NameNode( nn)的熱備進(jìn)程。其實(shí)不是。 snn 是HDFS 架構(gòu)中的一個(gè)組成部分,但是經(jīng)常由于名字而被人誤解它真正的用途,其實(shí)它真正的用途,是用來(lái)保存 namenode 中對(duì) HDFS metadata 的信息的備份,并減少namenode 重啟的時(shí)間 。 4) Jobtracker 和 Tasktracher: JobTracker 是 MapReduce 框架中最主要的類之一,所有 job 的執(zhí)行都由它來(lái)調(diào)度,而且 Hadoop 系統(tǒng)中只配置一個(gè) JobTracker 應(yīng)用 。 它們都是由一個(gè) master 服務(wù) JobTracker 和多個(gè)運(yùn)行于多個(gè)節(jié)點(diǎn)的slaver 服務(wù) TaskTracker 兩個(gè)類提供的服務(wù)調(diào)度的。 master 負(fù)責(zé)調(diào)度job 的每一個(gè)子任務(wù) task 運(yùn)行于 slave 上,并監(jiān)控它們,如果發(fā)現(xiàn)有失敗的 task 就重新運(yùn)行它, slave 則負(fù)責(zé)直接執(zhí)行每一個(gè) task。 北京寬連十方數(shù)字技術(shù)有限公司 公開(kāi) 內(nèi)部公開(kāi) √ 機(jī)密 絕密 TaskTracker 都需要運(yùn)行在 HDFS 的 DataNode 上,而 JobTracker 則不需要,一般情況應(yīng)該把 JobTracker 部署在單獨(dú)的機(jī)器上。 3 Hadoop的 單機(jī) 部署 參考:forms 目的 本章節(jié) 的目的是幫助你快速完成單機(jī)上的 Hadoop 安裝與使用以便你對(duì) Hadoop 分布式文件系統(tǒng) (HDFS)和 MapReduce 框架有所體會(huì),比如在 HDFS 上運(yùn)行示例程序或簡(jiǎn)單作業(yè)等。 先決條件 支持平臺(tái) 1) GNU/Linux 是產(chǎn)品開(kāi)發(fā)和運(yùn)行的平臺(tái)。 Hadoop 已在有 2020 個(gè)節(jié)點(diǎn)的 GNU/Linux主機(jī)組成的集群系統(tǒng)上得到驗(yàn)證。 2) Win32 平臺(tái)是作為 開(kāi)發(fā)平臺(tái) 支持的。由于分布式操作尚未在 Win32 平臺(tái)上充分測(cè)試,所以還不作為一個(gè) 生產(chǎn)平臺(tái) 被支持。 所需軟件 Linux和 Windows 所需軟件包括 : 1. Sun ,必須安裝。 2. ssh 必須安裝并且保證 sshd 一直運(yùn)行,以便用 Hadoop 腳本管理遠(yuǎn)端 Hadoop 守護(hù)進(jìn)程。 安裝軟件 如果你的集群尚未安裝所需軟件,你得首先安裝它們。 以 Linux為例 : $ sudo aptget install ssh $ sudo aptget install rsync 北京寬連十方數(shù)字技術(shù)有限公司 公開(kāi) 內(nèi)部公開(kāi) √ 機(jī)密 絕密 下載 為了獲取 Hadoop 的發(fā)行版,從 Apache 的某個(gè)鏡像服務(wù)器上下載最近的 穩(wěn)定發(fā)行版 。 下載地址: 運(yùn)行 Hadoop集群的準(zhǔn)備工作 解壓所下載的 Hadoop 發(fā)行版。編輯 conf/,至少需要將 JAVA_HOME設(shè)置為 Java 安裝根路徑。 嘗試如下命令: $ bin/hadoop 將會(huì)顯示 hadoop 腳本的使用文檔。 現(xiàn)在你可以用以下三種支持的模式中的一種啟動(dòng) Hadoop 集群: ? 單機(jī)模式 ? 偽分布式模式 ? 完全分布式模式 單機(jī)模式的操作方法 默認(rèn)情況下, Hadoop 被配置成以非分布式模式運(yùn)行的一個(gè)獨(dú)立 Java 進(jìn)程。這對(duì)調(diào)試非常有幫助。 下面的實(shí)例將已解壓的 conf 目錄拷貝作為輸入,查找并顯示匹配給定正則表達(dá)式的條目。輸出寫入到指定的 output 目錄。 $ mkdir input $ cp conf/*.xml input $ bin/hadoop jar grep input output 39。dfs[az.]+39。 $ cat output/* 注:語(yǔ)法不理解沒(méi)關(guān)系看下面進(jìn)一步說(shuō)明 顯示結(jié)果 1 dfsadmin 北京寬連十方數(shù)字技術(shù)有限公司 公開(kāi) 內(nèi)部公開(kāi) √ 機(jī)密 絕密 偽分布式模式的操作方法 Hadoop 可以在單節(jié)點(diǎn)上以所謂的偽分布式模式運(yùn)行,此時(shí)每一個(gè) Hadoop 守護(hù)進(jìn)程都作為一個(gè)獨(dú)立的 Java 進(jìn)程運(yùn)行。 配置 注: 以前的版本 是 ,可 hadoop 在 版本,配置文件由以前的 ,hdfs ,.內(nèi)在的原因是因?yàn)?hadoop 代碼量越來(lái)越寵大,拆解成三個(gè)大的分支進(jìn)行獨(dú)立開(kāi)發(fā),配置文件也獨(dú)立了 conf/: configuration property name
點(diǎn)擊復(fù)制文檔內(nèi)容
畢業(yè)設(shè)計(jì)相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1