freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

[工學(xué)]hadoop實戰(zhàn)手冊入門資料-文庫吧

2025-09-09 09:10 本頁面


【正文】 ......................... 41 其它日常問題說明 ............................................................................................ 43 datanode啟動失敗,各 slave節(jié)點的 namespaceIDs與 masters不同 .............. 43 taskTracker和 jobTracker 啟動失敗 ............................................................. 44 Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES。 bailingout... 45 Too many fetchfailures .............................................................................. 45 能夠啟動 datanode,但無法訪問,也無法結(jié)束的錯誤 ................................. 45 : Could not obtain block: ............................................... 46 : Java heap space ......................................... 46 解決 hadoop OutOfMemoryError問題: ....................................................... 46 Hadoop : ...................................................................... 46 防火墻的端口開放要求 ..................................................................................... 47 與 HDFS有關(guān)的地址及端口屬性 ................................................................... 47 與 MapReduce 有關(guān)的地址及端口屬性 ........................................................ 48 8 附錄 ....................................................................................................................... 49 hadoop歷史 ...................................................................................................... 49 Hadoop大記事 .................................................................................................. 50 Hadoop的幾個主要子項目 ................................................................................ 51 官方集群搭建參考 ............................................................................................ 51 配置文件 ..................................................................................................... 51 集群配置說明 .............................................................................................. 52 北京寬連十方數(shù)字技術(shù)有限公司 公開 內(nèi)部公開 √ 機密 絕密 1 概述 作 什么 事情 之前,第一步是要知道 What(是什么),然后是 Why(為什么),最后才是 How(怎么做)。 避免 將技術(shù)誤用于不適合的場景 ,這一點非常重要 。 什么是 Hadoop? Hadoop 由 Apache Software Foundation 公司于 2020 年秋天作 為 Lucene 的子項目 Nutch 的一部分正式引入。它受到最先由 Google Lab 開發(fā)的 MapReduce 和 Google File System 的啟發(fā)。 2020 年 3 月份, MapReduce 和 Nutch Distributed File System (NDFS) 分別被納入稱為 Hadoop 的項目中。 Hadoop 并不僅僅是一個用于存儲的分布式文件系統(tǒng),而是設(shè)計用來 在由通用計算設(shè)備組成的大型集群上執(zhí)行分布式應(yīng)用的 基礎(chǔ) 框架 。 它 由 Apache 基金會開發(fā)。用戶可以在不了解分布式底層 細(xì)節(jié)的情況下,開發(fā)分布式程序。充分利用集群的威力高速運算和存儲。簡單地說來, Hadoop 是一個可以更容易開發(fā)和運行處理大規(guī)模數(shù)據(jù)的軟件平臺。 下圖是 Hadoop 的體系結(jié)構(gòu): Hadoop框架中最核心的設(shè)計就是: MapReduce和 HDFS。 1) MapReduce的思想是由 Google的一篇論文所提及而被廣為流 傳的,簡單的一句話解釋MapReduce就是 “任務(wù)的分解與結(jié)果的匯總 ”。 2) HDFS是 Hadoop分布式文件系統(tǒng)( Hadoop Distributed File System)的縮寫,為分布式計算存儲提供了底層支持。 為什么要選擇 Hadoop? 系統(tǒng)特點 下面列舉 hadoop 主要的一些特點: 1) 擴(kuò)容能力( Scalable):能可靠地( reliably)存儲和處理千兆字節(jié)( PB)數(shù)據(jù)。 北京寬連十方數(shù)字技術(shù)有限公司 公開 內(nèi)部公開 √ 機密 絕密 2) 成本低( Economical):可以通過普通機器組成的服務(wù)器群來分發(fā)以及處理數(shù)據(jù)。這些服務(wù)器群總計可達(dá)數(shù)千個節(jié)點。 3) 高效率( Efficient):通過分發(fā)數(shù)據(jù), hadoop 可以在數(shù)據(jù)所在的節(jié)點上并行地( parallel)處理它們,這使得處理非常的快速。 4) 可靠性( Reliable): hadoop 能自動地維護(hù)數(shù)據(jù)的多份復(fù)制,并且在任務(wù)失敗后能自動地重新部署( redeploy)計算任務(wù)。 使用場景 個人覺得最適合的就是海量數(shù)據(jù)的分析,其實 Google最早提出 MapReduce也就是為了海量數(shù)據(jù)分析。同時 HDFS最早是為了搜索引擎實現(xiàn)而開發(fā)的,后來才被用于分布式計算框架中。海量數(shù)據(jù)被分割于多個節(jié)點,然后由每一個節(jié)點并行計算,將得出的結(jié)果歸 并到輸出。同時第一階段的輸出又可以作為下一階段計算的輸入,因此可以想象到一個樹狀結(jié)構(gòu)的分布式計算圖,在不同階段都有不同產(chǎn)出,同時并行和串行結(jié)合的計算也可以很好地在分布式集群的資源下得以高效的處理。 2 術(shù)語 1) Namenode: HDFS 采用 master/slave 架構(gòu)。一個 HDFS 集群是由一個 Namenode和一定數(shù)目的 Datanodes 組成。 Namenode 是一個中心服務(wù)器,負(fù)責(zé)管理文件系統(tǒng)的名字空間 (namespace)以及客戶端對文件的訪問 。 Namenode 執(zhí)行文件系統(tǒng)的名字空間操作,比如打開、關(guān)閉、重命 名文件或目錄。它也負(fù)責(zé)確定數(shù)據(jù)塊到具體Datanode 節(jié)點的映射 2) Datanode: 集群中的 Datanode 一般是一個節(jié)點一個,負(fù)責(zé)管理它所在節(jié)點上的存儲。 HDFS 暴露了文件系統(tǒng)的名字空間,用戶能夠以文件的形式在上面存儲數(shù)據(jù)。從內(nèi)部看,一個文件其實被分成一個或多個數(shù)據(jù)塊,這些塊存儲在一組 Datanode上 。 Datanode 負(fù)責(zé)處理文件系統(tǒng)客戶端的讀寫請求。在 Namenode 的統(tǒng)一調(diào)度下進(jìn)行數(shù)據(jù)塊的創(chuàng)建、刪除和復(fù)制。 3) Secondnamenode: 光從字面上來理解,很容易讓一些初學(xué)者先入為主的認(rèn)為:SecondaryNameNode( snn)就是 NameNode( nn)的熱備進(jìn)程。其實不是。 snn 是HDFS 架構(gòu)中的一個組成部分,但是經(jīng)常由于名字而被人誤解它真正的用途,其實它真正的用途,是用來保存 namenode 中對 HDFS metadata 的信息的備份,并減少namenode 重啟的時間 。 4) Jobtracker 和 Tasktracher: JobTracker 是 MapReduce 框架中最主要的類之一,所有 job 的執(zhí)行都由它來調(diào)度,而且 Hadoop 系統(tǒng)中只配置一個 JobTracker 應(yīng)用 。 它們都是由一個 master 服務(wù) JobTracker 和多個運行于多個節(jié)點的slaver 服務(wù) TaskTracker 兩個類提供的服務(wù)調(diào)度的。 master 負(fù)責(zé)調(diào)度job 的每一個子任務(wù) task 運行于 slave 上,并監(jiān)控它們,如果發(fā)現(xiàn)有失敗的 task 就重新運行它, slave 則負(fù)責(zé)直接執(zhí)行每一個 task。 北京寬連十方數(shù)字技術(shù)有限公司 公開 內(nèi)部公開 √ 機密 絕密 TaskTracker 都需要運行在 HDFS 的 DataNode 上,而 JobTracker 則不需要,一般情況應(yīng)該把 JobTracker 部署在單獨的機器上。 3 Hadoop的 單機 部署 參考:forms 目的 本章節(jié) 的目的是幫助你快速完成單機上的 Hadoop 安裝與使用以便你對 Hadoop 分布式文件系統(tǒng) (HDFS)和 MapReduce 框架有所體會,比如在 HDFS 上運行示例程序或簡單作業(yè)等。 先決條件 支持平臺 1) GNU/Linux 是產(chǎn)品開發(fā)和運行的平臺。 Hadoop 已在有 2020 個節(jié)點的 GNU/Linux主機組成的集群系統(tǒng)上得到驗證。 2) Win32 平臺是作為 開發(fā)平臺 支持的。由于分布式操作尚未在 Win32 平臺上充分測試,所以還不作為一個 生產(chǎn)平臺 被支持。 所需軟件 Linux和 Windows 所需軟件包括 : 1. Sun ,必須安裝。 2. ssh 必須安裝并且保證 sshd 一直運行,以便用 Hadoop 腳本管理遠(yuǎn)端 Hadoop 守護(hù)進(jìn)程。 安裝軟件 如果你的集群尚未安裝所需軟件,你得首先安裝它們。 以 Linux為例 : $ sudo aptget install ssh $ sudo aptget install rsync 北京寬連十方數(shù)字技術(shù)有限公司 公開 內(nèi)部公開 √ 機密 絕密 下載 為了獲取 Hadoop 的發(fā)行版,從 Apache 的某個鏡像服務(wù)器上下載最近的 穩(wěn)定發(fā)行版 。 下載地址: 運行 Hadoop集群的準(zhǔn)備工作 解壓所下載的 Hadoop 發(fā)行版。編輯 conf/,至少需要將 JAVA_HOME設(shè)置為 Java 安裝根路徑。 嘗試如下命令: $ bin/hadoop 將會顯示 hadoop 腳本的使用文檔。 現(xiàn)在你可以用以下三種支持的模式中的一種啟動 Hadoop 集群: ? 單機模式 ? 偽分布式模式 ? 完全分布式模式 單機模式的操作方法 默認(rèn)情況下, Hadoop 被配置成以非分布式模式運行的一個獨立 Java 進(jìn)程。這對調(diào)試非常有幫助。 下面的實例將已解壓的 conf 目錄拷貝作為輸入,查找并顯示匹配給定正則表達(dá)式的條目。輸出寫入到指定的 output 目錄。 $ mkdir input $ cp conf/*.xml input $ bin/hadoop jar grep input output 39。dfs[az.]+39。 $ cat output/* 注:語法不理解沒關(guān)系看下面進(jìn)一步說明 顯示結(jié)果 1 dfsadmin 北京寬連十方數(shù)字技術(shù)有限公司 公開 內(nèi)部公開 √ 機密 絕密 偽分布式模式的操作方法 Hadoop 可以在單節(jié)點上以所謂的偽分布式模式運行,此時每一個 Hadoop 守護(hù)進(jìn)程都作為一個獨立的 Java 進(jìn)程運行。 配置 注: 以前的版本 是 ,可 hadoop 在 版本,配置文件由以前的 ,hdfs ,.內(nèi)在的原因是因為 hadoop 代碼量越來越寵大,拆解成三個大的分支進(jìn)行獨立開發(fā),配置文件也獨立了 conf/: configuration property name
點擊復(fù)制文檔內(nèi)容
畢業(yè)設(shè)計相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1