freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

云計算分布式大數(shù)據(jù)hadoop深入淺出案例驅(qū)動實戰(zhàn)(編輯修改稿)

2025-03-08 14:28 本頁面
 

【文章內(nèi)容簡介】 原始結(jié)構(gòu)化數(shù)據(jù)變成 Hive中的表 ? 支持一種不 SQL幾乎完全相同的語言 HiveQL。除了丌支持更新、索引和事務(wù),幾乎 SQL的其它特征都能支持 ? 可以看成是從 SQL到 MapReduce的映射器 ? 提供 shell、 JDBC/ODBC、 Thrift、 Web等接口 Zookeeper ? Google Chubby的開源實現(xiàn) ? 用亍協(xié)調(diào)分布式系統(tǒng)上的各種服務(wù)。例如確認(rèn)消息是否準(zhǔn)確到達(dá),防止單點(diǎn)失效,處理負(fù)載均衡等 ? 應(yīng)用場景: Hbase,實現(xiàn)Namenode自勱切換 ? 工作原理:領(lǐng)導(dǎo)者,跟隨者以及選丼過程 Sqoop ? 用亍在 Hadoop和關(guān)系型數(shù)據(jù)庫乊間交換數(shù)據(jù) ? 通過 JDBC接口連入關(guān)系型數(shù)據(jù)庫 Avro ? 數(shù)據(jù)序列化工具,由 Hadoop的創(chuàng)始人 Doug Cutting主持開發(fā) ? 用亍支持大批量數(shù)據(jù)交換的應(yīng)用。支持二進(jìn)制序列化方式,可以便捷,快速地處理大量數(shù)據(jù) ? 勱態(tài)語言友好, Avro提供的機(jī)制使勱態(tài)語言可以方便地處理 Avro數(shù)據(jù)。 ? Thrift接口 Chukwa ? 架構(gòu)在 Hadoop乊上的數(shù)據(jù)采集不分析框架 ? 主要進(jìn)行日志采集和分析 ? 通過安裝在收集節(jié)點(diǎn)的 “ 代理 ” 采集最原始的日志數(shù)據(jù) ? 代理將數(shù)據(jù)發(fā)給收集器 ? 收集器定時將數(shù)據(jù)寫入 Hadoop集群 ? 指定定時啟勱的 MapReduce作業(yè)隊數(shù)據(jù)進(jìn)行加工處理和分析 ? Hadoop基礎(chǔ)管理中心( HICC)最終展示數(shù)據(jù) Cassandra ? NoSQL,分布式的 KeyValue型數(shù)據(jù)庫,由 Facebook貢獻(xiàn) ? 不 Hbase類似,也是借鑒 Google Bigtable的思想體系 ? 只有順序?qū)?,沒有隨機(jī)寫的設(shè)計,滿足高負(fù)荷情形的性能需求 Hadoop特點(diǎn) 可擴(kuò)展 經(jīng)濟(jì) A B 高效 D 可靠 C 可架設(shè)于任何 pc機(jī)上 分布式文件系統(tǒng)的高效數(shù)據(jù)交互實現(xiàn)以及MapReduce結(jié)合 Local Data處理的模式,為高效處理海量的信息作了基礎(chǔ)準(zhǔn)備 不論是存儲的可擴(kuò)展性還是計算的可擴(kuò)展行,都是Hadoop的根本 分布式文件系統(tǒng)的備份恢復(fù)機(jī)制以及MapReduce的任務(wù)監(jiān)控保證了分布式處理的可靠性 基礎(chǔ)架構(gòu) 子系統(tǒng)位置 Hadoop應(yīng)用案例 國內(nèi)應(yīng)用情況 案例 1:淘寶 每日新增數(shù)據(jù) 20T 累積數(shù)據(jù) 14P 2023+服務(wù)器的于計算平臺 每天處理 100,000+作業(yè)任務(wù) ,包括 100+新增作業(yè)任務(wù) 每天處理 1P+數(shù)據(jù), 包括 %新增數(shù)據(jù) 數(shù)據(jù)規(guī)模 雙十一 191億 背后的開源技術(shù) ? 支付寶核心數(shù)據(jù)庫集群處理了 41億個事務(wù) 執(zhí)行 285億次 SQL 訪問 1931億次內(nèi)存數(shù)據(jù)塊 13億個物理讀 生成 15TB日志 雙十一 淘寶數(shù)據(jù)平臺 ——產(chǎn)品架構(gòu) 數(shù)據(jù)應(yīng)用開發(fā)平臺 ——數(shù)據(jù)工場 底層平臺 數(shù)據(jù)開發(fā)平臺 數(shù)據(jù)應(yīng)用 報表需求 (淘數(shù)據(jù) ) 即席查詢 (adhoc) 數(shù)據(jù)分析 數(shù)據(jù)挖掘 數(shù)據(jù)產(chǎn)品 Data Integration DB sync TT Hive Hadoop Map Reduce Hadoop HDFS Datax 報表需求 淘數(shù)據(jù)Hbase 即席查詢 數(shù)據(jù)分析 數(shù)據(jù)挖掘 數(shù)據(jù)產(chǎn)品實時計算 案例 2:暴風(fēng)影音 ?每天處理日志 ,20億行。 ?存儲設(shè)計容量 200TB ?對外提供 產(chǎn)品分析 ,廣告分析 ,用戶分析 服務(wù)。 ?每天處理任務(wù)上千個 jobs 應(yīng)用領(lǐng)域 ? 搜索 ? 社交 ? 游戲 ? 視頻 ? 電信 ? 醫(yī)療 ? 交通 ? 公安 ? 航空 ? 電力 ? 金融 HDFS介紹 HDFS定義 ? HDFS 是 Google GFS 的開源版本,一個高度容錯的分布式文件系統(tǒng),它能夠提供高吞吐量的數(shù)據(jù)訪問,適合存儲海量( PB 級)大文件(通常超過 64M)。 HDFS設(shè)計基礎(chǔ)與目標(biāo) ? 硬件錯誤是常態(tài),需要冗余。 ? 流式數(shù)據(jù)訪問。即數(shù)據(jù)批量讀取而非隨機(jī)讀寫, Hadoop擅長做數(shù)據(jù)分析而不是數(shù)據(jù)處理。 ? 大規(guī)模數(shù)據(jù)集 ? 簡單一致性模型。 ? 程序采用 ―數(shù)據(jù)就近 ‖原則分配節(jié)點(diǎn)執(zhí)行。 HDFS不適合場景 1 低延遲數(shù)據(jù)訪問 HDFS是為了達(dá)到高數(shù)據(jù)吞吐量而優(yōu)化的,這是以延遲為代價的,對于低延遲訪問,可以用Hbase( hadoop的子項目)。 2 大量的小文件 3 多用戶寫入 任意修改 HDFS架構(gòu) 在 Hadoop中,一個文件被劃分成大小固定的多個文件塊,分布的存儲在集群中的節(jié)點(diǎn)中。 111 HDFS架構(gòu) 同一個 文件塊 在不同的節(jié)點(diǎn)中有多個 副本 1 1 1 HDFS架構(gòu) 我們需要一個集中的地方保存文件的分塊信息 /home/hdfs/,3,(dn1,dn2,dn3) /home/hdfs/,3,(dn2,dn3,dn4) /home/hdfs/,3,(dn6,dn11,dn28) … HDFS架構(gòu) HDFS架構(gòu) Block NameNode DataNode HA策略 一個文件分塊,默認(rèn)64M 用于存儲 Blocks 保存整個文件系統(tǒng)的目錄信息,文件信息以及文件相應(yīng)的分塊信息 NameNode一旦宕機(jī),整個文件系統(tǒng)將無法工作。如果NameNode中的數(shù)據(jù)丟失,整個文件系統(tǒng)也就丟失了。 115 HDFS體系結(jié)構(gòu) ? NameNode ? DataNode ? 事務(wù)日志 ? 映像文件 ? SecondaryNameNode 116 Namenode ? 管理文件系統(tǒng)的命名空間 ? 記錄每個文件數(shù)據(jù)塊在各個 Datanode上的位置和副本信息 ? 協(xié)調(diào)客戶端對文件的訪問 ? 記錄命名空間內(nèi)的改動或空間本身屬性的改動 ? Namenode使用事務(wù)日志記錄 HDFS元數(shù)據(jù)的變化。使用映像文件存儲文件系統(tǒng)的命名空間,包括文件映射,文件屬性等 Datanode ? 負(fù)責(zé)所在物理節(jié)點(diǎn)的存儲管理 ? 一次寫入,多次讀?。ú恍薷模? ? 文件由數(shù)據(jù)塊組成,典型的塊大小是 64MB ? 數(shù)據(jù)塊盡量散布道各個節(jié)點(diǎn) 讀取數(shù)據(jù)流程 HDFS文件操作 命令行 方式 API方式 HDFS基本操作 ? hadoop dfs –ls / ? hadoop dfs –mkidr /test ? hadoop dfs –get /filename ? hadoop dfs –put srcfile /desfile 列出 HDFS文件 hdusermaster:~$ hadoop dfs ls / 注意: hadoop沒有當(dāng)前目錄的概念,也沒有 cd命令 。 上傳文件到 HDFS ? hdusermaster:~$ hadoop dfs put /home/hduser/ /app/hadoop/tmp/ ? hdusermaster:~$ hadoop dfs ls /app/hadoop/tmp/ 將 HDFS的文件復(fù)制到本地 ? hdusermaster:~$ hadoop dfs get /app/hadoop/tmp/ /home/hduser/ ? hdusermaster:~$ ll /home/hduser/ 刪除 HDFS下的文檔 ? hdusermaster:~$ hadoop dfs ls /app/hadoop/tmp/ ? hdusermaster:~$ hadoop dfs rmr /app/hadoop/tmp/ ? hdusermaster:~$ hadoop dfs ls /app/hadoop/tmp/ 查看文件內(nèi)容 ? hdusermaster:~$ hadoop dfs ls . ? hdusermaster:~$ hadoop dfs cat ./ 查看 HDFS基本統(tǒng)計信息 ? hdusermaster:~$ hadoop dfsadmin report 進(jìn)入和退出安全模式 ? hdusermaster:~$ hadoop dfsadmin safemode enter ? hdusermaster:~$ hadoop dfsadmin safemode leave 更多命令請參考《 》 節(jié)點(diǎn)添加 ? 在新節(jié)點(diǎn)安裝好 hadoop ? 把 namenode的有關(guān)配置文件復(fù)制到該節(jié)點(diǎn) ? 修改 masters和 slaves文件,增加該節(jié)點(diǎn) ? 設(shè)置 ssh免密碼進(jìn)出該節(jié)點(diǎn) ? 單獨(dú)啟動該節(jié)點(diǎn)上的 datanode和 tasktracker( start datanode/tasktracker) ? 運(yùn)行 啟動某些特定后臺進(jìn)程 hdusermaster:~$ 負(fù)載均衡 ? 當(dāng)節(jié)點(diǎn)出現(xiàn)故障,或新增加節(jié)點(diǎn)時,數(shù)據(jù)塊分布可能不均勻,負(fù)載均衡可以重新平衡各個 datanode上數(shù)據(jù)塊的分布。 – hdusermaster:~$ HDFS API Java調(diào)用 HDFS演示 ? hadoop jar /home/hduser/ /app/hadoop/tmp/(本地文件 ) /app/hadoop/tmp/output ? hadoop dfs ls /app/hadoop/tmp/ ? hadoop dfs cat /app/hadoop/tmp/output MapReduce MapReduce算法思想 ? MapReduce 主要反映了映射和規(guī)約兩個概念,分別完成映射操作和規(guī)約操作。 MapReduce邏輯部署 MapReduce邏輯部署 ? Hadoop 主要由 HDFS( Hadoop Distributed File System)和 MapReduce 引擎兩部分組成。 ? 最底部是 HDFS,它存儲 Hadoop 集群中所有存儲節(jié)點(diǎn)上的文件。 ? HDFS 的上一層是 MapReduce 引擎,該引擎由 JobTrackers 和 TaskTrackers組成。 MapReduce運(yùn)行機(jī)制 Google MapReduce原理 2023/3/8 (
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1