freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

hadoop分布式大數(shù)據(jù)系統(tǒng)-全文預覽

2025-03-25 10:53 上一頁面

下一頁面
  

【正文】 doop系統(tǒng)對應的分布式文件系統(tǒng)為 HDFS。 * MapReduce的特點 ? MapReduce主要具有以下幾個 特點 : ( 1)需要在集群條件下使用 。 * LISP中的 MapReduce ? 下面的 LISP語句定義的這個 Reduce操作是將向量( 1 2 3 4 5 6 7 8 9 10)中的元素進行求和的 Reduce操作 ,輸出結(jié)果為 55。 江蘇省, 89 浙江省, 89 山東省, 88 表 Reduce Output數(shù)據(jù) * LISP中的 MapReduce ? 為了進一步理解 MapReduce,我們簡單介紹最早使用 Map和Reduce的 LISP語言中的 Map和 Reduce操作。 Key:南京大學 Value: {江蘇省, 90} Key:東南大學 Value: {江蘇省, 93} Key:河海大學 Value: {江蘇省, 84} Key:浙江大學 Value: {浙江省, 95} Key:浙江工業(yè)大學 Value: {浙江省, 84} Key:寧波大學 Value: {浙江省, 88} Key:山東大學 Value: {山東省, 92} Key:中國海洋大學 Value: {山東省, 85} Key:青島大學 Value: {山東省, 87} 表 Map Input數(shù)據(jù) * MapReduce的基本工作過程 2. Map Output: 所屬省份,平均分數(shù) — 對所屬省份平均分數(shù)進行重分組,去除高校名稱,將所屬省份變?yōu)?Key,平均分數(shù)變?yōu)?Value,如表 。 江蘇省, 90 江蘇省, 93 江蘇省, 84 浙江省, 95 浙江省, 84 浙江省, 88 山東省, 92 山東省, 85 山東省, 87 表 略去高校名稱后的比賽成績 ? 接下來對各個省份的高校的成績進行匯總,如表 。 * MapReduce的基本工作過程 ? 下面我們通過一個 簡單例子 來講解 MapReduce的基本原理 。 * MapReduce的基本工作過程 ? MapReduce的過程其實非常簡單,我們用一個實際的例子來說明MapReduce的編程模型。 ? Hadoop跟進了 Google的這一思想,可以認為 Hadoop是一個開源版本的 Google系統(tǒng),正是由于 Hadoop的跟進才使普通用戶得以開發(fā)自己的基于 MapReduce框架的云計算應用系統(tǒng)。 — 1960年, McCarthy更是極有預見性地提出:“今后計算機將會作為公共設施提供給公眾”,這一觀點已與現(xiàn)在人們對云計算的定義極為相近了,所以我們把McCarthy稱為“云計算之父”。 MapReduce是 Google系統(tǒng)和 Hadoop系統(tǒng)中的一項核心技術。 * HDFS的存儲過程 ?HDFS的副本策略: ? HDFS對數(shù)據(jù)塊典型的副本策略為 3個副本, — 第一個副本存放在本地節(jié)點, — 第二個副本存放在同一個機架的另一個節(jié)點, — 第三個本副本存放在不同機架上的另一個節(jié)點。 * HDFS的存儲過程 ? HDFS在對一個文件進行存儲時有兩個重要的策略 :一個是 副本策略 ,一個是 分塊策略 。 — 整個文件系統(tǒng)采用標準 TCP/IP協(xié)議通信,實際是架設在 Linux文件系統(tǒng)上的一個上層文件系統(tǒng)。 ? HDFS中的 Datanode用于實際對數(shù)據(jù)的存放,對 Datanode上數(shù)據(jù)的訪問并不通過 Namemode,而是與用戶直接建立數(shù)據(jù)通信。 * HDFS文件的基本結(jié)構(gòu) ? HDFS是一種 典型 的 主從式的分布式文件系統(tǒng) ,該文件系統(tǒng)完全是仿照Google的 GFS文件系統(tǒng)而設計的, HDFS的架構(gòu)如圖 。 ( 2)對大文件數(shù)據(jù)快速存取,這個毫無疑問是可以達到的。 Google每天有大量的硬盤損壞,但是由于有 GFS,這些硬盤的損壞是允許的。操作日志的引入可以更簡單、更可靠地更新 Master的信息。 Client在一段限定的時間內(nèi)將這些信息緩存,在后續(xù)的操作中客戶端直接和 chunkserver交互。 * HDFS文件系統(tǒng)的原型 GFS ? 通常 Client可以在一個請求中詢問多個 chunk的地址,而Master也可以很快回應這些請求。 Handle是由Master在塊創(chuàng)建時分配的。 ( 2) Master收到客戶端發(fā)來的請求, Master向塊服務器發(fā)出指示,同時時刻監(jiān)控眾多 chunkserver的狀態(tài)。作為谷歌“三寶”的其中之一, GFS的技術優(yōu)勢不言而喻。 ? 它運行于廉價的普通硬件上,但可以提供容錯功能。 * HDFS ? Hadoop系統(tǒng)實現(xiàn)對大數(shù)據(jù)的自動并行處理,是一種數(shù)據(jù)并行方法,這種方法實現(xiàn)自動并行處理時需要對數(shù)據(jù)進行劃分,而對數(shù)據(jù)的劃分在 Hadoop系統(tǒng)中從數(shù)據(jù)的存儲就開始了,因此文件系統(tǒng)是 Hadoop系統(tǒng)的重要組成部分,也是 Hadoop實現(xiàn)自動并行框架的基礎。 圖 Hadoop本版發(fā)展路線 * Hadoop概述 ? Hadoop與 MPI在數(shù)據(jù)處理上的 差異 主要體現(xiàn)在數(shù)據(jù)存儲與數(shù)據(jù)處理在系統(tǒng)中位置不同, MPI是計算與存儲分離, Hadoop是計算向存儲遷移,如圖 。 ? 目前 Hadoop的 核心模塊 包括 系統(tǒng) HDFS( Hadoop Distributed File System, Hadoop分布式文件系統(tǒng))和 分布式計算框架 MapReduce,這一結(jié)構(gòu)實現(xiàn)了 計算和存儲的高度耦合 ,十分有利于 面向數(shù)據(jù) 的系統(tǒng)架構(gòu),因此已成為大數(shù)據(jù)技術領域的事實標準。 ? Hadoop采用 Java語言開發(fā) ,是對 Google的 MapReduce核心技術的開源實現(xiàn)。 ? 第一代 Hadoop包含 、 、 , 成了 ,第二代 Hadoop包含 , NameNode HA和 Wirepatibility兩個特性,版本發(fā)展如圖 。 * Hadoop概述 ? 在 Hadoop中由于有 HDFS文件系統(tǒng)的支持,數(shù)據(jù)是分布式存儲在各個節(jié)點的,計算時各節(jié)點讀取存儲在自己節(jié)點的數(shù)據(jù)進行處理,從而避免了大量數(shù)據(jù)在網(wǎng)絡上的傳遞,實現(xiàn)“計算向存儲的遷移”。 ? Google文件系統(tǒng)是一個可擴展的分布式文件系統(tǒng),用于對大量數(shù)據(jù)進行訪問的大型、分布式應用。 ? 谷歌“三寶” 是“ Google文件系統(tǒng) ”、“ BigTable大表 ”、“ MapReduce算法 ”,有了自己的文件系統(tǒng),谷歌就可以有效地組織龐大的數(shù)據(jù)、服務器和存儲,并用它們工作。 ( 1)客戶端使用固定大小的塊將應用程序指定的文件名和字節(jié)偏移轉(zhuǎn)換成文件的一個塊索引,向 Master發(fā)送包含文件名和塊索引的請求。其中文件被分成若干個塊,而每個塊都是由一個不變的、全局惟一的 64位的 chunkhandle標識。 ( 5)客戶端從 chunkserver獲得塊數(shù)據(jù),任務完成。客戶端只是詢問 Master它應該和哪個 chunkserver聯(lián)系。所有的metadata都放在內(nèi)存中。即使 Master癱瘓,也會有 Shadow作為替補,并且 Shadow在一定時候也會充當 Master來提供控制和數(shù)據(jù)交換。 * HDFS文件系統(tǒng)的原型 GFS ?當然, 作為 Google的技術基石, GFS可以給大量的用戶提供總體性能較高的服務, 具有以下優(yōu)勢 : ( 1) Google采用的存儲方法是大量、分散的普通廉價服務器的存儲方式,極大降低了成本。 ( 6) GFS相對于 HDFS穩(wěn)定性是無庸置疑的,并在 Google系統(tǒng)中得到了采用且穩(wěn)定的運行。 Namenode的作用就像是文件系統(tǒng)的總指揮,并向訪問文件系統(tǒng)的客戶機提供文件系統(tǒng)的映射,這種做法并不是 Google或 Hadoop的創(chuàng)新,這和傳統(tǒng)并行計算系統(tǒng)中的單一系統(tǒng)映像( Single System Image)的做法相同。Namenode同時存儲相關的元數(shù)據(jù)。有些改進的主從式架構(gòu)可能會采用分層的主從式方法,以減輕主節(jié)點的負荷。 ? HDFS采用 64MB這樣較大的文件 分塊策略 有以下 3個 優(yōu)點 : — ( 1)降低客戶端與主服務器的交互代價; — ( 2)降低網(wǎng)絡負載; — ( 3)減少主服務器中元數(shù)據(jù)的大小。 * MapReduce編程框架 ? 在云計算和大數(shù)據(jù)技術領域被廣泛提到并被成功應用的一項技術就是 MapReduce。 — LISP是一種表處理語言,其邏輯簡單但結(jié)構(gòu)不同于其他的高級語言。 ? 可以認為分布式 MapRe
點擊復制文檔內(nèi)容
醫(yī)療健康相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1