正文內(nèi)容

hadoop分布式大數(shù)據(jù)系統(tǒng)-全文預覽

2025-03-25 10:53 上一頁面

下一頁面

　　

【正文】 doop系統(tǒng)對應的分布式文件系統(tǒng)為 HDFS。 * MapReduce的特點 ? MapReduce主要具有以下幾個特點：（ 1）需要在集群條件下使用。 * LISP中的 MapReduce ? 下面的 LISP語句定義的這個 Reduce操作是將向量（ 1 2 3 4 5 6 7 8 9 10）中的元素進行求和的 Reduce操作 ,輸出結(jié)果為 55。江蘇省， 89 浙江省， 89 山東省， 88 表 Reduce Output數(shù)據(jù) * LISP中的 MapReduce ? 為了進一步理解 MapReduce，我們簡單介紹最早使用 Map和Reduce的 LISP語言中的 Map和 Reduce操作。 Key：南京大學 Value： {江蘇省， 90} Key：東南大學 Value： {江蘇省， 93} Key：河海大學 Value： {江蘇省， 84} Key：浙江大學 Value： {浙江省， 95} Key：浙江工業(yè)大學 Value： {浙江省， 84} Key：寧波大學 Value： {浙江省， 88} Key：山東大學 Value： {山東省， 92} Key：中國海洋大學 Value： {山東省， 85} Key：青島大學 Value： {山東省， 87} 表 Map Input數(shù)據(jù) * MapReduce的基本工作過程 2. Map Output：所屬省份，平均分數(shù) — 對所屬省份平均分數(shù)進行重分組，去除高校名稱，將所屬省份變?yōu)?Key，平均分數(shù)變?yōu)?Value，如表。江蘇省， 90 江蘇省， 93 江蘇省， 84 浙江省， 95 浙江省， 84 浙江省， 88 山東省， 92 山東省， 85 山東省， 87 表略去高校名稱后的比賽成績 ? 接下來對各個省份的高校的成績進行匯總，如表。 * MapReduce的基本工作過程 ? 下面我們通過一個簡單例子來講解 MapReduce的基本原理。 * MapReduce的基本工作過程 ? MapReduce的過程其實非常簡單，我們用一個實際的例子來說明MapReduce的編程模型。 ? Hadoop跟進了 Google的這一思想，可以認為 Hadoop是一個開源版本的 Google系統(tǒng)，正是由于 Hadoop的跟進才使普通用戶得以開發(fā)自己的基于 MapReduce框架的云計算應用系統(tǒng)。 — 1960年， McCarthy更是極有預見性地提出：“今后計算機將會作為公共設施提供給公眾”，這一觀點已與現(xiàn)在人們對云計算的定義極為相近了，所以我們把McCarthy稱為“云計算之父”。 MapReduce是 Google系統(tǒng)和 Hadoop系統(tǒng)中的一項核心技術。 * HDFS的存儲過程 ?HDFS的副本策略： ? HDFS對數(shù)據(jù)塊典型的副本策略為 3個副本， — 第一個副本存放在本地節(jié)點， — 第二個副本存放在同一個機架的另一個節(jié)點， — 第三個本副本存放在不同機架上的另一個節(jié)點。 * HDFS的存儲過程 ? HDFS在對一個文件進行存儲時有兩個重要的策略：一個是副本策略，一個是分塊策略。 — 整個文件系統(tǒng)采用標準 TCP/IP協(xié)議通信，實際是架設在 Linux文件系統(tǒng)上的一個上層文件系統(tǒng)。 ? HDFS中的 Datanode用于實際對數(shù)據(jù)的存放，對 Datanode上數(shù)據(jù)的訪問并不通過 Namemode，而是與用戶直接建立數(shù)據(jù)通信。 * HDFS文件的基本結(jié)構(gòu) ? HDFS是一種典型的主從式的分布式文件系統(tǒng) ，該文件系統(tǒng)完全是仿照Google的 GFS文件系統(tǒng)而設計的， HDFS的架構(gòu)如圖。（ 2）對大文件數(shù)據(jù)快速存取，這個毫無疑問是可以達到的。 Google每天有大量的硬盤損壞，但是由于有 GFS，這些硬盤的損壞是允許的。操作日志的引入可以更簡單、更可靠地更新 Master的信息。 Client在一段限定的時間內(nèi)將這些信息緩存，在后續(xù)的操作中客戶端直接和 chunkserver交互。 * HDFS文件系統(tǒng)的原型 GFS ? 通常 Client可以在一個請求中詢問多個 chunk的地址，而Master也可以很快回應這些請求。 Handle是由Master在塊創(chuàng)建時分配的。（ 2） Master收到客戶端發(fā)來的請求， Master向塊服務器發(fā)出指示，同時時刻監(jiān)控眾多 chunkserver的狀態(tài)。作為谷歌“三寶”的其中之一， GFS的技術優(yōu)勢不言而喻。 ? 它運行于廉價的普通硬件上，但可以提供容錯功能。 * HDFS ? Hadoop系統(tǒng)實現(xiàn)對大數(shù)據(jù)的自動并行處理，是一種數(shù)據(jù)并行方法，這種方法實現(xiàn)自動并行處理時需要對數(shù)據(jù)進行劃分，而對數(shù)據(jù)的劃分在 Hadoop系統(tǒng)中從數(shù)據(jù)的存儲就開始了，因此文件系統(tǒng)是 Hadoop系統(tǒng)的重要組成部分，也是 Hadoop實現(xiàn)自動并行框架的基礎。圖 Hadoop本版發(fā)展路線 * Hadoop概述 ? Hadoop與 MPI在數(shù)據(jù)處理上的差異主要體現(xiàn)在數(shù)據(jù)存儲與數(shù)據(jù)處理在系統(tǒng)中位置不同， MPI是計算與存儲分離， Hadoop是計算向存儲遷移，如圖。 ? 目前 Hadoop的核心模塊包括系統(tǒng) HDFS（ Hadoop Distributed File System， Hadoop分布式文件系統(tǒng)）和分布式計算框架 MapReduce，這一結(jié)構(gòu)實現(xiàn)了計算和存儲的高度耦合，十分有利于面向數(shù)據(jù) 的系統(tǒng)架構(gòu)，因此已成為大數(shù)據(jù)技術領域的事實標準。 ? Hadoop采用 Java語言開發(fā) ，是對 Google的 MapReduce核心技術的開源實現(xiàn)。 ? 第一代 Hadoop包含、、，成了，第二代 Hadoop包含， NameNode HA和 Wirepatibility兩個特性，版本發(fā)展如圖。 * Hadoop概述 ? 在 Hadoop中由于有 HDFS文件系統(tǒng)的支持，數(shù)據(jù)是分布式存儲在各個節(jié)點的，計算時各節(jié)點讀取存儲在自己節(jié)點的數(shù)據(jù)進行處理，從而避免了大量數(shù)據(jù)在網(wǎng)絡上的傳遞，實現(xiàn)“計算向存儲的遷移”。 ? Google文件系統(tǒng)是一個可擴展的分布式文件系統(tǒng)，用于對大量數(shù)據(jù)進行訪問的大型、分布式應用。 ? 谷歌“三寶” 是“ Google文件系統(tǒng) ”、“ BigTable大表 ”、“ MapReduce算法 ”，有了自己的文件系統(tǒng)，谷歌就可以有效地組織龐大的數(shù)據(jù)、服務器和存儲，并用它們工作。（ 1）客戶端使用固定大小的塊將應用程序指定的文件名和字節(jié)偏移轉(zhuǎn)換成文件的一個塊索引，向 Master發(fā)送包含文件名和塊索引的請求。其中文件被分成若干個塊，而每個塊都是由一個不變的、全局惟一的 64位的 chunkhandle標識。（ 5）客戶端從 chunkserver獲得塊數(shù)據(jù)，任務完成。客戶端只是詢問 Master它應該和哪個 chunkserver聯(lián)系。所有的metadata都放在內(nèi)存中。即使 Master癱瘓，也會有 Shadow作為替補，并且 Shadow在一定時候也會充當 Master來提供控制和數(shù)據(jù)交換。 * HDFS文件系統(tǒng)的原型 GFS ?當然，作為 Google的技術基石， GFS可以給大量的用戶提供總體性能較高的服務，具有以下優(yōu)勢 : （ 1） Google采用的存儲方法是大量、分散的普通廉價服務器的存儲方式，極大降低了成本。（ 6） GFS相對于 HDFS穩(wěn)定性是無庸置疑的，并在 Google系統(tǒng)中得到了采用且穩(wěn)定的運行。 Namenode的作用就像是文件系統(tǒng)的總指揮，并向訪問文件系統(tǒng)的客戶機提供文件系統(tǒng)的映射，這種做法并不是 Google或 Hadoop的創(chuàng)新，這和傳統(tǒng)并行計算系統(tǒng)中的單一系統(tǒng)映像（ Single System Image）的做法相同。Namenode同時存儲相關的元數(shù)據(jù)。有些改進的主從式架構(gòu)可能會采用分層的主從式方法，以減輕主節(jié)點的負荷。 ? HDFS采用 64MB這樣較大的文件分塊策略有以下 3個優(yōu)點： — （ 1）降低客戶端與主服務器的交互代價； — （ 2）降低網(wǎng)絡負載； — （ 3）減少主服務器中元數(shù)據(jù)的大小。 * MapReduce編程框架 ? 在云計算和大數(shù)據(jù)技術領域被廣泛提到并被成功應用的一項技術就是 MapReduce。 — LISP是一種表處理語言，其邏輯簡單但結(jié)構(gòu)不同于其他的高級語言。 ? 可以認為分布式 MapRe

點擊復制文檔內(nèi)容

醫(yī)療健康相關推薦

分布式控制系統(tǒng)-資料下載頁

【摘要】分布式控制系統(tǒng)它是一個由過程控制級和過程監(jiān)控級組成的以通信網(wǎng)絡為紐帶的多級計算機系統(tǒng)，綜合了計算機，通信、顯示和控制等4C技術，其基本思想是分散控制、集中操作、分級管理、配置靈活以及組態(tài)方便。在特殊控制領域，如核電站控制系統(tǒng)，DCS的含義被誤叫做數(shù)字化控制系統(tǒng)（Digitalcontrolsystem），其實質(zhì)仍為分布式操作系統(tǒng)。概述首先，DCS的骨架—系統(tǒng)網(wǎng)絡，它是DCS

2025-07-30 00:21

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

hadoop分布式大數(shù)據(jù)系統(tǒng)-全文預覽

分布式控制系統(tǒng)-資料下載頁

分布式數(shù)據(jù)庫系統(tǒng)及其應用課件第3章-分布式數(shù)據(jù)庫中的查詢處理和優(yōu)化-資料下載頁

分布式數(shù)據(jù)庫sql語句-資料下載頁

分布式數(shù)據(jù)庫設計報告-資料下載頁

[小學教育]分布式數(shù)據(jù)庫-資料下載頁

中加合作分布式項目數(shù)據(jù)管理系統(tǒng)開發(fā)與應用-資料下載頁

基于hadoop的分布式存儲平臺的搭建與驗證畢業(yè)論文-資料下載頁

數(shù)據(jù)庫系統(tǒng)教程--第9章分布式數(shù)據(jù)庫系統(tǒng)-資料下載頁

分布式多數(shù)據(jù)庫數(shù)據(jù)同步erp應用案例-資料下載頁

基于hadoop的分布式存儲平臺的搭建與驗證畢業(yè)設計論文-資料下載頁

分布式文件存儲系統(tǒng)調(diào)研-資料下載頁

分布式智能輸液系統(tǒng)的設計-資料下載頁

分布式控制系統(tǒng)概述-資料下載頁

基于單片機分布式數(shù)據(jù)采集系統(tǒng)設計畢業(yè)論文-資料下載頁

分布式文件系統(tǒng)及其部署-資料下載頁

hadoop分布式大數(shù)據(jù)系統(tǒng)-文庫吧

hadoop分布式大數(shù)據(jù)系統(tǒng)-wenkub

hadoop分布式大數(shù)據(jù)系統(tǒng)(已修改)

hadoop分布式大數(shù)據(jù)系統(tǒng)(編輯修改稿)