正文內(nèi)容

hadoop分布式大數(shù)據(jù)系統(tǒng)(編輯修改稿)

2025-03-29 10:53 本頁面

　

【文章內(nèi)容簡介】 MapReduce的編程模型可以這樣來描述： — 用戶需要處理的文件群系統(tǒng)中不同的節(jié)點上了，用戶先使用一個 Map函數(shù) —Map(, 文件內(nèi)容 )，在這個 Map函數(shù)中 key值為， key通常是指一個具有唯一值的標(biāo)識， value值就是。 — Map操作程序通常會被分布到存有文件節(jié)點上發(fā)起，這個 Map操作將產(chǎn)生一組中間 key/value對（ word, count）， * MapReduce的基本工作過程 — 這里的 word代表出現(xiàn)在文件，每個 Map操作所產(chǎn)生的 key/value對只代表容的統(tǒng)計值。 — Reduce函數(shù)將接收集群中不同節(jié)點 Map函數(shù)生成的中間key/value對，并將 Key相同的 key/value對進(jìn)行合并，在這個例子中 Reduce函數(shù)將對所有 key值相同的 value值進(jìn)行求和合并，最后輸出的 key/value對就是（ word, count），其中 count就是這個單詞在文件。 * MapReduce的基本工作過程 ? 下面我們通過一個簡單例子來講解 MapReduce的基本原理。 ? 1．任務(wù)的描述 ? 來自江蘇、浙江、山東三個省的 9所高校聯(lián)合舉行了一場編程大賽，每個省有 3所高校參加，每所高校各派 5名隊員參賽，各所高校的比賽平均成績?nèi)绫?。江蘇省浙江省山東省南京大學(xué) 90 浙江大學(xué) 95 山東大學(xué) 92 東南大學(xué) 93 浙江工業(yè)大學(xué) 84 中國海洋大學(xué) 85 河海大學(xué) 84 寧波大學(xué) 88 青島大學(xué) 87 表原始比賽成績 * MapReduce的基本工作過程 ? 我們可以用如表，這樣每所高校就具備了所屬省份和平均分?jǐn)?shù)這兩個屬性，即高校名稱：{所屬省份，平均分?jǐn)?shù) }。南京大學(xué)： {江蘇省， 90} 東南大學(xué)： {江蘇省， 93} 河海大學(xué)： {江蘇省， 84} 浙江大學(xué)： {浙江省， 95} 浙江工業(yè)大學(xué)： {浙江省， 84} 寧波大學(xué)： {浙江省， 88} 山東大學(xué)： {山東省， 92} 中國海洋大學(xué)： {山東省， 85} 青島大學(xué)： {山東省， 87} 表增加屬性信息后的比賽成績 * MapReduce的基本工作過程 ? 統(tǒng)計各個省份高校的平均分?jǐn)?shù)時，高校的名稱并不是很重要，我們略去高校名稱，如表。江蘇省， 90 江蘇省， 93 江蘇省， 84 浙江省， 95 浙江省， 84 浙江省， 88 山東省， 92 山東省， 85 山東省， 87 表略去高校名稱后的比賽成績 ? 接下來對各個省份的高校的成績進(jìn)行匯總，如表。江蘇省， 90、 9 84 浙江省， 9 8 88 山東省， 9 8 87 表各省比賽成績匯總 * MapReduce的基本工作過程 ? 計算求得各省高校的平均值如表。表各省平均成績江蘇省， 89 浙江省， 89 山東省， 88 ? 以上為計算各省平均成績的主要步驟，我們可以用 MapReduce來實現(xiàn)，其詳細(xì)步驟如下： ? 2．任務(wù)的 MapReduce實現(xiàn) — MapReduce包含 Map、 Shuffle和 Reduce三個步驟，其中Shuffle由 Hadoop自動完成， Hadoop的使用者可以無需了解并行程序的底層實現(xiàn)，只需關(guān)注 Map和 Reduce的實現(xiàn)。 * MapReduce的基本工作過程 1. Map Input：高校名稱， {所屬省份，平均分?jǐn)?shù) } — 在 Map部分，我們需要輸入 Key,Value數(shù)據(jù)，這里 Key是高校的名稱， Value是屬性值，即所屬省份和平均分?jǐn)?shù)，如表。 Key：南京大學(xué) Value： {江蘇省， 90} Key：東南大學(xué) Value： {江蘇省， 93} Key：河海大學(xué) Value： {江蘇省， 84} Key：浙江大學(xué) Value： {浙江省， 95} Key：浙江工業(yè)大學(xué) Value： {浙江省， 84} Key：寧波大學(xué) Value： {浙江省， 88} Key：山東大學(xué) Value： {山東省， 92} Key：中國海洋大學(xué) Value： {山東省， 85} Key：青島大學(xué) Value： {山東省， 87} 表 Map Input數(shù)據(jù) * MapReduce的基本工作過程 2. Map Output：所屬省份，平均分?jǐn)?shù) — 對所屬省份平均分?jǐn)?shù)進(jìn)行重分組，去除高校名稱，將所屬省份變?yōu)?Key，平均分?jǐn)?shù)變?yōu)?Value，如表。 Key：江蘇省 Value： 90 Key：江蘇省 Value： 93 Key：江蘇省 Value： 84 Key：浙江省 Value： 95 Key：浙江省 Value： 84 Key：浙江省 Value： 88 Key：山東省 Value： 92 Key：山東省 Value： 85 Key：山東省 Value： 87 表 Map Output數(shù)據(jù) * MapReduce的基本工作過程 3. Shuffle Output：所屬省份， List（平均分?jǐn)?shù)） — Shuffle由 Hadoop自動完成，其任務(wù)是實現(xiàn) Map，對 Key進(jìn)行分組，用戶可以獲得 Value的列表，即 ListValue，如表。 Key：江蘇省 ListValue： 90、 9 84 Key：浙江省 ListValue： 9 8 88 Key：山東省 ListValue： 9 8 87 表 Shuffle Output數(shù)據(jù) 4. Reduce Input：所屬省份， List（平均分?jǐn)?shù)） — 表 Reduce任務(wù)的輸入數(shù)據(jù)，即從 Shuffle任務(wù)中獲得的（ Key,ListValue）。 * MapReduce的基本工作過程 5. Reduce Output：所屬省份，平均分?jǐn)?shù) — Reduce任務(wù)的功能是完成用戶的計算邏輯，這里的任務(wù)是計算每個省份的高校學(xué)生的比賽平均成績，獲得的最終結(jié)果如表示。江蘇省， 89 浙江省， 89 山東省， 88 表 Reduce Output數(shù)據(jù) * LISP中的 MapReduce ? 為了進(jìn)一步理解 MapReduce，我們簡單介紹最早使用 Map和Reduce的 LISP語言中的 Map和 Reduce操作。 ? 下面的 LISP語句定義的這個 Map操作是將向量（ 1 2 3 4 5）和向量（ 10 9 8 7 6）進(jìn)行相乘的操作，輸出也為向量（ 10 18 24 28 30）。 (map 39。vector *(1 2 3 4 5)(10 9 8 7 6))(10 18 24 28 30) — 這個 Map操作對應(yīng)于向量到向量的映射，兩個向量按乘積關(guān)系進(jìn)行映射。 * LISP中的 MapReduce ? 下面的 LISP語句定義的這個 Reduce操作是將向量（ 1 2 3 4 5 6 7 8 9 10）中的元素進(jìn)行求和的 Reduce操作 ,輸出結(jié)果為 55。 (reduce 39。+(1 2 3 4 5 6 7 8 9 10))55 — 這個 Reduce操作對應(yīng)于向量的約簡，它將向量按求和的關(guān)系約簡為一個值。 — 可以看出，在 LISP語言中 Map和 Reduce只是作為一種操作定義，并沒有體現(xiàn)出任何的分布式計算的特征。 * MapReduce的特點 ? MapReduce主要具有以下幾個特點：（ 1）需要在集群條件下使用。 — MapReduce的主要作用是實現(xiàn)對大數(shù)據(jù)的分布式處理，其設(shè)計時的基本要求就是在大規(guī)模集群條件下的（雖然一些系統(tǒng)可以在單機(jī)下運行，但這種條件下只具有仿真運行的意義）， Google作為分布式 MapReduce提出者，它本身就是世界上最大的集群系統(tǒng)，所以 MapReduce天然需要在集群系統(tǒng)下運行才能有效。 * MapReduce的特點（ 2）需要有相應(yīng)的分布式文件系統(tǒng)的支持。 — 這里要注意的是單獨的 MapReduce模式并不具有自動的并行性能，就像它在 LISP語言中的表現(xiàn)一樣，它只有與相應(yīng)的分布式文件系統(tǒng)相結(jié)合才能完美地體現(xiàn) MapReduce這種編程框架的優(yōu)勢。 — 如 Google系統(tǒng)對應(yīng)的分布式文件系統(tǒng)為 GFS， Hadoop系統(tǒng)對應(yīng)的分布式文件系統(tǒng)為 HDFS。 — MapReduce能

點擊復(fù)制文檔內(nèi)容

醫(yī)療健康相關(guān)推薦

分布式系統(tǒng)-xml-資料下載頁

【總結(jié)】1XMLStevenHolzner，SamsTeachYourselfXMLin21Days,ThirdEdition.2022.21.XML基礎(chǔ)3MarkupLanguagesHelloFrom

2025-08-04 13:43

分布式操作系統(tǒng)-資料下載頁

【總結(jié)】分布式操作系統(tǒng)分布式系統(tǒng)概述分布式進(jìn)程通信分布式資源管理分布式進(jìn)程同步分布式系統(tǒng)中的死鎖分布式文件系統(tǒng)分布式進(jìn)程遷移?分布式計算機(jī)系統(tǒng)是由一組松散的計算機(jī)系統(tǒng)，經(jīng)互連網(wǎng)絡(luò)連接而成的”單計算機(jī)系統(tǒng)映像”(SingleComputerSystemImage)。

2025-07-18 10:34

分布式疏松機(jī)系統(tǒng)-資料下載頁

【總結(jié)】HDSC分布式疏松機(jī)系統(tǒng)秦皇島華電測控設(shè)備有限公司控制系統(tǒng)2其他4分布式系統(tǒng)技術(shù)特點3液壓回路1秦皇島華電測控設(shè)備有限公司分布式系統(tǒng)技術(shù)特點降低產(chǎn)品成本適應(yīng)性廣操作方便特點控制系統(tǒng)可靠安裝便捷秦皇島華電測控設(shè)備有限公司?降低產(chǎn)品成本

2025-07-25 01:07

[精選]分布式安全-資料下載頁

【總結(jié)】分布式安全西北工業(yè)大學(xué)計算機(jī)學(xué)院周興社王濤主要內(nèi)容?概述?安全通道?訪問控制?安全管理2023/3/162分布式系統(tǒng)安全安全威脅?安全性與可靠性密切相關(guān)一個可靠的系統(tǒng)是一個我們可以信賴其服務(wù)的系統(tǒng)。?一個可以信任的計算機(jī)系統(tǒng)應(yīng)該具有：?一般意義

2025-02-26 08:48

分布式操作系統(tǒng)-講義第4章分布式同步控制-資料下載頁

【總結(jié)】第4章分布式同步控制東北大學(xué)信息學(xué)院于戈2022年6月2022-6-9東北大學(xué)軟件所于戈第三章分布式同步控制2主要內(nèi)容時鐘同步控制邏輯時鐘選舉算法互斥控制原子性事務(wù)管理分布式死鎖處理2022-6-9東北大學(xué)軟件所于戈第三章

2025-09-30 15:51

[精選]分布式系統(tǒng)與web服務(wù)(4)-資料下載頁

【總結(jié)】南京理工大學(xué)計算機(jī)學(xué)院分布式系統(tǒng)與WEB服務(wù)第七章容錯與實時系統(tǒng)南京理工大學(xué)計算機(jī)學(xué)院分布式系統(tǒng)與WEB服務(wù)屬性：?可用性?可靠性?保險性?可信任性?完整性?可維護(hù)性后果：?失靈?錯誤?故障策略：?防止故障?故障容錯?

2025-01-22 04:04

[精選]分布式系統(tǒng)與web服務(wù)(3)-資料下載頁

【總結(jié)】南京理工大學(xué)計算機(jī)學(xué)院分布式系統(tǒng)與WEB服務(wù)第五章分布式系統(tǒng)文件共享南京理工大學(xué)計算機(jī)學(xué)院分布式系統(tǒng)與WEB服務(wù)共享文件的語義兩個以上的用戶共享同一個文件時，會產(chǎn)生多種情況，從而產(chǎn)生不同的語義．故文件服務(wù)時必須精確定義服務(wù)的讀寫語義。一.UNIX語義(時間順序)

2025-01-22 04:03

分布式聯(lián)合虛擬參考咨詢系統(tǒng)研討-資料下載頁

【總結(jié)】分布式聯(lián)合虛擬參考咨詢系統(tǒng)Outline§由來及發(fā)展§聯(lián)合虛擬參考咨詢系統(tǒng)介紹?國外（QP、VRD、24/7）?國內(nèi)（國圖、上圖、中科院、CALIS）分布式聯(lián)合VRS建設(shè)設(shè)想系統(tǒng)組成（咨詢臺、知識庫管理、學(xué)習(xí)中心）發(fā)展展望What’stheVirtualReference§定義：§

2025-01-24 11:16

[精選]分布式系統(tǒng)與web服務(wù)(1)-資料下載頁

【總結(jié)】南京理工大學(xué)計算機(jī)學(xué)院分布式系統(tǒng)與WEB服務(wù)宋斌計算機(jī)學(xué)院電話：13814017756郵箱：分布式系統(tǒng)南京理工大學(xué)計算機(jī)學(xué)院分布式系統(tǒng)與WEB服務(wù)課程參考書分布式操作系統(tǒng)陸麗娜等譯電子工業(yè)出版社分布式系統(tǒng)設(shè)計

2025-01-22 03:52

[精選]分布式系統(tǒng)與web服務(wù)(2)-資料下載頁

【總結(jié)】南京理工大學(xué)計算機(jī)學(xué)院分布式系統(tǒng)與WEB服務(wù)第三章分布式系統(tǒng)的同步和進(jìn)程南京理工大學(xué)計算機(jī)學(xué)院分布式系統(tǒng)與WEB服務(wù)3．1時鐘同步分布式算法的主要特征：①相關(guān)信息分布在多臺機(jī)器上②進(jìn)程僅依據(jù)局部的信息作出決定③一臺機(jī)器的故障不應(yīng)引起整個系統(tǒng)的失敗

2025-01-22 04:17

1章-分布式數(shù)據(jù)庫系統(tǒng)概述--資料下載頁

【總結(jié)】徐俊剛（)2022年2月——2022年6月數(shù)據(jù)庫系統(tǒng)知識回顧數(shù)據(jù)庫(DB:DataBase)長期儲存在計算機(jī)內(nèi)的有組織的、可共享的相關(guān)數(shù)據(jù)的集合。數(shù)據(jù)庫管理系統(tǒng)(DBMS:DataBaseManagementSystem)DBMS是介于用戶與操作系統(tǒng)之間的一層數(shù)據(jù)管理軟件。為用戶或應(yīng)用程序提供訪問

2025-08-04 07:13

[精選]多媒體數(shù)據(jù)庫與分布式多媒體應(yīng)用系統(tǒng)-資料下載頁

【總結(jié)】多媒體數(shù)據(jù)庫◆多媒體數(shù)據(jù)的管理◆多媒體數(shù)據(jù)庫的數(shù)據(jù)模型◆多媒體數(shù)據(jù)庫的檢索與查詢分布式多媒體計算機(jī)系統(tǒng)◆分布式多媒體計算機(jī)系統(tǒng)的特性◆分布式多媒體計算機(jī)系統(tǒng)的服務(wù)模型◆計算機(jī)支持協(xié)作系統(tǒng)◆可視電話系統(tǒng)的發(fā)展◆可視電話的架構(gòu)第9章多媒體數(shù)據(jù)庫與分布式多媒體應(yīng)用系統(tǒng)

2025-01-17 20:47

分布式-資料下載頁

【總結(jié)】分布式基礎(chǔ)學(xué)習(xí)所謂分布式，在這里，很狹義的指代以Google的三駕馬車，GFS、Map/Reduce、BigTable為框架核心的分布式存儲和計算系統(tǒng)。通常如我一樣初學(xué)的人，會以Google這幾份經(jīng)典的論文作為開端的。它們勾勒出了分布式存儲和計算的一個基本藍(lán)圖，已可窺見其幾分風(fēng)韻，但終究還是由于缺少一些實現(xiàn)的代碼和示例，色彩有些斑駁，缺少了點感性。幸好我們還有OpenSource，還有Ha

2025-08-04 16:22

分布式物資管理系統(tǒng)設(shè)計-資料下載頁

【總結(jié)】內(nèi)江師范學(xué)院本科畢業(yè)設(shè)計i目錄1緒論..........................................................................................................................................12課題來源、目的、意義..

2025-07-15 21:01

分布式操作系統(tǒng)講稿-資料下載頁

【總結(jié)】分布式操作系統(tǒng)講稿計算機(jī)09級陳欣冉概要內(nèi)容時間導(dǎo)入關(guān)于分布式操作系統(tǒng)，可能我們之前有過了解，也知道一些關(guān)于分布式系統(tǒng)的知識，今天我們一起系統(tǒng)的學(xué)習(xí)一下分布式操作系統(tǒng)。今天的內(nèi)容主要分為三大塊，分別是分布式的相關(guān)概念，進(jìn)程管理，資源管理。1分鐘一、1、相關(guān)概念我們可以簡單的認(rèn)為，分布式計算機(jī)系統(tǒng)就是由幾臺計算機(jī)連成網(wǎng)絡(luò)形成的那個整體。管理這

2025-07-07 13:04

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片