freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

hadoop分布式大數(shù)據(jù)系統(tǒng)(編輯修改稿)

2025-03-29 10:53 本頁(yè)面
 

【文章內(nèi)容簡(jiǎn)介】 MapReduce的編程模型可以這樣來描述: — 用戶需要處理的文件 群系統(tǒng)中不同的節(jié)點(diǎn)上了,用戶先使用一個(gè) Map函數(shù) —Map(, 文件內(nèi)容 ),在這個(gè) Map函數(shù)中 key值為, key通常是指一個(gè)具有唯一值的標(biāo)識(shí), value值就是 。 — Map操作程序通常會(huì)被分布到存有文件 節(jié)點(diǎn)上發(fā)起,這個(gè) Map操作將產(chǎn)生一組中間 key/value對(duì)( word, count), * MapReduce的基本工作過程 — 這里的 word代表出現(xiàn)在文件 ,每個(gè) Map操作所產(chǎn)生的 key/value對(duì)只代表 容的統(tǒng)計(jì)值。 — Reduce函數(shù)將接收集群中不同節(jié)點(diǎn) Map函數(shù)生成的中間key/value對(duì),并將 Key相同的 key/value對(duì)進(jìn)行合并,在這個(gè)例子中 Reduce函數(shù)將對(duì)所有 key值相同的 value值進(jìn)行求和合并,最后輸出的 key/value對(duì)就是( word, count),其中 count就是這個(gè)單詞在文件 。 * MapReduce的基本工作過程 ? 下面我們通過一個(gè) 簡(jiǎn)單例子 來講解 MapReduce的基本原理 。 ? 1.任務(wù)的描述 ? 來自江蘇、浙江、山東三個(gè)省的 9所高校聯(lián)合舉行了一場(chǎng)編程大賽,每個(gè)省有 3所高校參加,每所高校各派 5名隊(duì)員參賽,各所高校的比賽平均成績(jī)?nèi)绫?。 江蘇省 浙江省 山東省 南京大學(xué) 90 浙江大學(xué) 95 山東大學(xué) 92 東南大學(xué) 93 浙江工業(yè)大學(xué) 84 中國(guó)海洋大學(xué) 85 河海大學(xué) 84 寧波大學(xué) 88 青島大學(xué) 87 表 原始比賽成績(jī) * MapReduce的基本工作過程 ? 我們可以用如表 ,這樣每所高校就具備了所屬省份和平均分?jǐn)?shù)這兩個(gè)屬性,即 高校名稱:{所屬省份,平均分?jǐn)?shù) }。 南京大學(xué): {江蘇省, 90} 東南大學(xué): {江蘇省, 93} 河海大學(xué): {江蘇省, 84} 浙江大學(xué): {浙江省, 95} 浙江工業(yè)大學(xué): {浙江省, 84} 寧波大學(xué): {浙江省, 88} 山東大學(xué): {山東省, 92} 中國(guó)海洋大學(xué): {山東省, 85} 青島大學(xué): {山東省, 87} 表 增加屬性信息后的比賽成績(jī) * MapReduce的基本工作過程 ? 統(tǒng)計(jì)各個(gè)省份高校的平均分?jǐn)?shù)時(shí),高校的名稱并不是很重要,我們略去高校名稱,如表 。 江蘇省, 90 江蘇省, 93 江蘇省, 84 浙江省, 95 浙江省, 84 浙江省, 88 山東省, 92 山東省, 85 山東省, 87 表 略去高校名稱后的比賽成績(jī) ? 接下來對(duì)各個(gè)省份的高校的成績(jī)進(jìn)行匯總,如表 。 江蘇省, 90、 9 84 浙江省, 9 8 88 山東省, 9 8 87 表 各省比賽成績(jī)匯總 * MapReduce的基本工作過程 ? 計(jì)算求得各省高校的平均值如表 。 表 各省平均成績(jī) 江蘇省, 89 浙江省, 89 山東省, 88 ? 以上為計(jì)算各省平均成績(jī)的主要步驟,我們可以用 MapReduce來實(shí)現(xiàn),其詳細(xì)步驟如下: ? 2.任務(wù)的 MapReduce實(shí)現(xiàn) — MapReduce包含 Map、 Shuffle和 Reduce三個(gè)步驟,其中Shuffle由 Hadoop自動(dòng)完成, Hadoop的使用者可以無需了解并行程序的底層實(shí)現(xiàn),只需關(guān)注 Map和 Reduce的實(shí)現(xiàn)。 * MapReduce的基本工作過程 1. Map Input: 高校名稱, {所屬省份,平均分?jǐn)?shù) } — 在 Map部分,我們需要輸入 Key,Value數(shù)據(jù),這里 Key是高校的名稱, Value是屬性值,即所屬省份和平均分?jǐn)?shù),如表 。 Key:南京大學(xué) Value: {江蘇省, 90} Key:東南大學(xué) Value: {江蘇省, 93} Key:河海大學(xué) Value: {江蘇省, 84} Key:浙江大學(xué) Value: {浙江省, 95} Key:浙江工業(yè)大學(xué) Value: {浙江省, 84} Key:寧波大學(xué) Value: {浙江省, 88} Key:山東大學(xué) Value: {山東省, 92} Key:中國(guó)海洋大學(xué) Value: {山東省, 85} Key:青島大學(xué) Value: {山東省, 87} 表 Map Input數(shù)據(jù) * MapReduce的基本工作過程 2. Map Output: 所屬省份,平均分?jǐn)?shù) — 對(duì)所屬省份平均分?jǐn)?shù)進(jìn)行重分組,去除高校名稱,將所屬省份變?yōu)?Key,平均分?jǐn)?shù)變?yōu)?Value,如表 。 Key:江蘇省 Value: 90 Key:江蘇省 Value: 93 Key:江蘇省 Value: 84 Key:浙江省 Value: 95 Key:浙江省 Value: 84 Key:浙江省 Value: 88 Key:山東省 Value: 92 Key:山東省 Value: 85 Key:山東省 Value: 87 表 Map Output數(shù)據(jù) * MapReduce的基本工作過程 3. Shuffle Output: 所屬省份, List(平均分?jǐn)?shù)) — Shuffle由 Hadoop自動(dòng)完成,其任務(wù)是實(shí)現(xiàn) Map,對(duì) Key進(jìn)行分組,用戶可以獲得 Value的列表,即 ListValue,如表 。 Key:江蘇省 ListValue: 90、 9 84 Key:浙江省 ListValue: 9 8 88 Key:山東省 ListValue: 9 8 87 表 Shuffle Output數(shù)據(jù) 4. Reduce Input: 所屬省份, List(平均分?jǐn)?shù)) — 表 Reduce任務(wù)的輸入數(shù)據(jù),即從 Shuffle任務(wù)中獲得的( Key,ListValue)。 * MapReduce的基本工作過程 5. Reduce Output: 所屬省份,平均分?jǐn)?shù) — Reduce任務(wù)的功能是完成用戶的計(jì)算邏輯,這里的任務(wù)是計(jì)算每個(gè)省份的高校學(xué)生的比賽平均成績(jī),獲得的最終結(jié)果如表 示。 江蘇省, 89 浙江省, 89 山東省, 88 表 Reduce Output數(shù)據(jù) * LISP中的 MapReduce ? 為了進(jìn)一步理解 MapReduce,我們簡(jiǎn)單介紹最早使用 Map和Reduce的 LISP語(yǔ)言中的 Map和 Reduce操作。 ? 下面的 LISP語(yǔ)句定義的這個(gè) Map操作是將向量( 1 2 3 4 5)和向量( 10 9 8 7 6)進(jìn)行相乘的操作,輸出也為向量( 10 18 24 28 30)。 (map 39。vector *(1 2 3 4 5)(10 9 8 7 6))(10 18 24 28 30) — 這個(gè) Map操作對(duì)應(yīng)于向量到向量的映射,兩個(gè)向量按乘積關(guān)系進(jìn)行映射。 * LISP中的 MapReduce ? 下面的 LISP語(yǔ)句定義的這個(gè) Reduce操作是將向量( 1 2 3 4 5 6 7 8 9 10)中的元素進(jìn)行求和的 Reduce操作 ,輸出結(jié)果為 55。 (reduce 39。+(1 2 3 4 5 6 7 8 9 10))55 — 這個(gè) Reduce操作對(duì)應(yīng)于向量的約簡(jiǎn),它將向量按求和的關(guān)系約簡(jiǎn)為一個(gè)值。 — 可以看出,在 LISP語(yǔ)言中 Map和 Reduce只是作為一種操作定義,并沒有體現(xiàn)出任何的分布式計(jì)算的特征。 * MapReduce的特點(diǎn) ? MapReduce主要具有以下幾個(gè) 特點(diǎn) : ( 1)需要在集群條件下使用 。 — MapReduce的主要作用是實(shí)現(xiàn)對(duì)大數(shù)據(jù)的分布式處理,其設(shè)計(jì)時(shí)的基本要求就是在大規(guī)模集群條件下的(雖然一些系統(tǒng)可以在單機(jī)下運(yùn)行,但這種條件下只具有仿真運(yùn)行的意義), Google作為分布式 MapReduce提出者,它本身就是世界上最大的集群系統(tǒng),所以 MapReduce天然需要在集群系統(tǒng)下運(yùn)行才能有效。 * MapReduce的特點(diǎn) ( 2)需要有相應(yīng)的分布式文件系統(tǒng)的支持。 — 這里要注意的是單獨(dú)的 MapReduce模式并不具有自動(dòng)的并行性能,就像它在 LISP語(yǔ)言中的表現(xiàn)一樣,它只有與相應(yīng)的分布式文件系統(tǒng)相結(jié)合才能完美地體現(xiàn) MapReduce這種編程框架的優(yōu)勢(shì)。 — 如 Google系統(tǒng)對(duì)應(yīng)的分布式文件系統(tǒng)為 GFS, Hadoop系統(tǒng)對(duì)應(yīng)的分布式文件系統(tǒng)為 HDFS。 — MapReduce能
點(diǎn)擊復(fù)制文檔內(nèi)容
醫(yī)療健康相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1