freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

hadoop分布式大數(shù)據(jù)系統(tǒng)-文庫吧資料

2025-03-15 10:53本頁面
  

【正文】 江蘇省, 89 浙江省, 89 山東省, 88 ? 以上為計算各省平均成績的主要步驟,我們可以用 MapReduce來實現(xiàn),其詳細步驟如下: ? 2.任務的 MapReduce實現(xiàn) — MapReduce包含 Map、 Shuffle和 Reduce三個步驟,其中Shuffle由 Hadoop自動完成, Hadoop的使用者可以無需了解并行程序的底層實現(xiàn),只需關(guān)注 Map和 Reduce的實現(xiàn)。 江蘇省, 90 江蘇省, 93 江蘇省, 84 浙江省, 95 浙江省, 84 浙江省, 88 山東省, 92 山東省, 85 山東省, 87 表 略去高校名稱后的比賽成績 ? 接下來對各個省份的高校的成績進行匯總,如表 。 江蘇省 浙江省 山東省 南京大學 90 浙江大學 95 山東大學 92 東南大學 93 浙江工業(yè)大學 84 中國海洋大學 85 河海大學 84 寧波大學 88 青島大學 87 表 原始比賽成績 * MapReduce的基本工作過程 ? 我們可以用如表 ,這樣每所高校就具備了所屬省份和平均分數(shù)這兩個屬性,即 高校名稱:{所屬省份,平均分數(shù) }。 * MapReduce的基本工作過程 ? 下面我們通過一個 簡單例子 來講解 MapReduce的基本原理 。 — Map操作程序通常會被分布到存有文件 節(jié)點上發(fā)起,這個 Map操作將產(chǎn)生一組中間 key/value對( word, count), * MapReduce的基本工作過程 — 這里的 word代表出現(xiàn)在文件 ,每個 Map操作所產(chǎn)生的 key/value對只代表 容的統(tǒng)計值。 * MapReduce的基本工作過程 ? MapReduce的過程其實非常簡單,我們用一個實際的例子來說明MapReduce的編程模型?,F(xiàn)實中的很多處理任務都可以利用這一模型進行描述。 ? Hadoop跟進了 Google的這一思想,可以認為 Hadoop是一個開源版本的 Google系統(tǒng),正是由于 Hadoop的跟進才使普通用戶得以開發(fā)自己的基于 MapReduce框架的云計算應用系統(tǒng)。 * MapReduce的發(fā)展歷史 ? 2023年 Google公司的 Dean發(fā)表文章將 MapReduce這一編程模型在分布式系統(tǒng)中的應用進行了介紹,從此 MapRuduce分布式編程模型進入了人們的視野。 — 1960年, McCarthy更是極有預見性地提出:“今后計算機將會作為公共設施提供給公眾”,這一觀點已與現(xiàn)在人們對云計算的定義極為相近了,所以我們把McCarthy稱為“云計算之父”。 LISP語言是一種用于人工智能領(lǐng)域的語言,在人工智能領(lǐng)域有很多的應用, LISP在 1956年設計時主要是希望能有效地進行“符號運算”。 MapReduce是 Google系統(tǒng)和 Hadoop系統(tǒng)中的一項核心技術(shù)。 * HDFS的存儲過程 ? 一個文件寫入 HDFS的基本過程 可以描述如下: — 寫入操作首先由 Namenode為該文件創(chuàng)建一個新的記錄,該記錄為文件分配存儲節(jié)點包括文件的分塊存儲信息,在寫入時系統(tǒng)會對文件進行分塊,文件寫入的客戶端獲得存儲位置的信息后直接與指定的 Datanode進行數(shù)據(jù)通信,將文件塊按 Namenode分配的位置寫入指定的 Datanode,數(shù)據(jù)塊在寫入時不再通過Namenode,因此 Namenode不會成為數(shù)據(jù)通信的瓶頸。 * HDFS的存儲過程 ?HDFS的副本策略: ? HDFS對數(shù)據(jù)塊典型的副本策略為 3個副本, — 第一個副本存放在本地節(jié)點, — 第二個副本存放在同一個機架的另一個節(jié)點, — 第三個本副本存放在不同機架上的另一個節(jié)點。 * HDFS的存儲過程 ? HDFS的分塊策略 :通常 HDFS在存儲一個文件會將文件切為64MB大小的塊來進行存儲,數(shù)據(jù)塊會被分別存儲在不同的Datanode節(jié)點上,這一過程其實就是一種數(shù)據(jù)任務的切分過程,在后面對數(shù)據(jù)進行 MapReduce操作時十分重要,同時數(shù)據(jù)被分塊存儲后在數(shù)據(jù)讀寫時能實現(xiàn)對數(shù)據(jù)的并發(fā)讀寫,提高數(shù)據(jù)讀寫效率。 * HDFS的存儲過程 ? HDFS在對一個文件進行存儲時有兩個重要的策略 :一個是 副本策略 ,一個是 分塊策略 。 * HDFS文件的基本結(jié)構(gòu) ? 主從式是云計算系統(tǒng)的一種典型架構(gòu)方法,系統(tǒng)通過主節(jié)點屏蔽底層的復雜結(jié)構(gòu),并向用戶提供方便的文件目錄映射。 — 整個文件系統(tǒng)采用標準 TCP/IP協(xié)議通信,實際是架設在 Linux文件系統(tǒng)上的一個上層文件系統(tǒng)。 * HDFS文件的基本結(jié)構(gòu) ? HDFS的工作過程 是這樣的: — 用戶請求創(chuàng)建文件的指令由 Namenode進行接收, Namenode將存儲數(shù)據(jù)的 Datanode的 IP返回給用戶,并通知其他接收副本的 Datanode,由用戶直接與 Datanode進行數(shù)據(jù)傳送。 ? HDFS中的 Datanode用于實際對數(shù)據(jù)的存放,對 Datanode上數(shù)據(jù)的訪問并不通過 Namemode,而是與用戶直接建立數(shù)據(jù)通信。 ? Namenode存儲著文件系統(tǒng)的元數(shù)據(jù),這些元數(shù)據(jù)包括文件系統(tǒng)的名字空間等,向用戶映射文件系統(tǒng),并負責管理文件的存儲等服務,但實際的數(shù)據(jù)并不存放在 Namenode。 * HDFS文件的基本結(jié)構(gòu) ? HDFS是一種 典型 的 主從式的分布式文件系統(tǒng) ,該文件系統(tǒng)完全是仿照Google的 GFS文件系統(tǒng)而設計的, HDFS的架構(gòu)如圖 。GFS在實現(xiàn)分布式文件系統(tǒng)的做法上面很多都是簡單的,但是確實非常高效。 ( 2)對大文件數(shù)據(jù)快速存取,這個毫無疑問是可以達到的。這一工作方式就是人類大腦的工作方式。 Google每天有大量的硬盤損壞,但是由于有 GFS,這些硬盤的損壞是允許的。網(wǎng)絡中的主機癱瘓,不會對整個系統(tǒng)造成大的影響,替換上去的主機會自動重建數(shù)據(jù)。操作日志的引入可以更簡單、更可靠地更新 Master的信息。 ? Master保存著三類元數(shù)據(jù)( metadata):文件名和塊的名字空間、從文件到塊的映射、副本位置。 Client在一段限定的時間內(nèi)將這些信息緩存,在后續(xù)的操作中客戶端直接和 chunkserver交互。 * HDFS文件系統(tǒng)的原型 GFS ? 客戶端從來不會從 Master讀和寫文件數(shù)據(jù)。 * HDFS文件系統(tǒng)的原型 GFS ? 通常 Client可以在一個請求中詢問多個 chunk的地址,而Master也可以很快回應這些請求。 ( 4)客戶端向其中的一個副本發(fā)出請求,請求指定了 chunk handle( chunkserver以 chunk handle標識 chunk)和塊內(nèi)的一個字節(jié)區(qū)間。 Handle是由Master在塊創(chuàng)建時分配的。 * HDFS文件系統(tǒng)的原型 GFS ( 3) Master通過和 chunkserver的交互,向客戶端發(fā)送 chunkhandle和副本位置。 ( 2) Master收到客戶端發(fā)來的請求, Master向塊服務器發(fā)出指示,同時時刻監(jiān)控眾多 chunkserver的狀態(tài)。 圖 GFS的體系結(jié)構(gòu) * HDFS文件系統(tǒng)的原型 GFS ? 下面簡單描述一下 GFS的工作過程 。作為谷歌“三寶”的其中之一, GFS的技術(shù)優(yōu)勢不言而喻。 ? 我們認為 GFS是一種面向不可信服務器節(jié)點而設計的文件系統(tǒng)。 ? 它運行于廉價的普通硬件上,但可以提供容錯功能。 * HDFS文件系統(tǒng)的原型 GFS ? Hadoop中的 HDFS原型來自 Google 文件系統(tǒng) ( Google File System,GFS),為了滿足 Google迅速增長的數(shù)據(jù)處理要求, Google設計并實現(xiàn)了GFS。 * HDFS ? Hadoop系統(tǒng)實現(xiàn)對大數(shù)據(jù)的自動并行處理,是一種數(shù)據(jù)并行方法,這種方法實現(xiàn)自動并行處理時需要對數(shù)據(jù)進行劃分,而對數(shù)據(jù)的劃分在 Hadoop系統(tǒng)中從數(shù)據(jù)的存儲就開始了,因此文件系統(tǒng)是 Hadoop系統(tǒng)的重要組成部分,也是 Hadoop實現(xiàn)自動并行框架的基礎(chǔ)。 ? 對于計算密集型的應用 MPI能表現(xiàn)出良好的性能,但對于處理 TB級數(shù)據(jù)的數(shù)據(jù)密集型應用由于網(wǎng)絡數(shù)據(jù)傳輸速度很慢, MPI的性能會大大降低,甚至會到不可忍受的地步,所以對于構(gòu)建在 MPI上的并行計算系統(tǒng)網(wǎng)絡通訊速度一直是一個重要的性能指標,用“計算換通信”也是 MPI并行程序設計中的基本原則。 圖 Hadoop本版發(fā)展路線 *
點擊復制文檔內(nèi)容
醫(yī)療健康相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1