freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

mapreduce數(shù)據(jù)分析(編輯修改稿)

2025-06-18 14:22 本頁(yè)面
 

【文章內(nèi)容簡(jiǎn)介】 consider implementation concepts that future systems should take from both kinds of architectures. 7 1引言 ? 本文主要目的是如何在 Hadoop、 DBMSX、 Vertica中取舍和選擇。第二部分主要介紹大規(guī)模數(shù)據(jù)分析的兩種方法, Mapreduce和并行數(shù)據(jù)庫(kù)管理系統(tǒng)。第三部分主要介紹系統(tǒng)架構(gòu),包括支持的數(shù)據(jù)格式、索引、編程模型等。第四部分主要是基準(zhǔn)測(cè)試,在 100個(gè)節(jié)點(diǎn)集群上運(yùn)行幾個(gè)任務(wù)來(lái)測(cè)試 Mapreduce, DBMSX, Vertica。 ? 對(duì) 100個(gè)節(jié)點(diǎn)上測(cè)試有沒(méi)有代表性進(jìn)行解釋: eBay 的 TeraData配置使用 72個(gè)節(jié)點(diǎn)(兩個(gè)四核 CPU, 32GB內(nèi)存, 104個(gè) 300GB磁盤)管理; Fox互動(dòng)媒體倉(cāng)庫(kù)運(yùn)行在 40個(gè)節(jié)點(diǎn)的 Greenplum DBMS上( Sun X4500機(jī)器,兩個(gè)雙核 CPU, 48個(gè) 500GB的硬盤, 16 GB內(nèi)存, 1PB的總磁盤空間)。 8 2 兩種大規(guī)模數(shù)據(jù)分析方法 ? 兩種方法都是通過(guò)把數(shù)據(jù)分塊,分配給不同的節(jié)點(diǎn)實(shí)現(xiàn)并行化處理。本節(jié)概述 Mapreduce和并行數(shù)據(jù)庫(kù)管理系統(tǒng)。 9 ? Mapreduce最吸引人的地方是編程模型簡(jiǎn)單。 MR包含兩個(gè)函數(shù) Map和Reduce,用來(lái)處理鍵 /值數(shù)據(jù)對(duì)。數(shù)據(jù)被分塊存儲(chǔ)在部署在每個(gè)節(jié)點(diǎn)上的分布式文件系統(tǒng)中。程序載入分布式處理框架然后執(zhí)行。具體過(guò)程如下: ? Map函數(shù)從輸入文件中讀入一系列記錄,然后以鍵 /值對(duì)的形式輸出一系列中間記錄。 Map函數(shù)使這些中間值最終產(chǎn)生 R個(gè)輸出鍵 /值對(duì)文件,具有相同值的輸出記錄存儲(chǔ)在一個(gè)輸出文件下。 ? Reduce函數(shù)總結(jié) Map階段具有相同值的輸出記錄。 ? 最終結(jié)果寫入到新文件。 10 ? 并行數(shù)據(jù)庫(kù)執(zhí)行的兩個(gè)關(guān)鍵方面是( 1)大部分表分割到集群的節(jié)點(diǎn)上( 2)系統(tǒng)使用優(yōu)化器把 SQL命令轉(zhuǎn)化成查詢計(jì)劃,使其在多個(gè)節(jié)點(diǎn)上執(zhí)行。因?yàn)槌绦騿T只需用高級(jí)語(yǔ)言中具體化他們的目標(biāo),所以無(wú)需關(guān)注底層存儲(chǔ)細(xì)節(jié)。 ? SQL命令執(zhí)行過(guò)程分三步:首先過(guò)濾子查詢?cè)诠?jié)點(diǎn)上并行執(zhí)行,如map函數(shù)。接著根據(jù)數(shù)據(jù)表的大小選用一種并行連接算法。最后把每個(gè)節(jié)點(diǎn)的答案聚焦輸出。 ? 乍一看,兩種方法的數(shù)據(jù)分析和處理有很多共同點(diǎn),下一節(jié)講差異。 11 3 架構(gòu)元素 Architecture elements ? Schema support ? MR適合少數(shù)程序員和有限應(yīng)用領(lǐng)域的開(kāi)發(fā)環(huán)境,由于這種限制,不適合長(zhǎng)期的大項(xiàng)目。 ? 并行數(shù)據(jù)庫(kù)管理系統(tǒng)要求數(shù)據(jù)滿足行和列的關(guān)系范式。而 MR對(duì)數(shù)據(jù)的結(jié)構(gòu)無(wú)要求。 ? Indexing ? 現(xiàn)代數(shù)據(jù)庫(kù)系統(tǒng)都使用哈希或二叉樹(shù)索引加速訪問(wèn)數(shù)據(jù)。 ? MR不提供內(nèi)嵌索引,程序員需要在應(yīng)用程序中添加。 12 ? ? 關(guān)系型數(shù)據(jù)庫(kù)系統(tǒng),程序用高級(jí)語(yǔ)言寫,容易讀寫和修改。 ? MR 使用低級(jí)語(yǔ)言執(zhí)行記錄集操作,引入現(xiàn)象過(guò)程語(yǔ)言編程。為減輕執(zhí)行重復(fù)任務(wù),把高級(jí)語(yǔ)言遷移到當(dāng)前接口,如數(shù)據(jù)倉(cāng)庫(kù)工具 Hive和分析大規(guī)模數(shù)據(jù)平臺(tái) P
點(diǎn)擊復(fù)制文檔內(nèi)容
畢業(yè)設(shè)計(jì)相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1