freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

facebook數(shù)據(jù)倉庫揭秘之rcfile高效存儲結(jié)構(gòu)-文庫吧資料

2025-07-01 19:59本頁面
  

【正文】 HDFS塊中,RCFile以行組為基本單位來組織記錄。圖4 HDFS塊內(nèi)RCFile方式存儲的例子數(shù)據(jù)格式RCFile在HDFS分布式文件系統(tǒng)之上設(shè)計并實現(xiàn),如圖4所示,RCFile按照下面的數(shù)據(jù)格式來存儲一張表。圖4是一個 HDFS塊內(nèi)RCFile方式存儲的例子。RCFile的設(shè)計與實現(xiàn)RCFile(Record Columnar File)存儲結(jié)構(gòu)遵循的是“先水平劃分,再垂直劃分”的設(shè)計理念,這個想法來源于PAX。本文介紹的是RCF i l e 數(shù)據(jù)存儲結(jié)構(gòu)在Hadoop系統(tǒng)上的實現(xiàn)。類似于行存儲,PAX對多種動態(tài)查詢有很強的適應(yīng)能力。對于記錄中來自不同列的多個域,PAX將它們放在一個磁盤頁中。除非所有列組根據(jù)可能的 查詢預(yù)先創(chuàng)建,否則對于一個查詢需要一個不可預(yù)知的列組合,一個記錄的重構(gòu)或許需要2個或多個列組。因此,記錄的重構(gòu)將導(dǎo)致通過 集群節(jié)點網(wǎng)絡(luò)的大量數(shù)據(jù)傳輸。然而,由于元組重構(gòu)的較高開銷,它并不能提供基于Hadoop系統(tǒng)的快速查詢處理。在這個例子中,列A和列B存儲在同一列組,而列C和列D分別存儲在單獨的列組。不過,行存儲的缺點也是顯而易見的,例如它不能支持快速查詢處理,因為當(dāng)查詢僅僅針對多列表中的少數(shù)幾列時,它不能跳過不必要 的列讀??;此外,由于混合著不同數(shù)據(jù)值的列,行存儲不易獲得一個極高的壓縮比,即空間利用率不易大幅提高。上面這三種結(jié)構(gòu)都有其自身特點,不過簡單移植這些數(shù)據(jù)庫導(dǎo)向的 存儲結(jié)構(gòu)到基于MapReduce的數(shù)據(jù)倉庫系統(tǒng)并不能很好地滿足所有需求。MapReduce存儲策略要想設(shè)計并實現(xiàn)一種基于MapReduce數(shù)據(jù)倉庫的高效數(shù)據(jù)存儲結(jié)構(gòu),關(guān)鍵挑戰(zhàn)是在MapReduce計算環(huán)境中滿足上述四個需求。某些數(shù)據(jù)分析是例行過程,按照某種固定模式周期性執(zhí)行;而另一些則是從中間平臺發(fā)起的查 詢。實際上,該問題的解決方案就是最大化磁盤空間利用率。Fast query processing為了滿足實時性的網(wǎng)站請求和支持高并發(fā)用戶提交查詢的大量讀負(fù)載,查詢響應(yīng)時間是非常關(guān)鍵的,這要求底層存儲結(jié)構(gòu)能夠隨著查詢數(shù)量的增加而保持高速的查詢處理。Fast data loading對于Facebook的產(chǎn)品數(shù)據(jù)倉庫而言,快速加載數(shù)據(jù)(寫數(shù)據(jù))是非常關(guān)鍵的。與傳統(tǒng)數(shù)據(jù)庫的數(shù)據(jù)存儲結(jié)構(gòu)相比,RCFile更有效地滿足了基于MapReduce的 數(shù)據(jù)倉庫的四個關(guān)鍵需求,即Fast data loading、Fast query processing、Highly efficient storage space utilization和Strong adaptivity to highly dy
點擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1