freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

facebook數(shù)據(jù)倉庫揭秘之rcfile高效存儲結(jié)構(gòu)-資料下載頁

2025-06-25 19:59本頁面
  

【正文】 列的內(nèi)容。在元數(shù)據(jù)頭部和需要的列數(shù)據(jù)加載到內(nèi)存中后,它們需要解壓。元數(shù)據(jù)頭部總會解壓并在內(nèi)存中維 護直到RCFile處理下一個行組。然而,RCFile不會解壓所有加載的列,相反,它使用一種Lazy解壓技術(shù)。Lazy解壓意味著列將不會在內(nèi)存解壓,直到RCFile決定列中數(shù)據(jù)真正對查詢執(zhí)行有用。由于查詢使用各種WHERE條件,Lazy解壓非常有 用。如果一個WHERE條件不能被行組中的所有記錄滿足,那么RCFile將不會解壓WHERE條件中不滿足的列。例如,在上述查詢中,所有行組中的列 c4都解壓了。然而,對于一個行組,如果列c4中沒有值為1的域,那么就無需解壓列c1。行組大小I/O性能是RCFile關(guān)注的重點,因此RCFile需要行組夠大并且大小可變。行組大小和下面幾個因素相關(guān)。行組大的話,數(shù)據(jù)壓縮效率會比行組小時更有效。根據(jù)對Facebook日常應(yīng)用的觀察,當(dāng)行組大小達到一個閾值后,增加行組大小并不能進一步增加Gzip算法下的壓縮比。行組變大能夠提升數(shù)據(jù)壓縮效率并減少存儲量。因此,如果對縮減存儲空間方面有強烈需求,則不建議選擇使用小行組。需要注意的是,當(dāng)行組的大小超過4MB,數(shù)據(jù)的壓縮比將趨于一致。盡管行組變大有助于減少表格的存儲規(guī)模,但是可能會損害數(shù)據(jù)的讀性能,因為這樣減少了Lazy解壓帶來的性能提升。而且行組變大會占用更多的內(nèi)存, 這會影響并發(fā)執(zhí)行的其他MapReduce作業(yè)??紤]到存儲空間和查詢效率兩個方面,F(xiàn)acebook選擇4MB作為默認(rèn)的行組大小,當(dāng)然也允許用戶自行 選擇參數(shù)進行配置。小結(jié)本文簡單介紹了RCFile存儲結(jié)構(gòu),其廣泛應(yīng)用于Facebook公司的數(shù)據(jù)分析系統(tǒng)Hive中。首先,RCFile具備相當(dāng)于行存儲的數(shù)據(jù)加載 速度和負(fù)載適應(yīng)能力;其次,RCFile的讀優(yōu)化可以在掃描表格時避免不必要的列讀取,測試顯示在多數(shù)情況下,它比其他結(jié)構(gòu)擁有更好的性能;再 次,RCFile使用列維度的壓縮,因此能夠有效提升存儲空間利用率。為了提高存儲空間利用率,F(xiàn)acebook各產(chǎn)品線應(yīng)用產(chǎn)生的數(shù)據(jù)從2010年起均采用RCFile結(jié)構(gòu)存儲,按行存儲 (SequenceFile/TextFile)結(jié)構(gòu)保存的數(shù)據(jù)集也轉(zhuǎn)存為RCFile格式。此外,Yahoo公司也在Pig數(shù)據(jù)分析系統(tǒng)中集成了 RCFile,RCFile正在用于另一個基于Hadoop的數(shù)據(jù)管理系統(tǒng)Howl()。而且,根據(jù)Hive開發(fā)社區(qū)的交流,RCFile也成功整合加入其他基于MapReduce的數(shù)據(jù)分析平臺。有理由相信,作為數(shù)據(jù)存儲標(biāo)準(zhǔn) 的RCFile,將繼續(xù)在MapReduce環(huán)境下的大規(guī)模數(shù)據(jù)分析中扮演重要角色。7 / 7
點擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1