【正文】
作,引入現(xiàn)象過程語言編程。 關(guān)系型數(shù)據(jù)庫系統(tǒng),程序用高級語言寫,容易讀寫和修改。12167。167。 Indexing167。 并行數(shù)據(jù)庫管理系統(tǒng)要求數(shù)據(jù)滿足行和列的關(guān)系范式。 MR適合少數(shù)程序員和有限應(yīng)用領(lǐng)域的開發(fā)環(huán)境,由于這種限制,不適合長期的大項(xiàng)目。 乍一看,兩種方法的數(shù)據(jù)分析和處理有很多共同點(diǎn),下一節(jié)講差異。最后把每個節(jié)點(diǎn)的答案聚焦輸出。 SQL命令執(zhí)行過程分三步:首先過濾子查詢在節(jié)點(diǎn)上并行執(zhí)行,如map函數(shù)。因?yàn)槌绦騿T只需用高級語言中具體化他們的目標(biāo),所以無需關(guān)注底層存儲細(xì)節(jié)。 10167。167。167。 Map函數(shù)從輸入文件中讀入一系列記錄,然后以鍵 /值對的形式輸出一系列中間記錄。程序載入分布式處理框架然后執(zhí)行。 MR包含兩個函數(shù) Map和Reduce,用來處理鍵 /值數(shù)據(jù)對。9167。 兩種方法都是通過把數(shù)據(jù)分塊,分配給不同的節(jié)點(diǎn)實(shí)現(xiàn)并行化處理。 對 100個節(jié)點(diǎn)上測試有沒有代表性進(jìn)行解釋: eBay 的 TeraData配置使用 72個節(jié)點(diǎn)(兩個四核 CPU, 32GB內(nèi)存, 104個 300GB磁盤)管理; Fox互動媒體倉庫運(yùn)行在 40個節(jié)點(diǎn)的 Greenplum DBMS上( Sun X4500機(jī)器,兩個雙核 CPU, 48個 500GB的硬盤, 16 GB內(nèi)存, 1PB的總磁盤空間)。第四部分主要是基準(zhǔn)測試,在 100個節(jié)點(diǎn)集群上運(yùn)行幾個任務(wù)來測試 Mapreduce, DBMSX, Vertica。第二部分主要介紹大規(guī)模數(shù)據(jù)分析的兩種方法, Mapreduce和并行數(shù)據(jù)庫管理系統(tǒng)。 ABSTRACT: There is currently considerable enthusiasm around the MapReduce (MR) paradigm for largescale data analysis. Although the basic control ?ow of this framework has existed in parallel SQL database management systems (DBMS) for over 20 years, some have called MR a dramatically new puting model. In this paper, we describe and pare both paradigms. Furthermore, we evaluate both kinds of systems in terms of performance and development plexity. To this end, we de?ne a benchmark consisting of a collection of tasks that we have run on an open source version of MR as well as on two parallel DBMSs. For each task, we measure each system’s performance for various degrees of parallelism on a clu