【正文】
準(zhǔn)任務(wù)是文獻(xiàn) 【 8】 中的 Grep task 作者認(rèn)為具有代表性的大數(shù)據(jù)集 MR程序,這個任務(wù)是在 100位記錄的數(shù)據(jù)集尋找三個特征模式,每個記錄中在前十位中包含一個唯一的鍵,后 90位是隨機(jī)的值。 21 分析任務(wù) ? 為了探索處理更復(fù)雜的應(yīng)用,開發(fā)四個關(guān)于 HTML文檔處理的任務(wù)。 23 ? Aggregation task ? 要求每個系統(tǒng)計算在 UserVisits表中生成每個源 IP總收益數(shù)( 20GB/節(jié)點(diǎn))。 Vertica性能比較好。 Vertica和 DBMSX的下面部分代表執(zhí)行UDF/分析和加載數(shù)據(jù)到表中的時間,上面部分是執(zhí)行真正查詢的時間。 24 聯(lián)合任務(wù) Join Task ? 加入任務(wù)包括兩個子任務(wù)來進(jìn)行兩組數(shù)據(jù)的復(fù)雜計算。 ? 由于加載 UserVisits與 Ranking數(shù)據(jù)集是相似的,只提供數(shù)據(jù)集較大的 UserVisits的加載。 19 ? ? 加載 535M/node和 1T/node如下圖,對于 DBMSX,下半段是執(zhí)行加載命令時間,上半段是重組過程。數(shù)據(jù)以行的格式存儲,每個表哈希分到各個節(jié)點(diǎn),然后根據(jù)不同的屬性排序和索引。如果一個節(jié)點(diǎn)失敗,MR調(diào)度器會在另外一個節(jié)點(diǎn)上重啟這個任務(wù)。 ? Data distribution ? 并行數(shù)據(jù)庫系統(tǒng) 使用并行查詢優(yōu)化器平衡計算工作量,最小化數(shù)據(jù)在網(wǎng)絡(luò)中的傳輸。 11 3 架構(gòu)元素 Architecture elements ? Schema support ? MR適合少數(shù)程序員和有限應(yīng)用領(lǐng)域的開發(fā)環(huán)境,由于這種限制,不適合長期的大項目。 ? Reduce函數(shù)總結(jié) Map階段具有相同值的輸出記錄。 8 2 兩種大規(guī)模數(shù)據(jù)分析方法 ? 兩種方法都是通過把數(shù)據(jù)分塊,分配給不同的節(jié)點(diǎn)實(shí)現(xiàn)并行化處理。我們的研究結(jié)果揭示了一些有趣的取舍。 作者簡介 3 ? 作者 2 Erik Paulson, University of Wisconsin ? 1 MapReduce and parallel DBMSs: friends or foes? ? 2 A parison of approaches to largescale data analysis ? 3 Clustera: an integrated putation and data management system 和第一作者一樣, 主要做 Hadoop(Mapreduce)和并行數(shù)據(jù)庫管理系統(tǒng)比較,用于大規(guī)模數(shù)據(jù)集分析。雖然這個框架的基本控制流已經(jīng)存在于并行 SQL數(shù)據(jù)庫管理系統(tǒng)超過 20年,也有人稱 MR為最新的計算模型。 6 ? ABSTRACT: There is currently considerable enthusiasm around the MapReduce (MR) paradigm for largescale data analysis. Although the basic control ?ow of this framework has existed in parallel SQL da