freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

mapreduce數(shù)據(jù)分析(完整版)

2025-06-30 14:22上一頁面

下一頁面
  

【正文】 準(zhǔn)任務(wù)是文獻(xiàn) 【 8】 中的 Grep task 作者認(rèn)為具有代表性的大數(shù)據(jù)集 MR程序,這個任務(wù)是在 100位記錄的數(shù)據(jù)集尋找三個特征模式,每個記錄中在前十位中包含一個唯一的鍵,后 90位是隨機(jī)的值。 21 分析任務(wù) ? 為了探索處理更復(fù)雜的應(yīng)用,開發(fā)四個關(guān)于 HTML文檔處理的任務(wù)。 23 ? Aggregation task ? 要求每個系統(tǒng)計算在 UserVisits表中生成每個源 IP總收益數(shù)( 20GB/節(jié)點(diǎn))。 Vertica性能比較好。 Vertica和 DBMSX的下面部分代表執(zhí)行UDF/分析和加載數(shù)據(jù)到表中的時間,上面部分是執(zhí)行真正查詢的時間。 24 聯(lián)合任務(wù) Join Task ? 加入任務(wù)包括兩個子任務(wù)來進(jìn)行兩組數(shù)據(jù)的復(fù)雜計算。 ? 由于加載 UserVisits與 Ranking數(shù)據(jù)集是相似的,只提供數(shù)據(jù)集較大的 UserVisits的加載。 19 ? ? 加載 535M/node和 1T/node如下圖,對于 DBMSX,下半段是執(zhí)行加載命令時間,上半段是重組過程。數(shù)據(jù)以行的格式存儲,每個表哈希分到各個節(jié)點(diǎn),然后根據(jù)不同的屬性排序和索引。如果一個節(jié)點(diǎn)失敗,MR調(diào)度器會在另外一個節(jié)點(diǎn)上重啟這個任務(wù)。 ? Data distribution ? 并行數(shù)據(jù)庫系統(tǒng) 使用并行查詢優(yōu)化器平衡計算工作量,最小化數(shù)據(jù)在網(wǎng)絡(luò)中的傳輸。 11 3 架構(gòu)元素 Architecture elements ? Schema support ? MR適合少數(shù)程序員和有限應(yīng)用領(lǐng)域的開發(fā)環(huán)境,由于這種限制,不適合長期的大項目。 ? Reduce函數(shù)總結(jié) Map階段具有相同值的輸出記錄。 8 2 兩種大規(guī)模數(shù)據(jù)分析方法 ? 兩種方法都是通過把數(shù)據(jù)分塊,分配給不同的節(jié)點(diǎn)實(shí)現(xiàn)并行化處理。我們的研究結(jié)果揭示了一些有趣的取舍。 作者簡介 3 ? 作者 2 Erik Paulson, University of Wisconsin ? 1 MapReduce and parallel DBMSs: friends or foes? ? 2 A parison of approaches to largescale data analysis ? 3 Clustera: an integrated putation and data management system 和第一作者一樣, 主要做 Hadoop(Mapreduce)和并行數(shù)據(jù)庫管理系統(tǒng)比較,用于大規(guī)模數(shù)據(jù)集分析。雖然這個框架的基本控制流已經(jīng)存在于并行 SQL數(shù)據(jù)庫管理系統(tǒng)超過 20年,也有人稱 MR為最新的計算模型。 6 ? ABSTRACT: There is currently considerable enthusiasm around the MapReduce (MR) paradigm for largescale data analysis. Although the basic control ?ow of this framework has existed in parallel SQL da
點(diǎn)擊復(fù)制文檔內(nèi)容
畢業(yè)設(shè)計相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1