freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

mapreduce數(shù)據(jù)分析-資料下載頁(yè)

2025-05-13 14:22本頁(yè)面
  

【正文】 100位記錄的數(shù)據(jù)集尋找三個(gè)特征模式,每個(gè)記錄中在前十位中包含一個(gè)唯一的鍵,后 90位是隨機(jī)的值。 Grep task在 1,10,25,50,100個(gè)節(jié)點(diǎn)上分別執(zhí)行。 19 ? ? 加載 535M/node和 1T/node如下圖,對(duì)于 DBMSX,下半段是執(zhí)行加載命令時(shí)間,上半段是重組過(guò)程。 Hadoop性能明顯好。 20 ? ? 三個(gè)系統(tǒng)的性能結(jié)果如下。 Hadoop上半段是 MR job把輸出文件結(jié)合成一個(gè)的時(shí)間。下半段是執(zhí)行任務(wù)時(shí)間。 對(duì)于每個(gè)節(jié)點(diǎn) 535M, DBMSX和 Vertica性能差不多; 對(duì)于每個(gè)節(jié)點(diǎn) 1T, DBMSX和 Hadoop性能差不多。 21 分析任務(wù) ? 為了探索處理更復(fù)雜的應(yīng)用,開發(fā)四個(gè)關(guān)于 HTML文檔處理的任務(wù)。每個(gè)節(jié)點(diǎn)分配 6000個(gè) HTML文檔,還自己利用產(chǎn)生器創(chuàng)造 2個(gè)數(shù)據(jù)集, UserVisits 記錄,每個(gè)節(jié)點(diǎn) 20G, 1800萬(wàn) Ranking 記錄,每個(gè)節(jié)點(diǎn) 1G。 ? 由于加載 UserVisits與 Ranking數(shù)據(jù)集是相似的,只提供數(shù)據(jù)集較大的 UserVisits的加載。節(jié)點(diǎn)數(shù)越多,相比較 Hadoop性能越好。 22 ? ? 選擇任務(wù)是輕量級(jí)過(guò)濾器在 Rinkings 表 (1G/節(jié)點(diǎn) )中尋找 pageURLs。設(shè)置臨界參數(shù)為 10,每個(gè)節(jié)點(diǎn)上每個(gè)數(shù)據(jù)文件大約產(chǎn)生 36000條記錄。結(jié)果如下, 隨著數(shù)據(jù)量增大, Hadoop影響最大。 Vertica性能較好。 23 ? Aggregation task ? 要求每個(gè)系統(tǒng)計(jì)算在 UserVisits表中生成每個(gè)源 IP總收益數(shù)( 20GB/節(jié)點(diǎn))。任務(wù)分別產(chǎn)生 250萬(wàn)( 53M)和 2021(24K)組記錄 當(dāng)組數(shù)量大時(shí), Vertica和 DBMSX性能差不多; 當(dāng)組數(shù)量小時(shí), Vertica性能較好。 24 聯(lián)合任務(wù) Join Task ? 加入任務(wù)包括兩個(gè)子任務(wù)來(lái)進(jìn)行兩組數(shù)據(jù)的復(fù)雜計(jì)算。首先,每個(gè)系統(tǒng)找出在特定時(shí)間內(nèi)產(chǎn)生最大收益的源 IP,一旦這些中間記錄產(chǎn)生時(shí),系統(tǒng)必須計(jì)算在此間隔期間的所有網(wǎng)頁(yè)訪問(wèn)的平均 PageRank。實(shí)驗(yàn)中使用表 UserVisits 1月 15日至 22日, 2021年,約 配。 Vertica和 DBMSX性能差不多。 25 UDF的聚集任務(wù) UDF Aggregation Task ? 任務(wù)是計(jì)算數(shù)據(jù)集中每個(gè)文檔的 inlink,這個(gè)任務(wù)經(jīng)常作為 PageRank計(jì)算的一個(gè)組件。具體來(lái)說(shuō),這項(xiàng)任務(wù)時(shí),系統(tǒng)必須讀取每個(gè)文件的內(nèi)容和搜索內(nèi)容中出現(xiàn)的所有 URL,然后針對(duì)每個(gè)唯一的 URL,計(jì)算唯一網(wǎng)頁(yè)的數(shù)量。 Vertica性能比較好。節(jié)點(diǎn)數(shù)越多, BMSX查詢的時(shí)間相比較增長(zhǎng)更快。 Vertica和 DBMSX的下面部分代表執(zhí)行UDF/分析和加載數(shù)據(jù)到表中的時(shí)間,上面部分是執(zhí)行真正查詢的時(shí)間。 26 結(jié)論 ? 平均在 100個(gè)節(jié)點(diǎn)上運(yùn)行這 5個(gè)任務(wù), DBMSX比 MR快 , Vertica比 DBMSX快 。估計(jì)在 1000個(gè)節(jié)點(diǎn)上,性能也差不多。 27 謝謝!
點(diǎn)擊復(fù)制文檔內(nèi)容
畢業(yè)設(shè)計(jì)相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1