freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

mapreduce數(shù)據(jù)分析-資料下載頁

2025-05-13 14:22本頁面
  

【正文】 100位記錄的數(shù)據(jù)集尋找三個特征模式,每個記錄中在前十位中包含一個唯一的鍵,后 90位是隨機的值。 Grep task在 1,10,25,50,100個節(jié)點上分別執(zhí)行。 19 ? ? 加載 535M/node和 1T/node如下圖,對于 DBMSX,下半段是執(zhí)行加載命令時間,上半段是重組過程。 Hadoop性能明顯好。 20 ? ? 三個系統(tǒng)的性能結果如下。 Hadoop上半段是 MR job把輸出文件結合成一個的時間。下半段是執(zhí)行任務時間。 對于每個節(jié)點 535M, DBMSX和 Vertica性能差不多; 對于每個節(jié)點 1T, DBMSX和 Hadoop性能差不多。 21 分析任務 ? 為了探索處理更復雜的應用,開發(fā)四個關于 HTML文檔處理的任務。每個節(jié)點分配 6000個 HTML文檔,還自己利用產(chǎn)生器創(chuàng)造 2個數(shù)據(jù)集, UserVisits 記錄,每個節(jié)點 20G, 1800萬 Ranking 記錄,每個節(jié)點 1G。 ? 由于加載 UserVisits與 Ranking數(shù)據(jù)集是相似的,只提供數(shù)據(jù)集較大的 UserVisits的加載。節(jié)點數(shù)越多,相比較 Hadoop性能越好。 22 ? ? 選擇任務是輕量級過濾器在 Rinkings 表 (1G/節(jié)點 )中尋找 pageURLs。設置臨界參數(shù)為 10,每個節(jié)點上每個數(shù)據(jù)文件大約產(chǎn)生 36000條記錄。結果如下, 隨著數(shù)據(jù)量增大, Hadoop影響最大。 Vertica性能較好。 23 ? Aggregation task ? 要求每個系統(tǒng)計算在 UserVisits表中生成每個源 IP總收益數(shù)( 20GB/節(jié)點)。任務分別產(chǎn)生 250萬( 53M)和 2021(24K)組記錄 當組數(shù)量大時, Vertica和 DBMSX性能差不多; 當組數(shù)量小時, Vertica性能較好。 24 聯(lián)合任務 Join Task ? 加入任務包括兩個子任務來進行兩組數(shù)據(jù)的復雜計算。首先,每個系統(tǒng)找出在特定時間內產(chǎn)生最大收益的源 IP,一旦這些中間記錄產(chǎn)生時,系統(tǒng)必須計算在此間隔期間的所有網(wǎng)頁訪問的平均 PageRank。實驗中使用表 UserVisits 1月 15日至 22日, 2021年,約 配。 Vertica和 DBMSX性能差不多。 25 UDF的聚集任務 UDF Aggregation Task ? 任務是計算數(shù)據(jù)集中每個文檔的 inlink,這個任務經(jīng)常作為 PageRank計算的一個組件。具體來說,這項任務時,系統(tǒng)必須讀取每個文件的內容和搜索內容中出現(xiàn)的所有 URL,然后針對每個唯一的 URL,計算唯一網(wǎng)頁的數(shù)量。 Vertica性能比較好。節(jié)點數(shù)越多, BMSX查詢的時間相比較增長更快。 Vertica和 DBMSX的下面部分代表執(zhí)行UDF/分析和加載數(shù)據(jù)到表中的時間,上面部分是執(zhí)行真正查詢的時間。 26 結論 ? 平均在 100個節(jié)點上運行這 5個任務, DBMSX比 MR快 , Vertica比 DBMSX快 。估計在 1000個節(jié)點上,性能也差不多。 27 謝謝!
點擊復制文檔內容
畢業(yè)設計相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1