freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)分析ppt課件-資料下載頁

2025-04-30 18:13本頁面
  

【正文】 集 MR程序,這個(gè)任務(wù)是在 100位記錄的數(shù)據(jù)集尋找三個(gè)特征模式,每個(gè)記錄中在前十位中包含一個(gè)唯一的鍵,后 90位是隨機(jī)的值。 Grep task在 1,10,25,50,100個(gè)節(jié)點(diǎn)上分別執(zhí)行。19167。 加載 535M/node和 1T/node如下圖,對于 DBMSX,下半段是執(zhí)行并行加載命令時(shí)間,上半段是重組過程 reanization process。Hadoop性能明顯好。20167。 三個(gè)系統(tǒng)的性能結(jié)果如下。 Hadoop上半段是 MR job把輸出文件結(jié)合成一個(gè)的時(shí)間。下半段是執(zhí)行任務(wù)時(shí)間。對于每個(gè)節(jié)點(diǎn) 535M, DBMSX和 Vertica性能差不多;對于每個(gè)節(jié)點(diǎn) 1T, DBMSX和 Hadoop性能差不多。21 分析任務(wù)167。 為了探索處理更復(fù)雜的應(yīng)用,開發(fā)四個(gè)關(guān)于 HTML文檔處理的任務(wù)。每個(gè)節(jié)點(diǎn)分配 6000個(gè) HTML文檔,還自己利用產(chǎn)生器創(chuàng)造 2個(gè)數(shù)據(jù)集, UserVisits 記錄,每個(gè)節(jié)點(diǎn) 20G, 1800萬 Ranking 記錄,每個(gè)節(jié)點(diǎn) 1G。由于加載 UserVisits與 Ranking數(shù)據(jù)集是相似的,只提供數(shù)據(jù)集較大的UserVisits的加載。節(jié)點(diǎn)數(shù)越多,相比較 Hadoop性能越好。22167。 選擇任務(wù)是輕量級過濾器在 Rinkings 表 (1G/節(jié)點(diǎn) )中尋找 pageURLs。設(shè)置臨界參數(shù)為 10,每個(gè)節(jié)點(diǎn)上每個(gè)數(shù)據(jù)文件大約產(chǎn)生 36000條記錄。結(jié)果如下,隨著數(shù)據(jù)量增大, Hadoop影響最大。 Vertica性能較好。23 聚集任務(wù) Aggregation task167。 要求每個(gè)系統(tǒng)計(jì)算在 UserVisits表中生成每個(gè)源 IP總收益數(shù)( 20GB/節(jié)點(diǎn))。任務(wù)分別產(chǎn)生 250萬( 53M)和 2022(24K)組記錄當(dāng)組數(shù)量大時(shí), Vertica和 DBMSX性能差不多;當(dāng)組數(shù)量小時(shí), Vertica性能較好。24 聯(lián)合查詢?nèi)蝿?wù) Join Task167。 加入任務(wù)包括兩個(gè)子任務(wù)來進(jìn)行兩組數(shù)據(jù)的復(fù)雜計(jì)算。首先,每個(gè)系統(tǒng)找出在特定時(shí)間內(nèi)產(chǎn)生最大收益的源 IP,一旦這些中間記錄產(chǎn)生時(shí),系統(tǒng)必須計(jì)算在此間隔期間的所有網(wǎng)頁訪問的平均 PageRank。實(shí)驗(yàn)中使用表 UserVisits 1月 15日至 22日, 2022年,約 配。Vertica和 DBMSX性能差不多。25 UDF的聚集任務(wù) UDF Aggregation Task167。 任務(wù)是計(jì)算數(shù)據(jù)集中每個(gè)文檔的 inlink,這個(gè)任務(wù)經(jīng)常作為 PageRank計(jì)算的一個(gè)組件。具體來說,這項(xiàng)任務(wù)時(shí),系統(tǒng)必須讀取每個(gè)文件的內(nèi)容和搜索內(nèi)容中出現(xiàn)的所有 URL,然后針對每個(gè)唯一的 URL,計(jì)算唯一網(wǎng)頁的數(shù)量。Vertica性能比較好。節(jié)點(diǎn)數(shù)越多, BMSX查詢的時(shí)間相比較增長更快。Vertica和 DBMSX的下面部分代表執(zhí)行UDF/分析和加載數(shù)據(jù)到表中的時(shí)間,上面部分是執(zhí)行真正查詢的時(shí)間。26結(jié)論167。 平均在 100個(gè)節(jié)點(diǎn)上運(yùn)行這 5個(gè)任務(wù), DBMSX比 MR快 , Vertica比 DBMSX快 。估計(jì)在 1000個(gè)節(jié)點(diǎn)上,性能差別也差不多。27謝謝!
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1