freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

mapreduce數(shù)據(jù)分析-閱讀頁

2025-06-02 14:22本頁面
  

【正文】 exing ? 現(xiàn)代數(shù)據(jù)庫系統(tǒng)都使用哈?;蚨鏄渌饕铀僭L問數(shù)據(jù)。 12 ? ? 關(guān)系型數(shù)據(jù)庫系統(tǒng),程序用高級(jí)語言寫,容易讀寫和修改。為減輕執(zhí)行重復(fù)任務(wù),把高級(jí)語言遷移到當(dāng)前接口,如數(shù)據(jù)倉庫工具 Hive和分析大規(guī)模數(shù)據(jù)平臺(tái) Pig。 ? 除了最初決定把 Map實(shí)例安排在哪個(gè)節(jié)點(diǎn), MR程序員需要手動(dòng)執(zhí)行其他的任務(wù)。Reduce階段,不可避免的,兩個(gè)或更多的 reduce實(shí)例通過文件傳輸協(xié)議 pull同時(shí)從一個(gè) map節(jié)點(diǎn)讀取輸入文件,減慢有效的磁盤傳輸速率 . ? 并行數(shù)據(jù)庫系統(tǒng)不分塊文件,采用推送方式 push代替 pull。由于數(shù)據(jù)庫管理系統(tǒng)的健壯性,使開發(fā)者減輕寫復(fù)雜 SQL的負(fù)擔(dān)。 14 ? ? MR更善于處理執(zhí)行 MR計(jì)算過程中節(jié)點(diǎn)失敗。 ? 如果一個(gè)節(jié)點(diǎn)失敗,數(shù)據(jù)庫管理系統(tǒng)整個(gè)查詢必須完全重新啟動(dòng)。第一個(gè)任務(wù)是論文 【 8】 中的文章作者認(rèn)為有代表性的實(shí)驗(yàn)。在知名的 MR( Hadoop)和兩個(gè)并行數(shù)據(jù)庫管理系統(tǒng) (DBMSX Vwrtica)上執(zhí)行基準(zhǔn)。 ? DBMSX 系統(tǒng)安裝在每個(gè)節(jié)點(diǎn)上,配置 4GB內(nèi)存段用于緩沖池和臨時(shí)空間。 ? Vertica 是為大型數(shù)據(jù)倉庫設(shè)計(jì)的,以列的格式存儲(chǔ),默認(rèn)壓縮數(shù)據(jù),因?yàn)閳?zhí)行器可直接操作壓縮數(shù)據(jù),本文的結(jié)果是執(zhí)行壓縮數(shù)據(jù)產(chǎn)生的。 ? ? 每個(gè)系統(tǒng)執(zhí)行基準(zhǔn)任務(wù)三次取平均,先在一個(gè)節(jié)點(diǎn)上執(zhí)行每個(gè)任務(wù),然后在不同的集群數(shù)量上執(zhí)行不同的數(shù)據(jù)大小。由于 MR每個(gè) reduce輸出一個(gè)文件,而數(shù)據(jù)庫管理系統(tǒng)總共輸出一個(gè)文件,在 HDFS中執(zhí)行一個(gè)額外的 reduce函數(shù)來結(jié)合成一個(gè)文件再輸出。 Grep task在 1,10,25,50,100個(gè)節(jié)點(diǎn)上分別執(zhí)行。 Hadoop性能明顯好。 Hadoop上半段是 MR job把輸出文件結(jié)合成一個(gè)的時(shí)間。 對(duì)于每個(gè)節(jié)點(diǎn) 535M, DBMSX和 Vertica性能差不多; 對(duì)于每個(gè)節(jié)點(diǎn) 1T, DBMSX和 Hadoop性能差不多。每個(gè)節(jié)點(diǎn)分配 6000個(gè) HTML文檔,還自己利用產(chǎn)生器創(chuàng)造 2個(gè)數(shù)據(jù)集, UserVisits 記錄,每個(gè)節(jié)點(diǎn) 20G, 1800萬 Ranking 記錄,每個(gè)節(jié)點(diǎn) 1G。節(jié)點(diǎn)數(shù)越多,相比較 Hadoop性能越好。設(shè)置臨界參數(shù)為 10,每個(gè)節(jié)點(diǎn)上每個(gè)數(shù)據(jù)文件大約產(chǎn)生 36000條記錄。 Vertica性能較好。任務(wù)分別產(chǎn)生 250萬( 53M)和 2021(24K)組記錄 當(dāng)組數(shù)量大時(shí), Vertica和 DBMSX性能差不多; 當(dāng)組數(shù)量小時(shí), Vertica性能較好。首先,每個(gè)系統(tǒng)找出在特定時(shí)間內(nèi)產(chǎn)生最大收益的源 IP,一旦這些中間記錄產(chǎn)生時(shí),系統(tǒng)必須計(jì)算在此間隔期間的所有網(wǎng)頁訪問的平均 PageRank。 Vertica和 DBMSX性能差不多。具體來說,這項(xiàng)任務(wù)時(shí),系統(tǒng)必須讀取每個(gè)文件的內(nèi)容和搜索內(nèi)容中出現(xiàn)的所有 URL,然后針對(duì)每個(gè)唯一的 URL,計(jì)算唯一網(wǎng)頁的數(shù)量。節(jié)點(diǎn)數(shù)越多, BMSX查詢的時(shí)間相比較增長(zhǎng)更快。 26 結(jié)論 ? 平均在 100個(gè)節(jié)點(diǎn)上運(yùn)行這 5個(gè)任務(wù), DBMSX比 MR快 , Vertica比 DBMSX快 。 27 謝謝!
點(diǎn)擊復(fù)制文檔內(nèi)容
畢業(yè)設(shè)計(jì)相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1