freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

大數(shù)據(jù)bigdata培訓(xùn)課件-文庫吧資料

2024-10-22 16:13本頁面
  

【正文】 使用大規(guī)模集群實(shí)現(xiàn)大數(shù)據(jù)的管理和分析,需要應(yīng)對(duì)的挑戰(zhàn)很多,其中,系統(tǒng)的可用性擺到了重要的位置,23,關(guān)系數(shù)據(jù)庫技術(shù),根據(jù)CAP(consistency, availability, tolerance to network partitions)理論 (Towards Robust Distributed Systems. PODC2004 Keynote)(對(duì)該理論尚存爭(zhēng)議),在分布式系統(tǒng)中,一致性、可用性、容錯(cuò)性三者不可兼得,追求其中兩個(gè)目標(biāo)必將損害另外一個(gè)目標(biāo),24,關(guān)系數(shù)據(jù)庫技術(shù),并行數(shù)據(jù)庫系統(tǒng)追求高度的一致性和容錯(cuò)性(通過分布式事務(wù)、分布式鎖等機(jī)制),無法獲得良好的擴(kuò)展性和系統(tǒng)可用性,而系統(tǒng)的擴(kuò)展性是大數(shù)據(jù)分析的重要前提.,25,MapReduce,2004 年,Google 公司最先提出MapReduce技術(shù),作為面向大數(shù)據(jù)分析和處理的并行計(jì)算模型,引起了工業(yè)界和學(xué)術(shù)界的廣泛關(guān)注. MapReduce 在設(shè)計(jì)之初,致力于通過大規(guī)模廉價(jià)服務(wù)器集群實(shí)現(xiàn)大數(shù)據(jù)的并行處理,它把擴(kuò)展性和系統(tǒng)可用性放在了優(yōu)先考慮的位置.,26,MapReduce 技術(shù)框架,分布式文件系統(tǒng) 并行編程模型 并行執(zhí)行引擎,27,分布式文件系統(tǒng) (Google file system),分布式文件系統(tǒng)運(yùn)行于大規(guī)模集群之上,集群使用廉價(jià)的機(jī)器構(gòu)建. 數(shù)據(jù)采用鍵/值對(duì)(key/value)模式進(jìn)行存儲(chǔ). 整個(gè)文件系統(tǒng)采用元數(shù)據(jù)集中管理、數(shù)據(jù)塊分散存儲(chǔ)的模式,通過數(shù)據(jù)的復(fù)制(每份數(shù)據(jù)至少3 個(gè)備份)實(shí)現(xiàn)高度容錯(cuò). 數(shù)據(jù)采用大塊存儲(chǔ)(64MB 或者128MB 為1 塊)的辦法,可方便地對(duì)數(shù)據(jù)進(jìn)行壓縮,節(jié)省存儲(chǔ)空間和傳輸帶寬.,28,MapReduce 并行編程模型,并行編程模型把計(jì)算過程分解為兩個(gè)主要階段,即Map 階段和Reduce 階段. Map 函數(shù)處理Key/Value 對(duì),產(chǎn)生一系列的中間Key/Value 對(duì) Reduce 函數(shù)用來合并所有具有相同Key 值的中間鍵值對(duì),計(jì)算最終結(jié)果.,29,MapReduce 并行編程模型,MapReduce 技術(shù)是一種簡(jiǎn)潔的并行計(jì)算模型,它在系統(tǒng)層面解決了擴(kuò)展性、容錯(cuò)性等問題 通過接受用戶編寫的Map 函數(shù)和Reduce 函數(shù),自動(dòng)地在可伸縮的大規(guī)模集群上并行執(zhí)行,從而可以處理和分析大規(guī)模的數(shù)據(jù),30,MapReduce 并行編程模型,MapReduce 技術(shù)是非關(guān)系數(shù)據(jù)管理和分析技術(shù)的典型代表. 在Google 公司內(nèi)部,通過大規(guī)模集群和MapReduce 軟件,每天有超過20PB 的數(shù)據(jù)得到處理,每個(gè)月處理的數(shù)據(jù)量超過400PB,31,MapReduce 并行編程模型,在數(shù)據(jù)分析的基礎(chǔ)上,Google 提供了圍繞互聯(lián)網(wǎng)搜索的一系列服務(wù)(包括地圖服務(wù)、定向廣告服務(wù)等).如此大規(guī)模的數(shù)據(jù)管理和分析,是傳統(tǒng)的關(guān)系數(shù)據(jù)管理技術(shù)所無法完成的,32,MapReduce 技術(shù)的發(fā)展,一經(jīng)推出,立即遭到關(guān)系數(shù)據(jù)管理技術(shù)陣營(yíng)(以著名的數(shù)據(jù)庫技術(shù)專家Stonebraker 為代表)的猛烈抨擊. Stonebraker 認(rèn)為,MapReduce 技術(shù)是一個(gè)巨大的倒退,并指出了MapReduce 技術(shù)的眾多缺點(diǎn),包括 不支持Schema 沒有存取優(yōu)化 依靠蠻力(brute force)進(jìn)行數(shù)據(jù)處理等,33,MapReduce 技術(shù)的發(fā)展,Stonebraker 等人在100 個(gè)節(jié)點(diǎn)的集群上對(duì) Hadoop 技術(shù)(MapReduce 的開源實(shí)現(xiàn)) Vertica 數(shù)據(jù)庫(一種基于列存儲(chǔ)的關(guān)系數(shù)據(jù)庫管理系統(tǒng)) DBMSX 數(shù)據(jù)庫(某廠商提供的商用數(shù)據(jù)庫) 進(jìn)行了數(shù)據(jù)裝載和數(shù)據(jù)分析的性能比較, 發(fā)現(xiàn) Map Reduce 的性能遠(yuǎn)遠(yuǎn)低于Vertica 和DBMS X.但Stonebraker 的批判并沒有阻擋住以 MapReduce 技術(shù)為代表的大數(shù)據(jù)分析新技術(shù)的 發(fā)展洪流.,34,MapReduce 技術(shù)的發(fā)展,近幾年來,MapReduce 技術(shù)獲得了廣泛的關(guān)注,研究人員圍繞MapReduce 開展了深入的研究,包括 MapReduce 應(yīng)用領(lǐng)域的擴(kuò)展 MapReduce 性能的提升 MapReduce 易用性的改進(jìn)等 同時(shí),MapReduce 技術(shù)和RDBMS 也出現(xiàn)了相互 借鑒相互滲透的趨勢(shì),35,MapReduce應(yīng)用領(lǐng)域的擴(kuò)展,MapReduce 技術(shù)已經(jīng)從圍繞搜索的數(shù)據(jù)分析擴(kuò)展到數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、信息檢索、計(jì)算機(jī)仿真、科學(xué)實(shí)驗(yàn)數(shù)據(jù)處理(生物、物理…)等眾多的領(lǐng)域,36,MapReduce應(yīng)用領(lǐng)域的擴(kuò)展,針對(duì)傳統(tǒng)分析軟件擴(kuò)展性差以及Hadoop 分析功能薄弱的特點(diǎn),IBM 公司的研究人員致力于對(duì)R 和Hadoop的集成. R 是開源的統(tǒng)計(jì)分析軟件,通過R 和Hadoop 的深度集成,把計(jì)算推向數(shù)據(jù)并且并行處理,使Hadoop 獲得了強(qiáng)大的深度分析能力,37,MapReduce應(yīng)用領(lǐng)域的擴(kuò)展,Purdue 大學(xué)的RHIPE 項(xiàng)目(http://ml.stat.purdue.edu/rhipe/index.html)也致力于R 和Hadoop 的集成,為大數(shù)據(jù)分析提供開發(fā)環(huán)境的支持,38,MapReduce應(yīng)用領(lǐng)域的擴(kuò)展,Wegener 等人則實(shí)現(xiàn)了Weka(類似于R 的開源的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘工具軟件)和MapReduce 的集成.,39,MapReduce應(yīng)用領(lǐng)域的擴(kuò)展,標(biāo)準(zhǔn)版Weka 工具只能在單機(jī)上運(yùn)行,并且不能超越1GB 內(nèi)存的限制. 經(jīng)過算法的并行化,在MapReduce 集群上,Weka 不僅突破了原有的可處理數(shù)據(jù)量的限制,輕松地對(duì)超過100GB 的數(shù)據(jù)進(jìn)行分析,同時(shí)利用并行計(jì)算提高了性能. 經(jīng)過改造的Weka,賦予MapReduce 技術(shù)深度分析的能力,40,MapReduce應(yīng)用領(lǐng)域的擴(kuò)展,若干開發(fā)者發(fā)起了Apache Mahout 項(xiàng)目的研究,該項(xiàng)目是基于Hadoop 平臺(tái)的大規(guī)模數(shù)據(jù)集上的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘開源程序庫,為應(yīng)用開發(fā)者提供了豐富的數(shù)據(jù)分析功能,41,MapReduce性能提升的研究,多核硬件與GPU 上的性能改進(jìn) 索引技術(shù)與連接技術(shù)的優(yōu)化 調(diào)度技術(shù)優(yōu)化 其他優(yōu)化技術(shù),42,多核硬件與GPU 上的性能改進(jìn),MIT和Manchester 大學(xué)的研究人員研究了多核硬件上的MapReduce 性能改進(jìn)
點(diǎn)擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1