freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

云計(jì)算與大數(shù)據(jù)基礎(chǔ)(編輯修改稿)

2025-03-08 14:40 本頁(yè)面
 

【文章內(nèi)容簡(jiǎn)介】 數(shù)據(jù)簡(jiǎn)介 * ? 大數(shù)據(jù)需要處理的數(shù)據(jù) 大小通常達(dá)到 PB( 1024 TB) 或 EB( 1024 PB)級(jí) 。 數(shù)據(jù)的類型多種多樣,包括 結(jié)構(gòu)化 數(shù)據(jù)、 半結(jié)構(gòu)化 數(shù)據(jù)和 非結(jié)構(gòu)化 數(shù)據(jù) 。 ? 巨大的數(shù)據(jù)量和種類繁多的數(shù)據(jù)類型給大數(shù)據(jù)系統(tǒng)的存儲(chǔ)和計(jì)算帶來很大挑戰(zhàn),單節(jié)點(diǎn)的存儲(chǔ)容量和計(jì)算能力成為瓶頸 。 ? 分布式系統(tǒng) 是對(duì)大數(shù)據(jù)進(jìn)行處理的基本方法,分布式系統(tǒng)將數(shù)據(jù) 切分后存儲(chǔ)到多個(gè)節(jié)點(diǎn) 上,并 在多個(gè)節(jié)點(diǎn)上發(fā)起計(jì)算 ,解決單節(jié)點(diǎn)的存儲(chǔ)和計(jì)算瓶頸。常見的 數(shù)據(jù)切分的方法 有隨機(jī)方法、哈希方法和區(qū)間方法 : ? 隨機(jī)方法 將數(shù)據(jù)隨機(jī)分布到不同的節(jié)點(diǎn) 。 ? 哈希方法 根據(jù)數(shù)據(jù)的某一行或者某一列的哈希值將數(shù)據(jù)分布到不同的節(jié)點(diǎn) 。 ? 區(qū)間方法 將不同的數(shù)據(jù)按照不同區(qū)間分布到不同節(jié)點(diǎn)。 大數(shù)據(jù)簡(jiǎn)介 * ? 5.大數(shù)據(jù)的應(yīng)用領(lǐng)域 — 大數(shù)據(jù)在社會(huì)生活的各個(gè)領(lǐng)域得到廣泛的應(yīng)用,不同領(lǐng)域的大數(shù)據(jù)應(yīng)用具有不同的特點(diǎn),其對(duì)響應(yīng)時(shí)間、系統(tǒng)穩(wěn)定性、計(jì)算精確性的要求各不相同,其對(duì)比如表 。 表 典型的大數(shù)據(jù)應(yīng)用特征對(duì)比 應(yīng)用領(lǐng)域 示例 用戶數(shù)量 響應(yīng)時(shí)延 數(shù)據(jù)量級(jí) 穩(wěn)定性 精確度 科學(xué)計(jì)算 基因計(jì)算 小 長(zhǎng) TB 一般 非常高 金融 股票交易 大 實(shí)時(shí) GB 非常高 非常高 社交網(wǎng)絡(luò) Facebook 非常大 快速 PB 高 高 移動(dòng)數(shù)據(jù) 移動(dòng)終端 非常大 快速 TB 高 高 物聯(lián)網(wǎng) 傳感網(wǎng) 大 快速 TB 高 高 網(wǎng)頁(yè)數(shù)據(jù) 新聞網(wǎng)站 非常大 快速 GB 高 高 多媒體 視頻網(wǎng)站 非常大 快速 GB 高 一般 大數(shù)據(jù)簡(jiǎn)介 * ? 主要的大數(shù)據(jù)處理系統(tǒng) — 大數(shù)據(jù)處理的數(shù)據(jù)源類型多種多樣,如結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)處理的需求各不相同 : ? 對(duì)海量已有數(shù)據(jù)進(jìn)行批量處理, ? 對(duì)大量的實(shí)時(shí)生成的數(shù)據(jù)進(jìn)行實(shí)時(shí)處理, ? 在進(jìn)行數(shù)據(jù)分析時(shí)進(jìn)行反復(fù)迭代計(jì)算, ? 對(duì)圖數(shù)據(jù)進(jìn)行分析計(jì)算。 主要的大數(shù)據(jù)處理系統(tǒng) * ? 目前主要的大數(shù)據(jù)處理系統(tǒng)有 : 數(shù)據(jù)查詢分析計(jì)算系統(tǒng)、批處理系統(tǒng)、流式計(jì)算系統(tǒng)、迭代計(jì)算系統(tǒng)、圖計(jì)算系統(tǒng)和內(nèi)存計(jì)算系統(tǒng)。 1.?dāng)?shù)據(jù)查詢分析計(jì)算系統(tǒng) —大數(shù)據(jù)時(shí)代,數(shù)據(jù)查詢分析計(jì)算系統(tǒng)需要具備對(duì)大規(guī)模數(shù)據(jù)進(jìn)行實(shí)時(shí)或準(zhǔn)實(shí)時(shí)查詢的能力,數(shù)據(jù)規(guī)模的增長(zhǎng)已經(jīng)超出了傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)的承載和處理能力。 —目前主要的數(shù)據(jù)查詢分析計(jì)算系統(tǒng)包括 HBase、 Hive、 Cassandra、Dremel、 Shark、 Hana等。 主要的大數(shù)據(jù)處理系統(tǒng) * ? HBase: — 開源、分布式、面向列的非關(guān)系型數(shù)據(jù)庫(kù)模型,是 Apache的Hadoop項(xiàng)目的子項(xiàng)目; — 源于 Google論文《 Bigtable:一個(gè)結(jié)構(gòu)化數(shù)據(jù)的分布式存儲(chǔ)系統(tǒng)》,實(shí)現(xiàn)了其中的壓縮算法、內(nèi)存操作和布隆過濾器 — HBase的編程語言為 Java。 HBase的表能夠作為 MapReduce任務(wù)的輸入和輸出,可以通過 Java API來存取數(shù)據(jù)。 主要的大數(shù)據(jù)處理系統(tǒng) * ? Hive: — 基于 Hadoop的數(shù)據(jù)倉(cāng)庫(kù)工具,用于查詢、管理分布式存儲(chǔ)中的大數(shù)據(jù)集,提供完整的 SQL查詢功能,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)表。 — Hive提供了一種類 SQL語言( HiveQL)可以將 SQL語句轉(zhuǎn)換為MapReduce任務(wù)運(yùn)行。 主要的大數(shù)據(jù)處理系統(tǒng) * ?Cassandra: — 開源 NoSQL數(shù)據(jù)庫(kù)系統(tǒng),最早由 Facebook開發(fā),并于 2023年開源; — 由于其良好的可擴(kuò)展性, Cassandra被 Facebook、 Twitter、Backspace、 Cisco等公司使用; — 其數(shù)據(jù)模型借鑒了 Amazon的 Dynamo和 Google BigTable,是一種流行的分布式結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)方案。 主要的大數(shù)據(jù)處理系統(tǒng) * ?Impala: — 由 Cloudera公司主導(dǎo)開發(fā),是運(yùn)行在 Hadoop平臺(tái)上的開源的大規(guī)模并行 SQL查詢引擎。 — 用戶可以使用標(biāo)準(zhǔn)的 SQL接口的工具查詢存儲(chǔ)在 Hadoop的HDFS和 HBase中的 PB級(jí)大數(shù)據(jù)。 主要的大數(shù)據(jù)處理系統(tǒng) * ?Shark: — Spark上的數(shù)據(jù)倉(cāng)庫(kù)實(shí)現(xiàn),即 SQL on Spark; — 與 Hive相兼容,但處理 Hive QL 的性能比 Hive 快 100 倍。 ?Hana: — 由 SAP公司開發(fā)的與數(shù)據(jù)源無關(guān)、軟硬件結(jié)合、基于內(nèi)存計(jì)算的平臺(tái)。 主要的大數(shù)據(jù)處理系統(tǒng) * 2.批處理系統(tǒng) — MapReduce是被廣泛使用的批處理計(jì)算模式。 — MapReduce對(duì)具有簡(jiǎn)單數(shù)據(jù)關(guān)系、易于劃分的大數(shù)據(jù)采用“分而治之”的并行處理思想,將數(shù)據(jù)記錄的處理分為 Map和 Reduce兩個(gè)簡(jiǎn)單的抽象操作,提供了一個(gè)統(tǒng)一的并行計(jì)算框架。 — 批處理系統(tǒng)將復(fù)雜的并行計(jì)算的實(shí)現(xiàn)進(jìn)行封裝,大大降低開發(fā)人員的并行程序設(shè)計(jì)難度。 — Hadoop和 Spark是典型的批處理系統(tǒng)。 MapReduce的批處理模式不支持迭代計(jì)算。 主要的大數(shù)據(jù)處理系統(tǒng) * ?Hadoop: — 目前大數(shù)據(jù)處理最主流的平臺(tái),是 Apache基金會(huì)的開源軟件項(xiàng)目,使用 Java語言開發(fā)實(shí)現(xiàn)。 — Hadoop平臺(tái)使開發(fā)人員無需了解底層的分布式細(xì)節(jié),即可開發(fā)出分布式程序,在集群中對(duì)大數(shù)據(jù)進(jìn)行存儲(chǔ)、分析。 主要的大數(shù)據(jù)處理系統(tǒng) * ? Spark: — 由加州伯克利大學(xué) AMP實(shí)驗(yàn)室開發(fā),適合用于機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等迭代運(yùn)算較多的計(jì)算任務(wù)。 — Spark引入了內(nèi)存計(jì)算的概念,運(yùn)行 Spark時(shí)服務(wù)器可以將中間數(shù)據(jù)存儲(chǔ)在 RAM內(nèi)存中,大大加速數(shù)據(jù)分析結(jié)果的返回速度,可用于需要互動(dòng)分析的場(chǎng)景。 主要的大數(shù)據(jù)處理系統(tǒng) * ? 3.流式計(jì)算系統(tǒng) — 流式計(jì)算具有很強(qiáng)的實(shí)時(shí)性,需要對(duì)應(yīng)用源源不斷產(chǎn)生的數(shù)據(jù)實(shí)時(shí)進(jìn)行處理,使數(shù)據(jù)不積壓、不丟失,常用于處理電信、電力等行業(yè)應(yīng)用以及互聯(lián)網(wǎng)行業(yè)的訪問日志等。 — Facebook 的 Scribe、 Apache的 Flume、 Twitter的 Storm、 Yahoo的 S UCBerkeley的 Spark Streaming是常用的流式計(jì)算系統(tǒng)。 主要的大數(shù)據(jù)處理系統(tǒng) * ? Scribe: — Scribe 由 Facebook 開發(fā)開源系統(tǒng),用于從海量服務(wù)器實(shí)時(shí)收集日志信息, 對(duì)日志信息進(jìn)行實(shí)時(shí)的統(tǒng)計(jì)分析處理,應(yīng)用在Facebook內(nèi)部。 ? Flume: — Flume由 Cloudera 公司開發(fā),其功能與 Scribe相似,主要用于實(shí)時(shí)收集在海量節(jié)點(diǎn)上產(chǎn)生的日志信息,存儲(chǔ)到類似于 HDFS的網(wǎng)絡(luò)文件系統(tǒng)中,并根據(jù)用戶的需求進(jìn)行相應(yīng)的數(shù)據(jù)分析。 主要的大數(shù)據(jù)處理系統(tǒng) * ? Storm: — 基于拓?fù)涞?分布式流數(shù)據(jù)實(shí)時(shí)計(jì)算系統(tǒng) ,由 BackType公司(后被 Twitter收購(gòu))開發(fā),現(xiàn)已經(jīng)開放源代碼,并應(yīng)用于淘寶、百度、支付寶、 Groupon、 Facebook等平臺(tái),是主要的流數(shù)據(jù)計(jì)算平臺(tái)之一。 主要的大數(shù)據(jù)處理系統(tǒng) * ? S4: — S4的全稱是 Simple Scalable Streaming System,是由 Yahoo開發(fā)的通用、分布式、可擴(kuò)展、部分容錯(cuò)、具備可插拔功能的平臺(tái); — 其設(shè)計(jì)目的是根據(jù)用戶的搜索內(nèi)容計(jì)算得到相應(yīng)的推薦廣告,現(xiàn)已經(jīng)開源,是重要的大數(shù)據(jù)計(jì)算平臺(tái)。 主要的大數(shù)據(jù)處理系統(tǒng) * ? Spark Streaming: — 構(gòu)建在 Spark上的流數(shù)據(jù)處理框架,將流式計(jì)算分解成一系列短小的批處理任務(wù)進(jìn)行處理。 — 網(wǎng)站流量統(tǒng)計(jì)是 Spark Streaming的一種典型的使用場(chǎng)景,這種應(yīng)用既需要具有實(shí)時(shí)性,還需要進(jìn)行聚合、去重、連接等統(tǒng)計(jì)計(jì)算操作; — 如果使用 Hadoop MapReduce框架,則可以很容易地實(shí)現(xiàn)統(tǒng)計(jì)需求,但無法保證實(shí)時(shí)性;如果使用 Storm這種流式框架則可以保證實(shí)時(shí)性,但實(shí)現(xiàn)難度較大; Spark Streaming可以以準(zhǔn)實(shí)時(shí)的方式方便地實(shí)現(xiàn)復(fù)雜的統(tǒng)計(jì)需求。 主要的大數(shù)據(jù)處理系統(tǒng) * ? 4.迭代計(jì)算系統(tǒng) 針對(duì) MapReduce不支持迭代計(jì)算的缺陷,人們對(duì) Hadoop的 MapReduce進(jìn)行了大量改進(jìn), Haloop、 iMapReduce、 Twister、 Spark是典型的迭代計(jì)算系統(tǒng)。 ?HaLoop: Haloop是 Hadoop MapReduce框架的修改版本,用于支持迭代、遞歸類型的數(shù)據(jù)分析任務(wù),如 PageRank、 Kmeans等。 ?iMapReduce: 一種基于 MapReduce 的迭代模型,實(shí)現(xiàn)了 MapReduce 的異步迭代。 ?Twister: 基于 Java的迭代 MapReduce模型,上一輪 Reduce的結(jié)果會(huì)直接傳送到下一輪的 Map。 ?Spark: 基于內(nèi)存計(jì)算的
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1