freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

pb級(jí)大數(shù)據(jù)存儲(chǔ)技術(shù)與分析技術(shù)解析-資料下載頁(yè)

2025-06-29 08:37本頁(yè)面
  

【正文】 撲結(jié)構(gòu)中的所有處理。螺栓既可實(shí)現(xiàn) MapReduce 之類的傳統(tǒng)功能,也可實(shí)現(xiàn)更復(fù)雜的操作(單步功能),比如過(guò)濾、聚合或與數(shù)據(jù)庫(kù)等外部實(shí)體通信。典型的 Storm 拓?fù)浣Y(jié)構(gòu)會(huì)實(shí)現(xiàn)多個(gè)轉(zhuǎn)換,因此需要多個(gè)具有獨(dú)立元組流的螺栓。噴嘴和螺栓都實(shí)現(xiàn)為 Linux? 系統(tǒng)中的一個(gè)或多個(gè)任務(wù)??墒褂?Storm 為詞頻輕松地實(shí)現(xiàn) MapReduce 功能。如 圖 2 中所示,噴嘴生成文本數(shù)據(jù)流,螺栓實(shí)現(xiàn) Map 功能(令牌化一個(gè)流的各個(gè)單詞)。來(lái)自 “map” 螺栓的流然后流入一個(gè)實(shí)現(xiàn) Reduce 功能的螺栓中(以將單詞聚合到總數(shù)中)。圖 2. MapReduce 功能的簡(jiǎn)單 Storm 拓?fù)浣Y(jié)構(gòu)請(qǐng)注意,螺栓可將數(shù)據(jù)傳輸?shù)蕉鄠€(gè)螺栓,也可接受來(lái)自多個(gè)來(lái)源的數(shù)據(jù)。Storm 擁有流分組 的概念,流分組實(shí)現(xiàn)了混排 (shuffling)(隨機(jī)但均等地將元組分發(fā)到螺栓)或字段分組(根據(jù)流的字段進(jìn)行流分區(qū))。還存在其他流分組,包括生成者使用自己的內(nèi)部邏輯路由元組的能力。但是,Storm 架構(gòu)中一個(gè)最有趣的特性是有保障的消息處理。Storm 可保證一個(gè)噴嘴發(fā)射出的每個(gè)元組都會(huì)處理;如果它在超時(shí)時(shí)間內(nèi)沒有處理,Storm 會(huì)從該噴嘴重放該元組。此功能需要一些聰明的技巧來(lái)在拓?fù)浣Y(jié)構(gòu)中跟蹤元素,也是 Storm 的重要的附加價(jià)值之一。除了支持可靠的消息傳送外,Storm 還使用 ZeroMQ 最大化消息傳送性能(刪除中間排隊(duì),實(shí)現(xiàn)消息在任務(wù)間的直接傳送)。ZeroMQ 合并了擁塞檢測(cè)并調(diào)整了它的通信,以優(yōu)化可用的帶寬。Storm 示例演示現(xiàn)在讓我們通過(guò)實(shí)現(xiàn)一個(gè)簡(jiǎn)單的 MapReduce 拓?fù)浣Y(jié)構(gòu)的代碼(參見 清單 1),看一下 Storm 示例。這個(gè)示例使用了來(lái)自 Nathan 的 Storm 入門工具包(可從 GitHub 獲?。▍⒁?參考資料 獲取鏈接)的巧妙設(shè)計(jì)的字?jǐn)?shù)示例。此示例演示了 圖 2 中所示的拓?fù)浣Y(jié)構(gòu),它實(shí)現(xiàn)了一個(gè)包含一個(gè)螺栓的 map 轉(zhuǎn)換和包含一個(gè)螺栓的 reduce 轉(zhuǎn)換。清單 1. 為圖 2 中的 Storm 構(gòu)建一個(gè)拓?fù)浣Y(jié)構(gòu)1. TopologyBuilderbuilder=newTopologyBuilder()。 2. (spout,newRandomSentenceSpout(),5)。 3. (map,newSplitSentence(),4) 4. .shuffleGrouping(spout)。 5. (reduce,newWordCount(),8) 6. .fieldsGrouping(map,newFields(word))。 7. Configconf=newConfig()。 8. (true)。 9. LocalClustercluster=newLocalCluster()。 10. (wordcount,conf,())。 11. (10000)。 12. ()。清單 1(添加了行號(hào)以供引用)首先使用 TopologyBuilder 聲明一個(gè)新拓?fù)浣Y(jié)構(gòu)。接下來(lái)在第 3 行,定義了一個(gè)噴嘴(名為 spout),該噴嘴包含一個(gè) RandomSentenceSpout。RandomSentenceSpout 類(也就是 nextTuple 方法)發(fā)出 5 個(gè)隨機(jī)句子的其中一個(gè)作為它的數(shù)據(jù)。setSpout 方法末尾的 5 參數(shù)是一個(gè)并行性提示(或要為此活動(dòng)創(chuàng)建的任務(wù)數(shù))。在第 5 和 6 行。我定義了第一個(gè)螺栓(或算法轉(zhuǎn)換實(shí)體),在本例中為 map(或 split)螺栓。這個(gè)螺栓使用 SplitSentence 令牌化輸入流并將其作為輸出的各個(gè)單詞發(fā)出。請(qǐng)注意,第 6 行使用了 shuffleGrouping,它定義了對(duì)此螺栓(在本例中為 “spout”)的輸入訂閱,還將流分組定義為混排。這種混排分組意味著來(lái)自噴嘴的輸入將混排 或隨機(jī)分發(fā)給此螺栓中的任務(wù)(該螺栓已提示具有 4 任務(wù)并行性)。在第 8 和 9 行,我定義了最后一個(gè)螺栓,這個(gè)螺栓實(shí)際上用于 reduce 元素,使用該元素的輸入作為 map 螺栓。WordCount 方法實(shí)現(xiàn)了必要的字?jǐn)?shù)統(tǒng)計(jì)行為(將相似的單詞分組到一起,以維護(hù)總數(shù)),但不是混排的,所以它的輸出是一致的。如果有多個(gè)任務(wù)在實(shí)現(xiàn) reduce 行為,那么您最終會(huì)得到分段的計(jì)數(shù),而不是總數(shù)。第 11 和 12 行創(chuàng)建和定義了一個(gè)配置對(duì)象并啟用了 Debug 模式。Config 類包含大量配置可能性(參見 參考資料,獲取有關(guān) Storm 類樹的更多信息的鏈接)。第 14 和 15 行創(chuàng)建了本地集群(在本例中,用于定義本地模式的用途)。我定義了我的本地集群、配置對(duì)象和拓?fù)浣Y(jié)構(gòu)的名稱(可通過(guò) builder 類的 createTopology 元素獲?。?。最后,在第 17 行,Storm 休眠一段時(shí)間,然后在第 19 行關(guān)閉集群。請(qǐng)記住,Storm 是一個(gè)持續(xù)運(yùn)行的操作系統(tǒng),所以任務(wù)可存在相當(dāng)長(zhǎng)時(shí)間,不斷處理它們訂閱的流上的新元組。您可在 Storm 入門工具包中了解這個(gè)非常簡(jiǎn)單的實(shí)現(xiàn)的更多信息,包括噴嘴和螺栓的細(xì)節(jié)。使用 StormNathan Marz 編寫了一組簡(jiǎn)單易懂的文檔,詳細(xì)介紹了如何安裝 Storm 來(lái)執(zhí)行集群模式和本地模式的操作。本地模式無(wú)需一個(gè)龐大的節(jié)點(diǎn)集群,即可使用 Storm。如果需要在一個(gè)集群中使用 Storm 但缺乏節(jié)點(diǎn),也可在 Amazon Elastic Compute Cloud (EC2) 中實(shí)現(xiàn)一個(gè) Storm 集群。請(qǐng)參見 參考資料 獲取每個(gè) Storm 模式(本地、集群和 Amazon EC2)的參考信息。其他開源的大數(shù)據(jù)解決方案自 Google 在 2004 年推出 MapReduce 范式以來(lái),已誕生了多個(gè)使用原始 MapReduce 范式(或擁有該范式的質(zhì)量)的解決方案。Google 對(duì) MapReduce 的最初應(yīng)用是建立萬(wàn)維網(wǎng)的索引。盡管此應(yīng)用程序仍然很流行,但這個(gè)簡(jiǎn)單模型解決的問(wèn)題也正在增多。表 1 提供了一個(gè)可用開源大數(shù)據(jù)解決方案的列表,包括傳統(tǒng)的批處理和流式處理應(yīng)用程序。在將 Storm 引入開源之前將近一年的時(shí)間里,Yahoo! 的 S4 分布式流計(jì)算平臺(tái)已向 Apache 開源。S4 于 2010 年 10 月發(fā)布,它提供了一個(gè)高性能計(jì)算 (HPC) 平臺(tái),向應(yīng)用程序開發(fā)人員隱藏了并行處理的復(fù)雜性。S4 實(shí)現(xiàn)了一個(gè)可擴(kuò)展的、分散化的集群架構(gòu),并納入了部分容錯(cuò)功能。表 1. 開源大數(shù)據(jù)解決方案更多信息盡管 Hadoop 仍然是宣傳最多的大數(shù)據(jù)分析解決方案,但仍可能存在許多其他的解決方案,每種解決方案都具有不同的特征。我在過(guò)去的文章中探討了 Spark,它納入了數(shù)據(jù)集的內(nèi)存中處理功能(能夠重新構(gòu)建丟失的數(shù)據(jù))。但 Hadoop 和 Spark 都專注于大數(shù)據(jù)集的批處理。Storm 提供了一個(gè)新的大數(shù)據(jù)分析模型,而且因?yàn)樗罱婚_源,所以也引起廣泛的關(guān)注。與 Hadoop 不同,Storm 是一個(gè)計(jì)算系統(tǒng),它沒有包括任何存儲(chǔ)概念。這就使得 Storm 能夠用在各種各樣的上下文中,無(wú)論數(shù)據(jù)是從一個(gè)非傳統(tǒng)來(lái)源動(dòng)態(tài)傳入,還是存儲(chǔ)在數(shù)據(jù)庫(kù)等存儲(chǔ)系統(tǒng)中(或者由一個(gè)控制器用于對(duì)其他一些設(shè)備(比如一個(gè)交易系統(tǒng))進(jìn)行實(shí)時(shí)操作)都是如此。請(qǐng)參見 參考資料 獲取有關(guān) Storm 的更多信息的鏈接,了解如何讓一個(gè)集群正常運(yùn)行,以及其他大數(shù)據(jù)分析解決方案(包括批處理和流式處理)。參考資料 復(fù)雜事件處理是 Storm 以及其他許多解決方案(比如 Yahoo! 的 S4)實(shí)現(xiàn)的模式。Storm 與 S4 之間的一個(gè)重要區(qū)別在于,Storm 在面對(duì)故障時(shí)提供了有保障的消息處理,而 S4 可能丟失消息。 Nathan Marz(Storm 背后的重要開發(fā)人員)為他的新產(chǎn)品編寫了多篇有趣且實(shí)用的介紹文章。對(duì) Storm 的最早介紹來(lái)自 2011 年 5 月的Storm 預(yù)覽:能夠?qū)崟r(shí)處理的 Hadoop BackType Technology,隨后是 8 月推出的A Storm is ing: more details and plans for release。 Storm 維基提供了有關(guān) Storm、它的理論基礎(chǔ)的大量?jī)?yōu)秀文檔,以及有關(guān)獲取 Storm 和設(shè)置新項(xiàng)目的各種教程。您還將找到一些有關(guān) Storm 的許多方面的實(shí)用文檔,包括 Storm 在本地模式、集群模式和在 Amazon 上的使用。 Spark,一種快速數(shù)據(jù)分析替代方案(M. Tim Jones,developerWorks,2011 年 11 月)介紹了 UC Berkeley 的內(nèi)存中彈性數(shù)據(jù)分析平臺(tái)。 應(yīng)用程序虛擬化的過(guò)去與未來(lái)(M. Tim Jones,developerWorks,2011 年 5 月)詳細(xì)介紹了虛擬化在語(yǔ)言抽象方面的使用。Storm 使用基于虛擬機(jī)的語(yǔ)言 Clojure 來(lái)實(shí)現(xiàn),還使用 Java 技術(shù)和許多其他語(yǔ)言來(lái)構(gòu)建它的內(nèi)部(螺栓)應(yīng)用程序。 GitHub 上提供了 Storm 的一個(gè)thorough class tree exists,詳細(xì)介紹了 Storm 的類和接口。 Hadoop 已開始解決簡(jiǎn)單批處理以外的模型。例如,通過(guò)調(diào)度,Hadoop 可調(diào)整其處理數(shù)據(jù)的方式,以便更多地關(guān)注交互性,而不是批量數(shù)據(jù)處理。在Hadoop 中的調(diào)度(M. Tim Jones,developerWorks,2011 年 12 月)中了解有關(guān) Hadoop 調(diào)度的更多信息。 44 / 44
點(diǎn)擊復(fù)制文檔內(nèi)容
職業(yè)教育相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1