freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

pb級大數(shù)據(jù)存儲技術與分析技術解析-資料下載頁

2025-06-29 08:37本頁面
  

【正文】 撲結構中的所有處理。螺栓既可實現(xiàn) MapReduce 之類的傳統(tǒng)功能,也可實現(xiàn)更復雜的操作(單步功能),比如過濾、聚合或與數(shù)據(jù)庫等外部實體通信。典型的 Storm 拓撲結構會實現(xiàn)多個轉換,因此需要多個具有獨立元組流的螺栓。噴嘴和螺栓都實現(xiàn)為 Linux? 系統(tǒng)中的一個或多個任務??墒褂?Storm 為詞頻輕松地實現(xiàn) MapReduce 功能。如 圖 2 中所示,噴嘴生成文本數(shù)據(jù)流,螺栓實現(xiàn) Map 功能(令牌化一個流的各個單詞)。來自 “map” 螺栓的流然后流入一個實現(xiàn) Reduce 功能的螺栓中(以將單詞聚合到總數(shù)中)。圖 2. MapReduce 功能的簡單 Storm 拓撲結構請注意,螺栓可將數(shù)據(jù)傳輸?shù)蕉鄠€螺栓,也可接受來自多個來源的數(shù)據(jù)。Storm 擁有流分組 的概念,流分組實現(xiàn)了混排 (shuffling)(隨機但均等地將元組分發(fā)到螺栓)或字段分組(根據(jù)流的字段進行流分區(qū))。還存在其他流分組,包括生成者使用自己的內部邏輯路由元組的能力。但是,Storm 架構中一個最有趣的特性是有保障的消息處理。Storm 可保證一個噴嘴發(fā)射出的每個元組都會處理;如果它在超時時間內沒有處理,Storm 會從該噴嘴重放該元組。此功能需要一些聰明的技巧來在拓撲結構中跟蹤元素,也是 Storm 的重要的附加價值之一。除了支持可靠的消息傳送外,Storm 還使用 ZeroMQ 最大化消息傳送性能(刪除中間排隊,實現(xiàn)消息在任務間的直接傳送)。ZeroMQ 合并了擁塞檢測并調整了它的通信,以優(yōu)化可用的帶寬。Storm 示例演示現(xiàn)在讓我們通過實現(xiàn)一個簡單的 MapReduce 拓撲結構的代碼(參見 清單 1),看一下 Storm 示例。這個示例使用了來自 Nathan 的 Storm 入門工具包(可從 GitHub 獲?。▍⒁?參考資料 獲取鏈接)的巧妙設計的字數(shù)示例。此示例演示了 圖 2 中所示的拓撲結構,它實現(xiàn)了一個包含一個螺栓的 map 轉換和包含一個螺栓的 reduce 轉換。清單 1. 為圖 2 中的 Storm 構建一個拓撲結構1. TopologyBuilderbuilder=newTopologyBuilder()。 2. (spout,newRandomSentenceSpout(),5)。 3. (map,newSplitSentence(),4) 4. .shuffleGrouping(spout)。 5. (reduce,newWordCount(),8) 6. .fieldsGrouping(map,newFields(word))。 7. Configconf=newConfig()。 8. (true)。 9. LocalClustercluster=newLocalCluster()。 10. (wordcount,conf,())。 11. (10000)。 12. ()。清單 1(添加了行號以供引用)首先使用 TopologyBuilder 聲明一個新拓撲結構。接下來在第 3 行,定義了一個噴嘴(名為 spout),該噴嘴包含一個 RandomSentenceSpout。RandomSentenceSpout 類(也就是 nextTuple 方法)發(fā)出 5 個隨機句子的其中一個作為它的數(shù)據(jù)。setSpout 方法末尾的 5 參數(shù)是一個并行性提示(或要為此活動創(chuàng)建的任務數(shù))。在第 5 和 6 行。我定義了第一個螺栓(或算法轉換實體),在本例中為 map(或 split)螺栓。這個螺栓使用 SplitSentence 令牌化輸入流并將其作為輸出的各個單詞發(fā)出。請注意,第 6 行使用了 shuffleGrouping,它定義了對此螺栓(在本例中為 “spout”)的輸入訂閱,還將流分組定義為混排。這種混排分組意味著來自噴嘴的輸入將混排 或隨機分發(fā)給此螺栓中的任務(該螺栓已提示具有 4 任務并行性)。在第 8 和 9 行,我定義了最后一個螺栓,這個螺栓實際上用于 reduce 元素,使用該元素的輸入作為 map 螺栓。WordCount 方法實現(xiàn)了必要的字數(shù)統(tǒng)計行為(將相似的單詞分組到一起,以維護總數(shù)),但不是混排的,所以它的輸出是一致的。如果有多個任務在實現(xiàn) reduce 行為,那么您最終會得到分段的計數(shù),而不是總數(shù)。第 11 和 12 行創(chuàng)建和定義了一個配置對象并啟用了 Debug 模式。Config 類包含大量配置可能性(參見 參考資料,獲取有關 Storm 類樹的更多信息的鏈接)。第 14 和 15 行創(chuàng)建了本地集群(在本例中,用于定義本地模式的用途)。我定義了我的本地集群、配置對象和拓撲結構的名稱(可通過 builder 類的 createTopology 元素獲?。?。最后,在第 17 行,Storm 休眠一段時間,然后在第 19 行關閉集群。請記住,Storm 是一個持續(xù)運行的操作系統(tǒng),所以任務可存在相當長時間,不斷處理它們訂閱的流上的新元組。您可在 Storm 入門工具包中了解這個非常簡單的實現(xiàn)的更多信息,包括噴嘴和螺栓的細節(jié)。使用 StormNathan Marz 編寫了一組簡單易懂的文檔,詳細介紹了如何安裝 Storm 來執(zhí)行集群模式和本地模式的操作。本地模式無需一個龐大的節(jié)點集群,即可使用 Storm。如果需要在一個集群中使用 Storm 但缺乏節(jié)點,也可在 Amazon Elastic Compute Cloud (EC2) 中實現(xiàn)一個 Storm 集群。請參見 參考資料 獲取每個 Storm 模式(本地、集群和 Amazon EC2)的參考信息。其他開源的大數(shù)據(jù)解決方案自 Google 在 2004 年推出 MapReduce 范式以來,已誕生了多個使用原始 MapReduce 范式(或擁有該范式的質量)的解決方案。Google 對 MapReduce 的最初應用是建立萬維網(wǎng)的索引。盡管此應用程序仍然很流行,但這個簡單模型解決的問題也正在增多。表 1 提供了一個可用開源大數(shù)據(jù)解決方案的列表,包括傳統(tǒng)的批處理和流式處理應用程序。在將 Storm 引入開源之前將近一年的時間里,Yahoo! 的 S4 分布式流計算平臺已向 Apache 開源。S4 于 2010 年 10 月發(fā)布,它提供了一個高性能計算 (HPC) 平臺,向應用程序開發(fā)人員隱藏了并行處理的復雜性。S4 實現(xiàn)了一個可擴展的、分散化的集群架構,并納入了部分容錯功能。表 1. 開源大數(shù)據(jù)解決方案更多信息盡管 Hadoop 仍然是宣傳最多的大數(shù)據(jù)分析解決方案,但仍可能存在許多其他的解決方案,每種解決方案都具有不同的特征。我在過去的文章中探討了 Spark,它納入了數(shù)據(jù)集的內存中處理功能(能夠重新構建丟失的數(shù)據(jù))。但 Hadoop 和 Spark 都專注于大數(shù)據(jù)集的批處理。Storm 提供了一個新的大數(shù)據(jù)分析模型,而且因為它最近被開源,所以也引起廣泛的關注。與 Hadoop 不同,Storm 是一個計算系統(tǒng),它沒有包括任何存儲概念。這就使得 Storm 能夠用在各種各樣的上下文中,無論數(shù)據(jù)是從一個非傳統(tǒng)來源動態(tài)傳入,還是存儲在數(shù)據(jù)庫等存儲系統(tǒng)中(或者由一個控制器用于對其他一些設備(比如一個交易系統(tǒng))進行實時操作)都是如此。請參見 參考資料 獲取有關 Storm 的更多信息的鏈接,了解如何讓一個集群正常運行,以及其他大數(shù)據(jù)分析解決方案(包括批處理和流式處理)。參考資料 復雜事件處理是 Storm 以及其他許多解決方案(比如 Yahoo! 的 S4)實現(xiàn)的模式。Storm 與 S4 之間的一個重要區(qū)別在于,Storm 在面對故障時提供了有保障的消息處理,而 S4 可能丟失消息。 Nathan Marz(Storm 背后的重要開發(fā)人員)為他的新產(chǎn)品編寫了多篇有趣且實用的介紹文章。對 Storm 的最早介紹來自 2011 年 5 月的Storm 預覽:能夠實時處理的 Hadoop BackType Technology,隨后是 8 月推出的A Storm is ing: more details and plans for release。 Storm 維基提供了有關 Storm、它的理論基礎的大量優(yōu)秀文檔,以及有關獲取 Storm 和設置新項目的各種教程。您還將找到一些有關 Storm 的許多方面的實用文檔,包括 Storm 在本地模式、集群模式和在 Amazon 上的使用。 Spark,一種快速數(shù)據(jù)分析替代方案(M. Tim Jones,developerWorks,2011 年 11 月)介紹了 UC Berkeley 的內存中彈性數(shù)據(jù)分析平臺。 應用程序虛擬化的過去與未來(M. Tim Jones,developerWorks,2011 年 5 月)詳細介紹了虛擬化在語言抽象方面的使用。Storm 使用基于虛擬機的語言 Clojure 來實現(xiàn),還使用 Java 技術和許多其他語言來構建它的內部(螺栓)應用程序。 GitHub 上提供了 Storm 的一個thorough class tree exists,詳細介紹了 Storm 的類和接口。 Hadoop 已開始解決簡單批處理以外的模型。例如,通過調度,Hadoop 可調整其處理數(shù)據(jù)的方式,以便更多地關注交互性,而不是批量數(shù)據(jù)處理。在Hadoop 中的調度(M. Tim Jones,developerWorks,2011 年 12 月)中了解有關 Hadoop 調度的更多信息。 44 / 44
點擊復制文檔內容
職業(yè)教育相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1