freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

pb級大數(shù)據(jù)存儲技術(shù)與分析技術(shù)解析44-資料下載頁

2025-06-29 10:25本頁面
  

【正文】 撲結(jié)構(gòu)中的所有處理。螺栓既可實現(xiàn) MapReduce 之類的傳統(tǒng)功能,也可實現(xiàn)更復雜的操作(單步功能),比如過濾、聚合或與數(shù)據(jù)庫等外部實體通信。典型的 Storm 拓撲結(jié)構(gòu)會實現(xiàn)多個轉(zhuǎn)換,因此需要多個具有獨立元組流的螺栓。噴嘴和螺栓都實現(xiàn)為 Linux? 系統(tǒng)中的一個或多個任務(wù)。可使用 Storm 為詞頻輕松地實現(xiàn) MapReduce 功能。如 圖 2 中所示,噴嘴生成文本數(shù)據(jù)流,螺栓實現(xiàn) Map 功能(令牌化一個流的各個單詞)。來自 “map” 螺栓的流然后流入一個實現(xiàn) Reduce 功能的螺栓中(以將單詞聚合到總數(shù)中)。圖 2. MapReduce 功能的簡單 Storm 拓撲結(jié)構(gòu)請注意,螺栓可將數(shù)據(jù)傳輸?shù)蕉鄠€螺栓,也可接受來自多個來源的數(shù)據(jù)。Storm 擁有流分組 的概念,流分組實現(xiàn)了混排 (shuffling)(隨機但均等地將元組分發(fā)到螺栓)或字段分組(根據(jù)流的字段進行流分區(qū))。還存在其他流分組,包括生成者使用自己的內(nèi)部邏輯路由元組的能力。但是,Storm 架構(gòu)中一個最有趣的特性是有保障的消息處理。Storm 可保證一個噴嘴發(fā)射出的每個元組都會處理;如果它在超時時間內(nèi)沒有處理,Storm 會從該噴嘴重放該元組。此功能需要一些聰明的技巧來在拓撲結(jié)構(gòu)中跟蹤元素,也是 Storm 的重要的附加價值之一。除了支持可靠的消息傳送外,Storm 還使用 ZeroMQ 最大化消息傳送性能(刪除中間排隊,實現(xiàn)消息在任務(wù)間的直接傳送)。ZeroMQ 合并了擁塞檢測并調(diào)整了它的通信,以優(yōu)化可用的帶寬。Storm 示例演示現(xiàn)在讓我們通過實現(xiàn)一個簡單的 MapReduce 拓撲結(jié)構(gòu)的代碼(參見 清單 1),看一下 Storm 示例。這個示例使用了來自 Nathan 的 Storm 入門工具包(可從 GitHub 獲?。▍⒁?參考資料 獲取鏈接)的巧妙設(shè)計的字數(shù)示例。此示例演示了 圖 2 中所示的拓撲結(jié)構(gòu),它實現(xiàn)了一個包含一個螺栓的 map 轉(zhuǎn)換和包含一個螺栓的 reduce 轉(zhuǎn)換。清單 1. 為圖 2 中的 Storm 構(gòu)建一個拓撲結(jié)構(gòu)1. TopologyBuilderbuilder=newTopologyBuilder()。 2. (spout,newRandomSentenceSpout(),5)。 3. (map,newSplitSentence(),4) 4. .shuffleGrouping(spout)。 5. (reduce,newWordCount(),8) 6. .fieldsGrouping(map,newFields(word))。 7. Configconf=newConfig()。 8. (true)。 9. LocalClustercluster=newLocalCluster()。 10. (wordcount,conf,())。 11. (10000)。 12. ()。清單 1(添加了行號以供引用)首先使用 TopologyBuilder 聲明一個新拓撲結(jié)構(gòu)。接下來在第 3 行,定義了一個噴嘴(名為 spout),該噴嘴包含一個 RandomSentenceSpout。RandomSentenceSpout 類(也就是 nextTuple 方法)發(fā)出 5 個隨機句子的其中一個作為它的數(shù)據(jù)。setSpout 方法末尾的 5 參數(shù)是一個并行性提示(或要為此活動創(chuàng)建的任務(wù)數(shù))。在第 5 和 6 行。我定義了第一個螺栓(或算法轉(zhuǎn)換實體),在本例中為 map(或 split)螺栓。這個螺栓使用 SplitSentence 令牌化輸入流并將其作為輸出的各個單詞發(fā)出。請注意,第 6 行使用了 shuffleGrouping,它定義了對此螺栓(在本例中為 “spout”)的輸入訂閱,還將流分組定義為混排。這種混排分組意味著來自噴嘴的輸入將混排 或隨機分發(fā)給此螺栓中的任務(wù)(該螺栓已提示具有 4 任務(wù)并行性)。在第 8 和 9 行,我定義了最后一個螺栓,這個螺栓實際上用于 reduce 元素,使用該元素的輸入作為 map 螺栓。WordCount 方法實現(xiàn)了必要的字數(shù)統(tǒng)計行為(將相似的單詞分組到一起,以維護總數(shù)),但不是混排的,所以它的輸出是一致的。如果有多個任務(wù)在實現(xiàn) reduce 行為,那么您最終會得到分段的計數(shù),而不是總數(shù)。第 11 和 12 行創(chuàng)建和定義了一個配置對象并啟用了 Debug 模式。Config 類包含大量配置可能性(參見 參考資料,獲取有關(guān) Storm 類樹的更多信息的鏈接)。第 14 和 15 行創(chuàng)建了本地集群(在本例中,用于定義本地模式的用途)。我定義了我的本地集群、配置對象和拓撲結(jié)構(gòu)的名稱(可通過 builder 類的 createTopology 元素獲?。W詈?,在第 17 行,Storm 休眠一段時間,然后在第 19 行關(guān)閉集群。請記住,Storm 是一個持續(xù)運行的操作系統(tǒng),所以任務(wù)可存在相當長時間,不斷處理它們訂閱的流上的新元組。您可在 Storm 入門工具包中了解這個非常簡單的實現(xiàn)的更多信息,包括噴嘴和螺栓的細節(jié)。使用 StormNathan Marz 編寫了一組簡單易懂的文檔,詳細介紹了如何安裝 Storm 來執(zhí)行集群模式和本地模式的操作。本地模式無需一個龐大的節(jié)點集群,即可使用 Storm。如果需要在一個集群中使用 Storm 但缺乏節(jié)點,也可在 Amazon Elastic Compute Cloud (EC2) 中實現(xiàn)一個 Storm 集群。請參見 參考資料 獲取每個 Storm 模式(本地、集群和 Amazon EC2)的參考信息。其他開源的大數(shù)據(jù)解決方案自 Google 在 2004 年推出 MapReduce 范式以來,已誕生了多個使用原始 MapReduce 范式(或擁有該范式的質(zhì)量)的解決方案。Google 對 MapReduce 的最初應用是建立萬維網(wǎng)的索引。盡管此應用程序仍然很流行,但這個簡單模型解決的問題也正在增多。表 1 提供了一個可用開源大數(shù)據(jù)解決方案的列表,包括傳統(tǒng)的批處理和流式處理應用程序。在將 Storm 引入開源之前將近一年的時間里,Yahoo! 的 S4 分布式流計算平臺已向 Apache 開源。S4 于 2010 年 10 月發(fā)布,它提供了一個高性能計算 (HPC) 平臺,向應用程序開發(fā)人員隱藏了并行處理的復雜性。S4 實現(xiàn)了一個可擴展的、分散化的集群架構(gòu),并納入了部分容錯功能。表 1. 開源大數(shù)據(jù)解決方案更多信息盡管 Hadoop 仍然是宣傳最多的大數(shù)據(jù)分析解決方案,但仍可能存在許多其他的解決方案,每種解決方案都具有不同的特征。我在過去的文章中探討了 Spark,它納入了數(shù)據(jù)集的內(nèi)存中處理功能(能夠重新構(gòu)建丟失的數(shù)據(jù))。但 Hadoop 和 Spark 都專注于大數(shù)據(jù)集的批處理。Storm 提供了一個新的大數(shù)據(jù)分析模型,而且因為它最近被開源,所以也引起廣泛的關(guān)注。與 Hadoop 不同,Storm 是一個計算系統(tǒng),它沒有包括任何存儲概念。這就使得 Storm 能夠用在各種各樣的上下文中,無論數(shù)據(jù)是從一個非傳統(tǒng)來源動態(tài)傳入,還是存儲在數(shù)據(jù)庫等存儲系統(tǒng)中(或者由一個控制器用于對其他一些設(shè)備(比如一個交易系統(tǒng))進行實時操作)都是如此。請參見 參考資料 獲取有關(guān) Storm 的更多信息的鏈接,了解如何讓一個集群正常運行,以及其他大數(shù)據(jù)分析解決方案(包括批處理和流式處理)。參考資料 復雜事件處理是 Storm 以及其他許多解決方案(比如 Yahoo! 的 S4)實現(xiàn)的模式。Storm 與 S4 之間的一個重要區(qū)別在于,Storm 在面對故障時提供了有保障的消息處理,而 S4 可能丟失消息。 Nathan Marz(Storm 背后的重要開發(fā)人員)為他的新產(chǎn)品編寫了多篇有趣且實用的介紹文章。對 Storm 的最早介紹來自 2011 年 5 月的Storm 預覽:能夠?qū)崟r處理的 Hadoop BackType Technology,隨后是 8 月推出的A Storm is ing: more details and plans for release。 Storm 維基提供了有關(guān) Storm、它的理論基礎(chǔ)的大量優(yōu)秀文檔,以及有關(guān)獲取 Storm 和設(shè)置新項目的各種教程。您還將找到一些有關(guān) Storm 的許多方面的實用文檔,包括 Storm 在本地模式、集群模式和在 Amazon 上的使用。 Spark,一種快速數(shù)據(jù)分析替代方案(M. Tim Jones,developerWorks,2011 年 11 月)介紹了 UC Berkeley 的內(nèi)存中彈性數(shù)據(jù)分析平臺。 應用程序虛擬化的過去與未來(M. Tim Jones,developerWorks,2011 年 5 月)詳細介紹了虛擬化在語言抽象方面的使用。Storm 使用基于虛擬機的語言 Clojure 來實現(xiàn),還使用 Java 技術(shù)和許多其他語言來構(gòu)建它的內(nèi)部(螺栓)應用程序。 GitHub 上提供了 Storm 的一個thorough class tree exists,詳細介紹了 Storm 的類和接口。 Hadoop 已開始解決簡單批處理以外的模型。例如,通過調(diào)度,Hadoop 可調(diào)整其處理數(shù)據(jù)的方式,以便更多地關(guān)注交互性,而不是批量數(shù)據(jù)處理。在Hadoop 中的調(diào)度(M. Tim Jones,developerWorks,2011 年 12 月)中了解有關(guān) Hadoop 調(diào)度的更多信息。 44 / 44
點擊復制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1