正文內(nèi)容

pb級大數(shù)據(jù)存儲技術(shù)與分析技術(shù)解析44-資料下載頁

2025-06-29 10:25本頁面

　　

【正文】撲結(jié)構(gòu)中的所有處理。螺栓既可實現(xiàn) MapReduce 之類的傳統(tǒng)功能，也可實現(xiàn)更復雜的操作（單步功能），比如過濾、聚合或與數(shù)據(jù)庫等外部實體通信。典型的 Storm 拓撲結(jié)構(gòu)會實現(xiàn)多個轉(zhuǎn)換，因此需要多個具有獨立元組流的螺栓。噴嘴和螺栓都實現(xiàn)為 Linux? 系統(tǒng)中的一個或多個任務(wù)。可使用 Storm 為詞頻輕松地實現(xiàn) MapReduce 功能。如圖 2 中所示，噴嘴生成文本數(shù)據(jù)流，螺栓實現(xiàn) Map 功能（令牌化一個流的各個單詞）。來自 “map” 螺栓的流然后流入一個實現(xiàn) Reduce 功能的螺栓中（以將單詞聚合到總數(shù)中）。圖 2. MapReduce 功能的簡單 Storm 拓撲結(jié)構(gòu)請注意，螺栓可將數(shù)據(jù)傳輸?shù)蕉鄠€螺栓，也可接受來自多個來源的數(shù)據(jù)。Storm 擁有流分組的概念，流分組實現(xiàn)了混排 (shuffling)（隨機但均等地將元組分發(fā)到螺栓）或字段分組（根據(jù)流的字段進行流分區(qū)）。還存在其他流分組，包括生成者使用自己的內(nèi)部邏輯路由元組的能力。但是，Storm 架構(gòu)中一個最有趣的特性是有保障的消息處理。Storm 可保證一個噴嘴發(fā)射出的每個元組都會處理；如果它在超時時間內(nèi)沒有處理，Storm 會從該噴嘴重放該元組。此功能需要一些聰明的技巧來在拓撲結(jié)構(gòu)中跟蹤元素，也是 Storm 的重要的附加價值之一。除了支持可靠的消息傳送外，Storm 還使用 ZeroMQ 最大化消息傳送性能（刪除中間排隊，實現(xiàn)消息在任務(wù)間的直接傳送）。ZeroMQ 合并了擁塞檢測并調(diào)整了它的通信，以優(yōu)化可用的帶寬。Storm 示例演示現(xiàn)在讓我們通過實現(xiàn)一個簡單的 MapReduce 拓撲結(jié)構(gòu)的代碼（參見清單 1），看一下 Storm 示例。這個示例使用了來自 Nathan 的 Storm 入門工具包（可從 GitHub 獲?。▍⒁?參考資料獲取鏈接）的巧妙設(shè)計的字數(shù)示例。此示例演示了圖 2 中所示的拓撲結(jié)構(gòu)，它實現(xiàn)了一個包含一個螺栓的 map 轉(zhuǎn)換和包含一個螺栓的 reduce 轉(zhuǎn)換。清單 1. 為圖 2 中的 Storm 構(gòu)建一個拓撲結(jié)構(gòu)1. TopologyBuilderbuilder=newTopologyBuilder()。 2. (spout,newRandomSentenceSpout(),5)。 3. (map,newSplitSentence(),4) 4. .shuffleGrouping(spout)。 5. (reduce,newWordCount(),8) 6. .fieldsGrouping(map,newFields(word))。 7. Configconf=newConfig()。 8. (true)。 9. LocalClustercluster=newLocalCluster()。 10. (wordcount,conf,())。 11. (10000)。 12. ()。清單 1（添加了行號以供引用）首先使用 TopologyBuilder 聲明一個新拓撲結(jié)構(gòu)。接下來在第 3 行，定義了一個噴嘴（名為 spout），該噴嘴包含一個 RandomSentenceSpout。RandomSentenceSpout 類（也就是 nextTuple 方法）發(fā)出 5 個隨機句子的其中一個作為它的數(shù)據(jù)。setSpout 方法末尾的 5 參數(shù)是一個并行性提示（或要為此活動創(chuàng)建的任務(wù)數(shù)）。在第 5 和 6 行。我定義了第一個螺栓（或算法轉(zhuǎn)換實體），在本例中為 map（或 split）螺栓。這個螺栓使用 SplitSentence 令牌化輸入流并將其作為輸出的各個單詞發(fā)出。請注意，第 6 行使用了 shuffleGrouping，它定義了對此螺栓（在本例中為 “spout”）的輸入訂閱，還將流分組定義為混排。這種混排分組意味著來自噴嘴的輸入將混排或隨機分發(fā)給此螺栓中的任務(wù)（該螺栓已提示具有 4 任務(wù)并行性）。在第 8 和 9 行，我定義了最后一個螺栓，這個螺栓實際上用于 reduce 元素，使用該元素的輸入作為 map 螺栓。WordCount 方法實現(xiàn)了必要的字數(shù)統(tǒng)計行為（將相似的單詞分組到一起，以維護總數(shù)），但不是混排的，所以它的輸出是一致的。如果有多個任務(wù)在實現(xiàn) reduce 行為，那么您最終會得到分段的計數(shù)，而不是總數(shù)。第 11 和 12 行創(chuàng)建和定義了一個配置對象并啟用了 Debug 模式。Config 類包含大量配置可能性（參見參考資料，獲取有關(guān) Storm 類樹的更多信息的鏈接）。第 14 和 15 行創(chuàng)建了本地集群（在本例中，用于定義本地模式的用途）。我定義了我的本地集群、配置對象和拓撲結(jié)構(gòu)的名稱（可通過 builder 類的 createTopology 元素獲?。Ｗ詈?，在第 17 行，Storm 休眠一段時間，然后在第 19 行關(guān)閉集群。請記住，Storm 是一個持續(xù)運行的操作系統(tǒng)，所以任務(wù)可存在相當長時間，不斷處理它們訂閱的流上的新元組。您可在 Storm 入門工具包中了解這個非常簡單的實現(xiàn)的更多信息，包括噴嘴和螺栓的細節(jié)。使用 StormNathan Marz 編寫了一組簡單易懂的文檔，詳細介紹了如何安裝 Storm 來執(zhí)行集群模式和本地模式的操作。本地模式無需一個龐大的節(jié)點集群，即可使用 Storm。如果需要在一個集群中使用 Storm 但缺乏節(jié)點，也可在 Amazon Elastic Compute Cloud (EC2) 中實現(xiàn)一個 Storm 集群。請參見參考資料獲取每個 Storm 模式（本地、集群和 Amazon EC2）的參考信息。其他開源的大數(shù)據(jù)解決方案自 Google 在 2004 年推出 MapReduce 范式以來，已誕生了多個使用原始 MapReduce 范式（或擁有該范式的質(zhì)量）的解決方案。Google 對 MapReduce 的最初應用是建立萬維網(wǎng)的索引。盡管此應用程序仍然很流行，但這個簡單模型解決的問題也正在增多。表 1 提供了一個可用開源大數(shù)據(jù)解決方案的列表，包括傳統(tǒng)的批處理和流式處理應用程序。在將 Storm 引入開源之前將近一年的時間里，Yahoo! 的 S4 分布式流計算平臺已向 Apache 開源。S4 于 2010 年 10 月發(fā)布，它提供了一個高性能計算 (HPC) 平臺，向應用程序開發(fā)人員隱藏了并行處理的復雜性。S4 實現(xiàn)了一個可擴展的、分散化的集群架構(gòu)，并納入了部分容錯功能。表 1. 開源大數(shù)據(jù)解決方案更多信息盡管 Hadoop 仍然是宣傳最多的大數(shù)據(jù)分析解決方案，但仍可能存在許多其他的解決方案，每種解決方案都具有不同的特征。我在過去的文章中探討了 Spark，它納入了數(shù)據(jù)集的內(nèi)存中處理功能（能夠重新構(gòu)建丟失的數(shù)據(jù)）。但 Hadoop 和 Spark 都專注于大數(shù)據(jù)集的批處理。Storm 提供了一個新的大數(shù)據(jù)分析模型，而且因為它最近被開源，所以也引起廣泛的關(guān)注。與 Hadoop 不同，Storm 是一個計算系統(tǒng)，它沒有包括任何存儲概念。這就使得 Storm 能夠用在各種各樣的上下文中，無論數(shù)據(jù)是從一個非傳統(tǒng)來源動態(tài)傳入，還是存儲在數(shù)據(jù)庫等存儲系統(tǒng)中（或者由一個控制器用于對其他一些設(shè)備（比如一個交易系統(tǒng)）進行實時操作）都是如此。請參見參考資料獲取有關(guān) Storm 的更多信息的鏈接，了解如何讓一個集群正常運行，以及其他大數(shù)據(jù)分析解決方案（包括批處理和流式處理）。參考資料復雜事件處理是 Storm 以及其他許多解決方案（比如 Yahoo! 的 S4）實現(xiàn)的模式。Storm 與 S4 之間的一個重要區(qū)別在于，Storm 在面對故障時提供了有保障的消息處理，而 S4 可能丟失消息。 Nathan Marz（Storm 背后的重要開發(fā)人員）為他的新產(chǎn)品編寫了多篇有趣且實用的介紹文章。對 Storm 的最早介紹來自 2011 年 5 月的Storm 預覽：能夠?qū)崟r處理的 Hadoop BackType Technology，隨后是 8 月推出的A Storm is ing: more details and plans for release。 Storm 維基提供了有關(guān) Storm、它的理論基礎(chǔ)的大量優(yōu)秀文檔，以及有關(guān)獲取 Storm 和設(shè)置新項目的各種教程。您還將找到一些有關(guān) Storm 的許多方面的實用文檔，包括 Storm 在本地模式、集群模式和在 Amazon 上的使用。 Spark，一種快速數(shù)據(jù)分析替代方案（M. Tim Jones，developerWorks，2011 年 11 月）介紹了 UC Berkeley 的內(nèi)存中彈性數(shù)據(jù)分析平臺。應用程序虛擬化的過去與未來（M. Tim Jones，developerWorks，2011 年 5 月）詳細介紹了虛擬化在語言抽象方面的使用。Storm 使用基于虛擬機的語言 Clojure 來實現(xiàn)，還使用 Java 技術(shù)和許多其他語言來構(gòu)建它的內(nèi)部（螺栓）應用程序。 GitHub 上提供了 Storm 的一個thorough class tree exists，詳細介紹了 Storm 的類和接口。 Hadoop 已開始解決簡單批處理以外的模型。例如，通過調(diào)度，Hadoop 可調(diào)整其處理數(shù)據(jù)的方式，以便更多地關(guān)注交互性，而不是批量數(shù)據(jù)處理。在Hadoop 中的調(diào)度（M. Tim Jones，developerWorks，2011 年 12 月）中了解有關(guān) Hadoop 調(diào)度的更多信息。 44 / 44

點擊復制文檔內(nèi)容

環(huán)評公示相關(guān)推薦

大數(shù)據(jù)技術(shù)綜述-資料下載頁

【總結(jié)】大數(shù)據(jù)技術(shù)綜述Abstract: Weareenteringintoa“bigdata”era.Duetothebottlenecks,suchaspoorscalability,installationandmaintenancedifficulties,faulttoleranceandlowperformance,intrad

2025-07-30 21:52

低保申請44-資料下載頁

【總結(jié)】第一篇：低保申請44 低保申請雜多縣薩呼騰居委會：我叫普布才仁，男，現(xiàn)年43歲，系雜多縣城鎮(zhèn)居民，家庭人口4人，妻子屬下崗職工，家庭所有開支只能靠本人微薄的工資來維持，其中二個孩...

2024-10-13 00:37

賓語從句44-資料下載頁

【總結(jié)】第一篇：賓語從句44 中考總復習編號44出題人王彥力課標詞匯復習(951-975)一．詞匯拓展 ________(名詞)(復數(shù))(三單)______(反義詞)(動詞意思)二．翻譯短語 _____...

2024-11-04 22:32

hc1209202第二章大數(shù)據(jù)存儲技術(shù)2081-資料下載頁

【總結(jié)】Copyright?2023HuaweiTechnologiesCo.,Ltd.Allrightsreserved.HC1209202第二章大數(shù)據(jù)存儲技術(shù)Copyright?2023HuaweiTechnologiesCo.,Ltd.Allrightsreserved.Page2目標?學完本

2025-03-11 10:52

實時大數(shù)據(jù)分析平臺-硬件技術(shù)方案-資料下載頁

【總結(jié)】實時大數(shù)據(jù)分析平臺硬件技術(shù)方案目錄一、概述 5項目背景 5采購需求 5建設(shè)目標 5硬件可擴展性要求 6二、詳細設(shè)備清單 7五、項目技術(shù)方案 9方案設(shè)計原理 9安全可靠性原則 9先進性原則 9開放性原則 9易維護性原則 10擴展性原則 10經(jīng)濟性原則 10綠色性原則 10

2025-08-05 23:08

大數(shù)據(jù)關(guān)鍵技術(shù)-資料下載頁

【總結(jié)】第一篇：大數(shù)據(jù)關(guān)鍵技術(shù) 大數(shù)據(jù)關(guān)鍵技術(shù) 大數(shù)據(jù)技術(shù)，就是從各種類型的數(shù)據(jù)中快速獲得有價值信息的技術(shù)。大數(shù)據(jù)領(lǐng)域已經(jīng)涌現(xiàn)出了大量新的技術(shù)，它們成為大數(shù)據(jù)采集、存儲、處理和呈現(xiàn)的有力武器。大數(shù)據(jù)處...

2024-11-09 03:07

大數(shù)據(jù)處理技術(shù)-資料下載頁

【總結(jié)】大數(shù)據(jù)處理技術(shù)大數(shù)據(jù)處理大數(shù)據(jù)處理利器：Hadoop具有五大優(yōu)勢現(xiàn)在，如果你沒有聽說過Hadoop，那么你一定落伍了。作為一個全新的開源項目，Hadoop提供了一中新的方式用來存儲和處理器數(shù)

2025-07-13 22:22

chapter1-林子雨-大數(shù)據(jù)技術(shù)原理與應用-大數(shù)據(jù)概述(年2月17日版本)44-資料下載頁

【總結(jié)】《大數(shù)據(jù)技術(shù)原理與應用》廈門大學計算機科學系林子雨廈門大學計算機科學系2023年版第一章大數(shù)據(jù)概述（PPT版本號：202

2025-02-04 12:03

dreambi大數(shù)據(jù)分析平臺-技術(shù)白皮書-資料下載頁

【總結(jié)】DreamBI大數(shù)據(jù)分析平臺技術(shù)白皮書

2024-10-28 08:38

大數(shù)據(jù)技術(shù)發(fā)展-資料下載頁

【總結(jié)】大數(shù)據(jù)技術(shù)發(fā)展數(shù)據(jù)庫技術(shù)發(fā)展歷史?無庫時代?層次狀數(shù)據(jù)庫?網(wǎng)狀數(shù)據(jù)庫?關(guān)系型數(shù)據(jù)庫?分布式數(shù)據(jù)庫層次型數(shù)據(jù)庫關(guān)系型數(shù)據(jù)庫之父：關(guān)系型數(shù)據(jù)庫?1970年，Codd劃時代的論文

2025-03-11 10:55

大數(shù)據(jù)技術(shù)及其應用-資料下載頁

【總結(jié)】第一章大數(shù)據(jù)概論當移動通信和互聯(lián)網(wǎng)給我們帶來的生活方式、思維方式的巨大改變還沒有消退的時候，大數(shù)據(jù)時代以排山倒海之勢到來，什么是大數(shù)據(jù)？大數(shù)據(jù)能為人們帶來哪里益處？大數(shù)據(jù)如何改變?nèi)藗兊纳?、工作和學習？大數(shù)據(jù)下的政府、企業(yè)和過去有什么不同？這一系列的問題困擾著很多人，甚至連一些專家學者也對此迷惘。在人人都談大數(shù)據(jù)的時代并不是每個人都真正理解大數(shù)據(jù)的精髓，因此本章給讀者簡單的介紹一下大數(shù)據(jù)的

2025-07-30 05:59

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

pb級大數(shù)據(jù)存儲技術(shù)與分析技術(shù)解析44-資料下載頁

大數(shù)據(jù)技術(shù)綜述-資料下載頁

低保申請44-資料下載頁

賓語從句44-資料下載頁

hc1209202第二章大數(shù)據(jù)存儲技術(shù)2081-資料下載頁

實時大數(shù)據(jù)分析平臺-硬件技術(shù)方案-資料下載頁

大數(shù)據(jù)關(guān)鍵技術(shù)-資料下載頁

大數(shù)據(jù)處理技術(shù)-資料下載頁

chapter1-林子雨-大數(shù)據(jù)技術(shù)原理與應用-大數(shù)據(jù)概述(年2月17日版本)44-資料下載頁

dreambi大數(shù)據(jù)分析平臺-技術(shù)白皮書-資料下載頁

大數(shù)據(jù)技術(shù)發(fā)展-資料下載頁

大數(shù)據(jù)技術(shù)及其應用-資料下載頁

數(shù)據(jù)存儲與恢復技術(shù)實驗考核與考查-資料下載頁

大數(shù)據(jù)技術(shù)進展與發(fā)展趨勢-資料下載頁

數(shù)據(jù)通信源代碼(牧云水務(wù)信息大數(shù)據(jù)存儲與分析系統(tǒng))-資料下載頁

數(shù)據(jù)與大數(shù)據(jù)分析-資料下載頁

pb級大數(shù)據(jù)存儲技術(shù)與分析技術(shù)解析44-免費閱讀

pb級大數(shù)據(jù)存儲技術(shù)與分析技術(shù)解析44(存儲版)

pb級大數(shù)據(jù)存儲技術(shù)與分析技術(shù)解析44-文庫吧在線文庫

pb級大數(shù)據(jù)存儲技術(shù)與分析技術(shù)解析44(完整版)

pb級大數(shù)據(jù)存儲技術(shù)與分析技術(shù)解析44(更新版)