freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

大數(shù)據(jù)應用解決方案-資料下載頁

2025-05-13 14:20本頁面

【導讀】{ "error_code": 17, "error_msg": "Open api daily request limit reached" }

  

【正文】 存儲模型有文檔存儲、鍵 值存儲、圖存儲、對象數(shù)據(jù)庫、列存儲等 NoSQL 數(shù)據(jù)庫是一種建立在云平臺的新型數(shù)據(jù)處理模式, NoSQL 在很多情況下又叫做云數(shù)據(jù)庫。由于其處理數(shù)據(jù)的模式完 全是分布于各種低成本服務器和存儲磁盤,因此它可以幫助網(wǎng)頁和各種交互性應用快速處理過程中的海量數(shù)據(jù)。它為 Zynga、 AOL、 Cisco 以及其它一些企業(yè)提供網(wǎng)頁應用支持。正常的數(shù)據(jù)庫需要將數(shù)據(jù)進行歸類組織,類似于姓名和帳號這些數(shù)據(jù)需要進行結構化和標簽化。但是 NoSQL 數(shù)據(jù)庫則完全不關心這些,它能處理各種類型的文檔。 在處理海量數(shù)據(jù)同時請求時,它也不會有任何問題。比方說,如果有 1000萬人同時登錄某個 Zynga 游戲,它會將這些數(shù)據(jù)分布于全世界的服務器并通過它們來進行數(shù)據(jù)處理,結果與 1 萬人同時在線沒什么兩樣?,F(xiàn)今有 多種不同類型的NoSQL模式。商業(yè)化的模式如 Couchbase、 10gen的 mongoDB以及 Oracle的 NoSQL。開源免費的模式如 CouchDB和 Cassandra。還有亞馬遜最新推出的 NoSQL云服務。 . 分布式計算技術 分布式計算結合了 NoSQL 與實時分析技術,如果想要同時處理實時分析與NoSQL 數(shù)據(jù)功能,那么你就需要分布式計算技術。分布式技術結合了一系列技術,可以對海量數(shù)據(jù)進行實時分析。更重要的是,它所使用的硬件非常便宜,因而讓這種技術的普及變成可能。 SGI 的 Sunny Sundstrom 解釋說, 通過對那些看起來沒什么關聯(lián)和組織的數(shù)據(jù)進行分析,我們可以獲得很多有價值的結果。比如說可以分發(fā)現(xiàn)一些新的模式或者新的行為。運用分布式計算技術,銀行可以從消費者 19 / 38 的一些消費行為和模式中識別網(wǎng)上交易的欺詐行為。 分布式計算技術讓不可能變成可能,分布式計算技術正引領著將不可能變?yōu)榭赡堋?Skybox Imaging 就是一個很好的例子。這家公司通過對衛(wèi)星圖片的分析得出一些實時結果,比如說某個城市有多少可用停車空間,或者某個港口目前有多少船只。它們將這些實時結果賣給需要的客戶。沒有這個技術,要想快速便宜的分析這么大量衛(wèi)星圖 片數(shù)據(jù)將是不可能的。如圖五所示: 圖五 分布式計算技術是 Google 的核心,也是 Yahoo 的基礎,目前分布式計算技術是基于 Google 創(chuàng)建的技術,但是卻最新由 Yahoo 所建立。 Google 總共發(fā)表了兩篇論文, 2021 年發(fā)表的叫做 MapReduce 的論文介紹了如何在多計算機之間進行數(shù)據(jù)處理 。另一篇于 2021 年發(fā)表,主要是關于如何在多服務器上存儲數(shù)據(jù)。來自于 Yahoo的工程師 Doug Cutting在讀了這兩篇論文后建立了分布式計算平臺,以他兒子的玩具大象命名。如圖六所示 20 / 38 圖六 而 Hadoop 作為一 個重量級的分布式處理開源框架已經(jīng)在大數(shù)據(jù)處理領域有所作為 . 大數(shù)據(jù)處理過程 . 采集 大數(shù)據(jù)的采集是指利用多個數(shù)據(jù)庫來接收發(fā)自客戶端( Web、 App 或者傳感器形式等)的數(shù)據(jù),并且用戶可以通過這些數(shù)據(jù)庫來進行簡單的查詢和處理工作。比如,電商會使用傳統(tǒng)的關系型數(shù)據(jù)庫 MySQL 和 Oracle 等來存儲每一筆事務數(shù)據(jù),除此之外, Redis 和 MongoDB 這樣的 NoSQL 數(shù)據(jù)庫也常用于數(shù)據(jù)的采集。 在大數(shù)據(jù)的采集過程中,其主要特點和挑戰(zhàn)是并發(fā)數(shù)高,因為同時有可能會有成千上萬的用戶來進行訪問和操作,比如火車票售票網(wǎng)站和淘 寶,它們并發(fā)的訪問量在峰值時達到上百萬,所以需要在采集端部署大量數(shù)據(jù)庫才能支撐。并且如何在這些數(shù)據(jù)庫之間進行負載均衡和分片的確是需要深入的思考和設計。 21 / 38 . 導入 /預處理 雖然采集端本身會有很多數(shù)據(jù)庫,但是如果要對這些海量數(shù)據(jù)進行有效的分析,還是應該將這些來自前端的數(shù)據(jù)導入到一個集中的大型分布式數(shù)據(jù)庫,或者分布式存儲集群,并且可以在導入基礎上做一些簡單的清洗和預處理工作。也有一些用戶會在導入時使用來自 Twitter 的 Storm 來對數(shù)據(jù)進行流式計算,來滿足部分業(yè)務的實時計算需求。 導入與預處理過程的特點和挑戰(zhàn)主要是 導入的數(shù)據(jù)量大,每秒鐘的導入量經(jīng)常會達到百兆,甚至千兆級別。 . 統(tǒng)計 /分析 統(tǒng)計與分析主要利用分布式數(shù)據(jù)庫,或者分布式計算集群來對存儲于其內(nèi)的海量數(shù)據(jù)進行普通的分析和分類匯總等,以滿足大多數(shù)常見的分析需求,在這方面,一些實時性需求會用到 EMC的 GreenPlum、 Oracle的 Exadata,以及基于 MySQL的列式存儲 Infobright 等,而一些批處理,或者基于半結構化數(shù)據(jù)的需求可以使用 Hadoop。 統(tǒng)計與分析這部分的主要特點和挑戰(zhàn)是分析涉及的數(shù)據(jù)量大,其對系統(tǒng)資源,特別是 I/O 會有極大的占用。 . 挖掘 與前面統(tǒng)計和分析過程不同的是,數(shù)據(jù)挖掘一般沒有什么預先設定好的主題,主要是在現(xiàn)有數(shù)據(jù)上面進行基于各種算法的計算,從而起到預測( Predict)的效果,從而實現(xiàn)一些高級別數(shù)據(jù)分析的需求。比較典型算法有用于聚類的Kmeans、用于統(tǒng)計學習的 SVM 和用于分類的 NaiveBayes,主要使用的工具有Hadoop 的 Mahout 等。該過程的特點和挑戰(zhàn)主要是用于挖掘的算法很復雜,并且計算涉及的數(shù)據(jù)量和計算量都很大,常用數(shù)據(jù)挖掘算法都以單線程為主。 整個大數(shù)據(jù)處理的普遍流程至少應該滿足這四個方面的步驟,才能算得上是一 個比較完整的大數(shù)據(jù)處理 . 大數(shù)據(jù)處理的核心技術 Hadoop 大數(shù)據(jù)技術涵蓋了硬軟件多個方面的技術,目前各種技術基本都獨立存在于 22 / 38 存儲、開發(fā)、平臺架構、數(shù)據(jù)分析挖掘的各個相對獨立的領域。這一部分主要介紹和分析大數(shù)據(jù)處理的核心技術 —— Hadoop。 . Hadoop 的組成 大數(shù)據(jù)不同于傳統(tǒng)類型的數(shù)據(jù),它可能由 TB 甚至 PB 級信息組成,既包括結構化數(shù)據(jù),也包括文本、多媒體等非結構化數(shù)據(jù)。這些數(shù)據(jù)類型缺乏一致性,使得標準存儲技術無法對大數(shù)據(jù)進行有效存儲,而且我們也難以使用傳統(tǒng)的服務器和 SAN 方法來有效地存儲和處理龐大的數(shù) 據(jù)量。這些都決定了“大數(shù)據(jù)”需要不同的處理方法,而 Hadoop 目前正是廣泛應用的大數(shù)據(jù)處理技術。 Hadoop 是一個基于 Java 的分布式密集數(shù)據(jù)處理和數(shù)據(jù)分析的軟件框架。該框架在很大程度上受 Google 在 2021 年白皮書中闡述的 MapReduce 的技術啟發(fā)。 Hadoop 主要組件包含如圖七: 圖七 Hadoop Common:通用模塊, 支持其他 Hadoop 模塊 Ha d o o p Di s t r i b u t e d Fi l eSystem( HDFS):分布式文件系統(tǒng),用以提供高流量的應用數(shù)據(jù)訪問 Hadoop YARN:支持工作調(diào)度和集群資源管理的框架 HadoopMapReduce:針對大數(shù)據(jù)的、靈活的并行數(shù)據(jù)處理框架 其他相關的模塊還有: 23 / 38 ZooKeeper:高可靠性分布式協(xié)調(diào)系統(tǒng) Oozie:負責 MapReduce 作業(yè)調(diào)度 HBase:可擴展的分布式數(shù)據(jù)庫,可以將結構性數(shù)據(jù)存儲為大表 Hive:構建在 MapRudece 之上的數(shù)據(jù)倉庫軟件包 Pig:架構在 Hadoop 之上的高級數(shù)據(jù)處理層 在 Hadoop框架中,最底層的 HDFS存儲 Hadoop集群中所有存儲節(jié)點上的文件。HDFS 的架構是基于一組 特定的節(jié)點構建的(如圖八), 圖八 這些節(jié)點包括一個 NameNode 和大量的 DataNode。存儲在 HDFS 中的文件被分成塊,然后將這些塊復制到多個計算機中( DataNode)。這與傳統(tǒng)的 RAID 架構大不相同。塊的大小(通常為 64MB)和復制的塊數(shù)量在創(chuàng)建文件時由客戶機決定。 NameNode可以控制所有文件操作。 HDFS內(nèi)部的所有通信都基于標準的 TCP/IP協(xié)議。 NameNode 在 HDFS 內(nèi)部提供元數(shù)據(jù)服務,負責管理文件系統(tǒng)名稱空間和控制外部客戶機的訪問。它決定是否將文件映射到 DataNode 上的復制塊 上。DataNode 通常以機架的形式組織,機架通過一個交換機將所有系統(tǒng)連接起來。 H a d o o p M a p R e d u c e 是 Google MapReduce 的開源實現(xiàn)。 MapReduce技術是一種簡潔的并行計算模型,它在系統(tǒng)層面解決了擴展性、容錯性等問題,通過接受用戶編寫的 Map 函數(shù)和 Reduce 函數(shù),自動地在可伸縮的大規(guī)模集群上并行執(zhí)行,從而可以處理和分析大規(guī)模的數(shù)據(jù) [6]。 Hadoop 提供了大量的接口和抽象類,從而為 Hadoop 應用程序開發(fā)人員提供許多工具,可用于調(diào)試和性能度 24 / 38 量等。在 H a d o o p 應用實例中,一個代表客戶機在單個主系統(tǒng)上啟動 Ma pRe d u c e 的應用程序稱為 JobTracker。類似于 NameNode,它是 Ha d o o p 集群中唯一負責控制 MapReduce 應用程序的系統(tǒng)。在應用程序提交之后,將提供包含在 HDFS 中的輸入和輸出目錄。 JobTr a cke r 使用文件塊信息(物理量和位置)確定如何創(chuàng)建其他 TaskTracker 從屬任務。 Map
點擊復制文檔內(nèi)容
環(huán)評公示相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1