freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

大數(shù)據(jù)應用解決方案(編輯修改稿)

2025-05-25 08:36 本頁面
 

【文章內(nèi)容簡介】 型的NoSQL數(shù)據(jù)存儲模型有文檔存儲、鍵值存儲、圖存儲、對象數(shù)據(jù)庫、列存儲等 NoSQL數(shù)據(jù)庫是一種建立在云平臺的新型數(shù)據(jù)處理模式,NoSQL在很多情況下又叫做云數(shù)據(jù)庫。由于其處理數(shù)據(jù)的模式完全是分布于各種低成本服務器和存儲磁盤,因此它可以幫助網(wǎng)頁和各種交互性應用快速處理過程中的海量數(shù)據(jù)。它為Zynga、AOL、Cisco以及其它一些企業(yè)提供網(wǎng)頁應用支持。正常的數(shù)據(jù)庫需要將數(shù)據(jù)進行歸類組織,類似于姓名和帳號這些數(shù)據(jù)需要進行結(jié)構(gòu)化和標簽化。但是NoSQL數(shù)據(jù)庫則完全不關(guān)心這些,它能處理各種類型的文檔。在處理海量數(shù)據(jù)同時請求時,它也不會有任何問題。比方說,如果有1000萬人同時登錄某個Zynga游戲,它會將這些數(shù)據(jù)分布于全世界的服務器并通過它們來進行數(shù)據(jù)處理,結(jié)果與1萬人同時在線沒什么兩樣?,F(xiàn)今有多種不同類型的NoSQL模式。商業(yè)化的模式如Couchbase、10gen的mongoDB以及Oracle的NoSQL。開源免費的模式如CouchDB和Cassandra。還有亞馬遜最新推出的NoSQL云服務。. 分布式計算技術(shù)分布式計算結(jié)合了NoSQL與實時分析技術(shù),如果想要同時處理實時分析與NoSQL數(shù)據(jù)功能,那么你就需要分布式計算技術(shù)。分布式技術(shù)結(jié)合了一系列技術(shù),可以對海量數(shù)據(jù)進行實時分析。更重要的是,它所使用的硬件非常便宜,因而讓這種技術(shù)的普及變成可能。SGI的Sunny Sundstrom解釋說,通過對那些看起來沒什么關(guān)聯(lián)和組織的數(shù)據(jù)進行分析,我們可以獲得很多有價值的結(jié)果。比如說可以分發(fā)現(xiàn)一些新的模式或者新的行為。運用分布式計算技術(shù),銀行可以從消費者的一些消費行為和模式中識別網(wǎng)上交易的欺詐行為。分布式計算技術(shù)讓不可能變成可能,分布式計算技術(shù)正引領著將不可能變?yōu)榭赡?。Skybox Imaging就是一個很好的例子。這家公司通過對衛(wèi)星圖片的分析得出一些實時結(jié)果,比如說某個城市有多少可用停車空間,或者某個港口目前有多少船只。它們將這些實時結(jié)果賣給需要的客戶。沒有這個技術(shù),要想快速便宜的分析這么大量衛(wèi)星圖片數(shù)據(jù)將是不可能的。如圖五所示:圖五分布式計算技術(shù)是Google的核心,也是Yahoo的基礎,目前分布式計算技術(shù)是基于Google創(chuàng)建的技術(shù),但是卻最新由Yahoo所建立。Google總共發(fā)表了兩篇論文,2004年發(fā)表的叫做MapReduce的論文介紹了如何在多計算機之間進行數(shù)據(jù)處理。另一篇于2003年發(fā)表,主要是關(guān)于如何在多服務器上存儲數(shù)據(jù)。來自于Yahoo的工程師Doug Cutting在讀了這兩篇論文后建立了分布式計算平臺,以他兒子的玩具大象命名。如圖六所示 圖六而Hadoop作為一個重量級的分布式處理開源框架已經(jīng)在大數(shù)據(jù)處理領域有所作為. 大數(shù)據(jù)處理過程. 采集  大數(shù)據(jù)的采集是指利用多個數(shù)據(jù)庫來接收發(fā)自客戶端(Web、App或者傳感器形式等)的數(shù)據(jù),并且用戶可以通過這些數(shù)據(jù)庫來進行簡單的查詢和處理工作。比如,電商會使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫MySQL和Oracle等來存儲每一筆事務數(shù)據(jù),除此之外,Redis和MongoDB這樣的NoSQL數(shù)據(jù)庫也常用于數(shù)據(jù)的采集。在大數(shù)據(jù)的采集過程中,其主要特點和挑戰(zhàn)是并發(fā)數(shù)高,因為同時有可能會有成千上萬的用戶來進行訪問和操作,比如火車票售票網(wǎng)站和淘寶,它們并發(fā)的訪問量在峰值時達到上百萬,所以需要在采集端部署大量數(shù)據(jù)庫才能支撐。并且如何在這些數(shù)據(jù)庫之間進行負載均衡和分片的確是需要深入的思考和設計。. 導入/預處理雖然采集端本身會有很多數(shù)據(jù)庫,但是如果要對這些海量數(shù)據(jù)進行有效的分析,還是應該將這些來自前端的數(shù)據(jù)導入到一個集中的大型分布式數(shù)據(jù)庫,或者分布式存儲集群,并且可以在導入基礎上做一些簡單的清洗和預處理工作。也有一些用戶會在導入時使用來自Twitter的Storm來對數(shù)據(jù)進行流式計算,來滿足部分業(yè)務的實時計算需求。導入與預處理過程的特點和挑戰(zhàn)主要是導入的數(shù)據(jù)量大,每秒鐘的導入量經(jīng)常會達到百兆,甚至千兆級別。. 統(tǒng)計/分析統(tǒng)計與分析主要利用分布式數(shù)據(jù)庫,或者分布式計算集群來對存儲于其內(nèi)的海量數(shù)據(jù)進行普通的分析和分類匯總等,以滿足大多數(shù)常見的分析需求,在這方面,一些實時性需求會用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存儲Infobright等,而一些批處理,或者基于半結(jié)構(gòu)化數(shù)據(jù)的需求可以使用Hadoop。統(tǒng)計與分析這部分的主要特點和挑戰(zhàn)是分析涉及的數(shù)據(jù)量大,其對系統(tǒng)資源,特別是I/O會有極大的占用。. 挖掘  與前面統(tǒng)計和分析過程不同的是,數(shù)據(jù)挖掘一般沒有什么預先設定好的主題,主要是在現(xiàn)有數(shù)據(jù)上面進行基于各種算法的計算,從而起到預測(Predict)的效果,從而實現(xiàn)一些高級別數(shù)據(jù)分析的需求。比較典型算法有用于聚類的Kmeans、用于統(tǒng)計學習的SVM和用于分類的NaiveBayes,主要使用的工具有Hadoop的Mahout等。該過程的特點和挑戰(zhàn)主要是用于挖掘的算法很復雜,并且計算涉及的數(shù)據(jù)量和計算量都很大,常用數(shù)據(jù)挖掘算法都以單線程為主。整個大數(shù)據(jù)處理的普遍流程至少應該滿足這四個方面的步驟,才能算得上是一個比較完整的大數(shù)據(jù)處理. 大數(shù)據(jù)處理的核心技術(shù)Hadoop大數(shù)據(jù)技術(shù)涵蓋了硬軟件多個方面的技術(shù),目前各種技術(shù)基本都獨立存在于存儲、開發(fā)、平臺架構(gòu)、數(shù)據(jù)分析挖掘的各個相對獨立的領域。這一部分主要介紹和分析大數(shù)據(jù)處理的核心技術(shù)——Hadoop。. Hadoop的組成大數(shù)據(jù)不同于傳統(tǒng)類型的數(shù)據(jù),它可能由TB甚至PB級信息組成,既包括結(jié)構(gòu)化數(shù)據(jù),也包括文本、多媒體等非結(jié)構(gòu)化數(shù)據(jù)。這些數(shù)據(jù)類型缺乏一致性,使得標準存儲技術(shù)無法對大數(shù)據(jù)進行有效存儲,而且我們也難以使用傳統(tǒng)的服務器和SAN方法來有效地存儲和處理龐大的數(shù)據(jù)量。這些都決定了“大數(shù)據(jù)”需要不同的處理方法,而Hadoop目前正是廣泛應用的大數(shù)據(jù)處理技術(shù)。Hadoop是一個基于Java的分布式密集數(shù)據(jù)處理和數(shù)據(jù)分析的軟件框架。該框架在很大程度上受Google在2004年白皮書中闡述的MapReduce的技術(shù)啟發(fā)。Hadoop主要組件包含如圖七:圖七Hadoop Common:通用模塊,支持其他Hadoop模塊Ha d o o p Di s t r i b u t e d Fi l eSystem(HDFS):分布式文件系統(tǒng),用以提供高流量的應用數(shù)據(jù)訪問Hadoop YARN:支持工作調(diào)度和集群資源管理的框架HadoopMapReduce:針對大數(shù)據(jù)的、靈活的并行數(shù)據(jù)處理框架其他相關(guān)的模塊還有:ZooKeeper:高可靠性分布式協(xié)調(diào)系統(tǒng)Oozie:負責MapReduce作業(yè)調(diào)度HBase:可擴展的分布式數(shù)據(jù)庫,可以將結(jié)構(gòu)性數(shù)據(jù)存儲為大表Hive:構(gòu)建在MapRudece之上的數(shù)據(jù)倉庫軟件包Pig:架構(gòu)在Hadoop之上的高級數(shù)據(jù)處理層在Hadoop框架中,最底層的HDFS存儲Hadoop集群中所有存儲節(jié)點上的文件。HDFS的架構(gòu)是基于一組特定的節(jié)點構(gòu)建的(如圖八),圖八這些節(jié)點包括一個NameNode和大量的DataNode。存儲在HDFS中的文件被分成塊,然后將這些塊復制到多個計算機中(DataNode)。這與傳統(tǒng)的RAID架構(gòu)大不相同。塊的大?。ㄍǔ?4MB)和復制的塊數(shù)量在創(chuàng)建文件時由客戶機決定。NameNode可以控制所有文件操作。HDFS內(nèi)部的所有通信都基于標準的TCP/IP協(xié)議。NameNode在HDFS內(nèi)部提供元數(shù)據(jù)服務,負責管理文件系統(tǒng)名稱空間和控制外部客戶機的訪問。它決定是否將文件映射到DataNode上的復制塊上。DataNode通常以機架的形式組織,機架通過一個交換機將所有系統(tǒng)連接起來。H a d o o p M a p R e d u c e 是Google MapReduce的開源實現(xiàn)。MapReduce技術(shù)是一種簡潔的并行計算模型,它在系統(tǒng)層面解決了擴展性、容錯性等問題,通過接受用戶編寫的Map函數(shù)和Reduce函數(shù),自動地在可伸縮的大規(guī)模集群上并行執(zhí)行,從而可以處理和分析大規(guī)模的數(shù)據(jù)[6]。Hadoop提供了大量的接口和抽象類,從而為Hadoop應用程序開發(fā)人員提供許多工具,可用于調(diào)試和性能度量等。在H a d o o p 應用實例中,一個代表客戶機在單個主系統(tǒng)上啟動Ma pRe d u c e的應用程序稱為JobTracker。類似于NameNode,它是Ha d o o p 集群中唯一負責控制MapReduce應用程序的系統(tǒng)。在應用程序提交之后,將提供包含在HDFS中的輸入和輸出目錄。JobTr a cke r使用文件塊信息(物理量和位置)確定如何創(chuàng)建其他TaskTracker從屬任務。MapReduce應用程序被復制到每個出現(xiàn)輸入文件塊的節(jié)點,將為特定節(jié)點上的每個文件塊創(chuàng)建一個唯一的從屬任務。每個TaskTracker將狀態(tài)和完成信息報告給JobTracker。如圖顯示一個示例集群中的工作分布,如圖九:圖九. Hadoop的優(yōu)點:Hadoop能夠使用戶輕松開發(fā)和運行處理大數(shù)據(jù)的應用程序。它主要有以下幾個優(yōu)點:..... 高可靠性。Hadoop按位存儲和處理數(shù)據(jù)的能力值得人們信賴。. 高擴展性。Hadoop是在可用的計算機集簇間分配數(shù)據(jù)并完成計算任務的,這些集簇可以方便地擴展到數(shù)以千計的節(jié)點中。. 高效性。Hadoop能夠在節(jié)點之間動態(tài)地移動數(shù)據(jù),并保證各個節(jié)點的動態(tài)平衡,因此處理速度非???。. 高容錯性。Hadoop能夠自動保存數(shù)據(jù)的多個副本,并且能夠自動將失敗的任務重新分配。Hadoop帶有用Java語言編寫的框架,因此運行在Linux生產(chǎn)平臺上是非常理想的。Hadoop上的應用程序也可以使用其他語言編寫,比如C++。. Hadoop的不足Hadoop作為一個處理大數(shù)據(jù)的軟件框架,雖然受到眾多商業(yè)公司的青睞,但是其自身的技術(shù)特點也決定了它不能完全解決大數(shù)據(jù)問題。在當前Hadoop的設計中,所有的metadata操作都要通過集中式的Name
點擊復制文檔內(nèi)容
公司管理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1