freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

大數(shù)據(jù)處理技術(shù)研究24(編輯修改稿)

2025-07-19 21:43 本頁面
 

【文章內(nèi)容簡介】 。分布式計(jì)算技術(shù)讓不可能變成可能,分布式計(jì)算技術(shù)正引領(lǐng)著將不可能變?yōu)榭赡?。Skybox Imaging就是一個(gè)很好的例子。這家公司通過對衛(wèi)星圖片的分析得出一些實(shí)時(shí)結(jié)果,比如說某個(gè)城市有多少可用停車空間,或者某個(gè)港口目前有多少船只。它們將這些實(shí)時(shí)結(jié)果賣給需要的客戶。沒有這個(gè)技術(shù),要想快速便宜的分析這么大量衛(wèi)星圖片數(shù)據(jù)將是不可能的。如圖五所示:圖五分布式計(jì)算技術(shù)是Google的核心,也是Yahoo的基礎(chǔ),目前分布式計(jì)算技術(shù)是基于Google創(chuàng)建的技術(shù),但是卻最新由Yahoo所建立。Google總共發(fā)表了兩篇論文,2004年發(fā)表的叫做MapReduce的論文介紹了如何在多計(jì)算機(jī)之間進(jìn)行數(shù)據(jù)處理。另一篇于2003年發(fā)表,主要是關(guān)于如何在多服務(wù)器上存儲(chǔ)數(shù)據(jù)。來自于Yahoo的工程師Doug Cutting在讀了這兩篇論文后建立了分布式計(jì)算平臺(tái),以他兒子的玩具大象命名。如圖六所示 圖六而Hadoop作為一個(gè)重量級的分布式處理開源框架已經(jīng)在大數(shù)據(jù)處理領(lǐng)域有所作為6. Hadoop大數(shù)據(jù)處理的核心技術(shù)大數(shù)據(jù)技術(shù)涵蓋了硬軟件多個(gè)方面的技術(shù),目前各種技術(shù)基本都獨(dú)立存在于存儲(chǔ)、開發(fā)、平臺(tái)架構(gòu)、數(shù)據(jù)分析挖掘的各個(gè)相對獨(dú)立的領(lǐng)域。這一部分主要介紹和分析大數(shù)據(jù)處理的核心技術(shù)——Hadoop。 Hadoop的組成大數(shù)據(jù)不同于傳統(tǒng)類型的數(shù)據(jù),它可能由TB甚至PB級信息組成,既包括結(jié)構(gòu)化數(shù)據(jù),也包括文本、多媒體等非結(jié)構(gòu)化數(shù)據(jù)。這些數(shù)據(jù)類型缺乏一致性,使得標(biāo)準(zhǔn)存儲(chǔ)技術(shù)無法對大數(shù)據(jù)進(jìn)行有效存儲(chǔ),而且我們也難以使用傳統(tǒng)的服務(wù)器和SAN方法來有效地存儲(chǔ)和處理龐大的數(shù)據(jù)量。這些都決定了“大數(shù)據(jù)”需要不同的處理方法,而Hadoop目前正是廣泛應(yīng)用的大數(shù)據(jù)處理技術(shù)。Hadoop是一個(gè)基于Java的分布式密集數(shù)據(jù)處理和數(shù)據(jù)分析的軟件框架。該框架在很大程度上受Google在2004年白皮書中闡述的MapReduce的技術(shù)啟發(fā)。Hadoop主要組件包含如圖七:圖七Hadoop Common:通用模塊,支持其他Hadoop模塊Ha d o o p Di s t r i b u t e d Fi l eSystem(HDFS):分布式文件系統(tǒng),用以提供高流量的應(yīng)用數(shù)據(jù)訪問Hadoop YARN:支持工作調(diào)度和集群資源管理的框架HadoopMapReduce:針對大數(shù)據(jù)的、靈活的并行數(shù)據(jù)處理框架其他相關(guān)的模塊還有:ZooKeeper:高可靠性分布式協(xié)調(diào)系統(tǒng)Oozie:負(fù)責(zé)MapReduce作業(yè)調(diào)度HBase:可擴(kuò)展的分布式數(shù)據(jù)庫,可以將結(jié)構(gòu)性數(shù)據(jù)存儲(chǔ)為大表Hive:構(gòu)建在MapRudece之上的數(shù)據(jù)倉庫軟件包Pig:架構(gòu)在Hadoop之上的高級數(shù)據(jù)處理層在Hadoop框架中,最底層的HDFS存儲(chǔ)Hadoop集群中所有存儲(chǔ)節(jié)點(diǎn)上的文件。HDFS的架構(gòu)是基于一組特定的節(jié)點(diǎn)構(gòu)建的(如圖八),圖八這些節(jié)點(diǎn)包括一個(gè)NameNode和大量的DataNode。存儲(chǔ)在HDFS中的文件被分成塊,然后將這些塊復(fù)制到多個(gè)計(jì)算機(jī)中(DataNode)。這與傳統(tǒng)的RAID架構(gòu)大不相同。塊的大?。ㄍǔ?4MB)和復(fù)制的塊數(shù)量在創(chuàng)建文件時(shí)由客戶機(jī)決定。NameNode可以控制所有文件操作。HDFS內(nèi)部的所有通信都基于標(biāo)準(zhǔn)的TCP/IP協(xié)議。NameNode在HDFS內(nèi)部提供元數(shù)據(jù)服務(wù),負(fù)責(zé)管理文件系統(tǒng)名稱空間和控制外部客戶機(jī)的訪問。它決定是否將文件映射到DataNode上的復(fù)制塊上。DataNode通常以機(jī)架的形式組織,機(jī)架通過一個(gè)交換機(jī)將所有系統(tǒng)連接起來。H a d o o p M a p R e d u c e 是Google MapReduce的開源實(shí)現(xiàn)。MapReduce技術(shù)是一種簡潔的并行計(jì)算模型,它在系統(tǒng)層面解決了擴(kuò)展性、容錯(cuò)性等問題,通過接受用戶編寫的Map函數(shù)和Reduce函數(shù),自動(dòng)地在可伸縮的大規(guī)模集群上并行執(zhí)行,從而可以處理和分析大規(guī)模的數(shù)據(jù)[6]。Hadoop提供了大量的接口和抽象類,從而為Hadoop應(yīng)用程序開發(fā)人員提供許多工具,可用于調(diào)試和性能度量等。在H a d o o p 應(yīng)用實(shí)例中,一個(gè)代表客戶機(jī)在單個(gè)主系統(tǒng)上啟動(dòng)Ma pRe d u c e的應(yīng)用程序稱為JobTracker。類似于NameNode,它是Ha d o o p 集群中唯一負(fù)責(zé)控制MapReduce應(yīng)用程序的系統(tǒng)。在應(yīng)用程序提交之后,將提供包含在HDFS中的輸入和輸出目錄。JobTr a cke r使用文件塊信息(物理量和位置)確定如何創(chuàng)建其他TaskTracker從屬任務(wù)。MapReduce應(yīng)用程序被復(fù)制到每個(gè)出現(xiàn)輸入文件塊的節(jié)點(diǎn),將為特定節(jié)點(diǎn)上的每個(gè)文件塊創(chuàng)建一個(gè)唯一的從屬任務(wù)。每個(gè)TaskTracker將狀態(tài)和完成信息報(bào)告給JobTracker。如圖顯示一個(gè)示例集群中的工作分布,如圖九:圖九 Hadoop的優(yōu)點(diǎn):Hadoop能夠使用戶輕松開發(fā)和運(yùn)行處理大數(shù)據(jù)的應(yīng)用程序。它主要有以下幾個(gè)優(yōu)點(diǎn): 高可靠性。Hadoop按位存儲(chǔ)和處理數(shù)據(jù)的能力值得人們信賴。 高擴(kuò)展性。Hadoop是在可用的計(jì)算機(jī)集簇間分配數(shù)據(jù)并完成計(jì)算任務(wù)的,這些集簇可以方便地?cái)U(kuò)展到數(shù)以千計(jì)的節(jié)點(diǎn)中。 高效性。Hadoop能夠在節(jié)點(diǎn)之間動(dòng)態(tài)地移動(dòng)數(shù)據(jù),并保證各個(gè)節(jié)點(diǎn)的動(dòng)態(tài)平衡,因此處理速度非常快。 高容錯(cuò)性。Hadoop能夠自動(dòng)保存數(shù)據(jù)的多個(gè)副本,并且能夠自動(dòng)將失敗的任務(wù)重新分配。Hadoop帶有用Java語言編寫的框架,因此運(yùn)行在Linux生產(chǎn)平臺(tái)上是非常理想的。Hadoop上的應(yīng)用程序也可以使用其他語言編寫,比如C++。 Hadoop的不足Hadoop作為一個(gè)處理大數(shù)據(jù)的軟件框架,雖然受到眾多商業(yè)公司的青睞,但是其自身的技術(shù)特點(diǎn)也決定了它不能完全解決大數(shù)據(jù)問題。在當(dāng)前Hadoop的設(shè)計(jì)中,所有的metadata操作都要通過集中式的NameNode來進(jìn)行,NameNode有可能是性能的瓶頸。當(dāng)前Hadoop單一NameNode、單一Jobtracker的設(shè)計(jì)嚴(yán)重制約了整個(gè)Hadoop可擴(kuò)展性和可靠性。首先,NameNode和JobTracker是整個(gè)系統(tǒng)中明顯的單點(diǎn)故障源。再次,單一NameNode的內(nèi)存容量有限,使得Hadoop集群的節(jié)點(diǎn)數(shù)量被限制到2000個(gè)左右,能支持的文件系統(tǒng)大小被限制在1050PB。實(shí)際上,有用
點(diǎn)擊復(fù)制文檔內(nèi)容
范文總結(jié)相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1