freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

運(yùn)營商大數(shù)據(jù)應(yīng)用解決方案(編輯修改稿)

2025-05-26 07:00 本頁面
 

【文章內(nèi)容簡介】 術(shù)。分布式技術(shù)結(jié)合了一系列技術(shù),可以對海量數(shù)據(jù)進(jìn)行實(shí)時(shí)分析。更重要的是,它所使用的硬件非常便宜,因而讓這種技術(shù)的普及變成可能。SGI的Sunny Sundstrom解釋說,通過對那些看起來沒什么關(guān)聯(lián)和組織的數(shù)據(jù)進(jìn)行分析,我們可以獲得很多有價(jià)值的結(jié)果。比如說可以分發(fā)現(xiàn)一些新的模式或者新的行為。運(yùn)用分布式計(jì)算技術(shù),銀行可以從消費(fèi)者的一些消費(fèi)行為和模式中識別網(wǎng)上交易的欺詐行為。分布式計(jì)算技術(shù)讓不可能變成可能,分布式計(jì)算技術(shù)正引領(lǐng)著將不可能變?yōu)榭赡?。Skybox Imaging就是一個(gè)很好的例子。這家公司通過對衛(wèi)星圖片的分析得出一些實(shí)時(shí)結(jié)果,比如說某個(gè)城市有多少可用停車空間,或者某個(gè)港口目前有多少船只。它們將這些實(shí)時(shí)結(jié)果賣給需要的客戶。沒有這個(gè)技術(shù),要想快速便宜的分析這么大量衛(wèi)星圖片數(shù)據(jù)將是不可能的。如圖五所示:圖五分布式計(jì)算技術(shù)是Google的核心,也是Yahoo的基礎(chǔ),目前分布式計(jì)算技術(shù)是基于Google創(chuàng)建的技術(shù),但是卻最新由Yahoo所建立。Google總共發(fā)表了兩篇論文,2004年發(fā)表的叫做MapReduce的論文介紹了如何在多計(jì)算機(jī)之間進(jìn)行數(shù)據(jù)處理。另一篇于2003年發(fā)表,主要是關(guān)于如何在多服務(wù)器上存儲數(shù)據(jù)。來自于Yahoo的工程師Doug Cutting在讀了這兩篇論文后建立了分布式計(jì)算平臺,以他兒子的玩具大象命名。如圖六所示 圖六而Hadoop作為一個(gè)重量級的分布式處理開源框架已經(jīng)在大數(shù)據(jù)處理領(lǐng)域有所作為. 大數(shù)據(jù)處理過程. 采集  大數(shù)據(jù)的采集是指利用多個(gè)數(shù)據(jù)庫來接收發(fā)自客戶端(Web、App或者傳感器形式等)的數(shù)據(jù),并且用戶可以通過這些數(shù)據(jù)庫來進(jìn)行簡單的查詢和處理工作。比如,電商會使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫MySQL和Oracle等來存儲每一筆事務(wù)數(shù)據(jù),除此之外,Redis和MongoDB這樣的NoSQL數(shù)據(jù)庫也常用于數(shù)據(jù)的采集。在大數(shù)據(jù)的采集過程中,其主要特點(diǎn)和挑戰(zhàn)是并發(fā)數(shù)高,因?yàn)橥瑫r(shí)有可能會有成千上萬的用戶來進(jìn)行訪問和操作,比如火車票售票網(wǎng)站和淘寶,它們并發(fā)的訪問量在峰值時(shí)達(dá)到上百萬,所以需要在采集端部署大量數(shù)據(jù)庫才能支撐。并且如何在這些數(shù)據(jù)庫之間進(jìn)行負(fù)載均衡和分片的確是需要深入的思考和設(shè)計(jì)。. 導(dǎo)入/預(yù)處理雖然采集端本身會有很多數(shù)據(jù)庫,但是如果要對這些海量數(shù)據(jù)進(jìn)行有效的分析,還是應(yīng)該將這些來自前端的數(shù)據(jù)導(dǎo)入到一個(gè)集中的大型分布式數(shù)據(jù)庫,或者分布式存儲集群,并且可以在導(dǎo)入基礎(chǔ)上做一些簡單的清洗和預(yù)處理工作。也有一些用戶會在導(dǎo)入時(shí)使用來自Twitter的Storm來對數(shù)據(jù)進(jìn)行流式計(jì)算,來滿足部分業(yè)務(wù)的實(shí)時(shí)計(jì)算需求。導(dǎo)入與預(yù)處理過程的特點(diǎn)和挑戰(zhàn)主要是導(dǎo)入的數(shù)據(jù)量大,每秒鐘的導(dǎo)入量經(jīng)常會達(dá)到百兆,甚至千兆級別。. 統(tǒng)計(jì)/分析統(tǒng)計(jì)與分析主要利用分布式數(shù)據(jù)庫,或者分布式計(jì)算集群來對存儲于其內(nèi)的海量數(shù)據(jù)進(jìn)行普通的分析和分類匯總等,以滿足大多數(shù)常見的分析需求,在這方面,一些實(shí)時(shí)性需求會用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存儲Infobright等,而一些批處理,或者基于半結(jié)構(gòu)化數(shù)據(jù)的需求可以使用Hadoop。統(tǒng)計(jì)與分析這部分的主要特點(diǎn)和挑戰(zhàn)是分析涉及的數(shù)據(jù)量大,其對系統(tǒng)資源,特別是I/O會有極大的占用。. 挖掘  與前面統(tǒng)計(jì)和分析過程不同的是,數(shù)據(jù)挖掘一般沒有什么預(yù)先設(shè)定好的主題,主要是在現(xiàn)有數(shù)據(jù)上面進(jìn)行基于各種算法的計(jì)算,從而起到預(yù)測(Predict)的效果,從而實(shí)現(xiàn)一些高級別數(shù)據(jù)分析的需求。比較典型算法有用于聚類的Kmeans、用于統(tǒng)計(jì)學(xué)習(xí)的SVM和用于分類的NaiveBayes,主要使用的工具有Hadoop的Mahout等。該過程的特點(diǎn)和挑戰(zhàn)主要是用于挖掘的算法很復(fù)雜,并且計(jì)算涉及的數(shù)據(jù)量和計(jì)算量都很大,常用數(shù)據(jù)挖掘算法都以單線程為主。整個(gè)大數(shù)據(jù)處理的普遍流程至少應(yīng)該滿足這四個(gè)方面的步驟,才能算得上是一個(gè)比較完整的大數(shù)據(jù)處理. 大數(shù)據(jù)處理的核心技術(shù)Hadoop大數(shù)據(jù)技術(shù)涵蓋了硬軟件多個(gè)方面的技術(shù),目前各種技術(shù)基本都獨(dú)立存在于存儲、開發(fā)、平臺架構(gòu)、數(shù)據(jù)分析挖掘的各個(gè)相對獨(dú)立的領(lǐng)域。這一部分主要介紹和分析大數(shù)據(jù)處理的核心技術(shù)——Hadoop。. Hadoop的組成大數(shù)據(jù)不同于傳統(tǒng)類型的數(shù)據(jù),它可能由TB甚至PB級信息組成,既包括結(jié)構(gòu)化數(shù)據(jù),也包括文本、多媒體等非結(jié)構(gòu)化數(shù)據(jù)。這些數(shù)據(jù)類型缺乏一致性,使得標(biāo)準(zhǔn)存儲技術(shù)無法對大數(shù)據(jù)進(jìn)行有效存儲,而且我們也難以使用傳統(tǒng)的服務(wù)器和SAN方法來有效地存儲和處理龐大的數(shù)據(jù)量。這些都決定了“大數(shù)據(jù)”需要不同的處理方法,而Hadoop目前正是廣泛應(yīng)用的大數(shù)據(jù)處理技術(shù)。Hadoop是一個(gè)基于Java的分布式密集數(shù)據(jù)處理和數(shù)據(jù)分析的軟件框架。該框架在很大程度上受Google在2004年白皮書中闡述的MapReduce的技術(shù)啟發(fā)。Hadoop主要組件包含如圖七:圖七Hadoop Common:通用模塊,支持其他Hadoop模塊Ha d o o p Di s t r i b u t e d Fi l eSystem(HDFS):分布式文件系統(tǒng),用以提供高流量的應(yīng)用數(shù)據(jù)訪問Hadoop YARN:支持工作調(diào)度和集群資源管理的框架HadoopMapReduce:針對大數(shù)據(jù)的、靈活的并行數(shù)據(jù)處理框架其他相關(guān)的模塊還有:ZooKeeper:高可靠性分布式協(xié)調(diào)系統(tǒng)Oozie:負(fù)責(zé)MapReduce作業(yè)調(diào)度HBase:可擴(kuò)展的分布式數(shù)據(jù)庫,可以將結(jié)構(gòu)性數(shù)據(jù)存儲為大表Hive:構(gòu)建在MapRudece之上的數(shù)據(jù)倉庫軟件包Pig:架構(gòu)在Hadoop之上的高級數(shù)據(jù)處理層在Hadoop框架中,最底層的HDFS存儲Hadoop集群中所有存儲節(jié)點(diǎn)上的文件。HDFS的架構(gòu)是基于一組特定的節(jié)點(diǎn)構(gòu)建的(如圖八),圖八這些節(jié)點(diǎn)包括一個(gè)NameNode和大量的DataNode。存儲在HDFS中的文件被分成塊,然后將這些塊復(fù)制到多個(gè)計(jì)算機(jī)中(DataNode)。這與傳統(tǒng)的RAID架構(gòu)大不相同。塊的大?。ㄍǔ?4MB)和復(fù)制的塊數(shù)量在創(chuàng)建文件時(shí)由客戶機(jī)決定。NameNode可以控制所有文件操作。HDFS內(nèi)部的所有通信都基于標(biāo)準(zhǔn)的TCP/IP協(xié)議。NameNode在HDFS內(nèi)部提供元數(shù)據(jù)服務(wù),負(fù)責(zé)管理文件系統(tǒng)名稱空間和控制外部客戶機(jī)的訪問。它決定是否將文件映射到DataNode上的復(fù)制塊上。DataNode通常以機(jī)架的形式組織,機(jī)架通過一個(gè)交換機(jī)將所有系統(tǒng)連接起來。H a d o o p M a p R e d u c e 是Google MapReduce的開源實(shí)現(xiàn)。MapReduce技術(shù)是一種簡潔的并行計(jì)算模型,它在系統(tǒng)層面解決了擴(kuò)展性、容錯(cuò)性等問題,通過接受用戶編寫的Map函數(shù)和Reduce函數(shù),自動(dòng)地在可伸縮的大規(guī)模集群上并行執(zhí)行,從而可以處理和分析大規(guī)模的數(shù)據(jù)[6]。Hadoop提供了大量的接口和抽象類,從而為Hadoop應(yīng)用程序開發(fā)人員提供許多工具,可用于調(diào)試和性能度量等。在H a d o o p 應(yīng)用實(shí)例中,一個(gè)代表客戶機(jī)在單個(gè)主系統(tǒng)上啟動(dòng)Ma pRe d u c e的應(yīng)用程序稱為JobTracker。類似于NameNode,它是Ha d o o p 集群中唯一負(fù)責(zé)控制MapReduce應(yīng)用程序的系統(tǒng)。在應(yīng)用程序提交之后,將提供包含在HDFS中的輸入和輸出目錄。JobTr a cke r使用文件塊信息(物理量和位置)確定如何創(chuàng)建其他TaskTracker從屬任務(wù)。MapReduce應(yīng)用程序被復(fù)制到每個(gè)出現(xiàn)輸入文件塊的節(jié)點(diǎn),將為特定節(jié)點(diǎn)上的每個(gè)文件塊創(chuàng)建一個(gè)唯一的從屬任務(wù)。每個(gè)TaskTracker將狀態(tài)和完成信息報(bào)告給JobTracker。如圖顯示一個(gè)示例集群中的工作分布,如圖九:圖九. Hadoop的優(yōu)點(diǎn):Hadoop能夠使用戶輕松開發(fā)和運(yùn)行處理大數(shù)據(jù)的應(yīng)用程序。它主要有以下幾個(gè)優(yōu)點(diǎn):..... 高可靠性。Hadoop按位存儲和處理數(shù)據(jù)的能力值得人們信賴。. 高擴(kuò)展性。Hadoop是在可用的計(jì)算機(jī)集簇間分配數(shù)據(jù)并完成計(jì)算任務(wù)的,這些集簇可以方便地?cái)U(kuò)展到數(shù)以千計(jì)的節(jié)點(diǎn)中。. 高效性。Hadoop能夠在節(jié)點(diǎn)之間動(dòng)態(tài)地移動(dòng)數(shù)據(jù),并保證各個(gè)節(jié)點(diǎn)的動(dòng)態(tài)平衡,因此處理速度非常快。. 高容錯(cuò)性。Hadoop能夠自動(dòng)保存數(shù)據(jù)的多個(gè)副本,并且能夠自動(dòng)將失敗的任務(wù)重新分配。Hadoop帶有用Java語言編寫的框架,因此運(yùn)行在Linux生產(chǎn)平臺上是非常理想的。Hadoop上的應(yīng)用程序也可以使用其他語言編寫,比如C++。. Hadoop的不足Hadoop作為一個(gè)處理大數(shù)據(jù)的軟件框架,雖然受到眾多商業(yè)公司的青睞,但是其自身的技術(shù)特點(diǎn)也決定了它不能完全解決大數(shù)據(jù)問題。在當(dāng)前Hadoop的設(shè)計(jì)中,所有的metadata操作都要通過集中式的NameNode來進(jìn)行,NameNode有可能是性能的瓶頸。當(dāng)前Hadoop單一NameNode、單一Jobtracker的設(shè)計(jì)嚴(yán)重制約了整個(gè)Hadoop可擴(kuò)展性和可靠性。首先,NameNode和JobTracker是整個(gè)系統(tǒng)中明顯的單點(diǎn)故障源。再次,單一NameNode的內(nèi)存容量有限,使得Hadoop集群的節(jié)點(diǎn)數(shù)量被限制到2000個(gè)左右,能支持的文件系統(tǒng)大小被限制在1050PB。實(shí)際上,有用戶抱怨其集群的NameNode重啟需要數(shù)小時(shí),這大大降低了系統(tǒng)的可用性。隨著Hadoop被廣泛使用,面對各式各樣的需求,人們期望Hadoop能提供更多特性,比如完全可讀寫的文件系統(tǒng)、Snapshot、Mirror等等。這些都是當(dāng)前版本的Hadoop不支持,但是用戶又有強(qiáng)烈需求的
點(diǎn)擊復(fù)制文檔內(nèi)容
規(guī)章制度相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1