【文章內(nèi)容簡介】
Greenplum統(tǒng)一分析平臺(tái)(UAP),數(shù)據(jù)團(tuán)隊(duì)和分析團(tuán)隊(duì)可以在該平臺(tái)上無縫地共享信息、協(xié)作分析。正因?yàn)槿绱?,UAP包括ECM Greenplum關(guān)系數(shù)據(jù)庫、EMC Greenplum HD Hadoop發(fā)行版和EMC Greenplum Chorus。EMC為大數(shù)據(jù)開發(fā)的硬件是模塊化的EMC數(shù)據(jù)計(jì)算設(shè)備(DCA),它能夠在一個(gè)設(shè)備里面運(yùn)行并擴(kuò)展Greenplum關(guān)系數(shù)據(jù)庫和Greenplum HD節(jié)點(diǎn)。DCA提供了一個(gè)共享的指揮中心(Command Center)界面,讓管理員可以監(jiān)控、管理和配置Greenplum數(shù)據(jù)庫和Hadoop系統(tǒng)性能及容量。隨著Hadoop平臺(tái)日趨成熟,預(yù)計(jì)分析功能會(huì)急劇增加。IBM —Info Sphere Big Insights幾年前,IBM開始在其實(shí)驗(yàn)室嘗試使用Hadoop,在2012年5月推出了Info Sphere Big Insights云版本的 Info Sphere Big Insights使組織內(nèi)的任何用戶都可以做大數(shù)據(jù)分析。云上的Big Insights軟件可以分析數(shù)據(jù)庫里的結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),使決策者能夠迅速將洞察轉(zhuǎn)化為行動(dòng)。IBM隨后又在10月通過其智慧云企業(yè)(Smart Cloud Enterprise)基礎(chǔ)架構(gòu),將Big Insights和Big Sheets作為一項(xiàng)服務(wù)來提供。據(jù)IBM聲稱,客戶用不了30分鐘就能搭建起Hadoop集群,并將數(shù)據(jù)轉(zhuǎn)移到集群里面,數(shù)據(jù)處理費(fèi)用是每個(gè)集群每小時(shí)60美分起價(jià)Informatica Informatica公司在2012年10月推出了HParser,這是一種針對(duì)Hadoop而優(yōu)化的數(shù)據(jù)轉(zhuǎn)換環(huán)境。據(jù)Informatica聲稱,軟件支持靈活高效地處理Hadoop里面的任何文件格式,為Hadoop開發(fā)人員提供了即開即用的解析功能,以便處理復(fù)雜而多樣的數(shù)據(jù)源,包括日志、文檔、二進(jìn)制數(shù)據(jù)或?qū)哟问綌?shù)據(jù),以及眾多行業(yè)標(biāo)準(zhǔn)格式(如銀行業(yè)的NACHA、支付業(yè)的SWIFT、金融數(shù)據(jù)業(yè)的FIX和保險(xiǎn)業(yè)的ACORD)。正如數(shù)據(jù)庫內(nèi)處理技術(shù)加快了各種分析方法,Informatica同樣將解析代碼添加到Hadoop里面,以便充分利用所有這些處理功能,不久會(huì)添加其他的數(shù)據(jù)處理代碼。Informatica HParser是Informatica B2B Data Exchange家族產(chǎn)品及Informatica平臺(tái)的最新補(bǔ)充,旨在滿足從海量無結(jié)構(gòu)數(shù)據(jù)中提取商業(yè)價(jià)值的日益增長的需求。去年, Informatica成功地推出了創(chuàng)新的Informatica for Big Data,是全球第一個(gè)專門為大數(shù)據(jù)而構(gòu)建的統(tǒng)一數(shù)據(jù)集成平臺(tái)?;萜铡猇ertica數(shù)據(jù)分析平臺(tái)惠普Vertica 在大數(shù)據(jù)分析領(lǐng)域站穩(wěn)腳跟,能提供高效數(shù)據(jù)存儲(chǔ)和快速查詢的列存儲(chǔ)數(shù)據(jù)庫實(shí)時(shí)分析平臺(tái)。該數(shù)據(jù)庫還支持大規(guī)模并行處理(MPP)。通過MPP的擴(kuò)展性可以讓Vertica為高端數(shù)字營銷、電子商務(wù)客戶(比如AOL、Twitter、 Groupon)分析處理的數(shù)據(jù)達(dá)到PB級(jí)?;萜照故玖艘豢頥ertica設(shè)備——Vertica Analytics Appliance,和小冰箱差不多大小。它是惠普融合基礎(chǔ)架構(gòu)中的一款全集成技術(shù)棧。通過這款新設(shè)備“惠普可以真正打開這個(gè)市場,尤其是將分析作為一項(xiàng)服務(wù)的市場”。甲骨文—Oracle Big Data Appliance甲骨文的Big Data Appliance集成系統(tǒng)包括Cloudera的Hadoop系統(tǒng)管理軟件和支持服務(wù)Apache Hadoop 和Cloudera Manager。甲骨文視Big Data Appliance為包括Exadata、 Exalogic和 Exalytics InMemory Machine的“建造系統(tǒng)”。Oracle大數(shù)據(jù)機(jī)(Oracle Big Data Appliance),是一個(gè)軟、硬件集成系統(tǒng),在系統(tǒng)中融入了Cloudera的Distribution Including Apache Hadoop、Cloudera Manager和一個(gè)開源R。該大數(shù)據(jù)機(jī)采用Oracle Linux操作系統(tǒng),并配備Oracle NoSQL數(shù)據(jù)庫社區(qū)版本和Oracle HotSpot Java虛擬機(jī)。Big Data Appliance為全架構(gòu)產(chǎn)品,每個(gè)架構(gòu)864GB存儲(chǔ),216個(gè)CPU內(nèi)核,648TBRAW存儲(chǔ),每秒40GB的InifiniBand連接。Big Data Appliance售價(jià)45萬美元,每年硬軟件支持費(fèi)用為12%。微軟SQL Server 2011年初微軟發(fā)布的SQL Server R2 Parallel Data Warehouse(PDW,并行數(shù)據(jù)倉庫),PDW使用了大規(guī)模并行處理來支持高擴(kuò)展性,它可以幫助客戶擴(kuò)展部署數(shù)百TB級(jí)別數(shù)據(jù)的分析解決方案。微軟目前已經(jīng)開始提供Hadoop Connector for SQL Server Parallel Data Warehouse和Hadoop Connector for SQL Server社區(qū)技術(shù)預(yù)覽版本的連接器。微軟在2012年推出了基于Azure云平臺(tái)的測試版Hadoop服務(wù),2013年它推出與Windows兼容的基于Hadoop的大數(shù)據(jù)解決方案(Big Data Solution)。亞馬遜—MapReduce 亞馬遜早在2009年就推出了亞馬遜彈性MapReduce(Amazon Elastic MapReduce),彈性MapReduce是一項(xiàng)能夠迅速擴(kuò)展的Web服務(wù),運(yùn)行在亞馬遜彈性計(jì)算云(Amazon EC2)和亞馬遜簡單存儲(chǔ)服務(wù)(Amazon S3)上。實(shí)現(xiàn)面對(duì)數(shù)據(jù)密集型任務(wù),比如互聯(lián)網(wǎng)索引、數(shù)據(jù)挖掘、日志文件分析、機(jī)器學(xué)習(xí)、金融分析、科學(xué)模擬和生物信息學(xué)研究,用戶需要多大容量,立即就能配置到多大容量。Teradata Teradata是企業(yè)級(jí)數(shù)據(jù)倉庫(EDW)的領(lǐng)導(dǎo)者,在數(shù)據(jù)庫分析領(lǐng)域不斷推陳出新,該公司購Aster Data—高級(jí)分析和管理各種非結(jié)構(gòu)化數(shù)據(jù)領(lǐng)域的市場領(lǐng)導(dǎo)者和開拓者。Teradata日前宣布了一項(xiàng)Aster Data MapReduce產(chǎn)品的計(jì)劃,它建立在以往產(chǎn)品同樣的硬件平臺(tái)之上,而且在Teradata和Aster Data之間新增了兩種集成方法。 大數(shù)據(jù)處理流程采集定義:利用多種輕型數(shù)據(jù)庫來接收發(fā)自客戶端的數(shù)據(jù),并且用戶可以通過這些數(shù)據(jù)庫來進(jìn)行簡單的查詢和處理工作特點(diǎn)和挑戰(zhàn):并發(fā)系數(shù)高使用的產(chǎn)品:MySQL,Oracle,HBase,Redis和MongoDB等,并且這些產(chǎn)品的特點(diǎn)各不相同統(tǒng)計(jì)分析定義:將海量的來自前端的數(shù)據(jù)快速導(dǎo)入到一個(gè)集中的大型分布式數(shù)據(jù)庫或者分布式存儲(chǔ)集群,利用分布式技術(shù)來對(duì)存儲(chǔ)于其內(nèi)的集中的海量數(shù)據(jù)進(jìn)行普通的查詢和分類匯總等,以此滿足大多數(shù)常見的分析需求特點(diǎn)和挑戰(zhàn):導(dǎo)入數(shù)據(jù)量大,查詢涉及的數(shù)據(jù)量大,查詢請(qǐng)求多使用的產(chǎn)品:InfoBright,Hadoop(Pig和Hive),YunTable,SAP Hana和Oracle Exadata,除Hadoop以做離線分析為主之外,其他產(chǎn)品可做實(shí)時(shí)分析挖掘定義:基于前面的查詢數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,來滿足高級(jí)別的數(shù)據(jù)分析需求特點(diǎn)和挑戰(zhàn):算法復(fù)雜,并且計(jì)算涉及的數(shù)據(jù)量和計(jì)算量都大使用的產(chǎn)品:R,Hadoop Mahout2013年5月10日,阿里巴巴集團(tuán)董事局主席馬云在淘寶十周年晚會(huì)上,將卸任阿里集團(tuán)CEO的職位,并在晚會(huì)上做卸任前的演講,馬云說:“大家還沒搞清PC時(shí)代的時(shí)候,移動(dòng)互聯(lián)網(wǎng)來了,還沒搞清移動(dòng)互聯(lián)網(wǎng)的時(shí)候,大數(shù)據(jù)時(shí)代來了?!贝髷?shù)據(jù)正在改變著產(chǎn)品和生產(chǎn)過程、企業(yè)和產(chǎn)業(yè),甚至競爭本身的性質(zhì)。把信息技術(shù)看作是輔助或服務(wù)性的工具已經(jīng)成為過時(shí)的觀念,管理者應(yīng)該認(rèn)識(shí)到信息技術(shù)的廣泛影響和深刻含義,以及怎樣利用信息技術(shù)來創(chuàng)造有力而持久的競爭優(yōu)勢(shì)。無疑,信息技術(shù)正在改變著我們習(xí)以為常的商業(yè)模式,一場關(guān)系到企業(yè)生死存亡的技術(shù)革命已經(jīng)到來。借著大數(shù)據(jù)時(shí)代的熱潮,微軟公司生產(chǎn)了一款數(shù)據(jù)驅(qū)動(dòng)的軟件,主要是為工程建設(shè)節(jié)約資源提高效率。在這個(gè)過程里可以為世界節(jié)約40%的能源。拋開這個(gè)軟件的前景不看,從微軟團(tuán)隊(duì)致力于研究開始,可以看他們的目標(biāo)不僅是為了節(jié)約了能源,更加關(guān)注智能化運(yùn)營。通過跟蹤取暖器、空調(diào)、風(fēng)扇以及燈光等積累下來的超大量數(shù)據(jù),捕捉如何杜絕能源浪費(fèi)?!敖o我提供一些數(shù)據(jù),我就能做一些改變。如果給我提供所有數(shù)據(jù),我就能拯救世界?!蔽④浭访芩惯@樣說。而智能建筑正是他的團(tuán)隊(duì)專注的事情。隨著全球范圍內(nèi)個(gè)人電腦、智能手機(jī)等設(shè)備的普及和新興市場內(nèi)不斷增長的互聯(lián)網(wǎng)訪問量,以及監(jiān)控?cái)z像機(jī)或智能電表等設(shè)備產(chǎn)生的數(shù)據(jù)爆增,使數(shù)字宇宙的規(guī)模在2012到2013兩年間翻了一番。IDC預(yù)計(jì),到2020年