【正文】
網(wǎng)管支撐處作者單位:中國移動通信日期:2012年頁碼:6頁5:IBM發(fā)布大數(shù)據(jù)全球調(diào)研白皮書雜志名: 《移動通信》年,卷(期):2013年 第5期 來源:中文科技期刊數(shù)據(jù)庫頁碼:1頁24 / 24。傳統(tǒng)的信息組織方式與“大數(shù)據(jù)”技術的結(jié)合,是文獻信息處理領域新的研究課題。8 結(jié)語。在未來幾年里,數(shù)據(jù)倉庫一體機、NoSQL 大數(shù)據(jù)一體機陸續(xù)發(fā)布大數(shù)據(jù)處理離不開云計算技術,云計算為大數(shù)據(jù)提供彈性可擴展的基礎設施支撐環(huán)境以及數(shù)據(jù)服務的高效模式,大數(shù)據(jù)則為云計算提供了新的商業(yè)價值,大數(shù)據(jù)技術與云計算技術必有更完美的結(jié)合。從前的很多算法和基礎理論可能會產(chǎn)生理論級別的突破。在大數(shù)據(jù)分析上,將出現(xiàn)革命性的新方法。這些分析應用內(nèi)容還會覆蓋很多行業(yè)的專業(yè)知識,也會吸引大量行業(yè)軟件開發(fā)公司的投入。隨著大數(shù)據(jù)逐漸走向各個行業(yè),基于行業(yè)的大數(shù)據(jù)分析應用需求也日益增長。Hadoop的專業(yè)知識正在飛速增長,但是這方面優(yōu)秀的人才仍然很缺乏。據(jù)預測,用戶對Hadoop的優(yōu)化將更注重硬件,同時,對企業(yè)友好的Hadoop技術市場將達到前所未有的高峰。 Hadoop將加速發(fā)展與人們的傳統(tǒng)理解不同,大數(shù)據(jù)市場開源軟件的盛行不會抑制市場的商業(yè)機會,相反開源軟件將會給基礎架構硬件、應用程序開發(fā)工具、應用、服務等各個方面的相關領域帶來更多的機會。 大數(shù)據(jù)開源基于社交網(wǎng)絡的社交大數(shù)據(jù)分析。Service)業(yè)務。as大數(shù)據(jù)相關技術的發(fā)展,將會創(chuàng)造出一些新的細分市場。對于第一個特點,像Cloudera的Impala和微軟的PolyBase這樣的軟件會得到充分發(fā)展,他們繞開了MapReduce,直接對存在HDFS中的數(shù)據(jù)進行處理。 大數(shù)據(jù)復雜度降低在科技文獻信息處理中,文本分析技術、語義計算技術、數(shù)據(jù)安全需要與“大數(shù)據(jù)”解決方案結(jié)合起來考慮實施,這樣才能更有效地提供知識服務。事實上,現(xiàn)在的科技文獻信息日益凸顯出“大數(shù)據(jù)”的特征,主要表現(xiàn)在以下幾個方面:更新周期縮短;數(shù)量龐大;文獻的類型多樣;文獻載體數(shù)字化;文獻語種多樣化;文獻內(nèi)容交叉;文獻信息密度大。免費帳號可以讓用戶每月訪問高達100GB的數(shù)據(jù),用戶也可以付費使用額外查詢和存儲空間。大數(shù)據(jù)在云端模型具備很多優(yōu)勢,BigQuery服務無需組織提供或建立數(shù)據(jù)倉庫。BigQuery允許用戶上傳他們的超大量數(shù)據(jù)并通過其直接進行交互式分析,從而不必投資建立自己的數(shù)據(jù)中心。 BigQueryBigQu e r y是Go og l e 推出的一項We b服務,用來在云端處理大數(shù)據(jù)。但是Gr e e n p l umDa t a b a s e面對的是結(jié)構化數(shù)據(jù)。在數(shù)據(jù)分析方面,EMC提供的解決方案、提供的產(chǎn)品是Greenplum,Greenplum有兩個產(chǎn)品,第一是GreenplumDatabase,GreenplumDatabase是大規(guī)模的并行成立的數(shù)據(jù)庫,它可以管理、存儲、分析PB量級的一些結(jié)構性數(shù)據(jù),它下載的速度非常高,最高可以達到每小時10 T B,速度非常驚人。 EMCEMC 提供了兩種大數(shù)據(jù)存儲方案,即Isilon和Atmos。相比于傳統(tǒng)的“行式存儲”的關系型數(shù)據(jù)庫,Sybase IQ使用了獨特的列式存儲方式,在進行分析查詢時,僅需讀取查詢所需的列,其垂直分區(qū)策略不僅能夠支持大量的用戶、大規(guī)模數(shù)據(jù),還可以提交對商業(yè)信息的高速訪問,其速度可達到傳統(tǒng)的關系型數(shù)據(jù)庫的百倍甚至千倍。微軟的SQL Server 2012將并入Hadoop分布式計算平臺,微軟還將把Hadoop引入Windows Server和Azure(微軟的云服務)。 Mi c r o s o f t S QLServer微軟已經(jīng)發(fā)布Hadoop Connectorfor SQL Se r ve r Pa r a l lel Dat aWarehouse和Hadoop Connectorfor SQL Ser ver社區(qū)技術預覽版本的連接器。它能夠快速、便捷地與Oracle數(shù)據(jù)庫11g、Oracle Exadata數(shù)據(jù)庫云服務器和Oracle Exalytics商務智能云服務器集成。 Or a c l e Bi g Da t aAppliancOracle Big Data Appliance準確地說是一款硬件產(chǎn)品,添加了Hadoop裝載器、應用適配器以及Or acle新的NoSQL數(shù)據(jù)庫,主要目的是為了將非結(jié)構化數(shù)據(jù)加載到關系型數(shù)據(jù)庫中去,并對軟硬件的集成做了一些優(yōu)化。IBM大數(shù)據(jù)平臺包括4大部分:信息整合與治理組件、基于開源Apache Hadoop的框架而實現(xiàn)的Bi g I n s i g h t s 平臺、加速器,以及包含可視化與發(fā)現(xiàn)、應用程序開發(fā)、系統(tǒng)管理的上層應用??傮w來說,二者的設計架構不同,也用于處理不同的大數(shù)據(jù)分析需求,并可以形成良好的互補。St r e ams 最大的特點就是內(nèi)存分析,利用多節(jié)點PC服務器的內(nèi)存來處理大批量的數(shù)據(jù)分析請求。目前BigInsights提供兩種版本,一種是企業(yè)版(Enterprise Edition),用于企業(yè)級的大數(shù)據(jù)分析解決方案。利用GPFS的目的是為了避免單點故障,保證可用性。研究Hadoop這樣開源技術的人很多,但是IBM這次是真正將其變成了企業(yè)級的應用,針對不同的人員增加不同的價值。St reams采用內(nèi)存計算方式分析實時數(shù)據(jù)。 IBM InfoSphere大數(shù)據(jù)分析平臺I B M于2 0 1 1 年5 月推出的InfoSphere大數(shù)據(jù)分析平臺是一款定位為企業(yè)級的大數(shù)據(jù)分析產(chǎn)品。很多知名企業(yè)都以Hadoop技術為基礎提供自己的商業(yè)性大數(shù)據(jù)解決方案。Hadoop是非結(jié)構數(shù)據(jù)庫的代表,低成本、高擴展性和靈活性等優(yōu)勢使其成為各種面向大數(shù)據(jù)處理分析的商業(yè)服務方案的首選。 主要商業(yè)性“大數(shù)據(jù)”處理方案“大數(shù)據(jù)”被科技企業(yè)看作是云計算之后的另一個巨大商機,包括IBM、谷歌、亞馬遜和微軟在內(nèi)的一大批知名企業(yè)紛紛掘金這一市場。隨著Hadoop被廣泛使用,面對各式各樣的需求,人們期望Hadoop能提供更多特性,比如完全可讀寫的文件系統(tǒng)、Snapshot、Mirror等等。再次,單一NameNode的內(nèi)存容量有限,使得Hadoop集群的節(jié)點數(shù)量被限制到2000個左右,能支持的文件系統(tǒng)大小被限制在1050PB。當前Hadoop