【正文】
ache Hadoop、Cloudera Manager和一個開源R。它是惠普融合基礎架構中的一款全集成技術棧?;萜铡猇ertica數(shù)據(jù)分析平臺惠普Vertica 在大數(shù)據(jù)分析領域站穩(wěn)腳跟,能提供高效數(shù)據(jù)存儲和快速查詢的列存儲數(shù)據(jù)庫實時分析平臺。據(jù)Informatica聲稱,軟件支持靈活高效地處理Hadoop里面的任何文件格式,為Hadoop開發(fā)人員提供了即開即用的解析功能,以便處理復雜而多樣的數(shù)據(jù)源,包括日志、文檔、二進制數(shù)據(jù)或層次式數(shù)據(jù),以及眾多行業(yè)標準格式(如銀行業(yè)的NACHA、支付業(yè)的SWIFT、金融數(shù)據(jù)業(yè)的FIX和保險業(yè)的ACORD)。IBM —Info Sphere Big Insights幾年前,IBM開始在其實驗室嘗試使用Hadoop,在2012年5月推出了Info Sphere Big Insights云版本的 Info Sphere Big Insights使組織內(nèi)的任何用戶都可以做大數(shù)據(jù)分析。正因為如此,UAP包括ECM Greenplum關系數(shù)據(jù)庫、EMC Greenplum HD Hadoop發(fā)行版和EMC Greenplum Chorus。[主要的大數(shù)據(jù)分析工具有:在大數(shù)據(jù)處理領域,最耀眼的明星是hadoop,Hadoop已被公認為是新一代的大數(shù)據(jù)處理平臺,EMC、IBM、Informatica、Microsoft以及Oracle都紛紛投入了Hadoop的懷抱。它存在于Hadoop生態(tài)圈之外,但也曾經(jīng)有一些用戶。未來將屬于那些能夠駕馭所擁有數(shù)據(jù)的公司,這些數(shù)據(jù)與公司自身的業(yè)務和客戶相關,通過對數(shù)據(jù)的利用,發(fā)現(xiàn)新的洞見,幫助他們找出競爭優(yōu)勢。請不要錯過。產(chǎn)生的數(shù)據(jù)在數(shù)量上持續(xù)膨脹;音頻、視頻和圖像等富媒體需要新的方法來發(fā)現(xiàn);電子郵件、IM、tweet和社交網(wǎng)絡等合作和交流系統(tǒng)以非結構化文本的形式保存數(shù)據(jù),必須用一種智能的方式來解讀。所以,數(shù)據(jù)應該隨時為決策提供依據(jù)。但是屢見不鮮的是,很多公司仍然只是將信息簡單堆在一起,僅將其當作為滿足公司治理規(guī)則而必須要保存的信息加以處理,而不是將它們作為戰(zhàn)略轉變的工具。沃爾瑪從上個世紀90年代嘗試將Aprior算法引入到POS機數(shù)據(jù)分析中,并獲得了成功,于是產(chǎn)生了“啤酒與尿布”的故事。沃爾瑪發(fā)現(xiàn)了這一獨特的現(xiàn)象,開始在賣場嘗試將啤酒與尿布擺放在相同的區(qū)域,讓年輕的父親可以同時找到這兩件商品,并很快地完成購物;而沃爾瑪超市也可以讓這些客戶一次購買兩件商品、而不是一件,從而獲得了很好的商品銷售收入,這就是“啤酒與尿布”故事的由來。經(jīng)典大數(shù)據(jù)案例沃爾瑪經(jīng)典營銷:啤酒與尿布“啤酒與尿布”的故事產(chǎn)生于20世紀90年代的美國沃爾瑪超市中,沃爾瑪?shù)某泄芾砣藛T分析銷售數(shù)據(jù)時發(fā)現(xiàn)了一個令人難于理解的現(xiàn)象:在某些特定的情況下,“啤酒”與“尿布”兩件看上去毫無關系的商品會經(jīng)常出現(xiàn)在同一個購物籃中,這種獨特的銷售現(xiàn)象引起了管理人員的注意,經(jīng)過后續(xù)調查發(fā)現(xiàn),這種現(xiàn)象出現(xiàn)在年輕的父親身上?!癝AP想通過這次收購來扭轉其長久以來在預測分析方面的劣勢。Tipp24 AG針對歐洲博彩業(yè)構建的下注和預測平臺。西爾弗(Nate Silver)利用大數(shù)據(jù)預測2012美國選舉結果。由此可見,大數(shù)據(jù)可以為廣告行業(yè)提供精準的服務,提升數(shù)據(jù)價值。秘密情報和監(jiān)視傳感器系統(tǒng)供應商Terra Echos通過部署IBM Info Sphere Streams,能夠實時分析流式傳輸?shù)穆晫W數(shù)據(jù)并對其進行分類,并將實時捕獲和分析275MB聲學數(shù)據(jù)所需的時間從數(shù)小時減少到十四分之一秒,同時大幅提升監(jiān)控精確度。某汽車制造商利用IBM Info Sphere Big Insights增強原有數(shù)據(jù)倉庫,實現(xiàn)快速部署并且更易于管理。制造、能源、公共事業(yè)、電信、旅行和運輸?shù)刃袠I(yè)需要時刻關注突發(fā)事件、通過大數(shù)據(jù)分析和視頻監(jiān)控提升運營效率并預測潛在風險??蛻舴?、保險、汽車、醫(yī)療、教育、交通和技術標準等行業(yè)需要儲備規(guī)模巨大的知識庫,而龐大繁雜手冊和知識系統(tǒng)會造成重復查詢,導致系統(tǒng)延遲和成本上升。大數(shù)據(jù)工程指大數(shù)據(jù)的規(guī)劃建設運營管理的系統(tǒng)工程;大數(shù)據(jù)科學關注大數(shù)據(jù)網(wǎng)絡發(fā)展和運營過程中發(fā)現(xiàn)和驗證大數(shù)據(jù)的規(guī)律及其與自然和社會活動之間的關系。相比起現(xiàn)有的其他技術而言,大數(shù)據(jù)的“廉價、迅速、優(yōu)化”這三方面的綜合成本是最優(yōu)的。從某種程度上說,大數(shù)據(jù)是數(shù)據(jù)分析的前沿技術。如網(wǎng)絡日志、視頻、圖片、音頻、文檔、地理位置信息等等。比如大數(shù)據(jù)可以是包括網(wǎng)絡日志,RFID,傳感器網(wǎng)絡,社會網(wǎng)絡,社會數(shù)據(jù),互聯(lián)網(wǎng)文本和文件;互聯(lián)網(wǎng)搜索索引;呼叫詳細記錄,天文學,大氣科學,基因組學,生物地球化學,生物,和其他復雜和/或跨學科的科研,軍事偵察,醫(yī)療記錄;攝影檔案館視頻檔案;大規(guī)模的電子商務等等。 大數(shù)據(jù)的來源與特點隨著電子信息技術和互聯(lián)網(wǎng)的飛速發(fā)展,各種電子設備和數(shù)據(jù)終端迅速走入尋常百姓家庭,以移動通信發(fā)展為代表的手機等客戶端產(chǎn)生大量的數(shù)據(jù);以PC為代表的微機時代產(chǎn)生了大量的計算機數(shù)據(jù);以數(shù)碼相機為代表的電子設備產(chǎn)生大量的視頻、圖片數(shù)據(jù);以互聯(lián)網(wǎng)為代表的網(wǎng)絡應用產(chǎn)生大量的web數(shù)據(jù)。數(shù)據(jù)的最小的基本單位是bit,按順序給出所有單位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。海量數(shù)據(jù)的很多分析處理技術可以用于大數(shù)據(jù)的分析與處理,同樣大數(shù)據(jù)的相關理論和方法同樣可以用于海量數(shù)據(jù)。下面是國家科技部“973”計劃對信息領域的項目資助指南。大數(shù)據(jù)技術的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對這些含有價值的數(shù)據(jù)進行專業(yè)化處理。從該定義看來大數(shù)據(jù)仍然體現(xiàn)在數(shù)據(jù)量大和價值兩方面。維克托以后各章將介紹與大數(shù)據(jù)有關的技術、工具、商業(yè)模型及應用案例等,引導讀者逐步深入,了解和掌握大數(shù)據(jù)的基本知識和技能,為從事大數(shù)據(jù)及其相關產(chǎn)業(yè)打下基礎。在人人都談大數(shù)據(jù)的時代并不是每個人都真正理解大數(shù)據(jù)的精髓,因此本章給讀者簡單的介紹一下大數(shù)據(jù)的定義、原理、方法、應用及存在的問題。由此可見,對于大數(shù)據(jù)的研究和應用主要集中于兩點:一、從技術層面研究大數(shù)據(jù)的模型及處理算法、開發(fā)相應的處理工具等;二、從商業(yè)模式層面尋找大數(shù)據(jù)的商業(yè)模型、盈利模式、產(chǎn)業(yè)發(fā)展等。大數(shù)據(jù)的4V特點:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)。Gartner的定義更多的傾向于大數(shù)據(jù)的決策優(yōu)化作用。 大數(shù)據(jù)與海量信息的關系在10年前,我們經(jīng)常聽到一個名詞“海量信息”,用來描述大量數(shù)據(jù),這是在信息技術飛速發(fā)展的大背景下,數(shù)據(jù)量增加帶來的現(xiàn)實問題,為此國家在“十一五”期間還加大的對海量信息及其相關技術的研究。大數(shù)據(jù)的數(shù)據(jù)量明顯遠大于海量數(shù)據(jù),當然二者沒有嚴格的區(qū)分門限,通常意義上講,大數(shù)據(jù)的數(shù)據(jù)量要大于海量數(shù)據(jù)。既然談到數(shù)據(jù)量的問題,這里有必要介紹關于數(shù)據(jù)量的一些常見數(shù)量單位。同樣在商業(yè)領域,每天的電子商務交易記錄、顧客瀏覽記錄等都是大量的數(shù)據(jù),因此這些數(shù)據(jù)的處理都需要快速。大數(shù)據(jù)的存在形式多種多樣,這也決定了大數(shù)據(jù)的處理非常困難,需要運用數(shù)學、統(tǒng)計學、物理學等知識進行全方位的研究。從TB級別,躍升到PB級別;第二,數(shù)據(jù)類型繁多。因此業(yè)界將其歸納為4個“V”——Volume(數(shù)據(jù)體量大)、Variety(數(shù)據(jù)類型繁多)、Velocity(處理速度快)、Value(價值密度高)。大數(shù)據(jù)最核心的價值就是在于對于海量數(shù)據(jù)進行存儲和分析。工程和科學問題尚未被重視。第一,利用大數(shù)據(jù)探索實現(xiàn)信息庫的充實。第二,利用運營分析實現(xiàn)運營優(yōu)化。企業(yè)需要增強現(xiàn)有數(shù)據(jù)倉庫基礎架構,實現(xiàn)大容量數(shù)據(jù)傳輸、低時延、和實時查詢需求,確保有效利用預測分析和商業(yè)智能實現(xiàn)企業(yè)效益和管理水平的提升。重點人群的監(jiān)控、重點領域的布防、重要事件的預防和應急燈都需要大數(shù)據(jù)來實現(xiàn)準確的預測、預防和定位等。因此如果利用大數(shù)據(jù)技術,分析客戶的喜好和行為習慣,將廣告精準推送給需要的人,既不會產(chǎn)生垃圾信息,又能使客戶的費用得到合理的使用。統(tǒng)計學家內(nèi)特根據(jù)需求和庫存的情況,該公司基于SAS的系統(tǒng)對多達7300萬種貨品進行實時調價。SAP公司正在試圖收購KXEN。在洛杉磯運用該算法的地區(qū),盜竊罪和暴力犯罪分布下降了33%和21%。如果這個年輕的父親在賣場只能買到兩件商品之一,則他很有可能會放棄購物而到另一家商店,直到可以一次同時買到啤酒與尿布為止。艾格拉沃從數(shù)學及計算機算法角度提出了商品關聯(lián)關系的計算方法——Aprior算法。一段記錄人們?nèi)绾卧谀纳痰隇g覽購物的視頻、人們在購買您的服務前后的所作所為、如何通過社交網(wǎng)絡聯(lián)系您的客戶、是什么吸引合作伙伴加盟、客戶如何付款以及供應商喜歡的收款方式……所有這些場景都提供了很多指向,將它們抽絲剝繭,透過特殊的棱鏡觀察,將其與其他數(shù)據(jù)集對照,或者以與眾不同的方式分析解剖,就能讓您的行事方式發(fā)生天翻地覆的轉變。數(shù)據(jù)是業(yè)務部門