【正文】
ache Hadoop、Cloudera Manager和一個開源R。它是惠普融合基礎(chǔ)架構(gòu)中的一款全集成技術(shù)棧?;萜铡猇ertica數(shù)據(jù)分析平臺惠普Vertica 在大數(shù)據(jù)分析領(lǐng)域站穩(wěn)腳跟,能提供高效數(shù)據(jù)存儲和快速查詢的列存儲數(shù)據(jù)庫實(shí)時分析平臺。據(jù)Informatica聲稱,軟件支持靈活高效地處理Hadoop里面的任何文件格式,為Hadoop開發(fā)人員提供了即開即用的解析功能,以便處理復(fù)雜而多樣的數(shù)據(jù)源,包括日志、文檔、二進(jìn)制數(shù)據(jù)或?qū)哟问綌?shù)據(jù),以及眾多行業(yè)標(biāo)準(zhǔn)格式(如銀行業(yè)的NACHA、支付業(yè)的SWIFT、金融數(shù)據(jù)業(yè)的FIX和保險業(yè)的ACORD)。IBM —Info Sphere Big Insights幾年前,IBM開始在其實(shí)驗室嘗試使用Hadoop,在2012年5月推出了Info Sphere Big Insights云版本的 Info Sphere Big Insights使組織內(nèi)的任何用戶都可以做大數(shù)據(jù)分析。正因為如此,UAP包括ECM Greenplum關(guān)系數(shù)據(jù)庫、EMC Greenplum HD Hadoop發(fā)行版和EMC Greenplum Chorus。[主要的大數(shù)據(jù)分析工具有:在大數(shù)據(jù)處理領(lǐng)域,最耀眼的明星是hadoop,Hadoop已被公認(rèn)為是新一代的大數(shù)據(jù)處理平臺,EMC、IBM、Informatica、Microsoft以及Oracle都紛紛投入了Hadoop的懷抱。它存在于Hadoop生態(tài)圈之外,但也曾經(jīng)有一些用戶。未來將屬于那些能夠駕馭所擁有數(shù)據(jù)的公司,這些數(shù)據(jù)與公司自身的業(yè)務(wù)和客戶相關(guān),通過對數(shù)據(jù)的利用,發(fā)現(xiàn)新的洞見,幫助他們找出競爭優(yōu)勢。請不要錯過。產(chǎn)生的數(shù)據(jù)在數(shù)量上持續(xù)膨脹;音頻、視頻和圖像等富媒體需要新的方法來發(fā)現(xiàn);電子郵件、IM、tweet和社交網(wǎng)絡(luò)等合作和交流系統(tǒng)以非結(jié)構(gòu)化文本的形式保存數(shù)據(jù),必須用一種智能的方式來解讀。所以,數(shù)據(jù)應(yīng)該隨時為決策提供依據(jù)。但是屢見不鮮的是,很多公司仍然只是將信息簡單堆在一起,僅將其當(dāng)作為滿足公司治理規(guī)則而必須要保存的信息加以處理,而不是將它們作為戰(zhàn)略轉(zhuǎn)變的工具。沃爾瑪從上個世紀(jì)90年代嘗試將Aprior算法引入到POS機(jī)數(shù)據(jù)分析中,并獲得了成功,于是產(chǎn)生了“啤酒與尿布”的故事。沃爾瑪發(fā)現(xiàn)了這一獨(dú)特的現(xiàn)象,開始在賣場嘗試將啤酒與尿布擺放在相同的區(qū)域,讓年輕的父親可以同時找到這兩件商品,并很快地完成購物;而沃爾瑪超市也可以讓這些客戶一次購買兩件商品、而不是一件,從而獲得了很好的商品銷售收入,這就是“啤酒與尿布”故事的由來。經(jīng)典大數(shù)據(jù)案例沃爾瑪經(jīng)典營銷:啤酒與尿布“啤酒與尿布”的故事產(chǎn)生于20世紀(jì)90年代的美國沃爾瑪超市中,沃爾瑪?shù)某泄芾砣藛T分析銷售數(shù)據(jù)時發(fā)現(xiàn)了一個令人難于理解的現(xiàn)象:在某些特定的情況下,“啤酒”與“尿布”兩件看上去毫無關(guān)系的商品會經(jīng)常出現(xiàn)在同一個購物籃中,這種獨(dú)特的銷售現(xiàn)象引起了管理人員的注意,經(jīng)過后續(xù)調(diào)查發(fā)現(xiàn),這種現(xiàn)象出現(xiàn)在年輕的父親身上?!癝AP想通過這次收購來扭轉(zhuǎn)其長久以來在預(yù)測分析方面的劣勢。Tipp24 AG針對歐洲博彩業(yè)構(gòu)建的下注和預(yù)測平臺。西爾弗(Nate Silver)利用大數(shù)據(jù)預(yù)測2012美國選舉結(jié)果。由此可見,大數(shù)據(jù)可以為廣告行業(yè)提供精準(zhǔn)的服務(wù),提升數(shù)據(jù)價值。秘密情報和監(jiān)視傳感器系統(tǒng)供應(yīng)商Terra Echos通過部署IBM Info Sphere Streams,能夠?qū)崟r分析流式傳輸?shù)穆晫W(xué)數(shù)據(jù)并對其進(jìn)行分類,并將實(shí)時捕獲和分析275MB聲學(xué)數(shù)據(jù)所需的時間從數(shù)小時減少到十四分之一秒,同時大幅提升監(jiān)控精確度。某汽車制造商利用IBM Info Sphere Big Insights增強(qiáng)原有數(shù)據(jù)倉庫,實(shí)現(xiàn)快速部署并且更易于管理。制造、能源、公共事業(yè)、電信、旅行和運(yùn)輸?shù)刃袠I(yè)需要時刻關(guān)注突發(fā)事件、通過大數(shù)據(jù)分析和視頻監(jiān)控提升運(yùn)營效率并預(yù)測潛在風(fēng)險??蛻舴?wù)、保險、汽車、醫(yī)療、教育、交通和技術(shù)標(biāo)準(zhǔn)等行業(yè)需要儲備規(guī)模巨大的知識庫,而龐大繁雜手冊和知識系統(tǒng)會造成重復(fù)查詢,導(dǎo)致系統(tǒng)延遲和成本上升。大數(shù)據(jù)工程指大數(shù)據(jù)的規(guī)劃建設(shè)運(yùn)營管理的系統(tǒng)工程;大數(shù)據(jù)科學(xué)關(guān)注大數(shù)據(jù)網(wǎng)絡(luò)發(fā)展和運(yùn)營過程中發(fā)現(xiàn)和驗證大數(shù)據(jù)的規(guī)律及其與自然和社會活動之間的關(guān)系。相比起現(xiàn)有的其他技術(shù)而言,大數(shù)據(jù)的“廉價、迅速、優(yōu)化”這三方面的綜合成本是最優(yōu)的。從某種程度上說,大數(shù)據(jù)是數(shù)據(jù)分析的前沿技術(shù)。如網(wǎng)絡(luò)日志、視頻、圖片、音頻、文檔、地理位置信息等等。比如大數(shù)據(jù)可以是包括網(wǎng)絡(luò)日志,RFID,傳感器網(wǎng)絡(luò),社會網(wǎng)絡(luò),社會數(shù)據(jù),互聯(lián)網(wǎng)文本和文件;互聯(lián)網(wǎng)搜索索引;呼叫詳細(xì)記錄,天文學(xué),大氣科學(xué),基因組學(xué),生物地球化學(xué),生物,和其他復(fù)雜和/或跨學(xué)科的科研,軍事偵察,醫(yī)療記錄;攝影檔案館視頻檔案;大規(guī)模的電子商務(wù)等等。 大數(shù)據(jù)的來源與特點(diǎn)隨著電子信息技術(shù)和互聯(lián)網(wǎng)的飛速發(fā)展,各種電子設(shè)備和數(shù)據(jù)終端迅速走入尋常百姓家庭,以移動通信發(fā)展為代表的手機(jī)等客戶端產(chǎn)生大量的數(shù)據(jù);以PC為代表的微機(jī)時代產(chǎn)生了大量的計算機(jī)數(shù)據(jù);以數(shù)碼相機(jī)為代表的電子設(shè)備產(chǎn)生大量的視頻、圖片數(shù)據(jù);以互聯(lián)網(wǎng)為代表的網(wǎng)絡(luò)應(yīng)用產(chǎn)生大量的web數(shù)據(jù)。數(shù)據(jù)的最小的基本單位是bit,按順序給出所有單位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。海量數(shù)據(jù)的很多分析處理技術(shù)可以用于大數(shù)據(jù)的分析與處理,同樣大數(shù)據(jù)的相關(guān)理論和方法同樣可以用于海量數(shù)據(jù)。下面是國家科技部“973”計劃對信息領(lǐng)域的項目資助指南。大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對這些含有價值的數(shù)據(jù)進(jìn)行專業(yè)化處理。從該定義看來大數(shù)據(jù)仍然體現(xiàn)在數(shù)據(jù)量大和價值兩方面。維克托以后各章將介紹與大數(shù)據(jù)有關(guān)的技術(shù)、工具、商業(yè)模型及應(yīng)用案例等,引導(dǎo)讀者逐步深入,了解和掌握大數(shù)據(jù)的基本知識和技能,為從事大數(shù)據(jù)及其相關(guān)產(chǎn)業(yè)打下基礎(chǔ)。在人人都談大數(shù)據(jù)的時代并不是每個人都真正理解大數(shù)據(jù)的精髓,因此本章給讀者簡單的介紹一下大數(shù)據(jù)的定義、原理、方法、應(yīng)用及存在的問題。由此可見,對于大數(shù)據(jù)的研究和應(yīng)用主要集中于兩點(diǎn):一、從技術(shù)層面研究大數(shù)據(jù)的模型及處理算法、開發(fā)相應(yīng)的處理工具等;二、從商業(yè)模式層面尋找大數(shù)據(jù)的商業(yè)模型、盈利模式、產(chǎn)業(yè)發(fā)展等。大數(shù)據(jù)的4V特點(diǎn):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)。Gartner的定義更多的傾向于大數(shù)據(jù)的決策優(yōu)化作用。 大數(shù)據(jù)與海量信息的關(guān)系在10年前,我們經(jīng)常聽到一個名詞“海量信息”,用來描述大量數(shù)據(jù),這是在信息技術(shù)飛速發(fā)展的大背景下,數(shù)據(jù)量增加帶來的現(xiàn)實(shí)問題,為此國家在“十一五”期間還加大的對海量信息及其相關(guān)技術(shù)的研究。大數(shù)據(jù)的數(shù)據(jù)量明顯遠(yuǎn)大于海量數(shù)據(jù),當(dāng)然二者沒有嚴(yán)格的區(qū)分門限,通常意義上講,大數(shù)據(jù)的數(shù)據(jù)量要大于海量數(shù)據(jù)。既然談到數(shù)據(jù)量的問題,這里有必要介紹關(guān)于數(shù)據(jù)量的一些常見數(shù)量單位。同樣在商業(yè)領(lǐng)域,每天的電子商務(wù)交易記錄、顧客瀏覽記錄等都是大量的數(shù)據(jù),因此這些數(shù)據(jù)的處理都需要快速。大數(shù)據(jù)的存在形式多種多樣,這也決定了大數(shù)據(jù)的處理非常困難,需要運(yùn)用數(shù)學(xué)、統(tǒng)計學(xué)、物理學(xué)等知識進(jìn)行全方位的研究。從TB級別,躍升到PB級別;第二,數(shù)據(jù)類型繁多。因此業(yè)界將其歸納為4個“V”——Volume(數(shù)據(jù)體量大)、Variety(數(shù)據(jù)類型繁多)、Velocity(處理速度快)、Value(價值密度高)。大數(shù)據(jù)最核心的價值就是在于對于海量數(shù)據(jù)進(jìn)行存儲和分析。工程和科學(xué)問題尚未被重視。第一,利用大數(shù)據(jù)探索實(shí)現(xiàn)信息庫的充實(shí)。第二,利用運(yùn)營分析實(shí)現(xiàn)運(yùn)營優(yōu)化。企業(yè)需要增強(qiáng)現(xiàn)有數(shù)據(jù)倉庫基礎(chǔ)架構(gòu),實(shí)現(xiàn)大容量數(shù)據(jù)傳輸、低時延、和實(shí)時查詢需求,確保有效利用預(yù)測分析和商業(yè)智能實(shí)現(xiàn)企業(yè)效益和管理水平的提升。重點(diǎn)人群的監(jiān)控、重點(diǎn)領(lǐng)域的布防、重要事件的預(yù)防和應(yīng)急燈都需要大數(shù)據(jù)來實(shí)現(xiàn)準(zhǔn)確的預(yù)測、預(yù)防和定位等。因此如果利用大數(shù)據(jù)技術(shù),分析客戶的喜好和行為習(xí)慣,將廣告精準(zhǔn)推送給需要的人,既不會產(chǎn)生垃圾信息,又能使客戶的費(fèi)用得到合理的使用。統(tǒng)計學(xué)家內(nèi)特根據(jù)需求和庫存的情況,該公司基于SAS的系統(tǒng)對多達(dá)7300萬種貨品進(jìn)行實(shí)時調(diào)價。SAP公司正在試圖收購KXEN。在洛杉磯運(yùn)用該算法的地區(qū),盜竊罪和暴力犯罪分布下降了33%和21%。如果這個年輕的父親在賣場只能買到兩件商品之一,則他很有可能會放棄購物而到另一家商店,直到可以一次同時買到啤酒與尿布為止。艾格拉沃從數(shù)學(xué)及計算機(jī)算法角度提出了商品關(guān)聯(lián)關(guān)系的計算方法——Aprior算法。一段記錄人們?nèi)绾卧谀纳痰隇g覽購物的視頻、人們在購買您的服務(wù)前后的所作所為、如何通過社交網(wǎng)絡(luò)聯(lián)系您的客戶、是什么吸引合作伙伴加盟、客戶如何付款以及供應(yīng)商喜歡的收款方式……所有這些場景都提供了很多指向,將它們抽絲剝繭,透過特殊的棱鏡觀察,將其與其他數(shù)據(jù)集對照,或者以與眾不同的方式分析解剖,就能讓您的行事方式發(fā)生天翻地覆的轉(zhuǎn)變。數(shù)據(jù)是業(yè)務(wù)部門