【文章內(nèi)容簡介】
銀行根據(jù)轉(zhuǎn)賬記錄建立一個大的社交網(wǎng)絡(luò)就可以傳播這些鏈條,就可以把一些細碎的、小型供應(yīng)鏈通過計算模式挖掘出來。以前我們了解一件事情,可能大多是非常準(zhǔn)確、非常精確的,不允許有任何混雜性的操作,要完全匹配。比如,面對流感這樣的突發(fā)性疫情,利用互聯(lián)網(wǎng)信息可以快速確認(rèn)疫情分布。傳統(tǒng)做法是通過搜索引擎技術(shù)對相關(guān)關(guān)鍵詞進行主題跟蹤,得到疫情分布。大數(shù)據(jù)所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具,在合理時間內(nèi)達到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資訊。網(wǎng)絡(luò)上每一筆搜索,網(wǎng)站上每一筆交易、每一筆輸入都是數(shù)據(jù),通過計算機做篩選、整理、分析,所得出的結(jié)果可不僅僅只得到簡單、客觀的結(jié)論,更能用于幫助企業(yè)經(jīng)營決策,搜集起來的數(shù)據(jù)還可以被規(guī)畫,引導(dǎo)開發(fā)更大的消費力量。如何來看大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)的區(qū)別?銀行做數(shù)據(jù)業(yè)務(wù)做了十多年,那么大數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)的倉庫有哪些差異?實際上就是群體和個體的差異?;ヂ?lián)網(wǎng)數(shù)據(jù)完全瞄向個體,數(shù)據(jù)結(jié)構(gòu)也是精準(zhǔn)于個體,而傳統(tǒng)的數(shù)據(jù)面向經(jīng)營指標(biāo)、面向群體。宏觀意義上來看,假如小明去了一百次書店,以前要回答的問題是他第一百零一次買不買書,即業(yè)績和經(jīng)營指標(biāo)的問題;而現(xiàn)在,互聯(lián)網(wǎng)關(guān)心的是什么?最關(guān)心的是他第一百零一次買什么書,需要將什么樣的內(nèi)容推薦給他。這不是一個概率問題,而是一個模糊的程度問題。要量化這個程度,我們一定要基于個體,而不是基于群體的共性描述。傳統(tǒng)定義上,更多關(guān)注的是一類人群,用同一類規(guī)則制訂套餐給他們;而在互聯(lián)網(wǎng)時代,要把每個人都精準(zhǔn)刻畫出來,進行精準(zhǔn)匹配。有電商說他們要做到一百萬用戶要有一百萬個商店,特別是在移動的小屏幕上,三次點擊以后就會損失一個客戶。所以差異化絕對不可能是對群體共性的描述,而完全是對個體差異的刻畫。關(guān)于大數(shù)據(jù)的深度分析,很重要內(nèi)容就是個性化的信息推薦。個性化的信息推薦不僅僅是基于用戶的相似性這么簡單的東西,還有大量比較深入的復(fù)雜模型。比如說,就用戶看資訊而言,我們怎么樣去判斷一個用戶點開一條八卦資訊后,是繼續(xù)深挖八卦到死,還是轉(zhuǎn)而瀏覽另外一個新聞。同樣,有的用戶登陸淘寶只是逛逛而已,有些用戶則是很明確地想要買一些東西,這就需要對用戶的意圖進行預(yù)測,這里面涉及到一些比較難的機器學(xué)習(xí)技術(shù)。我們現(xiàn)在生活的是信息化的世界,未來會走向個性化。在這一點上有一個例子,耐克制作了一款鞋子,在這個鞋子里裝上了傳感器,然后穿上這個鞋子的人,你一天大概走多少路,而且你走路的狀態(tài)比如著力點等相關(guān)情況的數(shù)據(jù)都會通過傳感器傳到耐克公司,耐克公司就會根據(jù)這些數(shù)據(jù)來給你量身定做鞋子。這樣,未來的銷售模式將會是個性化的。大數(shù)據(jù)的典型特征(3V)“大數(shù)據(jù)”這個詞,光從字面來看,可能會讓人覺得只是容量非常大的數(shù)據(jù)集合而已。但是,容量只不過是大數(shù)據(jù)特征的一個方面,如果只拘泥于數(shù)據(jù)量的話,就無法深入理解當(dāng)前圍繞大數(shù)據(jù)所進行的討論。因為“用現(xiàn)有的一般技術(shù)難以管理”這樣的狀況,并不僅僅是由于數(shù)據(jù)量增大這一個因素所造成的。大數(shù)據(jù)的特征,可以用三個V開頭的關(guān)鍵詞來描述。(1)Volume(容量)看到大數(shù)據(jù)這個詞,大多數(shù)人的第一印象恐怕就是Volume,也就是數(shù)據(jù)量吧。從剛才我們講到的大數(shù)據(jù)的定義來看,也就是指用現(xiàn)有技術(shù)無法管理的數(shù)據(jù)量,從現(xiàn)狀來看,基本上是指從幾十TB到幾PB這樣的數(shù)量級。當(dāng)然,隨著技術(shù)的進步,這個數(shù)值也會不斷變化。例如,在5年以后,也許只有幾EB數(shù)量級的數(shù)據(jù)量才能夠稱得上是大數(shù)據(jù)了。(2)Variety(多樣性)除了傳統(tǒng)的銷售、庫存等數(shù)據(jù),現(xiàn)在企業(yè)所采集和分析的數(shù)據(jù)還包括像網(wǎng)站日志數(shù)據(jù)、呼叫中心通話記錄、Twitter和Facebook等社交媒體中的文本數(shù)據(jù)、智能手機中內(nèi)置的GPS(全球定位系統(tǒng))所產(chǎn)生的位置信息、時刻生成的傳感器數(shù)據(jù),甚至還有圖片和視頻,數(shù)據(jù)的種類和幾年前相比已經(jīng)有了大幅度的增加。其中,近年來爆發(fā)式增長的一些數(shù)據(jù),如互聯(lián)網(wǎng)上的文本數(shù)據(jù)、位置信息、傳感器數(shù)據(jù)、視頻等,用企業(yè)中主流的關(guān)系型數(shù)據(jù)庫是很難存儲的,它們都屬于非結(jié)構(gòu)化數(shù)據(jù)。當(dāng)然,在這些種類的數(shù)據(jù)中,也有一些是過去就一直存在并保存下來的。然而,和過去不同的是,這些大數(shù)據(jù)并非只是存儲起來就夠了,還需要對其進行分析,并從中獲得有用的信息。以美國企業(yè)為代表的眾多企業(yè)正在致力于這方面的研究。監(jiān)控攝像機的視頻數(shù)據(jù)正是其中之一。近年來,超市、便利店等零售企業(yè)幾乎都配備了監(jiān)控攝像機,目的是為了防止盜竊和幫助抓捕盜竊嫌犯,但最近也出現(xiàn)了使用監(jiān)控攝像機的視頻數(shù)據(jù)來分析顧客購買行為的案例。例如,美國大型折扣店Family Dollar Stores,以及高級文具制造商萬寶龍(Montblanc),都開始嘗試?yán)帽O(jiān)控攝像頭對顧客在店內(nèi)的行為進行分析。以萬寶龍為例,它們過去都是憑經(jīng)驗和直覺來決定商品陳列的布局,但通過分析監(jiān)控攝像機的數(shù)據(jù),將最想賣出去的商品移動到最容易吸引顧客目光的位置,使得銷售額提高了20%。此外,美國移動運營商TMobile也在其全美1000家店中安裝了帶視頻分析功能的監(jiān)控攝像機,可以統(tǒng)計來店人數(shù),還可以追蹤顧客在店內(nèi)的行動路線、在展臺前停留的時間,甚至是試用了哪一款手機、試用了多長時間等,對顧客在店內(nèi)的購買行為進行分析。(3)Velocity(速度)數(shù)據(jù)產(chǎn)生和更新的頻率,也是衡量大數(shù)據(jù)的一個重要特征。例如,整個日本的便利店在24小時內(nèi)產(chǎn)生的POS(Point Of Sales)數(shù)據(jù),電商網(wǎng)站中由用戶訪問所產(chǎn)生的網(wǎng)站點擊流數(shù)據(jù),高峰時高達每秒7000條的Twitter推文,日本全國公路上安裝的交通堵塞探測傳感器和路面狀況傳感器(可檢測結(jié)冰、積雪等路面狀態(tài))等,每天都在產(chǎn)生著龐大的數(shù)據(jù)。廣義的大數(shù)據(jù)剛才我們講解了大數(shù)據(jù)的定義,即用現(xiàn)有的一般技術(shù)難以管理的大量數(shù)據(jù)的集合,并且用三個V對大數(shù)據(jù)的特征進行了描述。但是,僅憑這個定義還無法解釋當(dāng)前大數(shù)據(jù)的火爆局面,因為這個定義的著眼點僅僅在于數(shù)據(jù)的性質(zhì)上。這個定義我們把它視為狹義上的定義,而我們需要在廣義層面上為大數(shù)據(jù)下一個定義:這個狹義的定義所說的具備3V特征的數(shù)據(jù)就相當(dāng)于是賓語,那么我們還需要主語和謂語。謂語就是“存儲、分析、處理”這些數(shù)據(jù),(而用什么方法來進行分析處理,是機器學(xué)習(xí)還是統(tǒng)計分析或者其它什么,這些可以看做是方式狀語),主語那就是誰,誰來處理這些數(shù)據(jù)。這個誰就是指的“數(shù)據(jù)科學(xué)家”目前在歐美是十分緊俏的,他們通過分析這些數(shù)據(jù)獲得實用意義和觀點這就是大數(shù)據(jù)的廣義定義,它是一個綜合性的概念。大數(shù)據(jù)現(xiàn)象與新信息世界觀過去學(xué)術(shù)爭論的主題集中在世界是物質(zhì)的還是精神的,也就有了馬克思主義世界觀,即我們都知道的“唯物主義”,講的就是人類社會和物理世界隨著大數(shù)據(jù)浪潮席卷而來,我們的世界觀就不再僅僅是物理世界和人類社會這兩方面了,還有一個——虛擬的信息世界。我們逐步進入“人機物”融合的三元世界,未來的世界可以做到“機中有人,人中有機,物中有機,機中有物”。所謂“機”就是聯(lián)系人類社會(包括個人身體與大腦)與物理世界的網(wǎng)絡(luò)空間,其最基本的構(gòu)成元素是不同于原子和神經(jīng)元的bit。物理空間和人類社會(包括人的大腦)都有共性的科學(xué)問題和規(guī)律。人們通過各種終端——手機、電腦等與虛擬的信息世界相連,各種信息組成了虛擬的信息世界,然后人們又用虛擬世界獲得的信息來對物理世界作決策指導(dǎo)?!按髷?shù)據(jù)”對社會發(fā)展的影響互聯(lián)網(wǎng)時代,一個重要的貢獻便是數(shù)據(jù)在線。它使得我們原先寫在紙上,或者是保存在磁盤里的數(shù)據(jù)在線了,讓數(shù)據(jù)搜集變得非常容易,于是成就了TAB。我們仔細觀察,可以發(fā)現(xiàn)TAB的核心競爭力都是數(shù)據(jù),百度占據(jù)著web數(shù)據(jù),阿里占據(jù)著電商數(shù)據(jù),騰訊占據(jù)著社交數(shù)據(jù)??茖W(xué)研究:第四種范式科學(xué)的第一范式是實驗歸納,第二范式是模型推演,第三范式是仿真模擬,第四范式就是密集數(shù)據(jù)分析。從海量數(shù)據(jù)中用統(tǒng)計手段挖掘相關(guān)性知識,而無需探索理論模型,這就是第四范式的目標(biāo)。《科學(xué)革命的結(jié)構(gòu)》中指出,范式(paradigm)是一個群體共享的信仰、價值和技術(shù)等等??茖W(xué)范式指的是科學(xué)發(fā)現(xiàn)中賴以運作的理論基礎(chǔ)和實踐的規(guī)范,是科學(xué)工作者們所遵從的普適的世界觀和行為方式。它代表了人類思維的方式和根基,也是交流科學(xué)知識時所默認(rèn)的共有法則。在歷史上,人類先后經(jīng)歷了經(jīng)驗、理論和計算的三個范式?;阼F球比羽毛更快落地的觀察,亞里士多德總結(jié)說越重的物體降落越快,這就是最典型的基于經(jīng)驗的科學(xué)發(fā)現(xiàn)的范式。而在被無法阻擋的數(shù)據(jù)洪流沖擊的今天,人們發(fā)現(xiàn)傳統(tǒng)的三種科學(xué)發(fā)現(xiàn)模式已經(jīng)不能在一些領(lǐng)域發(fā)揮有效的作用,比如分子生物學(xué),社會科學(xué)。在數(shù)據(jù)的洪流無法阻擋的今天,傳統(tǒng)的科學(xué)模式確實不能在一些領(lǐng)域發(fā)揮有效的作用。而實際的業(yè)務(wù)場景中,經(jīng)驗+感覺的方式也必將會被數(shù)字+事實的決策所取代。于是,圖靈獎的獲得者Jim Gray提出了著名的第四范式(The Fourth Paradigm),也就是數(shù)據(jù)思維或者數(shù)據(jù)科學(xué)。由此,數(shù)據(jù)科學(xué)家也成為了第四范式的實際踐行者這個群體的統(tǒng)稱。公共管理:智慧城市大數(shù)據(jù)對社會生活的影響也將逐漸凸顯。網(wǎng)絡(luò)科學(xué)的技術(shù)可以深入到每個細節(jié),科學(xué)可以讓社會更民主。大數(shù)據(jù)時代所激發(fā)的智慧城市將深刻影響個人的社會生活。智能機器人、智能交通、智慧旅游、智能樓宇等信智能息技術(shù)系統(tǒng)產(chǎn)物,交織并構(gòu)成了智慧城市。近幾年來,國內(nèi)外都興起了建設(shè)智慧城市的浪潮。據(jù)國內(nèi)智慧城市的領(lǐng)軍公司——神州數(shù)碼董事局主席郭為先生介紹:目前,國內(nèi)有60多個城市已經(jīng)將建設(shè)智慧城市納入了“十二五”規(guī)劃,智慧城市將成為拉動下一輪中國經(jīng)濟增長的重要動力。但從一個更高的角度來看,智慧城市的建設(shè)問題,其實是一個城市的大數(shù)據(jù)綜合治理問題:一是要在以前沒有收集數(shù)據(jù)的地方收集更多的數(shù)據(jù),這主要是利用物聯(lián)網(wǎng)的技術(shù);二是要讓不同系統(tǒng)的數(shù)據(jù)準(zhǔn)確地對接起來,這是系統(tǒng)整合的任務(wù);最后,還要利用數(shù)據(jù)可視化的技術(shù)把海量數(shù)據(jù)中隱藏的知識揭示、展示出來,讓數(shù)據(jù)中的智慧能夠以一種直觀的形式流向城市的管理者、決策者和市民大眾。大數(shù)據(jù)將給各行各業(yè)帶來變革性機會,但真正大數(shù)據(jù)運用仍處于發(fā)展初級階段。據(jù)美國麥肯錫咨詢機構(gòu)在其一份關(guān)于大數(shù)據(jù)研報中指出,大數(shù)據(jù)已經(jīng)對美國健康醫(yī)療、歐洲的政府公共管