【正文】
可以處理和分析大規(guī)模的數(shù)據(jù)[6]。Hadoop能夠自動保存數(shù)據(jù)的多個副本,并且能夠自動將失敗的任務重新分配。這一部分主要介紹以Hadoop為基礎的典型商業(yè)性大數(shù)據(jù)解決方案。通過IBM的解決方案可以看出,解決大數(shù)據(jù)問題不能僅僅依靠Hadoop。很多數(shù)據(jù)超過9 0 % 是非結構化數(shù)據(jù),E M C 有另外一個產(chǎn)品是GreenplumHD,GreenplumHD可以把非結構化的數(shù)據(jù)或者是半結構化的數(shù)據(jù)轉換成結構化數(shù)據(jù),然后讓GreenplumDatabase去處理。對于第二個特點,大規(guī)模的使用Hadoop是個必然趨勢,漸漸的就會形成行業(yè)的標準,進而成為更有價值的軟件基礎,而不僅是自己內部使用。. 大數(shù)據(jù)與云計算:深度融合. 大數(shù)據(jù)管理平臺特點l 獨特的云任務管理技術——使系統(tǒng)的并行效率提升顯著、硬件資源被充分用于大數(shù)據(jù)處理,縮短處理時間、節(jié)約硬件成本。使系統(tǒng)的并行效率提升顯著、硬件資源被充分用于大數(shù)據(jù)處理,縮短處理時間、節(jié)約硬件成本。. 系統(tǒng)架構旅游客源分析應用平臺采用信令數(shù)據(jù)采集接入、數(shù)據(jù)分析整合、頁面展示三層架構的方式實現(xiàn)。. 旅游客源分析. 整體方案. 方案思路移動運營商側擁有豐富的網(wǎng)絡信令數(shù)據(jù),用戶在每一個業(yè)務應用和操作時,包括語音通話、收發(fā)短信等業(yè)務時,都會在網(wǎng)絡側記錄用戶相關的基站位置信息,除此之外還有用戶的主動位置更新(更新LAI)和定期的位置更新(一般為2小時以內),也會記錄用戶的位置信息,通過這些信令數(shù)據(jù)上下文,我們可以通過基站描點勾勒出用戶的活動軌跡。l 信令處理子系統(tǒng)本子系統(tǒng)經(jīng)過復雜的信令分析和匹配,最終得到用戶的手機號和當前位置信息,并將這些信息保存在內存數(shù)據(jù)庫中,并同步到關系數(shù)據(jù)庫中。l 安全性:對于安全性我們將通過對用戶的區(qū)域劃分,建議選用專用防火墻實現(xiàn)對本地資源的安全保護。. 大數(shù)據(jù)分析的革命性方法出現(xiàn). 大數(shù)據(jù)處理技術發(fā)展前景隨著大數(shù)據(jù)時代的來臨,應用越來越廣,其發(fā)展前景是很光明的。Isilon能夠提供無限的橫向擴展能力,Atmos是一款云存儲基礎架構,在內容服務方面,Atmos是很好的解決方案。St reams的特點就是“小快靈”,數(shù)據(jù)是實時流動的,其分析反應速度可以控制在毫秒級別,而BigInsights的分析是批處理,反應速度無法同St reams相比。此外,很多初創(chuàng)企業(yè)也開始加入到大數(shù)據(jù)的淘金隊伍中。Hadoop是在可用的計算機集簇間分配數(shù)據(jù)并完成計算任務的,這些集簇可以方便地擴展到數(shù)以千計的節(jié)點中。NameNode在HDFS內部提供元數(shù)據(jù)服務,負責管理文件系統(tǒng)名稱空間和控制外部客戶機的訪問。比較典型算法有用于聚類的Kmeans、用于統(tǒng)計學習的SVM和用于分類的NaiveBayes,主要使用的工具有Hadoop的Mahout等。它們將這些實時結果賣給需要的客戶。但是NoSQL數(shù)據(jù)庫則完全不關心這些,它能處理各種類型的文檔。而隨著硬件的更新,我們通常加入的新硬件都會強于已有的硬件。分割、集群、孤立點分析還有各種各樣五花八門的算法讓我們精煉數(shù)據(jù),挖掘價值。XO現(xiàn)在可以預測客戶的行為,發(fā)現(xiàn)行為趨勢,并找出存在缺陷的環(huán)節(jié),從而幫助公司及時采取措施,保留客戶。核心就是這三件事。關系才是我們的核心,信息與信息之間的關系,一條微博和另外一條微博之間的關系,一個廣告和另外一個廣告的關系。從某種意義上說,數(shù)據(jù)將成為企業(yè)的核心資產(chǎn)。. 大數(shù)據(jù)技術發(fā)展大數(shù)據(jù)技術描述了一種新一代技術和構架,用于以很經(jīng)濟的方式、以高速的捕獲、發(fā)現(xiàn)和分析技術,從各種超大規(guī)模的數(shù)據(jù)中提取價值,而且未來急劇增長的數(shù)據(jù)迫切需要尋求新的處理技術手段。從TB級別,躍升到PB級別。 25. 高效性。以視頻為例,連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅有一兩秒。預計到2012年,非結構化數(shù)據(jù)將達到互聯(lián)網(wǎng)整個數(shù)據(jù)量的75%以上。企業(yè)從大規(guī)模制造過渡到大規(guī)模定制,必須掌握用戶的需求特點。然后就是用戶與用戶之間的關系。3. 它讓更多的創(chuàng)業(yè)者更方便地開發(fā)產(chǎn)品,比如通過社交網(wǎng)絡來收集數(shù)據(jù)的健康類App。4. NTT doo把手機位置信息和互聯(lián)網(wǎng)上的信息結合起來,為顧客提供附近的餐飲店信息,接近末班車時間時,提供末班車信息服務。. 數(shù)據(jù)質量和數(shù)據(jù)管理數(shù)據(jù)質量與管理是管理的最佳實踐,透過標準化流程和機器對數(shù)據(jù)進行處理可以確保獲得一個預設質量的分析結果。需要擴容了,只需增加個機柜,加入適當?shù)挠嬎銌卧痛鎯Γ合到y(tǒng)會自動分配和調度這些資源,絲毫不影響現(xiàn)有系統(tǒng)的運行. 存儲數(shù)據(jù)庫存儲數(shù)據(jù)庫(InMemory Databases)讓信息快速流通,大數(shù)據(jù)分析經(jīng)常會用到存儲數(shù)據(jù)庫來快速處理大量記錄的數(shù)據(jù)流通。開源免費的模式如CouchDB和Cassandra。來自于Yahoo的工程師Doug Cutting在讀了這兩篇論文后建立了分布式計算平臺,以他兒子的玩具大象命名。這些數(shù)據(jù)類型缺乏一致性,使得標準存儲技術無法對大數(shù)據(jù)進行有效存儲,而且我們也難以使用傳統(tǒng)的服務器和SAN方法來有效地存儲和處理龐大的數(shù)據(jù)量。Hadoop提供了大量的接口和抽象類,從而為Hadoop應用程序開發(fā)人員提供許多工具,可用于調試和性能度量等。Hadoop帶有用Java語言編寫的框架,因此運行在Linux生產(chǎn)平臺上是非常理想的。. IBM InfoSphere大數(shù)據(jù)分析平臺I B M于2 0 1 1 年5 月推出的InfoSphere大數(shù)據(jù)分析平臺是一款定位為企業(yè)級的大數(shù)據(jù)分析產(chǎn)品。. Or a c l e Bi g Da t aAppliancOracle Big Data Appliance準確地說是一款硬件產(chǎn)品,添加了Hadoop裝載器、應用適配器以及Or acle新的NoSQL數(shù)據(jù)庫,主要目的是為了將非結構化數(shù)據(jù)加載到關系型數(shù)據(jù)庫中去,并對軟硬件的集成做了一些優(yōu)化。. BigQueryBigQu e r y是Go og l e 推出的一項We b服務,用來在云端處理大數(shù)據(jù)。. Hadoop將加速發(fā)展大數(shù)據(jù)處理離不開云計算技術,云計算為大數(shù)據(jù)提供彈性可擴展的基礎設施支撐環(huán)境以及數(shù)據(jù)服務的高效模式,大數(shù)據(jù)則為云計算提供了新的商業(yè)價值,大數(shù)據(jù)技術與云計算技術必有更完美的結合。l 獨特的多層分布式緩存技術——使系統(tǒng)的吞吐量更大,運算性能更高,數(shù)據(jù)更加安全可靠。l 系統(tǒng)管理子系統(tǒng)本服務提供人性化的遠程登陸界面服務,為客戶提供了用戶管理、權限管理、日志管理、統(tǒng)計分析、數(shù)據(jù)配置等豐富功能。信令數(shù)據(jù)采集接入層主要獲取信令數(shù)據(jù),并對數(shù)據(jù)進行預處理。在系統(tǒng)設計、開發(fā)和應用時,從系統(tǒng)結構、技術措施、軟硬件平臺、技術服務和維護響應能力等方面綜合考慮,確保系統(tǒng)較高的性能和較少的故障率。移動通信網(wǎng)絡部分拓撲圖如下所示:BSCBTSBSCMSC/VLRHLR其它MSC/VLRLSTPBTS:基站 BSC:基站控制器MSC/VLR:移動業(yè)務交換中心/訪問位置寄存器HLR:用戶歸屬位置寄存器LSTP:低級信令轉接點移動通信網(wǎng)絡部分拓撲圖. 平臺總體設計1. 平臺總體結構總體架構圖系統(tǒng)主要由信令處理子系統(tǒng)、短信發(fā)送子系統(tǒng)、管理子系統(tǒng)、大數(shù)據(jù)管理平臺四部分組成。l 先進性:既要保證網(wǎng)絡的先進性,同時也要兼顧技術的成熟性。這些分析應用內容還會覆蓋很多行業(yè)的專業(yè)知識,也會吸引大量行業(yè)軟件開發(fā)公司的投入。在科技文獻信息處理中,文本分析技術、語義計算技術、數(shù)據(jù)安全需要與“大數(shù)據(jù)”解決方案結合起來考慮實施,這樣才能更有效地提供知識服務。. EMCEMC 提供了兩種大數(shù)據(jù)存儲方案,即Isilon和Atmos。St r e ams 最大的特點就是內存分析,利用多節(jié)點PC服務器的內存來處理大批量的數(shù)據(jù)分析請求。. 主要商業(yè)性“大數(shù)據(jù)”處理方案“大數(shù)據(jù)”被科技企業(yè)看作是云計算之后的另一個巨大商機,包括IBM、谷歌、亞馬遜和微軟在內的一大批知名企業(yè)紛紛掘金這一市場。. 高擴展性。HDFS內部的所有通信都基于標準的TCP/IP協(xié)議。. 挖掘 與前面統(tǒng)計和分析過程不同的是,數(shù)據(jù)挖掘一般沒有什么預先設定好的主題,主要是在現(xiàn)有數(shù)據(jù)上面進行基于各種算法的計算,從而起到預測(Predict)的效果,從而實現(xiàn)一些高級別數(shù)據(jù)分析的需求。這家公司通過對衛(wèi)星圖片的分析得出一些實時結果,比如說某個城市有多少可用停車空間,或者某個港口目前有多少船只。正常的數(shù)據(jù)庫需要將數(shù)據(jù)進行歸類組織,類似于姓名和帳號這些數(shù)據(jù)需要進行結構化和標簽化。首先是商業(yè)并行數(shù)據(jù)庫通常需要各節(jié)點物理同構,也就是具有近似的計算和存儲能力。. 數(shù)據(jù)挖掘算法 圖像化是將機器語言翻譯給人看,而數(shù)據(jù)挖掘就是機器的母語。. 通信行業(yè)1. XO Communications通過使用IBM SPSS預測分析軟件,減少了將近一半的客戶流失率。他也是一個趨勢的分析,只是我們把這個趨勢提前來。第三,關系。例如如何實時地及通過各種數(shù)據(jù)庫管理系統(tǒng)來安全地訪問數(shù)據(jù),如何通過優(yōu)化存儲策略,評估當前的數(shù)據(jù)存儲技術并改進、加強數(shù)據(jù)存儲能力,最大限度地利用現(xiàn)有的存儲投資。因此,大數(shù)據(jù)時代帶來的挑戰(zhàn)不僅體現(xiàn)在如何處理巨量數(shù)據(jù)從中獲取有價值的信息,也體現(xiàn)在如何加強大數(shù)據(jù)技術研發(fā),搶占時代發(fā)展的前沿。 數(shù)據(jù)體量巨大。 25. 高容錯性。216。用于提取智慧的“大數(shù)據(jù)”,往往是這些非結構化數(shù)據(jù)。在互聯(lián)網(wǎng)時代,這些需求特征往往是在用戶不經(jīng)意的行為中透露出來的。哪些人你愿意收聽,是你的朋友,哪些是你感興趣的領域,你是一個音樂達人,你是一個吃貨,那個用戶也 是一個吃貨,你愿意收聽他。也許未來數(shù)年后,它們搜集的數(shù)據(jù)能讓醫(yī)生給你的診斷變得更為精確,比方說不是通用的成人每日三次一次一片,而是檢測到你的血液中藥劑已經(jīng)代謝完成會自動提醒你再次服藥。. 零售業(yè)1. 我們的某個客戶,是一家領先的專業(yè)時裝零售商,通過當?shù)氐陌儇浬痰?、網(wǎng)絡及其郵購目錄業(yè)務為客戶提供服務。我們知道大數(shù)據(jù)分析技術最初起源于互聯(lián)網(wǎng)行業(yè)