freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

大數(shù)據(jù)技術(shù)綜述(編輯修改稿)

2025-08-26 21:52 本頁(yè)面
 

【文章內(nèi)容簡(jiǎn)介】 量數(shù)據(jù)的挑戰(zhàn),一些商業(yè)數(shù)據(jù)庫(kù)系統(tǒng)試圖結(jié)合傳統(tǒng)的RDBMS技術(shù)和分布式及并行計(jì)算技術(shù),Oracle的Exadata,EMC的Greenplum,HP的Vertica,能夠繼續(xù)支持傳統(tǒng)數(shù)據(jù)庫(kù)及數(shù)據(jù)倉(cāng)庫(kù)的操作語(yǔ)義和分析模式,而在擴(kuò)展性上,也能利用大規(guī)模的集群資源對(duì)數(shù)據(jù)進(jìn)行并行處理,大大加速數(shù)據(jù)的加載、索引和查詢處理時(shí)間.,無(wú)縫的整合數(shù)據(jù)庫(kù)管理系統(tǒng)(DBMS)、服務(wù)器(Server)、存儲(chǔ)設(shè)備(Storage),系統(tǒng)開(kāi)銷能耗大,系統(tǒng)服務(wù)費(fèi)昂貴, Everything的架構(gòu),導(dǎo)致IO的處理能力有限,任何中間計(jì)算的結(jié)果必須先從儲(chǔ)存層傳遞到RAC Node,然后通過(guò)RAC Node傳遞到對(duì)應(yīng)的儲(chǔ)存層Node,在性能調(diào)優(yōu)方面也需要經(jīng)驗(yàn)和深入的知識(shí).NoSQL數(shù)據(jù)庫(kù),也不是關(guān)系型的數(shù)據(jù)庫(kù),它們非常關(guān)注對(duì)數(shù)據(jù)高并發(fā)地讀寫(xiě)和對(duì)海量數(shù)據(jù)的存儲(chǔ)等,與關(guān)系型數(shù)據(jù)庫(kù)相比,在擴(kuò)展性、,以及類似BigTable的開(kāi)源實(shí)現(xiàn)HBase、和出自Facebook的Cassandra等.由于一部分的Google應(yīng)用程序需要處理大量的格式化以及半格式化數(shù)據(jù),地圖,Orkut網(wǎng)絡(luò)社區(qū),RSS閱讀器等. Data model in BigTable圖2 BigTable的數(shù)據(jù)模型,將多個(gè)行組成一個(gè)小表,.與前述的系統(tǒng)類似,BigTable也是客戶端和服務(wù)器端的聯(lián)合設(shè)計(jì),一個(gè)是分布式的集群任務(wù)調(diào)度器,一個(gè)是前述的Google文件系統(tǒng),BigTable使用Chubby來(lái)保存根數(shù)據(jù)表格的指針,即用戶可以首先從Chubby鎖服務(wù)器中獲得根表的位置,還負(fù)責(zé)對(duì)于tablet服務(wù)器(即一般意義上的數(shù)據(jù)服務(wù)器),與tablet服務(wù)器進(jìn)行數(shù)據(jù)通信.在大規(guī)模分布式數(shù)據(jù)庫(kù)方面,HBase及Cassandra等主流NoSQL數(shù)據(jù)庫(kù)主要是提供高可擴(kuò)展性支持,在一致性和可用性方面會(huì)做相應(yīng)的犧牲,在對(duì)傳統(tǒng)的RDBMS的ACID語(yǔ)義、[32]則是努力把NoSQL與傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)融合,MegaStore對(duì)“不同地域的低延遲性的數(shù)據(jù)副本”,在保障一致性的原則下,又能滿足高可擴(kuò)展性、高容錯(cuò)性和低延遲,為Google的上百個(gè)生產(chǎn)應(yīng)用提供服務(wù). 數(shù)據(jù)計(jì)算面向大數(shù)據(jù)處理的數(shù)據(jù)查詢、統(tǒng)計(jì)、分析、挖掘等需求,促生了大數(shù)據(jù)計(jì)算的不同計(jì)算模式,整體上我們把大數(shù)據(jù)計(jì)算分為離線批處理計(jì)算、實(shí)時(shí)交互計(jì)算和流計(jì)算三種. 離線批處理隨著云計(jì)算技術(shù)到廣泛的應(yīng)用的發(fā)展,能支持PB級(jí)的分布式的數(shù)據(jù)存儲(chǔ),應(yīng)用到Web搜索、欺詐檢測(cè)等各種各樣的實(shí)際應(yīng)用中.Hadoop是一個(gè)能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理的軟件框架,而且是以一種可靠、高效、可伸縮的方式進(jìn)行處理,依靠橫向擴(kuò)展,我們總結(jié)出Hadoop主要有以下幾個(gè)優(yōu)點(diǎn):1) 高可靠性:按位存儲(chǔ)和處理數(shù)據(jù)的能力值得人們信賴。2) 高擴(kuò)展性:在可用的計(jì)算機(jī)集群中分配數(shù)據(jù)并完成計(jì)算任務(wù),這些集群可以方便地?cái)U(kuò)展到數(shù)以千計(jì)的節(jié)點(diǎn)規(guī)模。3) 高效性:能夠在節(jié)點(diǎn)之間動(dòng)態(tài)地移動(dòng)數(shù)據(jù),并保證各個(gè)節(jié)點(diǎn)的動(dòng)態(tài)平衡,因此處理速度非???。4) 高容錯(cuò)性:能夠自動(dòng)保存數(shù)據(jù)的多個(gè)副本,并且能夠自動(dòng)將失敗的任務(wù)重新分配. The Hadoop ecosystem圖3 Hadoop生態(tài)圈以Hadoop平臺(tái)為代表的大數(shù)據(jù)處理平臺(tái)技術(shù)[61]包括MapReduce,HDFS,HBase,Hive,Zookeeper,Avro[48]和Pig等,已經(jīng)形成了一個(gè)Hadoop生態(tài)圈,如圖3所示.1) MapReduce編程模型是Hadoop的心臟,實(shí)現(xiàn)了跨越一個(gè)Hadoop集群中數(shù)百或數(shù)千臺(tái)服務(wù)器的大規(guī)模擴(kuò)展性。2) 分布式文件系統(tǒng)HDFS提供基于Hadoop處理平臺(tái)的海量數(shù)據(jù)存儲(chǔ),其中的NameNode提供元數(shù)據(jù)服務(wù),DataNode用于存儲(chǔ)文件系統(tǒng)的文件塊。3) HBase是建立在HDFS之上,用于提供高可靠性、高性能、列存儲(chǔ)、可伸縮、實(shí)時(shí)讀寫(xiě)的數(shù)據(jù)庫(kù)系統(tǒng),可以存儲(chǔ)非結(jié)構(gòu)化和半結(jié)構(gòu)化的松散數(shù)據(jù)。4) Hive[17]是基于Hadoop的大型數(shù)據(jù)倉(cāng)庫(kù),可以用來(lái)進(jìn)行數(shù)據(jù)的提取、轉(zhuǎn)化和加載(ETL),存儲(chǔ)、查詢和分析存儲(chǔ)在Hadoop中的大規(guī)模數(shù)據(jù)。5) Pig[21]是基于Hadoop的大規(guī)模數(shù)據(jù)分析平臺(tái),可以把類SQL的數(shù)據(jù)分析請(qǐng)求轉(zhuǎn)換為一系列經(jīng)過(guò)優(yōu)化處理的MapReduce運(yùn)算,為復(fù)雜的海量數(shù)據(jù)并行計(jì)算提供了一個(gè)簡(jiǎn)單的操作和編程接口。6) Zookeeper[19]是高效、可靠的協(xié)同工作系統(tǒng),用于協(xié)調(diào)分布式應(yīng)用上的各種服務(wù),利用Zookeeper可以構(gòu)建一個(gè)有效防止單點(diǎn)失效及處理負(fù)載均衡的協(xié)調(diào)服務(wù)。7) Avro作為二進(jìn)制的高性能的通訊中間件,提供了Hadoop平臺(tái)間的數(shù)據(jù)序列化功能和RPC服務(wù).但Hadoop平臺(tái)主要是面向離線批處理應(yīng)用的,典型的是通過(guò)調(diào)度批量任務(wù)操作靜態(tài)數(shù)據(jù),計(jì)算過(guò)程相對(duì)緩慢,有的查詢可能會(huì)花幾小時(shí)甚至更長(zhǎng)時(shí)間才能產(chǎn)生結(jié)果,對(duì)于那些需要實(shí)時(shí)獲取計(jì)算結(jié)果的應(yīng)用,像基于流量的點(diǎn)擊付費(fèi)模式的廣告投放,基于實(shí)時(shí)用戶行為數(shù)據(jù)分析的社交推薦,MapReduce并不能提供高效處理,因?yàn)樘幚磉@些應(yīng)用邏輯需要執(zhí)行多輪作業(yè),:1) 中間數(shù)據(jù)傳輸難以充分優(yōu)化。2) 單獨(dú)任務(wù)重啟開(kāi)銷很大。3) 中間數(shù)據(jù)存儲(chǔ)開(kāi)銷大。4) 主控節(jié)點(diǎn)容易成為瓶頸。5) 僅支持統(tǒng)一的文件分片大小,很難處理大小不一的復(fù)雜文件集合。6) 難以對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行直接存儲(chǔ)和訪問(wèn).除了MapReduce計(jì)算模型之外,以Swift[38,39]為代表的工作流計(jì)算模式,Pregel[20]為代表的圖計(jì)算模式,是一個(gè)面向大規(guī)??茖W(xué)和工程工作流的快速、可靠的定義、調(diào)度和執(zhí)行,它包含簡(jiǎn)單的腳本語(yǔ)言SwiftScript,SwiftScript可以用來(lái)簡(jiǎn)潔的描述基于數(shù)據(jù)集類型和迭代的復(fù)雜并行計(jì)算[40],它還可以與PBS和Condor等資源管理系統(tǒng)進(jìn)行交互,可以用于圖遍歷、最短路徑、:在每一輪,每個(gè)頂點(diǎn)處理上一輪收到的消息,并發(fā)出消息給其它頂點(diǎn),并更新自身狀態(tài)和拓?fù)浣Y(jié)構(gòu)(出、入邊)等. 實(shí)時(shí)交互計(jì)算當(dāng)今的實(shí)時(shí)計(jì)算一般都需要針對(duì)海量數(shù)據(jù)進(jìn)行,除了要滿足非實(shí)時(shí)計(jì)算的一些需求(如計(jì)算結(jié)果準(zhǔn)確)以外,實(shí)時(shí)計(jì)算最重要的一個(gè)需求是能夠?qū)崟r(shí)響應(yīng)計(jì)算結(jié)果,:1) 數(shù)據(jù)量巨大且不能提前計(jì)算出結(jié)果的,但要求對(duì)用戶的響應(yīng)時(shí)間是實(shí)時(shí)的,同時(shí)發(fā)現(xiàn)無(wú)法窮舉所有可能條件的查詢組合,或者大量窮舉出來(lái)的條件組合無(wú)用的時(shí)候,實(shí)時(shí)計(jì)算就可以發(fā)揮作用,將計(jì)算過(guò)程推遲到查詢階段進(jìn)行,也可以將一部分?jǐn)?shù)據(jù)提前進(jìn)行處理,再結(jié)合實(shí)時(shí)計(jì)算結(jié)果,以提高處理效率.2) 數(shù)據(jù)源是實(shí)時(shí)的不間斷的,要求對(duì)用戶的響應(yīng)時(shí)間也是實(shí)時(shí)的。,對(duì)于系統(tǒng)的狀態(tài)監(jiān)控、調(diào)度管理具有重要的實(shí)際意義.海量數(shù)據(jù)的實(shí)時(shí)計(jì)算過(guò)程可以被劃分為以下三個(gè)階段:數(shù)據(jù)的產(chǎn)生與收集階段、傳輸與分析處理階段、. The process of realtime calculation圖4 實(shí)時(shí)計(jì)算過(guò)程數(shù)據(jù)實(shí)時(shí)采集在功能上需要保證可以完整地收集到所有數(shù)據(jù),為實(shí)時(shí)應(yīng)用提供實(shí)時(shí)數(shù)據(jù)。響應(yīng)時(shí)間上要保證實(shí)時(shí)性、低延遲。配置簡(jiǎn)單,部署容易。,互聯(lián)網(wǎng)企業(yè)的海量數(shù)據(jù)采集工具,有Facebook開(kāi)源的Scribe[50]、LinkedIn開(kāi)源的Kafka[34]、Cloudera開(kāi)源的Flume[35]、淘寶開(kāi)源的TimeTunnel[36]、Hadoop的Chukwa[37]等,均可以滿足每秒數(shù)百M(fèi)B的日志數(shù)據(jù)采集和傳輸需求.數(shù)據(jù)實(shí)時(shí)計(jì)算:傳統(tǒng)的數(shù)據(jù)操作,首先將數(shù)據(jù)采集并存儲(chǔ)在數(shù)據(jù)庫(kù)管理系統(tǒng)(DBMS)中,然后通過(guò)query和DBMS進(jìn)行交互,用戶是主動(dòng)的,對(duì)于現(xiàn)在大量存在的實(shí)時(shí)數(shù)據(jù),這類數(shù)據(jù)實(shí)時(shí)性強(qiáng),數(shù)據(jù)量大,數(shù)據(jù)格式多種多樣,數(shù)據(jù)的存儲(chǔ)及處理會(huì)分配到大規(guī)模的節(jié)點(diǎn)上進(jìn)行,以滿足實(shí)時(shí)性要求,在數(shù)據(jù)的存儲(chǔ)上,則采用大規(guī)模分布式文件系統(tǒng),比如Hadoop的HDFS文件系統(tǒng),或是新型的NoSQL分布式數(shù)據(jù)庫(kù).實(shí)時(shí)查詢服務(wù)的實(shí)現(xiàn)可以分為三種方式:1)全內(nèi)存:直接提供數(shù)據(jù)讀取服務(wù),定期dump到磁盤(pán)或數(shù)據(jù)庫(kù)進(jìn)行持久化. 2)半內(nèi)存:使用Redis、Memcache、MongoDB、BerkeleyDB等數(shù)據(jù)庫(kù)提供數(shù)據(jù)實(shí)時(shí)查詢服務(wù),由這些系統(tǒng)進(jìn)行持久化操作. 3)全磁盤(pán):使用HBase等以分布式文件系統(tǒng)(HDFS)為基礎(chǔ)的NoSQL數(shù)據(jù)庫(kù),對(duì)于keyvalue引擎,關(guān)鍵是設(shè)計(jì)好key的分布.實(shí)時(shí)和交互式計(jì)算技術(shù)中,Google的Dremel[40]“交互式”,Google開(kāi)發(fā)了Dremel系統(tǒng)將處理時(shí)間縮短到秒級(jí), BigQuery的report引擎,Dremel也需要和數(shù)據(jù)運(yùn)行在一起,(nested)的數(shù)據(jù)模型,由于不可避免的有大量的Join操作,在處理如此大規(guī)模的數(shù)據(jù)的時(shí)候,分析的時(shí)候,可以只掃描需要的那部分?jǐn)?shù)據(jù),使用壓縮,可以減少存儲(chǔ)量,發(fā)揮最大的效能.Spark[41]是由加州大學(xué)伯克利分校AMP實(shí)驗(yàn)室開(kāi)發(fā)的實(shí)時(shí)數(shù)據(jù)分析系統(tǒng),采用一種與Hadoop相似的開(kāi)源集群計(jì)算環(huán)境,但是Spark在任務(wù)調(diào)度、,除了能夠提供交互式查詢外,它還可以優(yōu)化迭代工作負(fù)載[46].Spark是在Scala語(yǔ)言中實(shí)現(xiàn)的,是對(duì)Hadoop的有效補(bǔ)充,、低延遲的數(shù)據(jù)分析應(yīng)用程序.由Cloudera公司最近發(fā)布的Impala[42]系統(tǒng),類似于Google的Dremel系統(tǒng),、交互式SQL查詢,它除了使用統(tǒng)一的存儲(chǔ)平臺(tái),還使用了與Hive相同的Metastore及SQL語(yǔ)法等,為批處理和實(shí)時(shí)查詢提供了一個(gè)統(tǒng)一的平臺(tái). 流計(jì)算在很多實(shí)時(shí)應(yīng)用場(chǎng)景中,比如實(shí)時(shí)交易系統(tǒng)、實(shí)時(shí)詐騙分析、實(shí)時(shí)廣告推送[23]、實(shí)時(shí)監(jiān)控、社交網(wǎng)絡(luò)實(shí)時(shí)分析等,存在數(shù)據(jù)量大,實(shí)時(shí)性要求高,不然后續(xù)的數(shù)據(jù)就會(huì)堆積起來(lái),甚至是毫秒級(jí),這就需要一個(gè)高度可擴(kuò)展的流式計(jì)算解決方案.流計(jì)算[24],捕捉到可能對(duì)用戶有用的信息,數(shù)據(jù)分析處理系統(tǒng)是主動(dòng)的,. The process of flow calculation圖5 流計(jì)算過(guò)程傳統(tǒng)的流式計(jì)算系統(tǒng),一般是基于事件機(jī)制,如Yahoo的S4[22][26]主要解決的是高數(shù)據(jù)率和大數(shù)據(jù)量的流式處理.S4是一個(gè)通用的、分布式的、可擴(kuò)展的、部分容錯(cuò)的,(processing Elements, PEs),處理單元消費(fèi)這些事件,并作如下的處理:1) 發(fā)出一個(gè)或多個(gè)可能被其他PE處理的事件。2) 發(fā)布結(jié)果.:1) 提供一種簡(jiǎn)單的編程接口來(lái)處理數(shù)據(jù)流2) 設(shè)計(jì)一個(gè)可以在普通硬件之上可擴(kuò)展的高可用集群.3) 通過(guò)在每個(gè)處理節(jié)點(diǎn)使用本地內(nèi)存,避免磁盤(pán)I/O瓶頸達(dá)到最小化延遲4) 使用一個(gè)去中心的,對(duì)等架構(gòu)。.5) 使用可插拔的架構(gòu),使設(shè)計(jì)盡可能的既通用又可定制化.6) 友好的設(shè)計(jì)理念,易于編程,具有靈活的彈性.S4的設(shè)計(jì)和IBM的流處理核心SPC中間件[53],SPC的設(shè)計(jì)源于Publish/Subscribe模式,!相信因?yàn)槠鋵?duì)等的結(jié)構(gòu),沒(méi)有中心控制.SPC是一種分布式的流處理中間件,、動(dòng)態(tài)的、可擴(kuò)展的應(yīng)用而提供的編程模式和開(kāi)發(fā)環(huán)境,其編程模式包括用于申明和創(chuàng)建處理單元(PE)的API,以及組裝、測(cè)試、,SPC除了支持關(guān)系型的操作符外,還支持非關(guān)系型的操作符和用戶自定義函數(shù).Storm[43]是Twitter開(kāi)源的一個(gè)類似于Hadoop的實(shí)時(shí)數(shù)據(jù)處理框架,這種高可拓展性,能處理高頻數(shù)據(jù)和大規(guī)模數(shù)據(jù)的實(shí)時(shí)流計(jì)算解決方案將應(yīng)用于實(shí)時(shí)搜索,:1) 信息流處理(Stream Processing)Storm可以用來(lái)實(shí)時(shí)處理新數(shù)據(jù)和更新數(shù)據(jù)庫(kù),兼具容錯(cuò)性和可擴(kuò)展性.2) 連續(xù)計(jì)算(Continuous Computation)Storm可以進(jìn)行連續(xù)查詢并把結(jié)果即時(shí)反饋給客戶,比如將Twitter上的熱門(mén)話題發(fā)送到客戶端.3) 分布式遠(yuǎn)程過(guò)程調(diào)用(Distributed RPC)Storm可以用來(lái)并行處理密集查詢,Storm的拓?fù)浣Y(jié)構(gòu)是一個(gè)等待調(diào)用信息的分布函數(shù),當(dāng)它收到一條調(diào)用信息后,會(huì)對(duì)查詢進(jìn)行計(jì)算,并返回查詢結(jié)果. 數(shù)據(jù)展現(xiàn)與交互計(jì)算結(jié)果需要以簡(jiǎn)單直觀的方式展現(xiàn)出來(lái),才能最終為用戶所理解和使用,形成有效的統(tǒng)計(jì)、分析、預(yù)測(cè)及決策,應(yīng)用到生產(chǎn)實(shí)踐和企業(yè)運(yùn)營(yíng)中,因此大數(shù)據(jù)的展現(xiàn)技術(shù),以及與數(shù)據(jù)的交互技術(shù)在大數(shù)據(jù)全局中也占據(jù)重要的位置.Excel形式的表格和圖形化展示方式是人們熟知和使用已久的數(shù)據(jù)展示方式,而微軟公司和一些創(chuàng)業(yè)者也看到市場(chǎng)潛力,在開(kāi)發(fā)以Excel為展示和交互方式,結(jié)合Hadoop等技術(shù)的大數(shù)據(jù)處理平臺(tái).人腦對(duì)圖形的理解和處理速度,通過(guò)視覺(jué)化呈現(xiàn)數(shù)據(jù),也涌現(xiàn)了很多新型的數(shù)據(jù)展現(xiàn)和交互方式,可以在網(wǎng)頁(yè)上呈現(xiàn),并支持交互,可以操作、控制圖標(biāo)、,可以動(dòng)態(tài)標(biāo)記、生成路線、疊加全景航拍圖等,由于其開(kāi)放的API接口,可以跟很多用戶地圖和基于位置的服務(wù)應(yīng)用結(jié)合, Chart 、Geo圖、gauges(測(cè)量?jī)x),到復(fù)雜的樹(shù)圖,Google Chart Tools提供了大量設(shè)計(jì)優(yōu)良的圖表工具.誕生于斯坦福大學(xué)中的大數(shù)據(jù)創(chuàng)業(yè)公司Tableau[44],“畫(huà)布”上,:界面上的數(shù)據(jù)越容易操控,公司對(duì)自己在所在業(yè)務(wù)領(lǐng)域里的所作所為到底是正確還是錯(cuò)誤,便捷共享,Tableau Server就可以將交互控制面板發(fā)布在網(wǎng)上,用戶只需要一個(gè)瀏覽器,就可以方便的過(guò)濾、選擇數(shù)據(jù)并且對(duì)他們的問(wèn)題得到回應(yīng),這將使得用戶使用數(shù)據(jù)的積極性大大增加.[45],一個(gè)全新的可視化信息圖新平臺(tái),促進(jìn)用戶間相互學(xué)習(xí)、,它是一個(gè)自動(dòng)化工具,讓人快速而簡(jiǎn)易插入不同種類的數(shù)據(jù),并通過(guò)圖形把數(shù)據(jù)表達(dá)出來(lái). The visualization examples of Tableau圖6 Tableau可視化示例 此外,3D數(shù)字化渲染技術(shù)也被廣泛地應(yīng)用在很多領(lǐng)域,如數(shù)字城市、數(shù)字園區(qū)、模擬與仿真、設(shè)計(jì)制造等,它通過(guò)電腦技術(shù),將虛擬的信息應(yīng)用到真實(shí)世界,用戶可以和虛擬的物體進(jìn)行交互,如試戴虛擬眼鏡、試穿虛擬衣服、,工程技術(shù)人員,在進(jìn)行機(jī)械安
點(diǎn)擊復(fù)制文檔內(nèi)容
外語(yǔ)相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1