freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

大數(shù)據(jù)與云計算24(參考版)

2025-06-26 20:37本頁面
  

【正文】 聚焦,歐陽靜,《云計算——大數(shù)據(jù)時代帶來全球性深刻變革》第4頁[3]. VAQUERO L M, RODEROMERINO L, CACERES J, etal. A break in the clouds: towards a cloud definition[J]. ACM SIGCOMM Computer Communication Review, 2009, 39(1): 5055.[4]. 中國改革報,2013年3月26日第012版,民生視窗中國是人才大國,但能理解與應用大數(shù)據(jù)的創(chuàng)新人才更是稀缺資源。我們要從戰(zhàn)略上重視大數(shù)據(jù)的開發(fā)利用,將它作為轉(zhuǎn)變經(jīng)濟增長方式的有效抓手,但要注意科學規(guī)劃,切忌一哄而上。當前,我國正處在全面建成小康社會征程中,工業(yè)化、信息化、城鎮(zhèn)化、農(nóng)業(yè)現(xiàn)代化任務(wù)很重,建設(shè)下一代信息基礎(chǔ)設(shè)施,發(fā)展現(xiàn)代信息技術(shù)產(chǎn)業(yè)體系,健全信息安全保障體系,推進信息網(wǎng)絡(luò)技術(shù)廣泛運用,是實現(xiàn)四化同步發(fā)展的保證。目前,全流量審計方案具備強大的實時檢測能力與事后回溯能力,并可將安全工作人員的分析能力、計算機存儲與運算能力組合在一起,是一種較完整的解決方案。借助大數(shù)據(jù)創(chuàng)新處理技術(shù)應對APT安全攻擊。將大數(shù)據(jù)時代全方位創(chuàng)新工作和智慧城市發(fā)展緊密結(jié)合。包括IBM、EMC、HP、Microsoft等在內(nèi)的IT巨頭,紛紛加速收購相關(guān)大數(shù)據(jù)公司進行技術(shù)整合,尋找數(shù)據(jù)洪流大潮中新的立足點。實際上已經(jīng)有一些運營商借助大數(shù)據(jù)Hadoop云工具管理與分析網(wǎng)絡(luò)中的用戶數(shù)據(jù),為日常運維及制定市場戰(zhàn)略等提供有效支撐。 大數(shù)據(jù)時代的應對策略大數(shù)據(jù)時代應以智慧創(chuàng)新理念融合大數(shù)據(jù)與云計算,在大數(shù)據(jù)洪流中提升知識價值洞察力,實施高效實時個性化運作,建立有效增值的商業(yè)模式,確保應對APT之類的新型安全威脅。大數(shù)據(jù)時代的基本特征,決定其在技術(shù)與商業(yè)模式上有巨大的創(chuàng)新空間,這將對可持續(xù)發(fā)展起關(guān)鍵作用。海量數(shù)據(jù)洪流中,在線對話與在線交易活動日益增加,其安全威脅更為嚴峻;而且現(xiàn)今黑客的組織能力、作案工具、作案手法及隱蔽程度更上一層樓,典型的有APT(Advanced Persistent Threat,高級持續(xù)性安全威脅)。大數(shù)據(jù)的“四V”特征在數(shù)據(jù)存儲、傳輸、分析、處理等方面均帶來本質(zhì)變化。因此其應對變化的能力還較弱,這是未來的工作內(nèi)容之一。我們在文獻[41]的研究中也展示了如何基于這種新的數(shù)據(jù)組織方式來實現(xiàn)復雜分析操作———百分位數(shù)的高效計算問題。由此我們可以看出,復雜的OLAP查詢在MapReduce框架下也可以獲得接近甚至超越關(guān)系數(shù)據(jù)庫的性能,其關(guān)鍵在于如何有效地結(jié)合關(guān)系數(shù)據(jù)庫和MapReduce兩種技術(shù)。在Postprocess階段,主節(jié)點在數(shù)據(jù)節(jié)點上傳的聚集數(shù)據(jù)之上執(zhí)行連接操作。在該框架中,主節(jié)點首先對查詢進行轉(zhuǎn)換,生成一個MapReduce任務(wù)來執(zhí)行查詢。Dumbo采用了類似于LinearDB的數(shù)據(jù)組織模式——利用層次編碼技術(shù)將維表信息壓縮進事實表,區(qū)別在于Dumbo采用了更加有效的編碼方式,并針對Hadoop分布式文件系統(tǒng)的特點對數(shù)據(jù)的存儲進行了優(yōu)化。LinearDB的擴展能力、容錯能力和高性能在于其巧妙地結(jié)合了關(guān)系數(shù)據(jù)庫技術(shù)(層次編碼技術(shù)、泛關(guān)系模式)和MapReduce處理模式的設(shè)計思想,由此,可以看出,結(jié)合方式的不同可以導致系統(tǒng)能力的巨大差異。LinearDB的執(zhí)行代價主要取決于對事實表的Reduce(主要是掃描)操作,因此,LinearDB可以獲得近乎線性的大規(guī)??蓴U展能力?;赥RM執(zhí)行模型,查詢可以劃分為眾多獨立的子任務(wù)在大規(guī)模機群上并行執(zhí)行。每個數(shù)據(jù)節(jié)點并行地掃描、聚集本地數(shù)據(jù),然后將處理結(jié)果返回給主節(jié)點;(3)Merge。在執(zhí)行層次上,LinearDB吸取了MapReduce處理模式的設(shè)計思想,將數(shù)據(jù)倉庫查詢的處理抽象為Transform、Reduce、Merge 3個操作(TRM執(zhí)行模型):(1)Transform。該模型的設(shè)計借鑒了泛關(guān)系模型的思想,采用層次編碼技術(shù)[40]將維表層次信息壓縮進事實表,使得事實表可以獨立執(zhí)行維表上的謂詞判斷、聚集等操作,從而使連接的數(shù)據(jù)在大規(guī)模機群上實現(xiàn)局部性,消除了連接操作。兩個研究方向:(1)借鑒MapReduce的思想,使OLAP查詢的處理能像MapReduce一樣高度可擴展(LinearDB原型);(2)利用關(guān)系數(shù)據(jù)庫的技術(shù),使MapReduce在處理OLAP查詢時,逼近關(guān)系數(shù)據(jù)庫的性能(Dumbo原型)[8]。鑒于此,中國人民大學高性能數(shù)據(jù)庫實驗室的研究小組采取了另一種思路:從數(shù)據(jù)的組織和查詢的執(zhí)行兩個核心層次入手,融合關(guān)系數(shù)據(jù)庫和MapReduce兩種技術(shù),設(shè)計高性能的可擴展的抽象數(shù)據(jù)倉庫查詢處理框架。在已經(jīng)投入商業(yè)使用的產(chǎn)品中、絕大部分也是在Hadoop基礎(chǔ)上進行功能擴展、或者提供與Hadoop的數(shù)據(jù)接口。這些工具有些是完整的處理平臺、有些則是專門針對特定的大數(shù)據(jù)處理應用。主要的研究成果集中在對Hadoop平臺性能的改進、高效的查詢處理、索引構(gòu)建和使用、在Hadoop之上構(gòu)建數(shù)據(jù)倉庫和數(shù)據(jù)庫系統(tǒng)的連接、數(shù)據(jù)挖掘、推薦系統(tǒng)等。某種程度上可以說Hadoop已經(jīng)成為大數(shù)據(jù)處理工具事實上的標準。Hadoop最先是Doug Cutting模 仿GFS,MapReduce實現(xiàn)的一個云計算開源平臺,后貢獻給Apeche。本節(jié)將對現(xiàn)今主流的大數(shù)據(jù)處理工具進行一個簡單的歸納和總結(jié)。云計算所涉及到的技術(shù)很多,但是通過Google云計算技術(shù)的介紹能夠快速、完整地把握云計算技術(shù)的核心和精髓。難能可貴的是Google并未將這些技術(shù)完全封閉,而是以論文的形式逐步公開其實現(xiàn)。需求推動創(chuàng)新,面對海量的Web數(shù)據(jù),Google于2006年首先提出了云計算的概念。正是云計算技術(shù)在數(shù)據(jù)存儲、管理與分析等方面的支撐,才使得大數(shù)據(jù)有用武之地。最終通過數(shù)據(jù)分析技術(shù)從數(shù)據(jù)庫中的大數(shù)據(jù)提取出有益的知識。為了便于數(shù)據(jù)管理,需要在文件系統(tǒng)之上建立數(shù)據(jù)庫系統(tǒng)。 關(guān)鍵技術(shù)分析大數(shù)據(jù)價值的完整體現(xiàn)需要多種技術(shù)的協(xié)同。但是大數(shù)據(jù)時代的數(shù)據(jù)分析結(jié)果往往也是海量的,同時結(jié)果之間的關(guān)聯(lián)關(guān)系極其復雜,采用傳統(tǒng)的解釋方法基本不可行。數(shù)據(jù)解釋的方法很多,比較傳統(tǒng)的就是以文本形式輸出結(jié)果或者直接在電腦終端上顯示結(jié)果。數(shù)據(jù)解釋數(shù)據(jù)分析是大數(shù)據(jù)處理的核心,但是用戶往往更關(guān)心結(jié)果的展示。傳統(tǒng)的分析技術(shù)如數(shù)據(jù)挖掘、機器學習、統(tǒng)計分析等在大數(shù)據(jù)時代需要作出調(diào)整。從異構(gòu)數(shù)據(jù)源抽取和集成的數(shù)據(jù)構(gòu)成了數(shù)據(jù)分析的原始數(shù)據(jù)。隨著新的數(shù)據(jù)源的涌現(xiàn)數(shù)據(jù)集成方法也在不斷的發(fā)展之中。同時還要特別注意前面提及的大數(shù)據(jù)時代模式和數(shù)據(jù)的關(guān)系,大數(shù)據(jù)時代的數(shù)據(jù)往往是先有數(shù)據(jù)再有模式,且模式是在不斷的動態(tài)演化之中的。要想處理大數(shù)據(jù),首先必須對所需數(shù)據(jù)源的數(shù)據(jù)進行抽取和集成,從中提取出關(guān)系和實體,經(jīng)過關(guān)聯(lián)和聚合之后采用統(tǒng)一定義的結(jié)構(gòu)來存儲這些數(shù)據(jù)。具體來說可以分為數(shù)據(jù)抽取與集成、數(shù)據(jù)分析以及數(shù)據(jù)解釋。圖 9 大數(shù)據(jù)處理基本流程整個大數(shù)據(jù)的處理流程可以定義為在合適工具的輔助下,對廣泛異構(gòu)的數(shù)據(jù)源進行抽取和集成,結(jié)果按照一定的標準統(tǒng)一存儲。 大數(shù)據(jù)處理的基本流程大數(shù)據(jù)的數(shù)據(jù)來源廣泛!應用需求和數(shù)據(jù)類型都不盡相同!但是最基本的處理流程一致。Reduce任務(wù)從硬盤上讀取數(shù)據(jù)之后會根據(jù)Key值進行排序,將具有相同Key值的組織在一起。Map任務(wù)從輸入中解析出鏈/值(Key/Value)對集合。一個完整的MapReduce過程如所示。與此同時很多實際系統(tǒng)也已開發(fā)和得到廣泛的應用,比較代表性的開源系統(tǒng)如Twitter的Storm、Yahoo的S4以及Linkedin的Kafka等。以PCM(相變存儲器)為代表的儲存級內(nèi)存設(shè)備的出現(xiàn)或許可以使內(nèi)存未來不再成為流處理模型的制約。圖 7是流處理中基本的數(shù)據(jù)流模型:圖 7 基本的數(shù)據(jù)流模型數(shù)據(jù)的實時處理是一個很有挑戰(zhàn)性的工作,數(shù)據(jù)流本身具有持續(xù)達到%速度快且規(guī)模巨大等特點,因此通常不會對所有的數(shù)據(jù)進行永久化存儲,而且數(shù)據(jù)環(huán)境處在不斷的變化之中,系統(tǒng)很難準確掌握整個數(shù)據(jù)的全貌。流處理的處理模式將數(shù)據(jù)視為流,源源不斷的數(shù)據(jù)組成了數(shù)據(jù)流。流處理流處理的基本理念是數(shù)據(jù)的價值會隨著時間的流逝而不斷減少,因此盡可能快地對最新的數(shù)據(jù)作出分析并給出結(jié)果是所有流數(shù)據(jù)處理模式的共同目標。4 大數(shù)據(jù)處理框架 大數(shù)據(jù)處理模式大數(shù)據(jù)的應用類型有很多,主要的處理模式可以分為流處理(stream pr
點擊復制文檔內(nèi)容
語文相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1