freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

大數(shù)據(jù)與云計算培訓(xùn)資料-閱讀頁

2025-04-16 23:34本頁面
  

【正文】 數(shù)據(jù)流的理論及技術(shù)研究已經(jīng)有十幾年的歷史,目前仍舊是研究熱點。批處理Google公司在2004年提出的MapReduce編程模型是最具代表性的批處理模式。圖 8 MapReduce執(zhí)行流程圖MapReduce模型首先將用戶的原始數(shù)據(jù)源進行分塊,然后分別交給不同的Map任務(wù)區(qū)處理。然后對這些集合執(zhí)行用戶自行定義的Map函數(shù)得到中間結(jié)果,并將該結(jié)果寫入本地硬盤。最后用戶自定義的Reduce函數(shù)會作用于這些排好序的結(jié)果并輸出最終結(jié)果。海量Web數(shù)據(jù)的處理是一類非常典型的大數(shù)據(jù)應(yīng)用,從中可以歸納出大數(shù)據(jù)處理的最基本流程。利用合適的數(shù)據(jù)分析技術(shù)對存儲的數(shù)據(jù)進行分析,從中提取有益的知識并利用恰當?shù)姆绞綄⒔Y(jié)果展現(xiàn)給終端用戶。數(shù)據(jù)抽取與集成大數(shù)據(jù)的一個重要特點就是多樣性,這就意味著數(shù)據(jù)來源極其廣泛,數(shù)據(jù)類型極為繁雜,這種復(fù)雜的數(shù)據(jù)環(huán)境給大數(shù)據(jù)的處理帶來極大的挑戰(zhàn)。在數(shù)據(jù)集成和提取時需要對數(shù)據(jù)進行清洗,保證數(shù)據(jù)質(zhì)量及可信性。數(shù)據(jù)抽取和集成技術(shù)不是一項全新的技術(shù),傳統(tǒng)數(shù)據(jù)庫領(lǐng)域已對此問題有了比較成熟的研究。從數(shù)據(jù)集成模型來看,現(xiàn)有的數(shù)據(jù)抽取與集成方式可以大致分為以下4種類型:基于物化或ETL方法的引擎、基于聯(lián)邦數(shù)據(jù)庫或中間件方法的引擎、基于數(shù)據(jù)流方法的引擎、及基于搜索引擎的方法數(shù)據(jù)分析數(shù)據(jù)分析是整個大數(shù)據(jù)處理流程的核心,因為大數(shù)據(jù)的價值產(chǎn)生于分析過程。根據(jù)不同應(yīng)用的需求可以從這些數(shù)據(jù)中選擇全部或部分進行分析。大數(shù)據(jù)分析已被廣泛應(yīng)用于諸多領(lǐng)域,典型的有推薦系統(tǒng)、商業(yè)智能、決策支持等。如果分析的結(jié)果正確但是沒有采用適當?shù)慕忉尫椒?,則所得到的結(jié)果很可能讓用戶難以理解,極端情況下甚至?xí)`導(dǎo)用戶。這種方法在面對小數(shù)據(jù)量時是一種很好的選擇??梢钥紤]引入可視化技術(shù)、讓用戶能夠在一定程度上了解和參與具體的分析過程這兩個方面提升數(shù)據(jù)解釋能力。文件系統(tǒng)提供最底層存儲能力的支持。通過索引等的構(gòu)建,對外提供高效的數(shù)據(jù)查詢等常用功能。云計算:大數(shù)據(jù)的基礎(chǔ)平臺與支撐技術(shù)如果將各種大數(shù)據(jù)的應(yīng)用比作一輛輛“汽車”,支撐起這些“汽車”運行的“高速公路”就是云計算。在所有的“高速公路”中,Google無疑是技術(shù)最為先進的一個。支撐Google內(nèi)部各種大數(shù)據(jù)應(yīng)用的正是其自行研發(fā)的一系列云計算技術(shù)和工具。正是這些公開的論文,使得以GFS,MapReduce,Bigtable為代表的一系列大數(shù)據(jù)處理技術(shù)被廣泛了解并得到應(yīng)用,同時還催生出以Hadoop為代表的一系列云計算開源工具。根據(jù)Google已公開的論文及相關(guān)資料,結(jié)合大數(shù)據(jù)處理的需求,我們對Google的技術(shù)眼花進行了整理,如所示:圖 10 Google技術(shù)演化圖大數(shù)據(jù)處理工具關(guān)系數(shù)據(jù)庫在很長的時間里成為數(shù)據(jù)管理的最佳選擇,但是在大數(shù)據(jù)時代,數(shù)據(jù)管理、分析等的需求多樣化使得關(guān)系數(shù)據(jù)庫在很多場景不再適用。Hadoop是目前最為流行的大數(shù)據(jù)處理平臺。Hadoop已經(jīng)發(fā)展成為包括文件系統(tǒng)、數(shù)據(jù)庫、數(shù)據(jù)處理等功能模塊在內(nèi)的完整生態(tài)系統(tǒng)[11]。對Hadoop改進并將其應(yīng)用于各種場景的大數(shù)據(jù)處理已經(jīng)成為新的研究熱點。除了Hadoop,還有很多針對大數(shù)據(jù)的處理工具。表 2歸納總結(jié)了現(xiàn)今一些主流的處理平臺和工具、這些平臺和工具或是已經(jīng)投入商業(yè)使用、或是開源軟件。表 2 大數(shù)據(jù)處理工具列表5 MapReduce和關(guān)系數(shù)據(jù)庫技術(shù)的融合當前研究大都集中于功能或特性的移植,即從一個平臺學(xué)習(xí)新的技術(shù),到另一平臺重新實現(xiàn)和集成,未涉及執(zhí)行核心,因此也沒有從根本上解決大數(shù)據(jù)分析問題。該框架在支持高度可擴展的同時,又具有關(guān)系數(shù)據(jù)庫的性能。 LinearDBLinearDB原型系統(tǒng)沒有直接采用基于連接的星型模型(雪花模型),而是對其進行了改造,設(shè)計了擴展性更好的、基于掃描的無連接雪花模型JFSS(JoinFree Snowflake Schema)。圖 11是一個星型模型和無連接雪花模型的對應(yīng)示意圖。主節(jié)點對查詢進行預(yù)處理,將查詢中作用于維表的操作(主要是謂詞判斷,groupby聚集操作等)轉(zhuǎn)換為事實表上的操作;(2)Reduce。主節(jié)點對各個數(shù)據(jù)節(jié)點返回的結(jié)果進行合并,并執(zhí)行后續(xù)的過濾、排序等操作。執(zhí)行過程中,任何失敗子任務(wù)都可以在其備份節(jié)點重新執(zhí)行,從而獲得較好的容錯能力。實驗表明,其性能比HadoopDB至少高出一個數(shù)量級。圖 11 對比:一個典型星型模型與其對應(yīng)的無連接雪花模型 DumboDumbo的核心思想是根據(jù)MapReduce的“過濾聚集”的處理模式,對OLAP查詢的處理進行改造,使其適應(yīng)于MapReduce框架。在執(zhí)行層次上,Dumbo對MapReduce框架進行了擴展,設(shè)計了新的OLAP查詢處理框架——TMRP(TransformMapReduce Postprocess)處理框架(如圖 11圖 12所示)。該任務(wù)在Map階段以流水線方式掃描、聚集本地數(shù)據(jù),并只將本地的聚集數(shù)據(jù)傳至Reduce階段,來進行數(shù)據(jù)的合并及聚集、排序等操作。實驗表明,Dumbo性能遠超Hadoop和HadoopDB。僅僅停留于表層的移植和集成是難以從根本上解決大數(shù)據(jù)分析問題的。LinearDB和Dumbo雖然基本可以達到預(yù)期的設(shè)計目標,但兩者都需要對數(shù)據(jù)進行預(yù)處理,其預(yù)處理代價是普通加載時間的7倍左右。圖 12 Dumbo架構(gòu)(深灰色部分是新增模塊,剩余部分是Hadoop自帶模塊)6 大數(shù)據(jù)時代的挑戰(zhàn)與應(yīng)對策略 大數(shù)據(jù)時代面臨的挑戰(zhàn)運營商帶寬能力與對數(shù)據(jù)洪流的適應(yīng)能力面臨前所未有的挑戰(zhàn),管道化壓力化解及“云-管-端”的有效裝備也均面臨新挑戰(zhàn)。數(shù)據(jù)量的快速增長,對存儲技術(shù)提出了挑戰(zhàn);同時,需要高速信息傳輸能力支持,與低密度有價值數(shù)據(jù)的快速分析、處理能力。大數(shù)據(jù)環(huán)境下通過對用戶數(shù)據(jù)的深度分析,很容易了解用戶行為和喜好,乃至企業(yè)用戶的商業(yè)機密,對個人隱私問題必須引起充分重視。大數(shù)據(jù)時代的基本特征及安全挑戰(zhàn),對政府制訂規(guī)則與監(jiān)管部門發(fā)揮作用提出了新的挑戰(zhàn)。電信運營商轉(zhuǎn)型中流量經(jīng)營已成共識,即以智能管道與聚合平臺為基礎(chǔ),以擴大流量規(guī)模、提升流量層次及豐富流量內(nèi)涵作為基本經(jīng)營方向,并以釋放流量價值為基本目標,可見大數(shù)據(jù)和云計算的深度融合與此流量經(jīng)營目標十分吻合。針對大數(shù)據(jù)時代的基本特征,加強全方位創(chuàng)新。而涉及人工智能、機器學(xué)習(xí)等新技術(shù)的創(chuàng)新應(yīng)用,已初顯效益。借助移動互聯(lián)網(wǎng)、大數(shù)據(jù)與云計算的融合、智能運營管道等,建立智能平臺,優(yōu)化配置城市資源,向真正的智慧城市邁進。APT安全攻擊的最主要特征為單點隱蔽能力強、攻擊空間路徑不確定、攻擊渠道不確定;同時APT攻擊一旦入侵成功則長期潛伏,攻擊時間上具有持續(xù)性。7 結(jié)束語大數(shù)據(jù)技術(shù)的運用前景是十分光明的。大數(shù)據(jù)是新一代信息技術(shù)的集中反映,是一個應(yīng)用驅(qū)動性很強的服務(wù)領(lǐng)域,是具有無窮潛力的新興產(chǎn)業(yè)領(lǐng)域;目前,其標準和產(chǎn)業(yè)格局尚未形成,這是我國實現(xiàn)跨越式發(fā)展的寶貴機會。大數(shù)據(jù)時代呼喚創(chuàng)新型人才。1 / 24參 考 文 獻[1]. 統(tǒng)計與管理,2013年6月,熱點透視,河北統(tǒng)計局,李永宏,《大數(shù)據(jù)與云計算》首段[2]. 中國改革報,2013年3月26日第012版,民生視窗聚焦,歐陽靜,《云計算——大數(shù)據(jù)時代帶來全球性深刻變革》第2頁[5]. 戰(zhàn)略與決策研究,中國科學(xué)院計算技術(shù)研究所 北京,李國杰、程學(xué)旗,《大數(shù)據(jù)研究:未來科技及經(jīng)濟社會發(fā)展的重大戰(zhàn)略領(lǐng)域——大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考》[6]. 計算機研究與發(fā)展,2013年,50(1):146169,中國人民大學(xué)信息學(xué)院,孟小峰 慈祥,《大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)》[7]. 計算機學(xué)報,2011年10月,第34卷 第10期,中國人民大學(xué)信息學(xué)院 北京,王珊 王會舉 覃雄派 周烜,《架構(gòu)大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望》[8]. 南京郵電大學(xué),碩士學(xué)位論文,2013年2月,鄧謙,《基于Hadoop的云計算安全機制研究》[9]. 國金證券,2012年1月4日,大數(shù)據(jù)專題,行業(yè)公司專題報告,趙?國?棟,《大?數(shù)?據(jù)?時?代?的?三?大?發(fā)?展?趨?勢?及?投?資?方?向?》[10]. 信息工程大學(xué),博士學(xué)位論文,2013年4月,劉婷婷,《面向云計算的數(shù)據(jù)安全保護關(guān)鍵技術(shù)研究》[11]. 醫(yī)學(xué)信息雜志,2013年第34卷第5期 ,武漢郵電科學(xué)研究院,高漢松、肖凌、許德瑋、桑梓勤,《基于云計算的醫(yī)療大數(shù)據(jù)挖掘平臺》
點擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1