freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

大數(shù)據(jù)時代培訓課件-wenkub

2024-10-25 13 本頁面
 

【正文】 這些大數(shù)據(jù)的屬性,包括數(shù)量,速度,多樣性等等都是呈現(xiàn)了大數(shù)據(jù)不斷增長的復雜性,所以大數(shù)據(jù)的分析方法在大數(shù)據(jù)領(lǐng)域就顯得尤為重要,可以說是決定最終信息是否有價值的決定性因素。如隨著物聯(lián)網(wǎng)的廣泛應(yīng)用,信息感知無處不在,信息海量,但價值密度較低,如何通過強大的機器算法更迅速地完成數(shù)據(jù)的價值“提純”,是大數(shù)據(jù)時代亟待解決的難題。大數(shù)據(jù)的起始計量單位至少是P(1000個T)、E(100萬個T)或Z(10億個T)。 大數(shù)據(jù)到底有多大?一組名為“互聯(lián)網(wǎng)上一天”的數(shù)據(jù)告訴我們,一天之中,互聯(lián)網(wǎng)產(chǎn)生的全部內(nèi)容可以刻滿1.68億張DVD;發(fā)出的郵件有2940億封之多(相當于美國兩年的紙質(zhì)信件數(shù)量);發(fā)出的社區(qū)帖子達200萬個(相當于《時代》雜志770年的文字量);賣出的手機為37.8萬臺…… 這樣的趨勢會持續(xù)下去。 哈佛大學社會學教授加里金說:“這是一場革命,龐大的數(shù)據(jù)資源使得各個領(lǐng)域開始了量化進程,無論學術(shù)界、商界還是政府,所有領(lǐng)域都將開始這種進程。我們現(xiàn)在還處于所謂“物聯(lián)網(wǎng)”的最初級階段,而隨著技術(shù)成熟,我們的設(shè)備、交通工具和迅速發(fā)展的“可穿戴”科技將能互相連接與溝通。 類型繁多(Variety) 第二個特征是數(shù)據(jù)類型繁多。 速度快時效高(Velocity) 第四個特征是處理速度快,時效性要求高。,大數(shù)據(jù)分析的五個基本方面,1. Analytic Visualizations(可視化分析) 不管是對數(shù)據(jù)分析專家還是普通用戶,數(shù)據(jù)可視化是數(shù)據(jù)分析工具最基本的要求。這些算法不僅要處理大數(shù)據(jù)的量,也要處理大數(shù)據(jù)的速度。 5. Data Quality and Master Data Management(數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理) 數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理是一些管理方面的最佳實踐。整個處理流程可以概括為四步,分別是采集、導入和預(yù)處理、統(tǒng)計和分析,以及挖掘。并且如何在這些數(shù)據(jù)庫之間進行負載均衡和分片的確是需要深入的思考和設(shè)計。統(tǒng)計與分析這部分的主要特點和挑戰(zhàn)是分析涉及的數(shù)據(jù)量大,其對系統(tǒng)資源,特別是I/O會有極大的占用。,處理和分析工具,用于分析大數(shù)據(jù)的工具主要有開源與商用兩個生態(tài)圈。 NoSQL,membase、MongoDB 商用大數(shù)據(jù)生態(tài)圈: 一體機數(shù)據(jù)庫/數(shù)據(jù)倉庫:IBM PureData(Netezza), OracleExadata, SAP Hana等等。而Hadoop作為新一代的架構(gòu)和技術(shù),因為有利于并行分布處理 “大數(shù)據(jù)”而備受重視。 經(jīng)濟:框架可以運行在任何普通的PC上。谷歌的MapReduce框架可以把一個應(yīng)用程序分解為許多并行計算指令,跨大量的計算節(jié)點運行非常巨大的數(shù)據(jù)集。HDFS放寬了(relax)POSIX的要求,可以以流的形式訪問(streaming access)文件系統(tǒng)中的數(shù)據(jù)。 DataNode 是文件存儲的基本單元。,MapReduce Map:任務(wù)的分解 Reduce:結(jié)果的匯總,兩大核心設(shè)計,HDFS NameNode:文件管理 DataNode:文件存儲 Client:文件獲取,Hadoop核心設(shè)計,HDFS具體操作,文件寫入: 1. Client向NameNode發(fā)起文件寫入的請求 2. NameNode根據(jù)文件大小和文件塊配置情況,返回給Client它所管理部分DataNode的信息。,MapReduce——映射、化簡編程模型,1. 根據(jù)輸入數(shù)據(jù)的大小和參數(shù)的設(shè)置把數(shù)據(jù)分
點擊復制文檔內(nèi)容
電大資料相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1