freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

大數(shù)據(jù)平臺(tái)概要設(shè)計(jì)說明書(文件)

 

【正文】 對(duì)運(yùn)算平臺(tái)的各個(gè)環(huán)節(jié)進(jìn)行控制,且對(duì)運(yùn)算過程中的步驟依賴關(guān)系進(jìn)行控制,同時(shí)對(duì)各個(gè)環(huán)節(jié)進(jìn)行監(jiān)控,通過監(jiān)控異常報(bào)警來提高系統(tǒng)的穩(wěn)定性和異常響應(yīng)速度。 對(duì)象及范圍開發(fā)人員、DBA、測(cè)試人員;研發(fā)主管領(lǐng)導(dǎo)、產(chǎn)品人員; 參考資料《大數(shù)據(jù)處理體系架構(gòu)》《HBase The Definitive Guide》《》《Programming_Hive》2. 系統(tǒng)總體設(shè)計(jì) 需求規(guī)定 運(yùn)行環(huán)境操作系統(tǒng):RedHad Enterprise 軟件環(huán)境:Java Kettle MySQL 硬件環(huán)境:8核16G內(nèi)存PC服務(wù)器8臺(tái) 基本設(shè)計(jì)思路和處理流程按照數(shù)據(jù)分析的實(shí)時(shí)性,分為在線數(shù)據(jù)分析和離線數(shù)據(jù)分析。由于其體積小、速度快、總體擁有成本低,尤其是開放源碼這一特點(diǎn),許多中小型網(wǎng)站為了降低網(wǎng)站總體擁有成本而選擇了MySQL作為網(wǎng)站數(shù)據(jù)庫(kù)。是構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的重要一環(huán),用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗,最終按照預(yù)先定義好的數(shù)據(jù)倉(cāng)庫(kù)模型,將數(shù)據(jù)加載到數(shù)據(jù)倉(cāng)庫(kù)中去。 Storm也可被用于“連續(xù)計(jì)算”(continuous putation),對(duì)數(shù)據(jù)流做連續(xù)查詢,在計(jì)算時(shí)就將結(jié)果以流的形式輸出給用戶。Hivehive是基于Hadoop的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫(kù)表,并提供完整的sql查詢功能,可以將sql語(yǔ)句轉(zhuǎn)換為MapReduce任務(wù)進(jìn)行運(yùn)行。就像Bigtable利用了Google文件系統(tǒng)(File System)所提供的分布式數(shù)據(jù)存儲(chǔ)一樣,HBase在Hadoop之上提供了類似于Bigtable的能力。snn是HDFS架構(gòu)中的一個(gè)組成部分,但是經(jīng)常由于名字而被人誤解它真正的用途,其實(shí)它真正的用途,是用來保存namenode中對(duì)HDFS metadata的信息的備份,并減少namenode重啟的時(shí)間JobtrackerJobTracker是MapReduce框架中最主要的類之一,所有job的執(zhí)行都由它來調(diào)度,而且Hadoop系統(tǒng)中只配置一個(gè)JobTracker 應(yīng)用。從內(nèi)部看,一個(gè)文件其實(shí)被分成一個(gè)或多個(gè)數(shù)據(jù)塊,這些塊存儲(chǔ)在一組Datanode上。Namenode是一個(gè)中心服務(wù)器,負(fù)責(zé)管理文件系統(tǒng)的名字空間(namespace)以及客戶端對(duì)文件的訪問。鑒于越來越大的數(shù)據(jù)規(guī)模,采用常規(guī)基于DBMS的數(shù)據(jù)分析工具和方法已經(jīng)無法滿足大規(guī)模數(shù)據(jù)分析的需求,目前一些大型互聯(lián)網(wǎng)公司采用hadoop體系進(jìn)行大規(guī)模數(shù)據(jù)的運(yùn)算,結(jié)合hadoop體系結(jié)構(gòu)與實(shí)際的運(yùn)算需求結(jié)合,采用hadoop 體系結(jié)構(gòu)的分布式運(yùn)算模型,通過集群的方式實(shí)現(xiàn)大數(shù)據(jù)運(yùn)算,為企業(yè)提供大數(shù)據(jù)的價(jià)值。隨著寬帶化的發(fā)展,人均網(wǎng)絡(luò)接入帶寬和流量也迅速提升??傊髷?shù)據(jù)存在于各行各業(yè),一個(gè)大數(shù)據(jù)時(shí)代正在到來。百度公司目前數(shù)據(jù)總量接近1000PB,存儲(chǔ)網(wǎng)頁(yè)數(shù)量接近1萬億頁(yè),每天大約要處理60億次搜索請(qǐng)求,幾十PB數(shù)據(jù)。有資料顯示,1998年全球網(wǎng)民平均每月使用流量是1MB(兆字節(jié)),2000年是10MB,2003年是100MB,2008年是1GB(1GB等于1024MB),2014年將是10GB。麥肯錫公司的報(bào)告指出數(shù)據(jù)是一種生產(chǎn)資料,大數(shù)據(jù)是下一個(gè)創(chuàng)新、競(jìng)爭(zhēng)、生產(chǎn)力提高的前沿?!度A爾街日?qǐng)?bào)》將大數(shù)據(jù)時(shí)代、智能化生產(chǎn)和無線網(wǎng)絡(luò)革命稱為引領(lǐng)未來繁榮的三大技術(shù)變革。 互聯(lián)網(wǎng)特別是移動(dòng)互聯(lián)網(wǎng)的發(fā)展,加快了信息化向社會(huì)經(jīng)濟(jì)各方面、大眾日常生活的滲透。淘寶網(wǎng)站每天有超過數(shù)千萬筆交易,單日數(shù)據(jù)產(chǎn)生量超過50TB(1TB等于1000GB),存儲(chǔ)量40PB(1PB等于1000TB)。現(xiàn)在,一個(gè)病人的CT影像數(shù)據(jù)量達(dá)幾十GB,而全國(guó)每年門診人數(shù)以數(shù)十億計(jì),并且他們的信息需要長(zhǎng)時(shí)間保存。2007年全球有5億個(gè)設(shè)備聯(lián)網(wǎng),;2013年全球?qū)⒂?00億個(gè)設(shè)備聯(lián)網(wǎng),人均70個(gè)?! ?shù)據(jù)規(guī)模越大,處理的難度也越大,但對(duì)其進(jìn)行挖掘可能得到的價(jià)值更大,這就是大數(shù)據(jù)熱的原因。一個(gè)HDFS集群是由一個(gè)Namenode和一定數(shù)目的Datanodes組成。HDFS暴露了文件系統(tǒng)的名字空間,用戶能夠以文件的形式在上面存儲(chǔ)數(shù)據(jù)。其實(shí)不是。 master負(fù)責(zé)調(diào)度job的每一個(gè)子任務(wù)task運(yùn)行于slave上,并監(jiān)控它們,如果發(fā)現(xiàn)有失敗的task就重新運(yùn)行它,slave則負(fù)責(zé)直接執(zhí)行每一個(gè)taskTaskTrackerTaskTracker都需要運(yùn)行在HDFS的DataNode上,而JobTracker則不需要,一般情況應(yīng)該把JobTracker 部署在單獨(dú)的機(jī)器上HBaseHBase是一個(gè)分布式的、面向列的開源數(shù)據(jù)庫(kù),該技術(shù)來源于Chang et al所撰寫的Google論文“Bigtable:一個(gè)結(jié)構(gòu)化數(shù)據(jù)的分布式存儲(chǔ)系統(tǒng)”。另一個(gè)不同的是HBase基于列的而不是基于行的模式。這是管理隊(duì)列及工作者集群的另一種方式。ETLETL是數(shù)據(jù)抽?。‥xtract)、清洗(Cleaning)、轉(zhuǎn)換(Transform)、裝載(Load)的過程。目前MySQL被廣泛地應(yīng)用在Internet上的中小型網(wǎng)站中。Mongo最大的特點(diǎn)是他支持的查詢語(yǔ)言非常強(qiáng)大,其語(yǔ)法有點(diǎn)類似于面向?qū)ο蟮牟樵冋Z(yǔ)言,幾乎可以實(shí)現(xiàn)類似關(guān)系數(shù)據(jù)庫(kù)單表查詢的絕大部分功能,而且還支持對(duì)數(shù)據(jù)建立索引。系統(tǒng)主要以離線數(shù)據(jù)分析為主,采用目前在互聯(lián)網(wǎng)業(yè)界流行的hadoop體系結(jié)構(gòu)對(duì)大批量的數(shù)據(jù)進(jìn)行運(yùn)算,采用hadoop集群的方式對(duì)大數(shù)據(jù)進(jìn)行運(yùn)算。3) 驅(qū)動(dòng)代理程序負(fù)責(zé)所有基于運(yùn)算平臺(tái)的相關(guān)組件的驅(qū)動(dòng)任務(wù),讀取調(diào)度系統(tǒng)傳遞過來的模版信息,讀取模版信息,并執(zhí)行相應(yīng)的驅(qū)動(dòng)操作。2)計(jì)算平臺(tái)分為基礎(chǔ)運(yùn)算部分,模版管理部分,驅(qū)動(dòng)代理部分,系統(tǒng)調(diào)度部分。6)調(diào)度系統(tǒng)只關(guān)心其自身的系統(tǒng)控制能力,不參與具體的業(yè)務(wù)以及計(jì)算功能組件的調(diào)用。 對(duì)于具體的執(zhí)行任務(wù)將由驅(qū)動(dòng)代理自動(dòng)完成。一個(gè)驅(qū)動(dòng)應(yīng)用包含四個(gè)步驟:1)刪除不用的數(shù)據(jù);2)加載數(shù)據(jù);3)運(yùn)算;4)導(dǎo)出結(jié)果文件。如果是hive的操作流程,第一步先執(zhí)行加載文本文件到hive表,如果有多個(gè)文件操作一逗號(hào)分割,第二步執(zhí)行hive語(yǔ)句,多個(gè)hive語(yǔ)句以逗號(hào)分割的方式,第三步將結(jié)果輸出到相應(yīng)的hive表中。監(jiān)控模塊主要負(fù)責(zé)監(jiān)控?cái)?shù)據(jù)的采集,數(shù)據(jù)異常報(bào)警,以及后期的監(jiān)控?cái)?shù)據(jù)展示等功能。 流程圖 處理邏輯監(jiān)控報(bào)警啟動(dòng)采用啟動(dòng)啟動(dòng)的方式進(jìn)行,當(dāng)監(jiān)控報(bào)警線程啟動(dòng)后判斷是否到達(dá)監(jiān)控時(shí)間點(diǎn),如果未到達(dá)監(jiān)控時(shí)間點(diǎn),則線程休眠1分鐘后再次進(jìn)行判斷,如果到達(dá)監(jiān)控時(shí)間點(diǎn)則執(zhí)行步驟2。4. 系統(tǒng)數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì) 數(shù)據(jù)實(shí)體關(guān)系圖詳細(xì)圖例見附件 數(shù)據(jù)邏輯結(jié)構(gòu) 調(diào)度任務(wù)表字段說明數(shù)據(jù)類型是否為空主鍵備注TaskId 任務(wù)ID int否是主鍵,自增長(zhǎng)IDTaskName 任務(wù)名稱Varchar(255)否TaskDesc 任務(wù)描述Varchar(500)是Priority優(yōu)先級(jí)int是數(shù)值1~10值越大優(yōu)先級(jí)越高,默認(rèn)5 CycleType 周期類型int否 In
點(diǎn)擊復(fù)制文檔內(nèi)容
數(shù)學(xué)相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1