freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

hadoop大數(shù)據(jù)平臺(tái)-建設(shè)要求及應(yīng)答方案-wenkub

2023-06-22 07:40:20 本頁(yè)面
 

【正文】 oudera Manager提供了列表以及圖表的方式來(lái)查看集群上進(jìn)行的活動(dòng),不僅顯示當(dāng)前正在執(zhí)行的任務(wù)行為,還可以通過(guò)儀表盤查看歷史活動(dòng)。如果健康檢查發(fā)現(xiàn)某個(gè)組件的狀態(tài)需要特別關(guān)注甚至已經(jīng)出現(xiàn)問(wèn)題,系統(tǒng)會(huì)對(duì)管理員應(yīng)該采取的行動(dòng)提出建議。Cloudera提供了Web界面操作接口HUE,上層用戶可以只用可視化的方式訪問(wèn)數(shù)據(jù)、提交任務(wù)等。8) 實(shí)現(xiàn)告警管理。4) 可視化監(jiān)控管理數(shù)據(jù)對(duì)象。 *統(tǒng)一運(yùn)維監(jiān)控方面1) 統(tǒng)一運(yùn)維監(jiān)控功能包括但不限于:安全管理、用戶管理、監(jiān)控運(yùn)維、服務(wù)調(diào)度、應(yīng)用部署、資源管理、作業(yè)編排、服務(wù)接口等。MRv1 通過(guò)插槽管理 Map 和 Reduce 任務(wù)的執(zhí)行,而 NodeManager 管理抽象容器,這些容器代表著可供一個(gè)特定應(yīng)用程序使用的針對(duì)每個(gè)節(jié)點(diǎn)的資源。從 YARN 角度講,ApplicationMaster 是用戶代碼,因此存在潛在的安全問(wèn)題。在此上下文中,ApplicationMaster 承擔(dān)了以前的 TaskTracker 的一些角色,ResourceManager 承擔(dān)了 JobTracker 的角色。YARN 分層結(jié)構(gòu)的本質(zhì)是 ResourceManager。 多應(yīng)用方面實(shí)現(xiàn)大數(shù)據(jù)平臺(tái)多應(yīng)用管理。Hive是建立在 Hadoop 上的數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)構(gòu)架。大數(shù)據(jù)平臺(tái)建立后,會(huì)包含集團(tuán)內(nèi)部全量分析數(shù)據(jù),并且支持大量并發(fā)分析操作,因此能夠大數(shù)據(jù)平臺(tái)支持集團(tuán)總部、省和地市三級(jí)使用方式。使用單位還包括下屬單位和控股公司等。Spark利用Scala語(yǔ)言實(shí)現(xiàn),Scala能夠使得處理分布式數(shù)據(jù)集時(shí),能夠像處理本地化數(shù)據(jù)一樣Sqoop是一個(gè)用來(lái)將Hadoop和關(guān)系型數(shù)據(jù)庫(kù)中的數(shù)據(jù)相互轉(zhuǎn)移的工具,可以將一個(gè)關(guān)系型數(shù)據(jù)庫(kù)(例如 : MySQL ,Oracle ,Postgres等)中的數(shù)據(jù)導(dǎo)進(jìn)到Hadoop的HDFS中,也可以將HDFS的數(shù)據(jù)導(dǎo)進(jìn)到關(guān)系型數(shù)據(jù)庫(kù)中。 Impala設(shè)計(jì)之初就定位為Hadoop生態(tài)系統(tǒng)的一部分,因此,Impala和MapReduce,Hive,Pig以及Hadoop的其他組件,都享有共同的靈活的文件和數(shù)據(jù)格式。它提供了一系列的工具,可以用來(lái)進(jìn)行數(shù)據(jù)提取轉(zhuǎn)化加載(ETL),這是一種可以存儲(chǔ)、查詢和分析存儲(chǔ)在 Hadoop 中的大規(guī)模數(shù)據(jù)的機(jī)制。Map 函數(shù)接受一組數(shù)據(jù)并將其轉(zhuǎn)換為一個(gè)鍵/值對(duì)列表,輸入域中的每個(gè)元素對(duì)應(yīng)一個(gè)鍵/值對(duì)。HBase 不是一個(gè)關(guān)系型數(shù)據(jù)庫(kù),其設(shè)計(jì)目標(biāo)是用來(lái)解決關(guān)系型數(shù)據(jù)庫(kù)在處理海量數(shù)據(jù)時(shí)的理論和實(shí)現(xiàn)上的局限性。HDFS( Hadoop Distributed File System),是一個(gè)分布式文件系統(tǒng)。 應(yīng)實(shí)現(xiàn)元數(shù)據(jù)管理功能, 乙方應(yīng)明確提出所能提供的項(xiàng)目團(tuán)隊(duì)在集成實(shí)施各階段的人員參與數(shù)量和分工組成。 關(guān)系型數(shù)據(jù)庫(kù)系統(tǒng):SAP HANA企業(yè)版 安全管理:Apache Sentry167。CDH提供統(tǒng)一的資源調(diào)度平臺(tái),能夠利用最新的資源調(diào)度平臺(tái)YARN分配集群中CPU,內(nèi)存等資源的調(diào)度,充分利用集群資源;多樣的數(shù)據(jù)分析平臺(tái) –能夠針對(duì)不用的業(yè)務(wù)類型提供不同的計(jì)算框架,比如針對(duì)批處理的MapReduce計(jì)算框架;針對(duì)交互式查詢的Impala MPP查詢引擎;針對(duì)內(nèi)存及流計(jì)算的Spark框架;針對(duì)機(jī)器學(xué)習(xí),數(shù)據(jù)挖掘等業(yè)務(wù)的訓(xùn)練測(cè)試模型;針對(duì)全文檢索的Solr搜索引擎項(xiàng)目中所涉及的軟件包括:Hadoop大數(shù)據(jù)平臺(tái)建設(shè)要求及應(yīng)答方案目錄2 技術(shù)規(guī)范書應(yīng)答書 2 業(yè)務(wù)功能需求 4 系統(tǒng)管理架構(gòu) 4 數(shù)據(jù)管理 12 數(shù)據(jù)管控 26 數(shù)據(jù)分析與挖掘 27 技術(shù)要求 30 總體要求 30 總體架構(gòu) 31 運(yùn)行環(huán)境要求 32 客戶端要求 35 數(shù)據(jù)要求 36 集成要求 36 運(yùn)維要求 37 性能要求 49 擴(kuò)展性要求 50 可靠性和可用性要求 52 開(kāi)放性和兼容性要求 57 安全性要求 59 1 大數(shù)據(jù)平臺(tái)技術(shù)規(guī)范要求高度集成的Hadoop平臺(tái):一個(gè)整體的數(shù)據(jù)存儲(chǔ)和計(jì)算平臺(tái),無(wú)縫集成了基于Hadoop的大量生態(tài)工具,不同業(yè)務(wù)可以集中在一個(gè)平臺(tái)內(nèi)完成,而不需要在處理系統(tǒng)間移動(dòng)數(shù)據(jù);用廉價(jià)的PC服務(wù)器架構(gòu)統(tǒng)一的存儲(chǔ)平臺(tái),能存儲(chǔ)PB級(jí)海量數(shù)據(jù)。 Hadoop軟件(包括而不限于Hadoop核心)167。 數(shù)據(jù)存儲(chǔ):HDFS, HBase, Parquet 167。 ETL工具:SAP Data Services數(shù)據(jù)管控系統(tǒng)的二次開(kāi)發(fā)量如下:167。提供人員的資質(zhì)、級(jí)別以及在項(xiàng)目中的工作時(shí)間、工作內(nèi)容。它具有高容錯(cuò)性的特點(diǎn),可以被廣泛的部署于廉價(jià)的PC之上。HBase 從一開(kāi)始就是為 Terabyte 到 Petabyte 級(jí)別的海量數(shù)據(jù)存儲(chǔ)和高速讀寫而設(shè)計(jì),這些數(shù)據(jù)要求能夠被分布在數(shù)千臺(tái)普通服務(wù)器上,并且能夠被大量并發(fā)用戶高速訪問(wèn)。Reduce 函數(shù)接受 Map 函數(shù)生成的列表,然后根據(jù)它們的鍵縮小鍵/值對(duì)列表。Hive 定義了簡(jiǎn)單的類 SQL 查詢語(yǔ)言,稱為 HQL,它允許熟悉 SQL 的用戶查詢數(shù)據(jù)。Spark提供了一個(gè)快速的計(jì)算,寫入,以及交互式查詢的框架。Flume支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù);同時(shí),F(xiàn)lume提供對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單處理,并寫到各種數(shù)據(jù)接受方(可定制)的能力。2) 設(shè)計(jì)大數(shù)據(jù)平臺(tái)整體框架,提出的建設(shè)方案應(yīng)描述大數(shù)據(jù)平臺(tái)對(duì)外提供的應(yīng)用服務(wù),平臺(tái)內(nèi)部服務(wù)組件,各服務(wù)組件之間的關(guān)系,大數(shù)據(jù)平臺(tái)數(shù)據(jù)流量流向等。使用單位還包括下屬單位和控股公司等。它提供了一系列的工具,可以用來(lái)進(jìn)行數(shù)據(jù)提取轉(zhuǎn)化加載(ETL),這是一種可以存儲(chǔ)、查詢和分析存儲(chǔ)在 Hadoop 中的大規(guī)模數(shù)據(jù)的機(jī)制。支持對(duì)應(yīng)用的服務(wù)級(jí)別管理(SLA)。這個(gè)實(shí)體控制整個(gè)集群并管理應(yīng)用程序向基礎(chǔ)計(jì)算資源的分配。ApplicationMaster 管理一個(gè)在 YARN 內(nèi)運(yùn)行的應(yīng)用程序的每個(gè)實(shí)例。YARN 假設(shè) ApplicationMaster 存在錯(cuò)誤或者甚至是惡意的,因此將它們當(dāng)作無(wú)特權(quán)的代碼對(duì)待。 多租戶方面實(shí)現(xiàn)大數(shù)據(jù)平臺(tái)的多租戶功能,包括但不限于多租戶管理、租戶的操作員管理、租戶的分等分級(jí)分組管理、租戶的度量管理、租戶的角色管理、租戶應(yīng)用授權(quán)、租戶數(shù)據(jù)隔離、租戶的資源隔離等功能。2) 實(shí)現(xiàn)圖形化監(jiān)控管理。5) 可視化的租戶管理。對(duì)問(wèn)題源及時(shí)報(bào)警,并提供主動(dòng)診斷功能。HUE集成了用戶訪問(wèn)控制,支持多租戶隔離。同時(shí),系統(tǒng)管理員還可以查看上的服務(wù)或角色上操作的執(zhí)行歷史,也可以查看配置更改的審計(jì)日志。同時(shí)提供了各個(gè)作業(yè)所使用資源的許多統(tǒng)計(jì),系統(tǒng)管理員可以通過(guò)比較相似任務(wù)的不同性能數(shù)據(jù)以及比較查看同一任務(wù)中不同執(zhí)行的性能數(shù)據(jù)來(lái)診斷性能問(wèn)題或行為問(wèn)題。系通過(guò)管理員可以針對(duì)關(guān)鍵事件配置其報(bào)警閾值、啟用或禁用報(bào)警等,并通過(guò)電子郵件或者通過(guò)SNMP的事件得到制定的警報(bào)通知。? 可視化的時(shí)間序列數(shù)據(jù)圖表系統(tǒng)管理員可以通過(guò)搜索度量數(shù)據(jù),系統(tǒng)將根據(jù)指定規(guī)則創(chuàng)建數(shù)據(jù),組(方面)數(shù)據(jù)的圖表,并把這些圖表保存到用戶自定義的儀表板。? 報(bào)告Cloudera Manager可以將收集到的歷史監(jiān)控?cái)?shù)據(jù)統(tǒng)計(jì)生成報(bào)表,比如按目錄查看集群作業(yè)活動(dòng)的用戶、按組或作業(yè)ID查看有關(guān)用戶的磁盤利用率,用戶組的歷史信息等。該插件負(fù)責(zé)將審計(jì)事件寫入到本地文件系統(tǒng)的審計(jì)日志中。如果任何消息在發(fā)送時(shí)失敗,CM代理將會(huì)自動(dòng)重試。如果一個(gè)插件無(wú)法將審計(jì)事件寫入審計(jì)日志文件,它可以丟棄事件或停止正在運(yùn)行的進(jìn)程(取決于配置的策略)。用戶只需要在界面上進(jìn)行簡(jiǎn)單的配置,就能夠達(dá)到預(yù)期的效果。如果有異常情況會(huì)進(jìn)行告警,有利于更早的讓客戶感知集群服務(wù)存在的問(wèn)題 作業(yè)調(diào)度管理方面1) 實(shí)現(xiàn)統(tǒng)一的作業(yè)調(diào)度與編排管理功能。工作量預(yù)估為10人天 數(shù)據(jù)管理 *結(jié)構(gòu)化數(shù)據(jù)管理功能,包括但不限于對(duì)結(jié)構(gòu)化數(shù)據(jù)的采集管理、數(shù)據(jù)加工管理、數(shù)據(jù)存儲(chǔ)管理、對(duì)外接口、實(shí)時(shí)監(jiān)控、安全管理、數(shù)據(jù)重構(gòu)等功能。Cloudera Search為CDH企業(yè)版提供了一站式全文檢索功能,Cloudera Search是一個(gè)綜合,靈活和強(qiáng)大的搜索解決方案,Cloudera Search是一個(gè)完全開(kāi)源的搜索解決方案,內(nèi)置功能豐富的和可擴(kuò)展的Apache Solr的項(xiàng)目。用戶通過(guò)Cloudera Search可以不寫任何程序代碼,簡(jiǎn)單進(jìn)行配置即可實(shí)現(xiàn)數(shù)據(jù)源ETL,創(chuàng)建并更新索引,數(shù)據(jù)入庫(kù)定制查詢界面等完整的數(shù)據(jù)全文檢索工作流程,高度自動(dòng)化的流水線提高了部署效率。這些文件,如Lucene索引文件,被存放在HDFS中的直寫日志,支持Search。MapReduceSearch包括提前建立的基于MapReduce Job。ZooKeeper協(xié)同分布式數(shù)據(jù)和元數(shù)據(jù),也被Search的分片所用。Impala進(jìn)一步的分析搜索結(jié)果,實(shí)現(xiàn)混合查詢Sqoop批量攝入數(shù)據(jù),并讓批量建立索引過(guò)程中數(shù)據(jù)可用數(shù)據(jù)平臺(tái)的應(yīng)用接口是多樣的:? HDFS:支持NFS,HTTP(Rest),Java API,F(xiàn)TP ? HBase:Java API,Rest,Thrift,SQL(Apache Phoenix)通過(guò)Cloudera Manager 來(lái)實(shí)現(xiàn)實(shí)時(shí)監(jiān)控 *數(shù)據(jù)交換功能1) 實(shí)現(xiàn)數(shù)據(jù)源管理功能。4) 數(shù)據(jù)交換功能要支持?jǐn)?shù)據(jù)接口熱擴(kuò)展能力。*數(shù)據(jù)采集方面1) 支持多種數(shù)據(jù)采集方式?!?FlumeFlume是日志收集系統(tǒng),F(xiàn)lume支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù);同時(shí),F(xiàn)lume提供對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單處理,并寫到各種數(shù)據(jù)接受方(可定制)的能力。內(nèi)容包括但不限于:數(shù)據(jù)分區(qū)劃分方式、適用場(chǎng)景、對(duì)應(yīng)計(jì)算處理框架、硬件配置推薦等。具有索引分析與選擇功能和工具。7) 在線變動(dòng)節(jié)點(diǎn)管理功能。10) 多文件格式管理功能。14) 數(shù)據(jù)壓縮、表壓縮功能,節(jié)省數(shù)據(jù)空間。HDFS架構(gòu)采用主從架構(gòu)(master/slave)。HDFS可以實(shí)現(xiàn)大規(guī)模數(shù)據(jù)可靠的分布式讀寫。高級(jí)特性:CDH整合最新版本的HDFS,實(shí)現(xiàn)了對(duì)內(nèi)存,SSD,磁盤相結(jié)合的異構(gòu)式統(tǒng)一存儲(chǔ)體系,將數(shù)據(jù)按照冷熱程度不同自動(dòng)存儲(chǔ)在不同存儲(chǔ)介質(zhì)中,既可以利用內(nèi)存,SSD的高性能加速實(shí)時(shí)數(shù)據(jù)分析過(guò)程,也能利用磁盤的低成本大容量存儲(chǔ)較冷的數(shù)據(jù)。原生的HDFS并不支持索引,HBase也只是支持主索引。? HDFS的快照、權(quán)限控制以及回收站功能快照是指保存特定時(shí)間點(diǎn)的系統(tǒng)狀況,之后如果發(fā)生用戶或者應(yīng)用的誤操作,可以通過(guò)之前保存的快照數(shù)據(jù)恢復(fù)。和普通的文件系統(tǒng)一樣,HDFS也支持多種不同的壓縮算法,如GZip,LZO,Bzip2,Snappy等 數(shù)據(jù)加工方面實(shí)現(xiàn)數(shù)據(jù)加工功能,提供數(shù)據(jù)加工規(guī)則管理,支持不同形態(tài)數(shù)據(jù)加工管理?;谏虡I(yè)化的ETL工具-SAP Data Services產(chǎn)品進(jìn)行實(shí)施,該產(chǎn)品本身提供上述功能。說(shuō)明計(jì)算集群集成方案與配置。分布式批處理引擎 – MapReduceMapReduce是Hadoop的核心,是Google提出的一個(gè)軟件架構(gòu),用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運(yùn)算。 MapReduce 的根源是函數(shù)性編程中的 map 和 reduce 函數(shù)。該框架可以自動(dòng)實(shí)現(xiàn)負(fù)載均衡并且隨著節(jié)點(diǎn)的增加,計(jì)算能力、通信能力、IO吞吐能力、存儲(chǔ)能力、擴(kuò)容能力會(huì)隨之增加。2) 支持CUBE,結(jié)合分布式內(nèi)存計(jì)算以及分布式內(nèi)存存儲(chǔ),提供海量數(shù)據(jù)交互式分析能力。5) 支持全文檢索。8) 支持存儲(chǔ)過(guò)程、自定義函數(shù)功能。在HANA中存在視圖的概念,即封裝的運(yùn)算邏輯。同時(shí)HANA集成了大量的非結(jié)構(gòu)化處理功能:可以在結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)上建立全文索引,借助此索引能夠?qū)崿F(xiàn)快速的全文檢索。HANA中的存儲(chǔ)過(guò)程是可以重用的處理模塊,在HANA中有兩種創(chuàng)建PROCEDURE的方式,一種是用SQL editor進(jìn)行創(chuàng)建,一種是用package中的創(chuàng)建向?qū)нM(jìn)行創(chuàng)建。通過(guò)SAP Data Services可以實(shí)現(xiàn)對(duì)元數(shù)據(jù)管理的具體功能,如下圖所示另外,CDH中的Navigator來(lái)實(shí)現(xiàn)元數(shù)據(jù)管理的功能,并可以通過(guò)二次開(kāi)發(fā)的方式集成已有的元數(shù)據(jù)管理系統(tǒng)。對(duì)比數(shù)據(jù)集之間的數(shù)據(jù),了解其匹配程度 數(shù)據(jù)分析與挖掘乙方應(yīng)說(shuō)明大數(shù)據(jù)平臺(tái)可以無(wú)縫銜接的分析挖掘軟件產(chǎn)品,并說(shuō)明軟件產(chǎn)品的適用平臺(tái)、功能、操作方式、性能、特點(diǎn)、適用場(chǎng)景和優(yōu)勢(shì)等。對(duì)不同級(jí)別和權(quán)限的用戶使用數(shù)據(jù)、存儲(chǔ)資源、運(yùn)算資源等提供控制功能,可以實(shí)現(xiàn)數(shù)據(jù)訪問(wèn)的權(quán)限控制,存儲(chǔ)和運(yùn)算資源的彈性擴(kuò)展。與R擁有互相認(rèn)證的官方兼容性,用戶可以使用熟悉的R程序在CDH或者HANA平臺(tái)上處理海量數(shù)據(jù),支持開(kāi)源R算法能支持的所有算法。采用B/S架構(gòu),提供中文圖形化界面操作支持,支持當(dāng)前主流瀏覽器。具有處理過(guò)程的數(shù)據(jù)預(yù)覽功能。工作量預(yù)估為2人天對(duì)分析挖掘的腳本和模型共享功能提供支持,可以實(shí)現(xiàn)用戶分析挖掘腳本和模型的發(fā)布與管理。工作量預(yù)估為20人天對(duì)圖形化分析提供支持,并進(jìn)行互動(dòng)操作。支持統(tǒng)計(jì)分析方法。對(duì)模型預(yù)測(cè)功能提供支持。通過(guò)在Hadoop平臺(tái)上進(jìn)行二次開(kāi)發(fā)實(shí)現(xiàn)。并提供這些指標(biāo)的增刪改查等功能,以對(duì)該指標(biāo)庫(kù)進(jìn)行維護(hù)。提供的各種技術(shù)設(shè)計(jì)文檔的內(nèi)容應(yīng)滿足GB85671988《計(jì)算機(jī)軟件產(chǎn)品開(kāi)發(fā)文件編制指南》和GB/T1145789《軟件工程術(shù)語(yǔ)》,文檔錯(cuò)誤的總字?jǐn)?shù)不能超過(guò)文檔總字?jǐn)?shù)的1‰,文檔中不能出現(xiàn)與實(shí)際情況不一致的描述錯(cuò)誤,乙方提供的文檔和資料均應(yīng)以光盤和紙張為載體(各10套),文件為Word文檔、PDF文檔或其他常用可視化文件格式。乙方應(yīng)根據(jù)自己的經(jīng)驗(yàn),并結(jié)合甲方現(xiàn)狀,提供軟硬件部署建議,提出詳細(xì)服務(wù)器要求、存儲(chǔ)容量、網(wǎng)絡(luò)配置、網(wǎng)絡(luò)帶寬建議(主機(jī)CPU利用率不高于75%,I/O平均利用率不高于50%),說(shuō)明計(jì)算方法。3) 存儲(chǔ)數(shù)據(jù)不少于3PB,常用數(shù)據(jù)不少于600TB。CDH支持x86集群,目前支持多種linux操作系統(tǒng),包括:redhat,centos,debian,sles,ubuntu等。詳細(xì)說(shuō)明對(duì)數(shù)據(jù)倉(cāng)庫(kù)相關(guān)能力的支持以及對(duì)現(xiàn)有量收系統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)業(yè)務(wù)的遷移能力以及對(duì)國(guó)際通用標(biāo)準(zhǔn)測(cè)試
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1