freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

hadoop大數(shù)據(jù)平臺-建設(shè)要求及應(yīng)答方案-免費(fèi)閱讀

2025-07-01 07:40 上一頁面

下一頁面
  

【正文】 系統(tǒng)中組件具有良好的跨平臺特性,支持紅旗Linux服務(wù)器版操作系統(tǒng)(Red Flag Asianux Server)的最新版本。詳細(xì)內(nèi)容請參考可靠性和可用性要求部分 開放性和兼容性要求支持Hadoop發(fā)布的多個版本,要求支持部署包括但不限于Hbase,Hive,Oozie、Spark、Yarn、Sqoop、ZooKeeper等各種知名的Hadoop開源組件。平臺內(nèi)部的數(shù)據(jù)不可用(數(shù)據(jù)問題)有以下幾種錯誤可能:硬件故障是分布式系統(tǒng)中最常見的錯誤,恢復(fù)的成本相對較低;用戶、應(yīng)用錯誤導(dǎo)致的數(shù)據(jù)不可用比較少見,修復(fù)的代價稍高;數(shù)據(jù)中心失效導(dǎo)致的數(shù)據(jù)部可用問題更少見,恢復(fù)的成本也最高。并可以監(jiān)控系統(tǒng)的運(yùn)行情況,提高平臺的可靠性,從而提高業(yè)務(wù)運(yùn)營的水平,保證服務(wù)質(zhì)量。節(jié)點(diǎn)數(shù)量決定了集群是如何容錯的。如果你需要進(jìn)行這一操作,你需要知道如下限制:167。 你需要決定是否啟用自動故障恢復(fù)。HDFS的高可用性可以通過兩種方式實(shí)現(xiàn),一種是NFS方案;還有一種是QJM的方案。通過CM工具,可以很容易的在線增加和刪除節(jié)點(diǎn),可以滿足單個集群可線性擴(kuò)展不少于500個計(jì)算節(jié)點(diǎn)、至少能處理3PB數(shù)據(jù)量。HDFS可以實(shí)現(xiàn)大規(guī)模數(shù)據(jù)可靠的分布式讀寫。hadoop系統(tǒng)本身可以支持動態(tài)增加節(jié)點(diǎn),不影響現(xiàn)有系統(tǒng)的正常運(yùn)行。Reduce 函數(shù)接受 Map 函數(shù)生成的列表,然后根據(jù)它們的鍵縮小鍵/值對列表。提供平臺并行及并發(fā)處理能力的實(shí)施方案。用戶可以選擇定期的發(fā)送診斷數(shù)據(jù)給Cloudera,Cloudera會對這些數(shù)據(jù)進(jìn)行分析并及時反饋集群中存在的問題。智能化參數(shù)驗(yàn)證當(dāng)用戶在配置過程中,部分參數(shù)配置值有問題時,Cloudera Manager會產(chǎn)生錯誤提示,以幫助用戶更合理的修改參數(shù)。9) 告警管理功能,出現(xiàn)問題節(jié)點(diǎn)及時告警,并提供主動診斷功能。2) 提供一鍵式的信息收集工具,收集系統(tǒng)日志、配置信息以便于快速定位。整個過程如果由系統(tǒng)管理員手工操作,一個規(guī)模為100臺服務(wù)器的集群通常需要1周左右,300臺服務(wù)器的集群通常需要3周時間。 操作提示當(dāng)集群中出現(xiàn)異常狀態(tài)時,Cloudera Manager會進(jìn)行操作提示,例如下圖中,hive server異常退出,CM提示“該角色的進(jìn)程已退出,預(yù)期狀態(tài)為已啟動”。CM提供了界面化的數(shù)據(jù)備份與災(zāi)難恢復(fù)。167。 集群安裝部署CM提供了強(qiáng)大的Hadoop集群部署能力,能夠批量的自動化部署節(jié)點(diǎn)。需二次開發(fā)。數(shù)據(jù)倉庫平臺可以通過sqoop進(jìn)行集成;報(bào)表平臺可以通過impala進(jìn)行無縫的集成。通過SAP Data Services來實(shí)現(xiàn)和數(shù)據(jù)庫的導(dǎo)入導(dǎo)出功能,但與數(shù)據(jù)庫之間并無耦合以及相互約束的關(guān)系。對客戶端硬件無強(qiáng)制要求。 運(yùn)行環(huán)境要求大數(shù)據(jù)平臺需支持但不局限于以下環(huán)境要求。*應(yīng)支持分布式部署,支持服務(wù)器集群技術(shù)、支持多服務(wù)器負(fù)載均衡,可實(shí)現(xiàn)在線動態(tài)擴(kuò)充,系統(tǒng)性能能夠隨著系統(tǒng)服務(wù)器數(shù)目的增加平滑線性增長。提供相關(guān)測試報(bào)告,詳細(xì)描述集中式部署條件下大規(guī)模并發(fā)處理機(jī)制和關(guān)鍵技術(shù)。通過在Hadoop平臺上進(jìn)行二次開發(fā)實(shí)現(xiàn),工作量預(yù)估為20人天實(shí)現(xiàn)對分析過程的管理。實(shí)現(xiàn)模型預(yù)測功能的分布式并行計(jì)算。需要通過二次開發(fā)來實(shí)現(xiàn)。需要通過二次開發(fā)來實(shí)現(xiàn)。應(yīng)能支持ANSI SQL、Python、R、Java、C/C++等語言的使用。Cloudera整合各種開源組件,包括Spark MLLib,Mahout,Oryx等形成完整的機(jī)器學(xué)習(xí)算法庫,適用于不同場合的機(jī)器學(xué)習(xí)建模等需要;與SAS,R等傳統(tǒng)第三方機(jī)器學(xué)習(xí)軟件擁有互相認(rèn)證的官方兼容性,用戶可以使用熟悉的SAS,R程序在CDH平臺上處理海量數(shù)據(jù)。 數(shù)據(jù)管控 應(yīng)實(shí)現(xiàn)主數(shù)據(jù)管理功能,并集成甲方已有的主數(shù)據(jù)管理系統(tǒng)。超大規(guī)模數(shù)據(jù)立方體、星型模型、雪花模型等,都可以用視圖來表達(dá)。支持中文字符集,實(shí)現(xiàn)中文分詞功能。同時,可以通過二次開發(fā)的方式來支持PL/SQL存儲過程、分布式事務(wù)及ACID屬性及自定義函數(shù)功能。概念“Map(映射)”和“Reduce(化簡)”,及他們的主要思想,都是從函數(shù)式編程語言借來的,還有從矢量編程語言借來的特性。 數(shù)據(jù)計(jì)算方面1) 實(shí)現(xiàn)對多計(jì)算框架管理的支持功能。在Cloudera管理平臺中可以非常簡單地進(jìn)行快照創(chuàng)建、恢復(fù)以及刪除快照,也可以配置快照任務(wù)。Navigator模塊,是唯一原生在Hadoop生態(tài)系統(tǒng)上的并提供全面數(shù)據(jù)管理服務(wù)的一套解決方案。一個典型的HDFS集群包含一個NameNode節(jié)點(diǎn)和多個DataNode節(jié)點(diǎn)。11) 數(shù)據(jù)自定義標(biāo)簽管理功能。5) 多數(shù)據(jù)副本管理功能。 Flume是一個分布式、可靠、和高可用的海量日志采集、聚合和傳輸?shù)南到y(tǒng)??梢酝ㄟ^CDH提供的數(shù)據(jù)采集組件來實(shí)現(xiàn)各種數(shù)據(jù)的接入。ZooKeeper提供自動的故障切換,增加了服務(wù)的彈性。使用HDFS提供了更簡單,基數(shù)更大,冗余和容錯的供應(yīng)。使用工作流的可視化的方式對工作任務(wù)進(jìn)行統(tǒng)一編排和調(diào)度。Navigator審計(jì)服務(wù)器執(zhí)行以下功能:■ 跟蹤和合并事件■ 存儲事件給審計(jì)數(shù)據(jù)庫■ 數(shù)據(jù)處理過程追溯數(shù)據(jù)的備份與恢復(fù)是企業(yè)級系統(tǒng)非常關(guān)鍵的功能,能夠保障異常故障情況下,數(shù)據(jù)的完整性。而Cloudera Impala和Sentry則自己收集和過濾審核事件,并直接將其寫入審計(jì)日志文件。? 日志介紹如何訪問日志中的各種考慮到你正在查看當(dāng)前上下文的方式。? 事件活動監(jiān)控界面可以查看事件,并使它們用于報(bào)警和搜索,使得系統(tǒng)管理員可以深入了解發(fā)生集群范圍內(nèi)所有相關(guān)事件的歷史記錄。Cloudera Manager提供了許多監(jiān)控功能,用于監(jiān)測群集(主機(jī),服務(wù)守護(hù)進(jìn)程)健康、組件性能以及集群中運(yùn)行的作業(yè)的性能和資源需求。6) 實(shí)現(xiàn)平臺日志管理??梢曰趛arn進(jìn)行二次開發(fā),以滿足上述的各種租戶管理需求。ApplicationMaster 負(fù)責(zé)協(xié)調(diào)來自 ResourceManager 的資源,并通過 NodeManager 監(jiān)視容器的執(zhí)行和資源使用(CPU、內(nèi)存等的資源分配)。實(shí)現(xiàn)應(yīng)用的訪問資源控制,支持資源隔離。通過Data Services ETL工具,可以與現(xiàn)有的oracle以及teradata數(shù)據(jù)倉庫進(jìn)行無縫連接。 Flume是一個分布式、可靠、和高可用的海量日志采集、聚合和傳輸?shù)南到y(tǒng)。同時,這個語言也允許熟悉 MapReduce 開發(fā)者的開發(fā)自定義的 mapper 和 reducer 來處理內(nèi)建的 mapper 和 reducer 無法完成的復(fù)雜的分析工作。MapReduce 是用于并行處理大數(shù)據(jù)集的軟件框架。若乙方的方案建議及有關(guān)配置符合相關(guān)國際或行業(yè)標(biāo)準(zhǔn),則應(yīng)在應(yīng)答書中具體說明,并附上相應(yīng)的詳細(xì)技術(shù)資料。 數(shù)據(jù)處理:MapReduce, Impala, Spark167。并且數(shù)據(jù)種類可以是結(jié)構(gòu)化,半結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù)。 平臺管理:Zookeeper, YARN167。167。HBase是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統(tǒng),它利用Hadoop HDFS作為其文件存儲系統(tǒng),利用Hadoop MapReduce來處理HBase中的海量數(shù)據(jù),利用Zookeeper作為協(xié)同服務(wù)。Hive是建立在 Hadoop 上的數(shù)據(jù)倉庫基礎(chǔ)構(gòu)架。Spark使用inmemory的計(jì)算方式,通過這種方式來避免一個Mapreduce工作流中的多個任務(wù)對同一個數(shù)據(jù)集進(jìn)行計(jì)算時的IO瓶頸。4) Hadoop系統(tǒng)應(yīng)實(shí)現(xiàn)主流數(shù)據(jù)倉庫的功能。同時,這個語言也允許熟悉 MapReduce 開發(fā)者的開發(fā)自定義的 mapper 和 reducer 來處理內(nèi)建的 mapper 和 reducer 無法完成的復(fù)雜的分析工作。ResourceManager 還與 ApplicationMaster 一起分配資源,與 NodeManager 一起啟動和監(jiān)視它們的基礎(chǔ)應(yīng)用程序。NodeManager 提供針對集群中每個節(jié)點(diǎn)的服務(wù),從監(jiān)督對一個容器的終生管理到監(jiān)視資源和跟蹤節(jié)點(diǎn)健康。3) 可視化監(jiān)控管理集群節(jié)點(diǎn)。10) 實(shí)現(xiàn)數(shù)據(jù)處理過程追溯。匯總視圖中顯示了所有主機(jī)群集,并且可以進(jìn)一步查看單個主機(jī)豐富的細(xì)節(jié),包括顯示主機(jī)關(guān)鍵指標(biāo)的直觀圖表。? 審計(jì)事件Cloudera Manager記錄了有關(guān)服務(wù)、角色和主機(jī)的生命周期的事件,如創(chuàng)建角色或服務(wù)、修改角色或服務(wù)配置、退役主機(jī)和運(yùn)行Cloudera Manager管理服務(wù)命令等等。同時系統(tǒng)管理員還可以管理包括搜索和配額等HDFS目錄設(shè)置。 CM代理記錄并跟蹤審計(jì)日志中當(dāng)前成功發(fā)送的的審計(jì)事件,因此及時出現(xiàn)任何崩潰或重新啟動,只需找到上次成功發(fā)送審計(jì)事件的位置,然后就可以重新開始發(fā)送。周期性的服務(wù)診斷CM會對集群中運(yùn)行的服務(wù)進(jìn)行周期性的運(yùn)行狀況測試。包括但不限于半/非結(jié)構(gòu)化數(shù)據(jù)的采集管理、數(shù)據(jù)內(nèi)容搜索、數(shù)據(jù)生命周期管理、數(shù)據(jù)加工管理、數(shù)據(jù)存儲管理、對外接口、混合查詢、實(shí)時監(jiān)控、自然語言查詢、智能化知識檢索功能可以通過基于flume進(jìn)行二次開發(fā)來滿足半/非結(jié)構(gòu)化數(shù)據(jù)的采集管理。組件貢獻(xiàn)HDFS源文檔一般被存放在HDFS中。Job為可擴(kuò)展的批量索引優(yōu)化了集群資源。2) 實(shí)現(xiàn)大數(shù)據(jù)平臺內(nèi)各存儲區(qū)之間的數(shù)據(jù)交換功能。2) 支持不同頻度、不同形態(tài)的企業(yè)內(nèi)外部數(shù)據(jù)采集。3) 數(shù)據(jù)生命周期管理功能。8) 多種數(shù)據(jù)分區(qū)管理功能。它具有高容錯性的特點(diǎn),可以被廣泛的部署于廉價的PC之上。HDFS保證一個文件在一個時刻只被一個調(diào)用者執(zhí)行寫操作,而可以被多個調(diào)用者執(zhí)行讀操作。HDFS上的批量索引HDFS實(shí)時索引HBase上的實(shí)時批量索引Cloudera平臺中的有全方位的數(shù)據(jù)備份策略,保障數(shù)據(jù)的高可靠性,有三個維度來保障數(shù)據(jù)問題導(dǎo)致的數(shù)據(jù)的不可用:? HDFS固有的分片冗余技術(shù)Hadoop在設(shè)計(jì)是就已經(jīng)考慮集群的容錯,包含磁盤、節(jié)點(diǎn)、網(wǎng)絡(luò)和機(jī)柜錯誤,任何單一設(shè)備的故障不會導(dǎo)致數(shù)據(jù)的不可用,而且HDFS會觸發(fā)自動的數(shù)據(jù)分片恢復(fù)過程。工作量預(yù)估為5人天 數(shù)據(jù)清洗方面實(shí)現(xiàn)數(shù)據(jù)清洗功能。3) 支持PL/SQL存儲過程、分布式事務(wù)及ACID屬性及自定義函數(shù)功能。Reduce 函數(shù)接受 Map 函數(shù)生成的列表,然后根據(jù)它們的鍵縮小鍵/值對列表。同時詳細(xì)說明對SQL語言的擴(kuò)展情況。前一種方式是本方案的核心。也支持結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)間的聯(lián)合查詢。通過Data Services來實(shí)現(xiàn)數(shù)據(jù)質(zhì)量評估功能。對R語言提供支持。實(shí)現(xiàn)對TB以上級別的數(shù)據(jù)進(jìn)行分析挖掘的功能,應(yīng)對分析挖掘中的中間數(shù)據(jù)和結(jié)果數(shù)據(jù)的靈活存儲提供支持,應(yīng)對多數(shù)據(jù)來源輸入輸出提供支持。工作量預(yù)估為2人天對數(shù)據(jù)的探索和發(fā)現(xiàn)提供支持,可以通過作圖、制表、方程擬合、計(jì)算特征量等手段探索數(shù)據(jù)結(jié)構(gòu)和規(guī)律的功能。實(shí)現(xiàn)數(shù)據(jù)挖掘功能的分布式并行計(jì)算。通過在Hadoop平臺上進(jìn)行二次開發(fā)實(shí)現(xiàn)。 總體架構(gòu)根據(jù)以下內(nèi)容提出大數(shù)據(jù)平臺技術(shù)解決方案。*服務(wù)器采用x86集群,詳細(xì)描述軟硬件的基礎(chǔ)構(gòu)件平臺,主要包括架構(gòu)、接口等。系統(tǒng)要求層次化、模塊化,做到層次清晰,模塊合理,模塊可靈活抽取替換,模塊與模塊之間關(guān)系明確,詳細(xì)描述平臺系統(tǒng)內(nèi)部模塊之間的集成方式,包括模塊之間的通訊機(jī)制、接入策略等,并說明如何實(shí)現(xiàn)內(nèi)部模塊重組。 Cloudrea支持的主流操作系統(tǒng)以及版本情況如下表所示:乙方提供的軟件應(yīng)支持甲方現(xiàn)有軟件平臺并說明支持情況,包括:Oracle、Weblogic、Tuxedo、Tibco ESB、Cognos、Cordys、Informatica、B2B、Ilog、Altibase內(nèi)存數(shù)據(jù)庫等。工作量預(yù)估為20人天、FIREFOX、OPERA、CHROME等主流瀏覽器,客戶端插件的大小限制在10MB以內(nèi)。導(dǎo)出文件應(yīng)支持TXT、WPS、微軟OFFICE、PDF等格式;導(dǎo)入文件應(yīng)支持TXT、WPS、微軟OFFICE、DBF等格式。工作量預(yù)估為10人天提供內(nèi)置的服務(wù)注冊功能,能夠?qū)⒁延械耐獠縒ebService進(jìn)行注冊、調(diào)用,同時能夠?qū)⒍x的服務(wù)以WebService方式對外暴露,供其它應(yīng)用調(diào)用。Cloudera Manager為數(shù)據(jù)平臺提供了全方位的管理,監(jiān)控和運(yùn)維支持。CM針對這種情況提供了界面化的參數(shù)配置功能,并且能夠自動的部署到每個節(jié)點(diǎn)。167。167。但是,通常業(yè)務(wù)系統(tǒng)都是在線的生產(chǎn)系統(tǒng),需要24小時不間斷的提供對外服務(wù)。通過逐個節(jié)點(diǎn)升級的方式,保證集群的對外服務(wù)功能,并且最終完成整個集群的升級。6) 提供軟件產(chǎn)品服務(wù)進(jìn)程的運(yùn)行情況監(jiān)控,發(fā)生服務(wù)失效或宕機(jī)的情況予以告警,并提示不能正常運(yùn)行的服務(wù)或進(jìn)程。節(jié)點(diǎn)級別監(jiān)控CM能夠支持節(jié)點(diǎn)級別的詳細(xì)信息查看,包括該節(jié)點(diǎn)的硬件信息:網(wǎng)絡(luò),硬盤等。集群診斷CM在Hadoop集群運(yùn)行期間,會記錄集群中發(fā)生的事件,例如集群服務(wù)的啟停,用戶的操作,性能數(shù)據(jù)等等。 個 系統(tǒng)級 請求時延10毫秒次數(shù) 請求響應(yīng)時間小于或等于10毫秒的請求次數(shù) 次 系統(tǒng)級/ 請求時延2000毫秒次數(shù) 請求響應(yīng)時間小于或等于2000毫秒的請求次數(shù) 次 系統(tǒng)級/ 請求時延2000毫秒以上次數(shù) 請求響應(yīng)時間大于2000毫秒的請求次數(shù) 次 系統(tǒng)級/ 讀IO次數(shù) 讀IO次數(shù) 次 節(jié)點(diǎn)級 寫IO次數(shù) 寫IO次數(shù) 次 節(jié)點(diǎn)級 IO次數(shù) 節(jié)點(diǎn)IO次數(shù)(讀寫IO次數(shù)總和) 次 節(jié)點(diǎn)級 性能要求支持高性能計(jì)算處理,且性能應(yīng)能隨節(jié)點(diǎn)數(shù)呈線性增長。MapReduce 是用于并行處理大數(shù)據(jù)集的軟件框架。 擴(kuò)展性要求支持?jǐn)?shù)據(jù)量彈性伸縮,考慮數(shù)據(jù)量增大或者減小情況,存儲容量能夠動態(tài)不停機(jī)擴(kuò)容,擴(kuò)容時現(xiàn)有系統(tǒng)可以不間斷正常運(yùn)行,不受擴(kuò)容影響。一個典型的HDFS集群包含一個NameNode節(jié)點(diǎn)和多個DataNode節(jié)點(diǎn)。工作量預(yù)估為5人天提供對數(shù)據(jù)并行計(jì)算的擴(kuò)展,數(shù)據(jù)自動在集群中進(jìn)行數(shù)據(jù)并行計(jì)算。 可靠性和可用性要求不允
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1