freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

hadoop大數(shù)據(jù)平臺-建設(shè)要求及應答方案(已修改)

2025-06-19 07:40 本頁面
 

【正文】 Hadoop大數(shù)據(jù)平臺建設(shè)要求及應答方案目錄2 技術(shù)規(guī)范書應答書 2 業(yè)務功能需求 4 系統(tǒng)管理架構(gòu) 4 數(shù)據(jù)管理 12 數(shù)據(jù)管控 26 數(shù)據(jù)分析與挖掘 27 技術(shù)要求 30 總體要求 30 總體架構(gòu) 31 運行環(huán)境要求 32 客戶端要求 35 數(shù)據(jù)要求 36 集成要求 36 運維要求 37 性能要求 49 擴展性要求 50 可靠性和可用性要求 52 開放性和兼容性要求 57 安全性要求 59 1 大數(shù)據(jù)平臺技術(shù)規(guī)范要求高度集成的Hadoop平臺:一個整體的數(shù)據(jù)存儲和計算平臺,無縫集成了基于Hadoop的大量生態(tài)工具,不同業(yè)務可以集中在一個平臺內(nèi)完成,而不需要在處理系統(tǒng)間移動數(shù)據(jù);用廉價的PC服務器架構(gòu)統(tǒng)一的存儲平臺,能存儲PB級海量數(shù)據(jù)。并且數(shù)據(jù)種類可以是結(jié)構(gòu)化,半結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù)。存儲的技術(shù)有SQL及NoSQL,并且NoSQL能提供企業(yè)級的安全方案。CDH提供統(tǒng)一的資源調(diào)度平臺,能夠利用最新的資源調(diào)度平臺YARN分配集群中CPU,內(nèi)存等資源的調(diào)度,充分利用集群資源;多樣的數(shù)據(jù)分析平臺 –能夠針對不用的業(yè)務類型提供不同的計算框架,比如針對批處理的MapReduce計算框架;針對交互式查詢的Impala MPP查詢引擎;針對內(nèi)存及流計算的Spark框架;針對機器學習,數(shù)據(jù)挖掘等業(yè)務的訓練測試模型;針對全文檢索的Solr搜索引擎項目中所涉及的軟件包括: Hadoop軟件(包括而不限于Hadoop核心)167。 數(shù)據(jù)采集層:Apache Flume, Apache Sqoop167。 平臺管理:Zookeeper, YARN167。 安全管理:Apache Sentry167。 數(shù)據(jù)存儲:HDFS, HBase, Parquet 167。 數(shù)據(jù)處理:MapReduce, Impala, Spark167。 開發(fā)套件:Apache Hue, Kite SDK 關(guān)系型數(shù)據(jù)庫系統(tǒng):SAP HANA企業(yè)版 ETL工具:SAP Data Services數(shù)據(jù)管控系統(tǒng)的二次開發(fā)量如下:167。 主數(shù)據(jù)管理功能通過二次開發(fā)的方式實現(xiàn)主數(shù)據(jù)管理功能,并集成甲方已有的主數(shù)據(jù)管理系統(tǒng)。167。 應實現(xiàn)元數(shù)據(jù)管理功能, 乙方應明確提出所能提供的項目團隊在集成實施各階段的人員參與數(shù)量和分工組成。提供人員的資質(zhì)、級別以及在項目中的工作時間、工作內(nèi)容。若乙方的方案建議及有關(guān)配置符合相關(guān)國際或行業(yè)標準,則應在應答書中具體說明,并附上相應的詳細技術(shù)資料。若乙方的軟件產(chǎn)品包含自己專用標準,也應在應答書中具體說明,并附上相應的詳細技術(shù)資料。HDFS( Hadoop Distributed File System),是一個分布式文件系統(tǒng)。它具有高容錯性的特點,可以被廣泛的部署于廉價的PC之上。它以流式訪問模式訪問應用程序的數(shù)據(jù),這大大提高了整個系統(tǒng)的數(shù)據(jù)吞吐量,能夠滿足多來源、多類型、海量的數(shù)據(jù)存儲要求,因而非常適用于日志詳單類非結(jié)構(gòu)化數(shù)據(jù)的存儲。HBase是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統(tǒng),它利用Hadoop HDFS作為其文件存儲系統(tǒng),利用Hadoop MapReduce來處理HBase中的海量數(shù)據(jù),利用Zookeeper作為協(xié)同服務。HBase 不是一個關(guān)系型數(shù)據(jù)庫,其設(shè)計目標是用來解決關(guān)系型數(shù)據(jù)庫在處理海量數(shù)據(jù)時的理論和實現(xiàn)上的局限性。HBase 從一開始就是為 Terabyte 到 Petabyte 級別的海量數(shù)據(jù)存儲和高速讀寫而設(shè)計,這些數(shù)據(jù)要求能夠被分布在數(shù)千臺普通服務器上,并且能夠被大量并發(fā)用戶高速訪問。MapReduce 是用于并行處理大數(shù)據(jù)集的軟件框架。 MapReduce 的根源是函數(shù)性編程中的 map 和 reduce 函數(shù)。Map 函數(shù)接受一組數(shù)據(jù)并將其轉(zhuǎn)換為一個鍵/值對列表,輸入域中的每個元素對應一個鍵/值對。Reduce 函數(shù)接受 Map 函數(shù)生成的列表,然后根據(jù)它們的鍵縮小鍵/值對列表。MapReduce起到了將大事務分散到不同設(shè)備處理的能力,這樣原本必須用單臺較強服務器才能運行的任務,在分布式環(huán)境下也能完成了。Hive是建立在 Hadoop 上的數(shù)據(jù)倉庫基礎(chǔ)構(gòu)架。它提供了一系列的工具,可以用來進行數(shù)據(jù)提取轉(zhuǎn)化加載(ETL),這是一種可以存儲、查詢和分析存儲在 Hadoop 中的大規(guī)模數(shù)據(jù)的機制。Hive 定義了簡單的類 SQL 查詢語言,稱為 HQL,它允許熟悉 SQL 的用戶查詢數(shù)據(jù)。同時,這個語言也允許熟悉 MapReduce 開發(fā)者的開發(fā)自定義的 mapper 和 reducer 來處理內(nèi)建的 mapper 和 reducer 無法完成的復雜的分析工作。Impala是運行于Apache Hadoop之上業(yè)界領(lǐng)先的大規(guī)模并行處理(MPP)SQL查詢引擎,它將時下流行的分布式并行數(shù)據(jù)庫技術(shù)和Hadoop進行結(jié)合,幫助用戶能夠直接查詢存儲于Hdfs和Hbase的數(shù)據(jù)而不用進行數(shù)據(jù)遷移或者轉(zhuǎn)變。 Impala設(shè)計之初就定位為Hadoop生態(tài)系統(tǒng)的一部分,因此,Impala和MapReduce,Hive,Pig以及Hadoop的其他組件,都享有共同的靈活的文件和數(shù)據(jù)格式。Spark提供了一個快速的計算,寫入,以及交互式查詢的框架。相比于Hadoop,Spark擁有明顯的性能優(yōu)勢。Spark使用inmemory的計算方式,通過這種方式來避免一個Mapreduce工作流中的多個任務對同一個數(shù)據(jù)集進行計算時的IO瓶頸。Spark利用Scala語言實現(xiàn),Scala能夠使得處理分布式數(shù)據(jù)集時,能夠像處理本地化數(shù)據(jù)一樣Sqoop是一個用來將Hadoop和關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)相互轉(zhuǎn)移的工具,可以將一個關(guān)系型數(shù)據(jù)庫(例如 : MySQL ,Oracle ,Postgres等)中的數(shù)據(jù)導進到Hadoop的HDFS中,也可以將HDFS的數(shù)據(jù)導進到關(guān)系型數(shù)據(jù)庫中。Flume支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù);同時,F(xiàn)lume提供對數(shù)據(jù)進行簡單處理,并寫到各種數(shù)據(jù)接受方(可定制)的能力。 Flume是一個分布式、可靠、和高可用的海量日志采集、聚合和傳輸?shù)南到y(tǒng)。 業(yè)務功能需求 系統(tǒng)管理架構(gòu) 整體架構(gòu)方面1) 大數(shù)據(jù)平臺支持集團總部、省和地市三級使用方式。使用單位還包括下屬單位和控股公司等。2) 設(shè)計大數(shù)據(jù)平臺整體框架,提出的建設(shè)方案應描述大數(shù)據(jù)平臺對外提供的應用服務,平臺內(nèi)部服務組件,各服務組件之間的關(guān)系,大數(shù)據(jù)平臺數(shù)據(jù)流量流向等。3) 實現(xiàn)Hadoop系統(tǒng)與甲方現(xiàn)有Oracle數(shù)據(jù)庫及TeraData數(shù)據(jù)倉庫的無縫連接。4) Hadoop系統(tǒng)應實現(xiàn)主流數(shù)據(jù)倉庫的功能。大數(shù)據(jù)平臺建立后,會包含集團內(nèi)部全量分析數(shù)據(jù),并且支持大量并發(fā)分析操作,因此能夠大數(shù)據(jù)平臺支持集團總部、省和地市三級使用方式。使用單位還包括下屬單位和控股公司等。通過Data Services ETL工具,可以與現(xiàn)有的oracle以及teradata數(shù)據(jù)倉庫進行無縫連接。并且Hive組件可以提供主流數(shù)據(jù)倉庫的功能。Hive是建立在 Hadoop 上的數(shù)據(jù)倉庫基礎(chǔ)構(gòu)架。它提供了一系列的工具,可以用來進行數(shù)據(jù)提取轉(zhuǎn)化加載(ETL),這是一種可以存儲、查詢和分析存儲在 Hadoop 中的大規(guī)模數(shù)據(jù)的機制。Hive 定義了簡單的類 SQL 查詢語言,稱為 HQL,它允許熟悉 SQL 的用戶查詢數(shù)據(jù)。同時,這個語言也允許熟悉 MapReduce 開發(fā)者的開發(fā)自定義的 mapper 和 reducer 來處理內(nèi)建的 mapper 和 reducer 無法完成的復雜的分析工作。 多應用方面實現(xiàn)大數(shù)據(jù)平臺多應用管理。支持對應用的服務級別管理(SLA)。實現(xiàn)應用的訪問資源控制,支持資源隔離。為了實現(xiàn)一個 Hadoop 集群的集群共享、可伸縮性和可靠性,并消除早期MapReduce框架中的JobTracker性能瓶頸,開源社區(qū)引入了統(tǒng)一的資源管理框架YARN。YARN 分層結(jié)構(gòu)的本質(zhì)是 ResourceManager。這個實體控制整個集群并管理應用程序向基礎(chǔ)計算資源的分配。ResourceManager 將各個資源部分(計算、內(nèi)存、帶寬等)精心安排給基礎(chǔ) NodeManager(YARN 的每節(jié)點代理)。ResourceManager 還與 ApplicationMaster 一起分配資源,與 NodeManager 一起啟動和監(jiān)視它們的基礎(chǔ)應用程序。在此上下文中,ApplicationMaster 承擔了以前的 TaskTracker 的一些角色,ResourceManager 承擔了 JobTracker 的角色。ApplicationMaster 管理一個在 YARN 內(nèi)運行的應用程序的每個實例。ApplicationMaster 負責協(xié)調(diào)來自 ResourceManager 的資源,并通過 NodeManager 監(jiān)視容器的執(zhí)行和資源使用(CPU、內(nèi)存等的資源分配)。請注意,盡管目前的資源更加傳統(tǒng)(CPU 核心、內(nèi)存),但未來會帶來基于手頭任務的新資源類型(比如圖形處理單元或?qū)S锰幚碓O(shè)備)。從 YARN 角度講,ApplicationMaster 是用戶代碼,因此存在潛在的安全問題。YARN 假設(shè) ApplicationMaster 存在錯誤或者甚至是惡意的,因此將它們當作無特權(quán)的代碼對待。NodeManager 管理一個 YARN 集群中的每個節(jié)點。NodeManager 提供針對集群中每個節(jié)點的服務,從監(jiān)督對一個容器的終生管理到監(jiān)視資源和跟蹤節(jié)點健康。MRv1 通過插槽管理 Map 和 Reduce 任務的執(zhí)行,而 NodeManager 管理抽象容器,這些容器代表著可供一個特定應用程序使用的針對每個節(jié)點的資源。 多租戶方面實現(xiàn)大數(shù)據(jù)平臺的多租戶功能,包括但不限于多租戶管理、租戶的操作員管理、租戶的分等分級分組管理、租戶的度量管理、租戶的角色管理、租戶應用授權(quán)、租戶數(shù)據(jù)隔離、租戶的資源隔離等功能??梢曰趛arn進行二次開發(fā),以滿足上述的各種租戶管理需求。工作量預估為20人天。 *統(tǒng)一運維監(jiān)控方面1) 統(tǒng)一運維監(jiān)控功能包括但不限于:安全管理、用戶管理、監(jiān)控運維、服務調(diào)度、應用部署、資源管理、作業(yè)編排、服務接口等。2) 實現(xiàn)圖形化監(jiān)控管理。監(jiān)控內(nèi)容包括但不限于:集群節(jié)點的運行狀態(tài)、資源利用情況、網(wǎng)絡通訊情況、圖形化的啟動、停止、刪除節(jié)點、新增節(jié)點、遷移任務、遷移數(shù)據(jù)等操作。3) 可視化監(jiān)控管理集群節(jié)點。4) 可視化監(jiān)控管理數(shù)據(jù)對象。5) 可視化的租戶管理。6) 實現(xiàn)平臺日志管理。7) 實現(xiàn)平臺審計管理。8) 實現(xiàn)告警管理。對問題源及時報警,并提供主動診斷功能。9) 對數(shù)據(jù)的備份與恢復管理。10) 實現(xiàn)數(shù)據(jù)處理過程追溯。Cloudera提供了Web界面操作接口HUE,上層用戶可以只用可視化的方式訪問數(shù)據(jù)、提交任務等。HUE集成了用戶訪問控制,支持多租戶隔離。Cloudera Manager提供了許多監(jiān)控功能,用于監(jiān)測群集(主機,服務守護進程)健康、組件性能以及集群中運行的作業(yè)的性能和資源需求。具體包括以下監(jiān)控功能:? 服務監(jiān)控查看服務和角色實例級別健康檢查的結(jié)果,并通過圖表顯示,有助于診斷問題。如果健康檢查發(fā)現(xiàn)某個組件的狀態(tài)需要特別關(guān)注甚至已經(jīng)出現(xiàn)問題,系統(tǒng)會對管理員應該采取的行動提出建議。同時,系統(tǒng)管理員還可以查看上的服務或角色上操作的執(zhí)行歷史,也可以查看配置更改的審計日志。? 主機監(jiān)控監(jiān)控群集內(nèi)所有??主機的有關(guān)信息,包括:哪些主機上線或下線,主機上目前消耗的內(nèi)存,主機上運行的角色實例分配,不同的機架上的主機分配等等。匯總視圖中顯示了所有主機群集,并且可以進一步查看單個主機豐富的細節(jié),包括顯示主機關(guān)鍵指標的直觀圖表。? 行為監(jiān)控Cloudera Manager提供了列表以及圖表的方式來查看集群上進行的活動,不僅顯示當前正在執(zhí)行的任務行為,還可以通過儀表盤查看歷史活動。同時提供了各個作業(yè)所使用資源的許多統(tǒng)計,系統(tǒng)管理員可以通過比較相似任務的不同性能數(shù)據(jù)以及比較查看同一任務中不同執(zhí)行的性能數(shù)據(jù)來診斷性能問題或行為問題。? 事件活動監(jiān)控界面可以查看事件,并使它們用于報警和搜索,使得系統(tǒng)管理員可以深入了解發(fā)生集群范圍內(nèi)所有相關(guān)事件的歷史記錄。系統(tǒng)管理員可以通過時間范圍、服務、主機、關(guān)鍵字等字段信息過濾事件。? 報警通過配置Cloudera Manager可以對指定的事件產(chǎn)生警報。系通過管理員可以針對關(guān)鍵事件配置其報警閾值、啟用或禁用報警等,并通過電子郵件或者通過SNMP的事件得到制定的警報通知。系統(tǒng)也可以暫時抑制報警事件,此限制可以基于個人角色、服務、主機、甚至整個集群配置,使得進行系統(tǒng)維護/故障排除時不會產(chǎn)生過多的警報流量。? 審計事件Cloudera Manager記錄了有關(guān)服務、角色和主機的生命周期的事件,如創(chuàng)建角色或服務、修改角色或服務配置、退役主機和運行Cloudera Manager管理服務命令等等。系統(tǒng)管理員可以通過管理員終端查看,界面提供了按時間范圍、服務、主機、關(guān)鍵字等字段信息來過濾審計事件條目。? 可視化的時間序列數(shù)據(jù)圖表系統(tǒng)管理員可以通過搜索度量數(shù)據(jù),系統(tǒng)將根據(jù)指定規(guī)則創(chuàng)建數(shù)據(jù),組(方面)數(shù)據(jù)的圖表,并把這些圖表保存到用戶自定義的儀表板。? 日志介紹如何訪問日志中的各種考慮到你正在查看當前上下文的方式。例如,監(jiān)控服務時,你可以輕松地點擊一個鏈接,查看相關(guān)的特定服務的日志條目,通過相同的用戶界面。當查看關(guān)于用戶的活動信息,您可以方便地查看了作業(yè)運行時所用的作業(yè)的主機上發(fā)生的相關(guān)日志條目。? 報告Cloudera Manager可以將收集到的歷史監(jiān)控數(shù)據(jù)統(tǒng)計生成報表,比如按目錄查看集群作業(yè)活動的用戶、按組或作業(yè)ID查看有關(guān)用戶的磁盤利用率,用戶組的歷史信息等。這些報告可以根據(jù)選定的時間段(每小時,每天,每周,等等)匯總數(shù)據(jù),并可以導出為XLS或CSV文件。同時系統(tǒng)管理員還可以管理包括搜索和配額等HDFS目錄設(shè)置。Cloudera Navigator的審
點擊復制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
公安備案圖鄂ICP備17016276號-1