freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

hadoop大數(shù)據(jù)平臺-建設(shè)要求及應(yīng)答方案(存儲版)

2025-07-07 07:40上一頁面

下一頁面
  

【正文】 許存在單點(diǎn)故障,應(yīng)采用高可靠設(shè)計(jì)架構(gòu),任一節(jié)點(diǎn)出現(xiàn)故障時(shí),不影響應(yīng)用的正常運(yùn)行,并在監(jiān)控頁面上對錯(cuò)誤狀態(tài)進(jìn)行顯示標(biāo)識。 Cloudera推薦你把JournalNode部署在元數(shù)據(jù)節(jié)點(diǎn)上(Primary NameNode、Standby NameNode、JobTracker等)原因在于Standby NameNode可提供此類檢查點(diǎn)的服務(wù)。 來自非高可用性集群的DataNode的之前所在目錄不可被刪除。發(fā)生切換過程時(shí),通過HANA Stuido可以監(jiān)控到各個(gè)節(jié)點(diǎn)的狀態(tài),查看整個(gè)切換過程。通過在主機(jī)、存儲、網(wǎng)絡(luò)、應(yīng)用等多個(gè)層面設(shè)置高可用性,可以將系統(tǒng)可用度提升到這個(gè)級別。? 數(shù)據(jù)中心間的遠(yuǎn)程災(zāi)備功能Cloudera提供了BDR管理界面方便用戶進(jìn)行HDFS,Hive,Impala的數(shù)據(jù)備份功能。作為第一個(gè)商業(yè)化Hadoop的軟件供應(yīng)商,在所有商業(yè)化的Hadoop里,Cloudera的Committer數(shù)量也是最多的。2) 支持常見的數(shù)據(jù)可視化工具集成,例如Tableau,Pentaho,Zoomdata等。如對開源社區(qū)有代碼貢獻(xiàn),應(yīng)提供相應(yīng)證明資料。? HDFS的快照、權(quán)限控制以及回收站功能快照是指保存特定時(shí)間點(diǎn)的系統(tǒng)狀況,之后如果發(fā)生用戶或者應(yīng)用的誤操作,可以通過之前保存的快照數(shù)據(jù)恢復(fù)??梢酝ㄟ^平臺本身的快照和備份恢復(fù)功能來達(dá)到要求。例如,如果集群中有3個(gè)JournalNode,則允許失敗且的節(jié)點(diǎn)數(shù)量是1,且失敗后可繼續(xù)提供服務(wù)。 來自非高可用性集群的DataNode和NameNode在啟用高可用性后,不可從之前所在機(jī)架中刪除。 Standby NameNode和Primary NameNode必須具有相同的硬件配置,包括CPU、內(nèi)存和磁盤大小。提供節(jié)點(diǎn)的動(dòng)態(tài)添加、刪除接口,當(dāng)數(shù)據(jù)容量或者計(jì)算資源不足時(shí),支持通過橫向添加同等配置的服務(wù)器的方式,為系統(tǒng)進(jìn)行在線擴(kuò)容。其主要特性如下:? 靈活:統(tǒng)一的存儲可以存放結(jié)構(gòu)化,半結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù)? 可擴(kuò)展:根據(jù)業(yè)務(wù)需要增加PC服務(wù)器實(shí)現(xiàn)存儲擴(kuò)容? 容錯(cuò):數(shù)據(jù)有多個(gè)副本以保障數(shù)據(jù)的可靠性? 開放:基于開源的存儲格式,避免廠商鎖定提供靈活的擴(kuò)展,如復(fù)雜數(shù)據(jù)類型,擴(kuò)展函數(shù)和腳本等。它以流式訪問模式訪問應(yīng)用程序的數(shù)據(jù),這大大提高了整個(gè)系統(tǒng)的數(shù)據(jù)吞吐量,能夠滿足多來源、多類型、海量的數(shù)據(jù)存儲要求,因而非常適用于日志詳單類非結(jié)構(gòu)化數(shù)據(jù)的存儲。提供具有圖形化的性能調(diào)優(yōu)工具,并提供持續(xù)調(diào)優(yōu)的策略、方法。概念“Map(映射)”和“Reduce(化簡)”,及他們的主要思想,都是從函數(shù)式編程語言借來的,還有從矢量編程語言借來的特性。Cloudera Manager提供多達(dá)102類監(jiān)控指標(biāo)(部分指標(biāo)見下表),覆蓋所有的服務(wù)及功能,包括集群硬件使用情況(網(wǎng)絡(luò)、CPU、內(nèi)存以及硬盤等)、服務(wù)狀態(tài)等,同時(shí)指標(biāo)按集群級別、主機(jī)級別、用戶級別以及表/目錄級別等等分級統(tǒng)計(jì),總指標(biāo)項(xiàng)上萬,比如:集群指標(biāo)超過3000個(gè)、HBase系統(tǒng)級指標(biāo)就超過1000個(gè)、HDFS系統(tǒng)級指標(biāo)超過300個(gè)等等。以檢測這些服務(wù)的狀態(tài)是否正常。實(shí)時(shí)監(jiān)控集群以及服務(wù)的狀態(tài)如上圖所示,CM會實(shí)時(shí)的對集群的各項(xiàng)服務(wù)進(jìn)行監(jiān)控,一旦服務(wù)出現(xiàn)了異常,將會產(chǎn)生告警。5) 提供文件系統(tǒng)使用情況、數(shù)據(jù)庫使用空間的監(jiān)控功能,提供瞬時(shí)值和一段時(shí)間的變化情況,提供曲線圖。其原理是在升級時(shí),首先停掉一個(gè)節(jié)點(diǎn),然后進(jìn)行升級,然后再啟動(dòng),然后循環(huán)的進(jìn)行下一個(gè)節(jié)點(diǎn)的升級。軟件升級,詳細(xì)描述服務(wù)器端、客戶端軟件升級的方法、步驟。167。167。167。ETL工具目前支持sqoop,datastage,informatica等主流工具。工作量預(yù)估為2人天提供多協(xié)議消息處理總線,包含對JMS、SOAP、REST、JDBC、HTTP 、FTP、SFTP、Email等協(xié)議的支持,同時(shí)提供協(xié)議開發(fā)的SDK。工作量預(yù)估為5人天共享數(shù)據(jù)方式支持實(shí)時(shí)或者非實(shí)時(shí),如:數(shù)據(jù)總線方式的共享。應(yīng)支持移動(dòng)終端(安卓、IOS和Windows等),詳細(xì)說明客戶端支持的操作系統(tǒng)類型和配置需求。軟件運(yùn)行環(huán)境要求支持紅旗Linux服務(wù)器版64位操作系統(tǒng)。詳細(xì)說明對數(shù)據(jù)倉庫相關(guān)能力的支持以及對現(xiàn)有量收系統(tǒng)數(shù)據(jù)倉庫業(yè)務(wù)的遷移能力以及對國際通用標(biāo)準(zhǔn)測試集的測試情況。3) 存儲數(shù)據(jù)不少于3PB,常用數(shù)據(jù)不少于600TB。提供的各種技術(shù)設(shè)計(jì)文檔的內(nèi)容應(yīng)滿足GB85671988《計(jì)算機(jī)軟件產(chǎn)品開發(fā)文件編制指南》和GB/T1145789《軟件工程術(shù)語》,文檔錯(cuò)誤的總字?jǐn)?shù)不能超過文檔總字?jǐn)?shù)的1‰,文檔中不能出現(xiàn)與實(shí)際情況不一致的描述錯(cuò)誤,乙方提供的文檔和資料均應(yīng)以光盤和紙張為載體(各10套),文件為Word文檔、PDF文檔或其他常用可視化文件格式。通過在Hadoop平臺上進(jìn)行二次開發(fā)實(shí)現(xiàn)。支持統(tǒng)計(jì)分析方法。工作量預(yù)估為2人天對分析挖掘的腳本和模型共享功能提供支持,可以實(shí)現(xiàn)用戶分析挖掘腳本和模型的發(fā)布與管理。采用B/S架構(gòu),提供中文圖形化界面操作支持,支持當(dāng)前主流瀏覽器。對不同級別和權(quán)限的用戶使用數(shù)據(jù)、存儲資源、運(yùn)算資源等提供控制功能,可以實(shí)現(xiàn)數(shù)據(jù)訪問的權(quán)限控制,存儲和運(yùn)算資源的彈性擴(kuò)展。通過SAP Data Services可以實(shí)現(xiàn)對元數(shù)據(jù)管理的具體功能,如下圖所示另外,CDH中的Navigator來實(shí)現(xiàn)元數(shù)據(jù)管理的功能,并可以通過二次開發(fā)的方式集成已有的元數(shù)據(jù)管理系統(tǒng)。同時(shí)HANA集成了大量的非結(jié)構(gòu)化處理功能:可以在結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)上建立全文索引,借助此索引能夠?qū)崿F(xiàn)快速的全文檢索。8) 支持存儲過程、自定義函數(shù)功能。2) 支持CUBE,結(jié)合分布式內(nèi)存計(jì)算以及分布式內(nèi)存存儲,提供海量數(shù)據(jù)交互式分析能力。 MapReduce 的根源是函數(shù)性編程中的 map 和 reduce 函數(shù)。說明計(jì)算集群集成方案與配置。和普通的文件系統(tǒng)一樣,HDFS也支持多種不同的壓縮算法,如GZip,LZO,Bzip2,Snappy等 數(shù)據(jù)加工方面實(shí)現(xiàn)數(shù)據(jù)加工功能,提供數(shù)據(jù)加工規(guī)則管理,支持不同形態(tài)數(shù)據(jù)加工管理。原生的HDFS并不支持索引,HBase也只是支持主索引。HDFS可以實(shí)現(xiàn)大規(guī)模數(shù)據(jù)可靠的分布式讀寫。14) 數(shù)據(jù)壓縮、表壓縮功能,節(jié)省數(shù)據(jù)空間。7) 在線變動(dòng)節(jié)點(diǎn)管理功能。內(nèi)容包括但不限于:數(shù)據(jù)分區(qū)劃分方式、適用場景、對應(yīng)計(jì)算處理框架、硬件配置推薦等。*數(shù)據(jù)采集方面1) 支持多種數(shù)據(jù)采集方式。Impala進(jìn)一步的分析搜索結(jié)果,實(shí)現(xiàn)混合查詢Sqoop批量攝入數(shù)據(jù),并讓批量建立索引過程中數(shù)據(jù)可用數(shù)據(jù)平臺的應(yīng)用接口是多樣的:? HDFS:支持NFS,HTTP(Rest),Java API,F(xiàn)TP ? HBase:Java API,Rest,Thrift,SQL(Apache Phoenix)通過Cloudera Manager 來實(shí)現(xiàn)實(shí)時(shí)監(jiān)控 *數(shù)據(jù)交換功能1) 實(shí)現(xiàn)數(shù)據(jù)源管理功能。MapReduceSearch包括提前建立的基于MapReduce Job。用戶通過Cloudera Search可以不寫任何程序代碼,簡單進(jìn)行配置即可實(shí)現(xiàn)數(shù)據(jù)源ETL,創(chuàng)建并更新索引,數(shù)據(jù)入庫定制查詢界面等完整的數(shù)據(jù)全文檢索工作流程,高度自動(dòng)化的流水線提高了部署效率。工作量預(yù)估為10人天 數(shù)據(jù)管理 *結(jié)構(gòu)化數(shù)據(jù)管理功能,包括但不限于對結(jié)構(gòu)化數(shù)據(jù)的采集管理、數(shù)據(jù)加工管理、數(shù)據(jù)存儲管理、對外接口、實(shí)時(shí)監(jiān)控、安全管理、數(shù)據(jù)重構(gòu)等功能。用戶只需要在界面上進(jìn)行簡單的配置,就能夠達(dá)到預(yù)期的效果。如果任何消息在發(fā)送時(shí)失敗,CM代理將會自動(dòng)重試。? 報(bào)告Cloudera Manager可以將收集到的歷史監(jiān)控?cái)?shù)據(jù)統(tǒng)計(jì)生成報(bào)表,比如按目錄查看集群作業(yè)活動(dòng)的用戶、按組或作業(yè)ID查看有關(guān)用戶的磁盤利用率,用戶組的歷史信息等。系通過管理員可以針對關(guān)鍵事件配置其報(bào)警閾值、啟用或禁用報(bào)警等,并通過電子郵件或者通過SNMP的事件得到制定的警報(bào)通知。同時(shí),系統(tǒng)管理員還可以查看上的服務(wù)或角色上操作的執(zhí)行歷史,也可以查看配置更改的審計(jì)日志。對問題源及時(shí)報(bào)警,并提供主動(dòng)診斷功能。2) 實(shí)現(xiàn)圖形化監(jiān)控管理。YARN 假設(shè) ApplicationMaster 存在錯(cuò)誤或者甚至是惡意的,因此將它們當(dāng)作無特權(quán)的代碼對待。這個(gè)實(shí)體控制整個(gè)集群并管理應(yīng)用程序向基礎(chǔ)計(jì)算資源的分配。它提供了一系列的工具,可以用來進(jìn)行數(shù)據(jù)提取轉(zhuǎn)化加載(ETL),這是一種可以存儲、查詢和分析存儲在 Hadoop 中的大規(guī)模數(shù)據(jù)的機(jī)制。2) 設(shè)計(jì)大數(shù)據(jù)平臺整體框架,提出的建設(shè)方案應(yīng)描述大數(shù)據(jù)平臺對外提供的應(yīng)用服務(wù),平臺內(nèi)部服務(wù)組件,各服務(wù)組件之間的關(guān)系,大數(shù)據(jù)平臺數(shù)據(jù)流量流向等。Spark提供了一個(gè)快速的計(jì)算,寫入,以及交互式查詢的框架。Reduce 函數(shù)接受 Map 函數(shù)生成的列表,然后根據(jù)它們的鍵縮小鍵/值對列表。它具有高容錯(cuò)性的特點(diǎn),可以被廣泛的部署于廉價(jià)的PC之上。 ETL工具:SAP Data Services數(shù)據(jù)管控系統(tǒng)的二次開發(fā)量如下:167。 Hadoop軟件(包括而不限于Hadoop核心)167。CDH提供統(tǒng)一的資源調(diào)度平臺,能夠利用最新的資源調(diào)度平臺YARN分配集群中CPU,內(nèi)存等資源的調(diào)度,充分利用集群資源;多樣的數(shù)據(jù)分析平臺 –能夠針對不用的業(yè)務(wù)類型提供不同的計(jì)算框架,比如針對批處理的MapReduce計(jì)算框架;針對交互式查詢的Impala MPP查詢引擎;針對內(nèi)存及流計(jì)算的Spark框架;針對機(jī)器學(xué)習(xí),數(shù)據(jù)挖掘等業(yè)務(wù)的訓(xùn)練測試模型;針對全文檢索的Solr搜索引擎項(xiàng)目中所涉及的軟件包括: 關(guān)系型數(shù)據(jù)庫系統(tǒng):SAP HANA企業(yè)版HDFS( Hadoop Distributed File System),是一個(gè)分布式文件系統(tǒng)。Map 函數(shù)接受一組數(shù)據(jù)并將其轉(zhuǎn)換為一個(gè)鍵/值對列表,輸入域中的每個(gè)元素對應(yīng)一個(gè)鍵/值對。 Impala設(shè)計(jì)之初就定位為Hadoop生態(tài)系統(tǒng)的一部分,因此,Impala和MapReduce,Hive,Pig以及Hadoop的其他組件,都享有共同的靈活的文件和數(shù)據(jù)格式。使用單位還包括下屬單位和控股公司等。Hive是建立在 Hadoop 上的數(shù)據(jù)倉庫基礎(chǔ)構(gòu)架。YARN 分層結(jié)構(gòu)的本質(zhì)是 ResourceManager。從 YARN 角度講,ApplicationMaster 是用戶代碼,因此存在潛在的安全問題。 *統(tǒng)一運(yùn)維監(jiān)控方面1) 統(tǒng)一運(yùn)維監(jiān)控功能包括但不限于:安全管理、用戶管理、監(jiān)控運(yùn)維、服務(wù)調(diào)度、應(yīng)用部署、資源管理、作業(yè)編排、服務(wù)接口等。8) 實(shí)現(xiàn)告警管理。如果健康檢查發(fā)現(xiàn)某個(gè)組件的狀態(tài)需要特別關(guān)注甚至已經(jīng)出現(xiàn)問題,系統(tǒng)會對管理員應(yīng)該采取的行動(dòng)提出建議。? 報(bào)警通過配置Cloudera Manager可以對指定的事件產(chǎn)生警報(bào)。當(dāng)查看關(guān)于用戶的活動(dòng)信息,您可以方便地查看了作業(yè)運(yùn)行時(shí)所用的作業(yè)的主機(jī)上發(fā)生的相關(guān)日志條目。運(yùn)行在每臺服務(wù)器上的CM代理(Cloudera Manager Agent)會監(jiān)視審計(jì)日志文件,并將這些事件發(fā)送到Navigator審計(jì)服務(wù)器(Navigator Audit Server)。CM提供了界面化的數(shù)據(jù)備份與災(zāi)難恢復(fù)。需基于CDH進(jìn)行二次開發(fā)實(shí)現(xiàn)。 HDFS中還提供了額外的好處,如快照,跨群集復(fù)制,和災(zāi)難恢復(fù)。因?yàn)镠Base沒有使用二級索引,Search可以完成HBase里面行和表內(nèi)容的全文索引Cloudera Manager部署,配置,管理和監(jiān)控搜索過程和在集群服務(wù)中的資源優(yōu)化,搜索不要求一定有Cloudera Manager,但是Cloudera Manager幫助簡化了搜索管理。大數(shù)據(jù)平臺支持自定義對外服務(wù)的接口并可以支持?jǐn)?shù)據(jù)接口熱擴(kuò)展能力。 數(shù)據(jù)存儲方面1) 數(shù)據(jù)存儲管理功能。實(shí)現(xiàn)自動(dòng)平衡功能和數(shù)據(jù)自動(dòng)重分布功能,提供數(shù)據(jù)平衡和索引平衡的工具。13) 數(shù)據(jù)文件元數(shù)據(jù)備份和恢復(fù)功能。在HDFS中,NameNode節(jié)點(diǎn)被稱為名字節(jié)點(diǎn),DataNode節(jié)點(diǎn)被稱為數(shù)據(jù)節(jié)點(diǎn),DataNode節(jié)點(diǎn)通過心跳機(jī)制與NameNode節(jié)點(diǎn)進(jìn)行定時(shí)的通信。該功能可以有效加速用戶發(fā)現(xiàn)有用數(shù)據(jù)、分析數(shù)據(jù)結(jié)構(gòu),進(jìn)而提高數(shù)據(jù)復(fù)用率與數(shù)據(jù)商業(yè)價(jià)值;元數(shù)據(jù)查詢快速檢索相關(guān)數(shù)據(jù),加速數(shù)據(jù)發(fā)現(xiàn)流程元數(shù)據(jù)標(biāo)注自動(dòng)發(fā)現(xiàn)元數(shù)據(jù)并允許用戶自定義可定制化標(biāo)簽與注釋,便于數(shù)據(jù)追蹤與歸類元數(shù)據(jù)識別從外部系統(tǒng)中識別出Hadoop的元數(shù)據(jù),以整合公司范圍內(nèi)的不同系統(tǒng)與處理流程提供追蹤數(shù)據(jù)在系統(tǒng)中演變過程的功能,允許用戶回朔數(shù)據(jù)源頭,驗(yàn)證數(shù)據(jù)有效性,進(jìn)而提供完善的數(shù)據(jù)生命周期管理(lifecycle management)。BDR提供了全量數(shù)據(jù)備份和增量備份的功能。2) 提供并行計(jì)算及并發(fā)處理功能,支持多服務(wù)器、多CPU、多進(jìn)程并行及并發(fā)處理數(shù)據(jù)的機(jī)制。MapReduce 是用于并行處理大數(shù)據(jù)集的軟件框架。內(nèi)置OLAP函數(shù),給出OLAP函數(shù)列表和簡要描述;支持超大數(shù)據(jù)立方,支持雪花、星型等復(fù)雜分析模型。7) 預(yù)定義維度數(shù)據(jù)查詢功能,支持簡單查詢、組合查詢、模糊查詢等。在HANA中同時(shí)支持?jǐn)?shù)據(jù)字典、動(dòng)態(tài)SQL執(zhí)行、視圖、子查詢、JOIN 查詢功能。工作量預(yù)估為20人天 應(yīng)實(shí)現(xiàn)元數(shù)據(jù)管理功能,并集成甲方已有的元數(shù)據(jù)管理系統(tǒng)。SAP HANA中集成了預(yù)測算法庫PAL,能夠通過調(diào)用這些算法實(shí)現(xiàn)在庫內(nèi)的分析預(yù)測,另外也可以與開源的R語言進(jìn)行集成。采用B/S,C/S或混合架構(gòu)架構(gòu)類型,并詳細(xì)描述對終端設(shè)備、操作系統(tǒng)、瀏覽器的要求,應(yīng)提供圖形化界面操作支持,操作界面要求簡體中文。需要通過二次開發(fā)來實(shí)現(xiàn)。實(shí)現(xiàn)統(tǒng)計(jì)分析方法的分布式并行計(jì)算。場景包括但不限于:客戶畫像、產(chǎn)品推薦、自然語言處理、語義分析、輿情分析、文本挖掘、客戶行為預(yù)測等。通過在Hadoop平臺上進(jìn)行二次開發(fā)實(shí)現(xiàn),工作量預(yù)估為20人天 技術(shù)要求 總體要求乙方應(yīng)采用先進(jìn)、成熟、適用,并符合國際發(fā)展趨勢的技術(shù)、軟件產(chǎn)品和設(shè)備,要嚴(yán)格遵守有關(guān)的國際標(biāo)準(zhǔn)、國家標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)和郵政標(biāo)準(zhǔn)規(guī)范,遵循并實(shí)現(xiàn)本技術(shù)規(guī)范書中招標(biāo)范圍章節(jié)提出的相關(guān)要求,并借鑒國內(nèi)外目
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1