freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

hadoop大數(shù)據(jù)平臺(tái)-建設(shè)要求及應(yīng)答方案-wenkub.com

2025-06-04 07:40 本頁(yè)面
   

【正文】 1) 支持各種常見的大數(shù)據(jù)分析軟件,例如SAS、SPSS、Murex, Algorithmics, Sugard, Calypso, TillingHast,MicroStrategy, IBM Cognos等。Cloudera有超過80位的Committer,是世界上擁有最多Committer的Hadoop廠商。在 Cloudera的發(fā)行版本理Hbase,Hive,Oozie、Spark、Yarn、Sqoop、ZooKeeper等各種知名的Hadoop開源組件Hadoop系統(tǒng)應(yīng)支持開源社區(qū)的標(biāo)準(zhǔn),快速跟進(jìn)開源社區(qū)的成果,始終保持和開源的兼容性,同時(shí)提供系統(tǒng)升級(jí)部署實(shí)施。BDR提供了全量數(shù)據(jù)備份和增量備份的功能。另外在數(shù)據(jù)應(yīng)用的設(shè)計(jì)中,也應(yīng)該設(shè)計(jì)一定的數(shù)據(jù)存儲(chǔ)策略,如下圖:在整個(gè)數(shù)據(jù)流圖中,包含原始數(shù)據(jù)、數(shù)據(jù)落地區(qū)、數(shù)據(jù)使用區(qū)和歸檔區(qū),每個(gè)區(qū)域都有特定的存儲(chǔ)周期。系統(tǒng)應(yīng)支持備份與恢復(fù)功能(包括主機(jī)、操作系統(tǒng)、數(shù)據(jù)庫(kù)與應(yīng)用軟件等),數(shù)據(jù)備份和恢復(fù)方案要保證數(shù)據(jù)的完整性,備份和恢復(fù)的有效性。實(shí)現(xiàn)數(shù)據(jù)的安全與完整保障,平臺(tái)保證穩(wěn)定可靠的運(yùn)行,在平臺(tái)系統(tǒng)出現(xiàn)問題時(shí),應(yīng)保證數(shù)據(jù)的完整、可恢復(fù)以及事務(wù)的完整性。平臺(tái)軟件中某一部分功能出錯(cuò)不應(yīng)導(dǎo)致其他功能出錯(cuò)。(N 1) / 2例如,如果集群中有5個(gè)JournalNode,則允許失敗的節(jié)點(diǎn)數(shù)量是 2,且失敗后可繼續(xù)提供服務(wù)。167。ZooKeeper組必須包含奇數(shù)個(gè)節(jié)點(diǎn),且必須包含至少三個(gè)節(jié)點(diǎn)。 為避免某個(gè)機(jī)架成為單點(diǎn)故障,高可用性配置中的任一節(jié)點(diǎn)(Primary NameNode、Standby NameNode、JobTracker和Backup JobTracker)不能和高可用性配置中的其他節(jié)點(diǎn)位于同一機(jī)架上。在通過QJM方式配置HDFS高可用性前,你需要了解或準(zhǔn)備以下事項(xiàng):說明任一節(jié)點(diǎn)故障后的處理機(jī)制,以及各環(huán)節(jié)處理的延時(shí),同時(shí)說明集群允許多少個(gè)節(jié)點(diǎn)同時(shí)發(fā)生問題。支持以Web圖形界面實(shí)現(xiàn)分布式平臺(tái)的節(jié)點(diǎn)批量自動(dòng)集群部署、監(jiān)控和管理功能。hadoop的基本原理就是數(shù)據(jù)自動(dòng)在集群中進(jìn)行數(shù)據(jù)并行計(jì)算。HDFS保證一個(gè)文件在一個(gè)時(shí)刻只被一個(gè)調(diào)用者執(zhí)行寫操作,而可以被多個(gè)調(diào)用者執(zhí)行讀操作。NameNode節(jié)點(diǎn)負(fù)責(zé)整個(gè)HDFS文件系統(tǒng)中的文件的元數(shù)據(jù)保管和管理,集群中通常只有一臺(tái)機(jī)器上運(yùn)行NameNode實(shí)例,DataNode節(jié)點(diǎn)保存文件中的數(shù)據(jù),集群中的機(jī)器分別運(yùn)行一個(gè)DataNode實(shí)例。它具有高容錯(cuò)性的特點(diǎn),可以被廣泛的部署于廉價(jià)的PC之上。擴(kuò)容時(shí)無需遷移數(shù)據(jù),避免硬盤和數(shù)據(jù)損壞。通過QJM日志系統(tǒng)來實(shí)現(xiàn)name node節(jié)點(diǎn)之間的高性能切換,節(jié)點(diǎn)之間的切換時(shí)間在秒級(jí)之內(nèi)。 MapReduce 的根源是函數(shù)性編程中的 map 和 reduce 函數(shù)。MapReduce是Hadoop的核心,是Google提出的一個(gè)軟件架構(gòu),用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運(yùn)算。說明具體實(shí)現(xiàn)方式、適用場(chǎng)景和使用工具技術(shù)等,并說明節(jié)點(diǎn)數(shù)和性能的關(guān)系。CM針對(duì)這種情況,提供了日志的收集功能,能夠通過統(tǒng)一的界面,查看集群中每臺(tái)機(jī)器,各項(xiàng)服務(wù)的日志,并且能夠根據(jù)日志級(jí)別等不同的條件進(jìn)行檢索。CM會(huì)將這些數(shù)據(jù)都記錄到一個(gè)文件中。周期性的服務(wù)診斷CM會(huì)對(duì)集群中運(yùn)行的服務(wù)進(jìn)行周期性的運(yùn)行狀況測(cè)試。軟件信息:運(yùn)行的各項(xiàng)服務(wù)的狀態(tài),并對(duì)這些狀態(tài)進(jìn)行實(shí)時(shí)監(jiān)控自定義監(jiān)控圖表除了CM默認(rèn)提供的性能圖表以外,還允許用戶自定義圖表,使得用戶能夠查看自己希望的性能圖表。監(jiān)控功能主要包括對(duì)集群各項(xiàng)資源,以及服務(wù)的運(yùn)行狀態(tài)的監(jiān)控,一旦出現(xiàn)異常進(jìn)行告警。7) 提供消息隊(duì)列的處理情況監(jiān)控,發(fā)生隊(duì)列堵塞予以告警,并提示不能正常處理的消息隊(duì)列。4) 支持圖形界面實(shí)現(xiàn)分布式系統(tǒng)資源監(jiān)控,包括獲取存儲(chǔ)量、剩余存儲(chǔ)量以及存儲(chǔ)系統(tǒng)整體情況信息。由于分布式系統(tǒng)的可擴(kuò)展性,在升級(jí)過程中,集群依然能夠持續(xù)運(yùn)行,持續(xù)對(duì)外提供服務(wù)。因此,CM提供了滾動(dòng)升級(jí)的功能,支持在平臺(tái)進(jìn)行升級(jí)時(shí),能夠繼續(xù)對(duì)外提供服務(wù),以及應(yīng)用。沒有滾動(dòng)升級(jí)之前,Hadoop平臺(tái),要進(jìn)行組件升級(jí)時(shí),需要停止集群運(yùn)行,然后進(jìn)行升級(jí),再啟動(dòng)集群,這樣帶來的問題是,在進(jìn)行升級(jí)時(shí),需要停集群,停服務(wù),停應(yīng)用。CDH提供了監(jiān)控能力,可通過Cloudera Manager API二次開發(fā)的方式納入郵政運(yùn)維監(jiān)控平臺(tái)統(tǒng)一監(jiān)控。 告警閾值可配置Cloudera Manager對(duì)于每個(gè)組件,都提供了監(jiān)控的參數(shù)配置,例如可以設(shè)置達(dá)到多少閾值的時(shí)候,產(chǎn)生warning告警,達(dá)到多少閾值的時(shí)候產(chǎn)生Critical告警。并且可以設(shè)置,數(shù)據(jù)備份的周期,帶寬等參數(shù),以保證在不影響業(yè)務(wù)的情況下,周期性的進(jìn)行自動(dòng)備份。 數(shù)據(jù)備份與恢復(fù)數(shù)據(jù)的備份與恢復(fù)是企業(yè)級(jí)系統(tǒng)非常關(guān)鍵的功能,能夠保障異常故障情況下,數(shù)據(jù)的完整性。CM提供了一套類似的SQL的語(yǔ)言,用戶只需要使用這個(gè)語(yǔ)言,簡(jiǎn)單的編寫類似SQL的語(yǔ)句,就能夠生成自己想要的圖表。除此以外,CM還提供了配置的歷史記錄與回滾,用戶可以查看參數(shù)的修改歷史,可以方便的回滾到某一個(gè)具體的階段。添加需要安裝的節(jié)點(diǎn)安裝需要的組件分配角色。系統(tǒng)管理平臺(tái)不僅可以監(jiān)控主機(jī)的硬件資源狀況,也可以監(jiān)控各種服務(wù)的指標(biāo)狀況,()并支持和企業(yè)通用的SNMP系統(tǒng)集成。通過impala的標(biāo)準(zhǔn)sql引擎,只要滿足sql2003標(biāo)準(zhǔn)的BI引擎都可以順利支持。需二次開發(fā)。需二次開發(fā)。hadoop平臺(tái)可以支持任何格式文件的導(dǎo)入和導(dǎo)出。需要二次開發(fā)。支持列表如下(包括但不限于): ? Internet Explorer 9 ? Google Chrome ? Safari 5 ? Firefox and later軟件客戶端應(yīng)支持WPS作為文檔、表格等編輯工具,乙方應(yīng)詳細(xì)說明對(duì)于WPS的支持程度,詳細(xì)列出客戶端支持的文本和表格編輯工具。對(duì)客戶端系統(tǒng)無強(qiáng)制要求。CDH提供了標(biāo)準(zhǔn)的SQL接口可供客戶原有的前端統(tǒng)計(jì)和展現(xiàn)工具進(jìn)行訪問,并提供了數(shù)據(jù)導(dǎo)入和導(dǎo)出工具以方便客戶原有的工具和大數(shù)據(jù)平臺(tái)的數(shù)據(jù)共享。測(cè)試與開發(fā)環(huán)境紅旗Linux服務(wù)器版操作系統(tǒng)(Red Flag Asianux Server);支持C/C++、Java、ANSI SQL、Python、R等軟件和應(yīng)用開發(fā)工具;可用數(shù)據(jù)不少于100TB。整體方案按照層次化模型設(shè)計(jì),模塊之間的產(chǎn)品均可以任意替換。hadoop架構(gòu)本身的特點(diǎn)就是支持服務(wù)器集群技術(shù)、支持多服務(wù)器負(fù)載均衡,可實(shí)現(xiàn)在線動(dòng)態(tài)擴(kuò)充,系統(tǒng)性能能夠隨著系統(tǒng)服務(wù)器數(shù)目的增加平滑線性增長(zhǎng)。乙方軟件應(yīng)支持通用的接口標(biāo)準(zhǔn),詳細(xì)列舉所支持的接口標(biāo)準(zhǔn)。2) 處理能力應(yīng)滿足未來3-5年的業(yè)務(wù)需求。詳細(xì)說明邏輯架構(gòu)、網(wǎng)絡(luò)架構(gòu)和物理架構(gòu)等設(shè)計(jì)。通過在Hadoop平臺(tái)上進(jìn)行二次開發(fā)實(shí)現(xiàn),工作量預(yù)估為20人天 技術(shù)要求 總體要求乙方應(yīng)采用先進(jìn)、成熟、適用,并符合國(guó)際發(fā)展趨勢(shì)的技術(shù)、軟件產(chǎn)品和設(shè)備,要嚴(yán)格遵守有關(guān)的國(guó)際標(biāo)準(zhǔn)、國(guó)家標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)和郵政標(biāo)準(zhǔn)規(guī)范,遵循并實(shí)現(xiàn)本技術(shù)規(guī)范書中招標(biāo)范圍章節(jié)提出的相關(guān)要求,并借鑒國(guó)內(nèi)外目前先進(jìn)、成熟的大數(shù)據(jù)平臺(tái)技術(shù),提出合理的建議方案,保證大數(shù)據(jù)平臺(tái)的先進(jìn)性、前瞻性、穩(wěn)定性、擴(kuò)展性、安全性、開放性、靈活性、便捷性等方面性能。工作量預(yù)估為10人天實(shí)現(xiàn)對(duì)分析指標(biāo)管理,要從已固化分析結(jié)果中,抽取出指標(biāo)的內(nèi)容。場(chǎng)景包括但不限于:客戶畫像、產(chǎn)品推薦、自然語(yǔ)言處理、語(yǔ)義分析、輿情分析、文本挖掘、客戶行為預(yù)測(cè)等。通過數(shù)據(jù)挖掘算法與hadoop或者spark集成來實(shí)現(xiàn)分布式并行計(jì)算。實(shí)現(xiàn)統(tǒng)計(jì)分析方法的分布式并行計(jì)算。需要通過二次開發(fā)來實(shí)現(xiàn)。需要通過二次開發(fā)來實(shí)現(xiàn)。提供了Spark MLLib,Mahout,Oryx等完整的機(jī)器學(xué)習(xí)算法庫(kù),可對(duì)分析挖掘中的中間數(shù)據(jù)和結(jié)果數(shù)據(jù)的靈活存儲(chǔ)提供支持,對(duì)多數(shù)據(jù)來源輸入輸出提供支持。采用B/S,C/S或混合架構(gòu)架構(gòu)類型,并詳細(xì)描述對(duì)終端設(shè)備、操作系統(tǒng)、瀏覽器的要求,應(yīng)提供圖形化界面操作支持,操作界面要求簡(jiǎn)體中文。包括但不限于對(duì)R的改造、解決開源R性能、分布式并行運(yùn)行、版本變更、新增算法支持等問題,提供支持分布式并行R算法的詳細(xì)列表。SAP HANA中集成了預(yù)測(cè)算法庫(kù)PAL,能夠通過調(diào)用這些算法實(shí)現(xiàn)在庫(kù)內(nèi)的分析預(yù)測(cè),另外也可以與開源的R語(yǔ)言進(jìn)行集成。DS能夠分析數(shù)據(jù)背后的質(zhì)量問題,可鉆取至某些特定的記錄。工作量預(yù)估為20人天 應(yīng)實(shí)現(xiàn)元數(shù)據(jù)管理功能,并集成甲方已有的元數(shù)據(jù)管理系統(tǒng)。HANA中的存儲(chǔ)過程(Stored Procedure)是一組為了完成特定功能的SQL 語(yǔ)句集,經(jīng)編譯后存儲(chǔ)在數(shù)據(jù)庫(kù)中,用戶通過指定存儲(chǔ)過程的名字并給出參數(shù)(如果該存儲(chǔ)過程帶有參數(shù))來執(zhí)行它。在HANA中同時(shí)支持?jǐn)?shù)據(jù)字典、動(dòng)態(tài)SQL執(zhí)行、視圖、子查詢、JOIN 查詢功能。首先,HANA作為關(guān)系型數(shù)據(jù)庫(kù),支持?jǐn)?shù)據(jù)立方體以及OLAP查詢。7) 預(yù)定義維度數(shù)據(jù)查詢功能,支持簡(jiǎn)單查詢、組合查詢、模糊查詢等。4) 實(shí)現(xiàn)數(shù)據(jù)字典、動(dòng)態(tài)SQL執(zhí)行、視圖、子查詢、JOIN 查詢功能。內(nèi)置OLAP函數(shù),給出OLAP函數(shù)列表和簡(jiǎn)要描述;支持超大數(shù)據(jù)立方,支持雪花、星型等復(fù)雜分析模型。MapReduce起到了將大事務(wù)分散到不同設(shè)備處理的能力,這樣原本必須用單臺(tái)較強(qiáng)服務(wù)器才能運(yùn)行的任務(wù),在分布式環(huán)境下也能完成了。MapReduce 是用于并行處理大數(shù)據(jù)集的軟件框架。支持列出來的幾種計(jì)算框架,hadoop本身的工作原理就是并行計(jì)算和并行處理。2) 提供并行計(jì)算及并發(fā)處理功能,支持多服務(wù)器、多CPU、多進(jìn)程并行及并發(fā)處理數(shù)據(jù)的機(jī)制。包括但不限于數(shù)據(jù)清洗環(huán)節(jié)管理、數(shù)據(jù)清洗規(guī)則管理、數(shù)據(jù)清洗監(jiān)控、數(shù)據(jù)清洗預(yù)覽、應(yīng)用主數(shù)據(jù)進(jìn)行清洗管理等功能。BDR提供了全量數(shù)據(jù)備份和增量備份的功能。另外在數(shù)據(jù)應(yīng)用的設(shè)計(jì)中,也應(yīng)該設(shè)計(jì)一定的數(shù)據(jù)存儲(chǔ)策略,如下圖:在整個(gè)數(shù)據(jù)流圖中,包含原始數(shù)據(jù)、數(shù)據(jù)落地區(qū)、數(shù)據(jù)使用區(qū)和歸檔區(qū),每個(gè)區(qū)域都有特定的存儲(chǔ)周期。該功能可以有效加速用戶發(fā)現(xiàn)有用數(shù)據(jù)、分析數(shù)據(jù)結(jié)構(gòu),進(jìn)而提高數(shù)據(jù)復(fù)用率與數(shù)據(jù)商業(yè)價(jià)值;元數(shù)據(jù)查詢快速檢索相關(guān)數(shù)據(jù),加速數(shù)據(jù)發(fā)現(xiàn)流程元數(shù)據(jù)標(biāo)注自動(dòng)發(fā)現(xiàn)元數(shù)據(jù)并允許用戶自定義可定制化標(biāo)簽與注釋,便于數(shù)據(jù)追蹤與歸類元數(shù)據(jù)識(shí)別從外部系統(tǒng)中識(shí)別出Hadoop的元數(shù)據(jù),以整合公司范圍內(nèi)的不同系統(tǒng)與處理流程提供追蹤數(shù)據(jù)在系統(tǒng)中演變過程的功能,允許用戶回朔數(shù)據(jù)源頭,驗(yàn)證數(shù)據(jù)有效性,進(jìn)而提供完善的數(shù)據(jù)生命周期管理(lifecycle management)。其主要特性如下:? 靈活:統(tǒng)一的存儲(chǔ)可以存放結(jié)構(gòu)化,半結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù)? 可擴(kuò)展:根據(jù)業(yè)務(wù)需要增加或者刪除節(jié)點(diǎn),并提供自動(dòng)平衡的能力,保證平滑擴(kuò)展和性能的線性增長(zhǎng)? 容錯(cuò):數(shù)據(jù)有多個(gè)副本以保障數(shù)據(jù)的可靠性? 開放:基于開源的存儲(chǔ)格式,避免廠商鎖定? 平衡:默認(rèn)有自動(dòng)平衡和重分布的功能,同時(shí)提供了提供數(shù)據(jù)平衡和索引平衡的工具。在HDFS中,NameNode節(jié)點(diǎn)被稱為名字節(jié)點(diǎn),DataNode節(jié)點(diǎn)被稱為數(shù)據(jù)節(jié)點(diǎn),DataNode節(jié)點(diǎn)通過心跳機(jī)制與NameNode節(jié)點(diǎn)進(jìn)行定時(shí)的通信。它以流式訪問模式訪問應(yīng)用程序的數(shù)據(jù),這大大提高了整個(gè)系統(tǒng)的數(shù)據(jù)吞吐量,能夠滿足多來源、多類型,多文件格式、海量的數(shù)據(jù)存儲(chǔ)要求,因而非常適用于日志詳單類非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)。13) 數(shù)據(jù)文件元數(shù)據(jù)備份和恢復(fù)功能。9) 多數(shù)據(jù)類型管理功能。實(shí)現(xiàn)自動(dòng)平衡功能和數(shù)據(jù)自動(dòng)重分布功能,提供數(shù)據(jù)平衡和索引平衡的工具。4) 多種索引模式。 數(shù)據(jù)存儲(chǔ)方面1) 數(shù)據(jù)存儲(chǔ)管理功能?!?KafkaKafka是一個(gè)分布式的消息處理引擎,具有極高性能,同時(shí)支持對(duì)消息的訂閱和發(fā)布機(jī)制,基于Kafka可以非常方便的創(chuàng)造出復(fù)雜的消息處理工作流● SqoopSqoop是一個(gè)用來將Hadoop和關(guān)系型數(shù)據(jù)庫(kù)中的數(shù)據(jù)相互轉(zhuǎn)移的工具,可以將一個(gè)關(guān)系型數(shù)據(jù)庫(kù)(例如 : MySQL ,Oracle ,Postgres等)中的數(shù)據(jù)導(dǎo)進(jìn)到Hadoop的HDFS中,也可以將HDFS的數(shù)據(jù)導(dǎo)進(jìn)到關(guān)系型數(shù)據(jù)庫(kù)中。大數(shù)據(jù)平臺(tái)支持自定義對(duì)外服務(wù)的接口并可以支持?jǐn)?shù)據(jù)接口熱擴(kuò)展能力。3) 大數(shù)據(jù)平臺(tái)要提供可自定義的對(duì)外數(shù)據(jù)服務(wù)接口能力。因?yàn)镠Base沒有使用二級(jí)索引,Search可以完成HBase里面行和表內(nèi)容的全文索引Cloudera Manager部署,配置,管理和監(jiān)控搜索過程和在集群服務(wù)中的資源優(yōu)化,搜索不要求一定有Cloudera Manager,但是Cloudera Manager幫助簡(jiǎn)化了搜索管理。FlumeSearch 包括Flume Sink來把事件直接寫入到部署在集群中的到索引器中,使其可以在攝入過程中建立數(shù)據(jù)索引。 HDFS中還提供了額外的好處,如快照,跨群集復(fù)制,和災(zāi)難恢復(fù)。這些文檔被建立索引并被變成可被搜索的。工作量預(yù)估為2人天通過Navigator完成數(shù)據(jù)生命周期管理。需基于CDH進(jìn)行二次開發(fā)實(shí)現(xiàn)。以檢測(cè)這些服務(wù)的狀態(tài)是否正常。CM提供了界面化的數(shù)據(jù)備份與災(zāi)難恢復(fù)。審核日志一旦被成功發(fā)送到Navigator審計(jì)服務(wù)器,CM代理會(huì)負(fù)責(zé)清除。運(yùn)行在每臺(tái)服務(wù)器上的CM代理(Cloudera Manager Agent)會(huì)監(jiān)視審計(jì)日志文件,并將這些事件發(fā)送到Navigator審計(jì)服務(wù)器(Navigator Audit Server)。Cloudera Navigator的審計(jì)功能支持對(duì)于數(shù)據(jù)的審計(jì)和訪問,其架構(gòu)如下:一旦配置了Cloudera Navigator審計(jì)功能,收集和過濾審核事件的插件將會(huì)被打開并插入到HDFS,HBase和Hive(也就是HiveServer2和Beeswax服務(wù)器)服務(wù)。當(dāng)查看關(guān)于用戶的活動(dòng)信息,您可以方便地查看了作業(yè)運(yùn)行時(shí)所用的作業(yè)的主機(jī)上發(fā)生的相關(guān)日志條目。系統(tǒng)管理員可以通過管理員終端查看,界面提供了按時(shí)間范圍、服務(wù)、主機(jī)、關(guān)鍵字等字段信息來過濾審計(jì)事件條目。? 報(bào)警通過配置Cloudera Manager可以對(duì)指定的事件產(chǎn)生警報(bào)。? 行為監(jiān)控Cl
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1