freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

hadoop大數(shù)據(jù)平臺-建設(shè)要求及應(yīng)答方案(編輯修改稿)

2025-07-04 07:40 本頁面
 

【文章內(nèi)容簡介】 規(guī)則管理、數(shù)據(jù)清洗監(jiān)控、數(shù)據(jù)清洗預(yù)覽、應(yīng)用主數(shù)據(jù)進(jìn)行清洗管理等功能?;谏虡I(yè)化的ETL工具-SAP Data Services產(chǎn)品進(jìn)行實(shí)施,該產(chǎn)品本身提供上述功能。 數(shù)據(jù)計(jì)算方面1) 實(shí)現(xiàn)對多計(jì)算框架管理的支持功能。計(jì)算框架包括但不限于:批處理計(jì)算框架、內(nèi)存計(jì)算框架、流計(jì)算框架等。2) 提供并行計(jì)算及并發(fā)處理功能,支持多服務(wù)器、多CPU、多進(jìn)程并行及并發(fā)處理數(shù)據(jù)的機(jī)制。說明計(jì)算集群集成方案與配置。說明如何實(shí)現(xiàn)并行處理能力,及在并行處理方面的主要瓶頸和限制因素,在負(fù)載均衡、計(jì)算能力、通信能力、IO吞吐能力、存儲能力、擴(kuò)容能力等方面的性能上限。3) 支持PL/SQL存儲過程、分布式事務(wù)及ACID屬性及自定義函數(shù)功能。支持列出來的幾種計(jì)算框架,hadoop本身的工作原理就是并行計(jì)算和并行處理。分布式批處理引擎 – MapReduceMapReduce是Hadoop的核心,是Google提出的一個(gè)軟件架構(gòu),用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運(yùn)算。概念“Map(映射)”和“Reduce(化簡)”,及他們的主要思想,都是從函數(shù)式編程語言借來的,還有從矢量編程語言借來的特性。當(dāng)前的軟件實(shí)現(xiàn)是指定一個(gè)Map(映射)函數(shù),用來把一組鍵值對映射成一組新的鍵值對,指定并發(fā)的Reduce(化簡)函數(shù),用來保證所有映射的鍵值對中的每一個(gè)共享相同的鍵組。MapReduce 是用于并行處理大數(shù)據(jù)集的軟件框架。 MapReduce 的根源是函數(shù)性編程中的 map 和 reduce 函數(shù)。Map 函數(shù)接受一組數(shù)據(jù)并將其轉(zhuǎn)換為一個(gè)鍵/值對列表,輸入域中的每個(gè)元素對應(yīng)一個(gè)鍵/值對。Reduce 函數(shù)接受 Map 函數(shù)生成的列表,然后根據(jù)它們的鍵縮小鍵/值對列表。MapReduce起到了將大事務(wù)分散到不同設(shè)備處理的能力,這樣原本必須用單臺較強(qiáng)服務(wù)器才能運(yùn)行的任務(wù),在分布式環(huán)境下也能完成了。該框架可以自動實(shí)現(xiàn)負(fù)載均衡并且隨著節(jié)點(diǎn)的增加,計(jì)算能力、通信能力、IO吞吐能力、存儲能力、擴(kuò)容能力會隨之增加。同時(shí),可以通過二次開發(fā)的方式來支持PL/SQL存儲過程、分布式事務(wù)及ACID屬性及自定義函數(shù)功能。 數(shù)據(jù)查詢方面1) 實(shí)現(xiàn)OLAP查詢功能。內(nèi)置OLAP函數(shù),給出OLAP函數(shù)列表和簡要描述;支持超大數(shù)據(jù)立方,支持雪花、星型等復(fù)雜分析模型。2) 支持CUBE,結(jié)合分布式內(nèi)存計(jì)算以及分布式內(nèi)存存儲,提供海量數(shù)據(jù)交互式分析能力。3) SQL查詢功能,詳細(xì)說明對國際SQL9SQL2003標(biāo)準(zhǔn)支持情況。同時(shí)詳細(xì)說明對SQL語言的擴(kuò)展情況。4) 實(shí)現(xiàn)數(shù)據(jù)字典、動態(tài)SQL執(zhí)行、視圖、子查詢、JOIN 查詢功能。5) 支持全文檢索。支持中文字符集,實(shí)現(xiàn)中文分詞功能。6) 結(jié)構(gòu)化數(shù)據(jù)和半/非結(jié)構(gòu)化數(shù)據(jù)聯(lián)合查詢功能。7) 預(yù)定義維度數(shù)據(jù)查詢功能,支持簡單查詢、組合查詢、模糊查詢等。8) 支持存儲過程、自定義函數(shù)功能。滿足方案中使用兩套技術(shù)構(gòu)架實(shí)現(xiàn)上述查詢方面的需求:一個(gè)是采用關(guān)系型數(shù)據(jù)庫-SAP HANA,另外的可以用Hadoop上的功能組件,如Impala來實(shí)現(xiàn)。前一種方式是本方案的核心。首先,HANA作為關(guān)系型數(shù)據(jù)庫,支持?jǐn)?shù)據(jù)立方體以及OLAP查詢。在HANA中存在視圖的概念,即封裝的運(yùn)算邏輯。超大規(guī)模數(shù)據(jù)立方體、星型模型、雪花模型等,都可以用視圖來表達(dá)。HANA與數(shù)據(jù)庫的國際標(biāo)準(zhǔn)完全兼容,支持ANSI SQL92/99/2003等標(biāo)準(zhǔn)。在HANA中同時(shí)支持?jǐn)?shù)據(jù)字典、動態(tài)SQL執(zhí)行、視圖、子查詢、JOIN 查詢功能。同時(shí)HANA集成了大量的非結(jié)構(gòu)化處理功能:可以在結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)上建立全文索引,借助此索引能夠?qū)崿F(xiàn)快速的全文檢索。HANA目前支持包括中文在內(nèi)的33種語言的處理。也支持結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)間的聯(lián)合查詢。HANA中的存儲過程(Stored Procedure)是一組為了完成特定功能的SQL 語句集,經(jīng)編譯后存儲在數(shù)據(jù)庫中,用戶通過指定存儲過程的名字并給出參數(shù)(如果該存儲過程帶有參數(shù))來執(zhí)行它。HANA中的存儲過程是可以重用的處理模塊,在HANA中有兩種創(chuàng)建PROCEDURE的方式,一種是用SQL editor進(jìn)行創(chuàng)建,一種是用package中的創(chuàng)建向?qū)нM(jìn)行創(chuàng)建。 數(shù)據(jù)管控 應(yīng)實(shí)現(xiàn)主數(shù)據(jù)管理功能,并集成甲方已有的主數(shù)據(jù)管理系統(tǒng)。通過二次開發(fā)的方式實(shí)現(xiàn)主數(shù)據(jù)管理功能。工作量預(yù)估為20人天 應(yīng)實(shí)現(xiàn)元數(shù)據(jù)管理功能,并集成甲方已有的元數(shù)據(jù)管理系統(tǒng)。通過SAP Data Services可以實(shí)現(xiàn)對元數(shù)據(jù)管理的具體功能,如下圖所示另外,CDH中的Navigator來實(shí)現(xiàn)元數(shù)據(jù)管理的功能,并可以通過二次開發(fā)的方式集成已有的元數(shù)據(jù)管理系統(tǒng)。工作量預(yù)估為5人天元數(shù)據(jù)查詢快速檢索相關(guān)數(shù)據(jù),加速數(shù)據(jù)發(fā)現(xiàn)流程元數(shù)據(jù)標(biāo)注自動發(fā)現(xiàn)元數(shù)據(jù)并允許用戶自定義可定制化標(biāo)簽與注釋,便于數(shù)據(jù)追蹤與歸類元數(shù)據(jù)識別從外部系統(tǒng)中識別出Hadoop的元數(shù)據(jù),以整合公司范圍內(nèi)的不同系統(tǒng)與處理流程 實(shí)現(xiàn)數(shù)據(jù)質(zhì)量評估功能。通過Data Services來實(shí)現(xiàn)數(shù)據(jù)質(zhì)量評估功能。DS能夠分析數(shù)據(jù)背后的質(zhì)量問題,可鉆取至某些特定的記錄。對比數(shù)據(jù)集之間的數(shù)據(jù),了解其匹配程度 數(shù)據(jù)分析與挖掘乙方應(yīng)說明大數(shù)據(jù)平臺可以無縫銜接的分析挖掘軟件產(chǎn)品,并說明軟件產(chǎn)品的適用平臺、功能、操作方式、性能、特點(diǎn)、適用場景和優(yōu)勢等。Cloudera整合各種開源組件,包括Spark MLLib,Mahout,Oryx等形成完整的機(jī)器學(xué)習(xí)算法庫,適用于不同場合的機(jī)器學(xué)習(xí)建模等需要;與SAS,R等傳統(tǒng)第三方機(jī)器學(xué)習(xí)軟件擁有互相認(rèn)證的官方兼容性,用戶可以使用熟悉的SAS,R程序在CDH平臺上處理海量數(shù)據(jù)。同時(shí)CDH提供廣泛的數(shù)據(jù)分析和可視化工具兼容性,用戶可以使用Tableau, Pentaho等可視化工具連接到CDH進(jìn)行分析。SAP HANA中集成了預(yù)測算法庫PAL,能夠通過調(diào)用這些算法實(shí)現(xiàn)在庫內(nèi)的分析預(yù)測,另外也可以與開源的R語言進(jìn)行集成。對不同級別和權(quán)限的用戶使用數(shù)據(jù)、存儲資源、運(yùn)算資源等提供控制功能,可以實(shí)現(xiàn)數(shù)據(jù)訪問的權(quán)限控制,存儲和運(yùn)算資源的彈性擴(kuò)展。通過yarn與操作系統(tǒng)共同配合,完成對用戶的存儲資源、運(yùn)算資源的控制功能,并實(shí)現(xiàn)數(shù)據(jù)訪問的權(quán)限控制、存儲和運(yùn)算資源的彈性擴(kuò)展。對R語言提供支持。包括但不限于對R的改造、解決開源R性能、分布式并行運(yùn)行、版本變更、新增算法支持等問題,提供支持分布式并行R算法的詳細(xì)列表。與R擁有互相認(rèn)證的官方兼容性,用戶可以使用熟悉的R程序在CDH或者HANA平臺上處理海量數(shù)據(jù),支持開源R算法能支持的所有算法。應(yīng)能支持ANSI SQL、Python、R、Java、C/C++等語言的使用。平臺能支持多種語言的使用。采用B/S,C/S或混合架構(gòu)架構(gòu)類型,并詳細(xì)描述對終端設(shè)備、操作系統(tǒng)、瀏覽器的要求,應(yīng)提供圖形化界面操作支持,操作界面要求簡體中文。采用B/S架構(gòu),提供中文圖形化界面操作支持,支持當(dāng)前主流瀏覽器。對終端和操作系統(tǒng)無特定要求。實(shí)現(xiàn)對TB以上級別的數(shù)據(jù)進(jìn)行分析挖掘的功能,應(yīng)對分析挖掘中的中間數(shù)據(jù)和結(jié)果數(shù)據(jù)的靈活存儲提供支持,應(yīng)對多數(shù)據(jù)來源輸入輸出提供支持。提供了Spark MLLib,Mahout,Oryx等完整的機(jī)器學(xué)習(xí)算法庫,可對分析挖掘中的中間數(shù)據(jù)和結(jié)果數(shù)據(jù)的靈活存儲提供支持,對多數(shù)據(jù)來源輸入輸出提供支持。具有處理過程的數(shù)據(jù)預(yù)覽功能。需要通過二次開發(fā)來實(shí)現(xiàn)。工作量預(yù)估為2人天對數(shù)據(jù)分析挖掘算法管理提供支持,每個(gè)算法能夠靈活選擇數(shù)據(jù)源。需要通過二次開發(fā)來實(shí)現(xiàn)。工作量預(yù)估為2人天對分析挖掘的腳本和模型共享功能提供支持,可以實(shí)現(xiàn)用戶分析挖掘腳本和模型的發(fā)布與管理。需要通過二次開發(fā)來實(shí)現(xiàn)。工作量預(yù)估為2人天對數(shù)據(jù)的探索和發(fā)現(xiàn)提供支持,可以通過作圖、制表、方程擬合、計(jì)算特征量等手段探索數(shù)據(jù)結(jié)構(gòu)和規(guī)律的功能。需要通過二次開發(fā)來實(shí)現(xiàn)。工作量預(yù)估為20人天對圖形化分析提供支持,并進(jìn)行互動操作。需要通過二次開發(fā)來實(shí)現(xiàn)。工作量預(yù)估為10人天對統(tǒng)計(jì)分析方法提供支持。實(shí)現(xiàn)統(tǒng)計(jì)分析方法的分布式并行計(jì)算。支持統(tǒng)計(jì)分析方法。對數(shù)據(jù)挖掘功能提供支持。實(shí)現(xiàn)數(shù)據(jù)挖掘功能的分布式并行計(jì)算。通過數(shù)據(jù)挖掘算法與hadoop或者spark集成來實(shí)現(xiàn)分布式并行計(jì)算。對模型預(yù)測功能提供支持。實(shí)現(xiàn)模型預(yù)測功能的分布式并行計(jì)算。通過hadoop或者spark來實(shí)現(xiàn)分布式并行計(jì)算對常用場景實(shí)現(xiàn)提供支持。場景包括但不限于:客戶畫像、產(chǎn)品推薦、自然語言處理、語義分析、輿情分析、文本挖掘、客戶行為預(yù)測等。通過在Hadoop平臺上進(jìn)行二次開發(fā)實(shí)現(xiàn)。工作量預(yù)估為30人天對分析挖掘的腳本和模型的快速應(yīng)用、服務(wù)提供支持,可以快速生成分析報(bào)告和圖表;可以發(fā)布實(shí)時(shí)/非實(shí)時(shí)的分析應(yīng)用;可以使用Web方式訪問分析應(yīng)用成果。通過在Hadoop平臺上進(jìn)行二次開發(fā)實(shí)現(xiàn)。工作量預(yù)估為10人天實(shí)現(xiàn)對分析指標(biāo)管理,要從已固化分析結(jié)果中,抽取出指標(biāo)的內(nèi)容。并提供這些指標(biāo)的增刪改查等功能,以對該指標(biāo)庫進(jìn)行維護(hù)。通過在Hadoop平臺上進(jìn)行二次開發(fā)實(shí)現(xiàn),工作量預(yù)估為20人天實(shí)現(xiàn)對分析過程的管理。通過在Hadoop平臺上進(jìn)行二次開發(fā)實(shí)現(xiàn),工作量預(yù)估為10人天實(shí)現(xiàn)對分析挖掘模型固化的支持,能夠根據(jù)實(shí)時(shí)/非實(shí)時(shí)數(shù)據(jù)集進(jìn)行自動分析,支持通過配置方式實(shí)現(xiàn)工作流管理,將更多的分析工作成果自動化、長期化,反饋到相關(guān)人員或系統(tǒng)。通過在Hadoop平臺上進(jìn)行二次開發(fā)實(shí)現(xiàn),工作量預(yù)估為20人天 技術(shù)要求 總體要求乙方應(yīng)采用先進(jìn)、成熟、適用,并符合國際發(fā)展趨勢的技術(shù)、軟件產(chǎn)品和設(shè)備,要嚴(yán)格遵守有關(guān)的國際標(biāo)準(zhǔn)、國家標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)和郵政標(biāo)準(zhǔn)規(guī)范,遵循并實(shí)現(xiàn)本技術(shù)規(guī)范書中招標(biāo)范圍章節(jié)提出的相關(guān)要求,并借鑒國內(nèi)外目前先進(jìn)、成熟的大數(shù)據(jù)平臺技術(shù),提出合理的建議方案,保證大數(shù)據(jù)平臺的先進(jìn)性、前瞻性、穩(wěn)定性、擴(kuò)展性、安全性、開放性、靈活性、便捷性等方面性能。提供的各種技術(shù)設(shè)計(jì)文檔的內(nèi)容應(yīng)滿足GB85671988《計(jì)算機(jī)軟件產(chǎn)品開發(fā)文件編制指南》和GB/T1145789《軟件工程術(shù)語》,文檔錯(cuò)誤的總字?jǐn)?shù)不能超過文檔總字?jǐn)?shù)的1‰,文檔中不能出現(xiàn)與實(shí)際情況不一致的描述錯(cuò)誤,乙方提供的文檔和資料均應(yīng)以光盤和紙張為載體(各10套),文件為Word文檔、PDF文檔或其他常用可視化文件格式。測試報(bào)告應(yīng)基于單臺服務(wù)器配置不高于2C8核CPU,256G內(nèi)存,300G*2T*14硬盤和600G*2 PCIE SSD,2個(gè)雙口萬兆網(wǎng)卡(光口)的x86服務(wù)器集群出具,至少包含測試目標(biāo)、測試內(nèi)容、測試環(huán)境、測試過程、測試結(jié)果(應(yīng)包括但不限于并發(fā)數(shù)量、響應(yīng)時(shí)間、數(shù)據(jù)采集、加載、導(dǎo)出、檢索速度等性能指標(biāo))等方面內(nèi)容。 總體架構(gòu)根據(jù)以下內(nèi)容提出大數(shù)據(jù)平臺技術(shù)解決方案。詳細(xì)說明邏輯架構(gòu)、網(wǎng)絡(luò)架構(gòu)和物理架構(gòu)等設(shè)計(jì)。乙方應(yīng)根據(jù)自己的經(jīng)驗(yàn),并結(jié)合甲方現(xiàn)狀,提供軟硬件部署建議,提出詳細(xì)服務(wù)器要求、存儲容量、網(wǎng)絡(luò)配置、網(wǎng)絡(luò)帶寬建議(主機(jī)CPU利用率不高于75%,I/O平均利用率不高于50%),說明計(jì)算方法。提供相關(guān)測試報(bào)告,詳細(xì)描述集中式部署條件下大規(guī)模并發(fā)處理機(jī)制和關(guān)鍵技術(shù)。系統(tǒng)應(yīng)能滿足:1) 5萬注冊用戶,同時(shí)在線5000用戶。2) 處理能力應(yīng)滿足未來3-5年的業(yè)務(wù)需求。3) 存儲數(shù)據(jù)不少于3PB,常用數(shù)據(jù)不少于600TB。4) 在服務(wù)器配置為2C8核CPU,256G內(nèi)存,硬盤為300G*2*14硬盤和600G*2 PCIE SSD,2個(gè)雙口萬兆網(wǎng)卡(光口)的條件下,數(shù)據(jù)檢索響應(yīng)時(shí)限要求如下:a) 在單個(gè)服務(wù)器并發(fā)1000情況下,按關(guān)鍵字檢索單表記錄響應(yīng)時(shí)限=20ms,并提供測試的具體結(jié)果;b) 在單個(gè)服務(wù)器并發(fā)200情況下,按關(guān)鍵字檢索多表關(guān)聯(lián)記錄響應(yīng)時(shí)限=200ms,并提供測試的具體結(jié)果;c) 在單個(gè)服務(wù)器并發(fā)30情況下,多表關(guān)聯(lián)檢索并匯總統(tǒng)計(jì)響應(yīng)時(shí)限=200ms,并提供測試的具體結(jié)果。*服務(wù)器采用x86集群,詳細(xì)描述軟硬件的基礎(chǔ)構(gòu)件平臺,主要包括架構(gòu)、接口等。乙方軟件應(yīng)支持通用的接口標(biāo)準(zhǔn),詳細(xì)列舉所支持的接口標(biāo)準(zhǔn)。CDH支持x86集群,目前支持多種linux操作系統(tǒng),包括:redhat,centos,debian,sles,ubuntu等。*應(yīng)支持分布式部署,支持服務(wù)器集群技術(shù)、支持多服務(wù)器負(fù)載均衡,可實(shí)現(xiàn)在線動態(tài)擴(kuò)充,系統(tǒng)性能能夠隨著系統(tǒng)服務(wù)器數(shù)目的增加平滑線性增長。詳細(xì)說明實(shí)現(xiàn)方式和對分布式事務(wù)處理的支持能力。hadoop架構(gòu)本身的特點(diǎn)就是支持服務(wù)器集群技術(shù)、支持多服務(wù)器負(fù)載均衡,可實(shí)現(xiàn)在線動態(tài)擴(kuò)充,系統(tǒng)性能能夠隨著系統(tǒng)服務(wù)器數(shù)目的增加平滑線性增長。詳細(xì)說明對數(shù)據(jù)倉庫相關(guān)能力的支持以及對現(xiàn)有量收系統(tǒng)數(shù)據(jù)倉庫業(yè)務(wù)的遷移能力以及對國際通用標(biāo)準(zhǔn)測試集的測試情況。通過Hive、Hbase、impala來實(shí)現(xiàn)對數(shù)據(jù)倉庫相關(guān)能力的支持,這些組件符合sql2003標(biāo)準(zhǔn),可無縫支持現(xiàn)有的數(shù)據(jù)倉庫業(yè)務(wù)。系統(tǒng)要求層次化、模塊化,做到層次清晰,模塊合理,模塊可靈活抽取替換,模塊與模塊之間關(guān)系明確,詳細(xì)描述平臺系統(tǒng)內(nèi)部模塊之間的集成方式,包括模塊之間的通訊機(jī)制、接入策略等,并說明如何實(shí)現(xiàn)內(nèi)部模塊重組。整體方案按照層次化模型設(shè)計(jì),模塊之間的產(chǎn)品均可以任意替換。而且各模塊所以使用的產(chǎn)品均為全球知名品牌,符合通用的技術(shù)標(biāo)準(zhǔn)。 運(yùn)行環(huán)境要求大數(shù)據(jù)平臺需支持但不局限于以下環(huán)境要求。環(huán)境軟件要求生產(chǎn)環(huán)境紅旗Linux服務(wù)器版操作系統(tǒng)(Red Flag Asianux Server);支持C/C++、Java、ANSI SQL、Python、R等軟件和應(yīng)用開發(fā)工具;可用數(shù)據(jù)不少于3PB。測試與開發(fā)環(huán)境紅旗Linux服務(wù)器版操作系統(tǒng)(Red Flag Asianux Server);支持C/C++、Java、ANSI SQL、Python、R等軟件和應(yīng)用開發(fā)工具;可用數(shù)據(jù)不少于100TB。軟件運(yùn)行環(huán)境要求支持紅旗Linux服務(wù)器版64位操作系統(tǒng)。詳細(xì)說明軟件支持的主流操作系統(tǒng)類型、系統(tǒng)內(nèi)核、鏈接庫和編譯環(huán)境要求。 Cloudrea支持的主流操作系統(tǒng)以及版本情況如
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1