freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

云數(shù)據(jù)采集中心及大數(shù)據(jù)計算平臺建設(shè)方案-wenkub

2023-05-11 05:16:04 本頁面
 

【正文】 了一個分布式文件系統(tǒng),而且還提供了許多 其他重要的分布式功能,比如分布式內(nèi)存管理、I/O 調(diào)度、軟 RAID 和自我修復(fù)等。分 布式文件系統(tǒng)采用開放式設(shè)計,廣泛支持工業(yè)標準的存儲、網(wǎng)絡(luò)和 計算機設(shè)備,而非與定制化的專用硬件設(shè)備捆綁。存儲服務(wù)器可以在線進行增加和移除,不會導(dǎo)致應(yīng)用中斷。在其他的 ScaleOut 存儲系統(tǒng)中,元數(shù)據(jù)服務(wù)器通常會導(dǎo)致 I/O 性能瓶頸和單 點故障問題。 存儲資源可以根據(jù)需要在虛擬存儲池中進行彈性擴展,比如擴容或 收縮。n 高可用性:分布式文件系統(tǒng)可以對文件進行自動復(fù)制,如鏡像或多 次復(fù)制,從而確保數(shù)據(jù)總是可以訪問,甚至是在硬件故障的情況下 也能正常訪問。分布式文件系統(tǒng)客戶端則支持 Linux 和 Windows,同時分布式文件系統(tǒng)還可以通過第三方軟件輸出 CIFS 和 NFS 接口, 可以兼容大多數(shù)應(yīng)用。目前,分布式文件系統(tǒng)已經(jīng)被應(yīng)用于政府、醫(yī)療影像、 勘查數(shù)據(jù)計算、視頻服務(wù)以及動畫制作等領(lǐng)域。(3) 分布式文件系統(tǒng)與傳統(tǒng) NAS/SAN 設(shè)備的比較:比較項高端 NASFCSAN分布式文件系統(tǒng)性能一般雙端口,性能受機頭影響,難以擴展,出口帶 寬是瓶頸一般雙端口,性能受機頭影響,難以擴展, IOPS 較好性能隨節(jié)點數(shù)的增加成線性增長擴展能力性能及容量無法擴展,或者有限擴展能較好擴展,但成本高昂性能及容量按需擴展,動態(tài)均衡可用性RAID 方式保護, 雙機保護,停機 RAID Rebuid,耗 時RAID 方式保護,雙機保 護 , 停 機 RAID Rebuid,耗時基于靈活的多副本機制,自動檢測,自動故障恢復(fù), 無需停機數(shù)據(jù)管理企業(yè)級功能需要單獨購買企業(yè)級功能需要單獨購買(還需要單獨的內(nèi)嵌多種企業(yè)級應(yīng)用:快照、鏡像、回收站文件系統(tǒng),100 多萬一套)成本專有的硬件平臺,軟件擁有成本高,擴展成本高專有的硬件平臺,軟件擁有成本高,擴展 成本高開發(fā)通用的硬件平臺,一體化的軟件,成本低,擴 展成本低可維護性專門的技術(shù)支持服務(wù),需要培訓(xùn)結(jié)構(gòu)異常復(fù)雜,需要大量培訓(xùn),廠商服務(wù) 昂貴內(nèi)嵌多種自動化的故障檢測和恢復(fù)功能,國內(nèi)開發(fā), 技術(shù)支持快速用戶使用分布式文件系統(tǒng)如同使用本地文件系統(tǒng)。分布式文件系統(tǒng)是一種構(gòu)建于通用 x86 部件之上的高可用、高可靠、高可擴 展的新型分布式文件系統(tǒng)。n 應(yīng)用目標差異:主要面臨運營商、金融行業(yè)的 OLTP 應(yīng)用、很少針 對海量的流數(shù)據(jù),或者非結(jié)構(gòu)化數(shù)據(jù)進行設(shè)計和優(yōu)化。收視率統(tǒng)計應(yīng)用智能推薦應(yīng)用拍立購應(yīng)用云中心監(jiān)控第三方應(yīng)用API存儲設(shè)備網(wǎng)絡(luò)設(shè)備服務(wù)器設(shè)備JSSDCSJGSMPSSDS開放平臺S2DFSD2BPostgreSQLNginxApacheTomcatDMQCentOS x64云數(shù)據(jù)采集中心整體架構(gòu)圖智能終端智能終端智能終端……骨 干 網(wǎng)資源及監(jiān)控管理資源及權(quán)限管理WEB及消息服務(wù)器存儲/計算服務(wù)器存儲/計算服務(wù)器WEB及消息服務(wù)器存儲/計算服務(wù)器WEB及消息服務(wù)器…………分布式數(shù)據(jù)庫服務(wù)器數(shù)據(jù)公共網(wǎng)聯(lián)通/電信/移動防火墻分布式數(shù)據(jù)庫服務(wù)器分布式數(shù)據(jù)庫服務(wù)器負載均衡服務(wù)器……負載均衡服務(wù)器作業(yè)調(diào)度服務(wù)器(主)……作業(yè)調(diào)度服務(wù)器(備)云數(shù)據(jù)采集中心網(wǎng)絡(luò)結(jié)構(gòu)圖17 核心技術(shù)及功能 分布式文件存儲技術(shù)(1) 傳統(tǒng)存儲技術(shù)面臨的問題:n 構(gòu)建成本高:大容量及高網(wǎng)絡(luò)帶寬的高端存儲系統(tǒng)架構(gòu)昂貴。該層的主要功能應(yīng)用有:數(shù)據(jù)采集 應(yīng)用、收視率統(tǒng)計應(yīng)用、智能推薦應(yīng)用、拍立購應(yīng)用,云數(shù)據(jù)采集中心的資源監(jiān) 控及調(diào)度,通過提供標準 API,在 CC 的云平臺上集成第三方 APP 應(yīng)用,使我們 的云平臺成為一個開放的平臺,圍繞 CC 的各種智能終端或者第三方的終端,都 納入到平臺上來,建立一個完備而豐富的運營生態(tài)圈,使 CC 在互聯(lián)網(wǎng)時代的競爭中占得先機。WEB 及應(yīng)用服務(wù)器軟件 Apacheamp。為了節(jié)省成本和減少通信代價,建議存儲服13務(wù)器和計算服務(wù)器合二為一,所以該服務(wù)器同時具有計算和存儲數(shù)據(jù)的功能,前 期也可以考慮把作業(yè)調(diào)度服務(wù)進程(JSS)進程部署在存儲/計算服務(wù)器上。 作為數(shù)據(jù)通信用的全千兆三層交換機等等。今后整個云數(shù)據(jù)采集中心的技術(shù)平臺和架構(gòu)需要輕松擴展到支持 1000 萬臺規(guī)模 的各種智能終端的數(shù)據(jù)存儲和計算規(guī)模。l 高性能和安全性 規(guī)范地進行系統(tǒng)建設(shè)和開發(fā),提供合理且經(jīng)濟有效的應(yīng)急方案,確保系 統(tǒng)的穩(wěn)定,向各類服務(wù)對象提供可靠的服務(wù)。l 技術(shù)平臺要有能力支持數(shù)據(jù)量最高 1000W 終端數(shù)量的數(shù)據(jù)存儲、數(shù)據(jù)計 算、信息推薦等的能力。 當 CC 的用戶量和采集的數(shù)據(jù)量與日俱增的時候,數(shù)據(jù)中心必須能通過添加更多 服務(wù)節(jié)點來擴展性能和負載能力,保證高可擴展性和高可用性從而滿足 CC 業(yè)務(wù) 發(fā)展的需要。因此 CC 迫切需要建設(shè)一套高性能、高安全性、高可靠性,可擴展性的云數(shù)據(jù)采集中心, 并搭建一個數(shù)據(jù)中心支撐平臺,以滿足當今高速增長的數(shù)據(jù)存儲、管理、計算的 需求,同時便于將來拓展和進一步的改造。目前 CC 數(shù)據(jù)中心是主要基于 CC 黑電、白電、瀏覽器等產(chǎn)品終端傳感器采 集的海量文本、圖片數(shù)據(jù)以及用戶數(shù)據(jù),為 CC 后續(xù)其他數(shù)據(jù)分析挖掘項目提供 數(shù)據(jù)支撐的信息平臺。 項目目標l 搭建分布式存儲平臺(能夠存儲海量非結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù))、分 布式并行計算平臺等等,滿足海量數(shù)據(jù)的采集、存儲、計算的需要,平8臺必須具備高可用性,高擴展性,高可靠性要求。 建設(shè)原則基于本項目的建設(shè)要求,本項目將遵循以下建設(shè)原則:l 前瞻性和高標準 整個項目要按照企業(yè)對大數(shù)據(jù)應(yīng)用的需要的高要求和高標準建設(shè),參考 行業(yè)標桿應(yīng)用,建立滿足需求,面向未來的目標,整個項目具有一定前 瞻性。具有安全性,在系統(tǒng)遭到 攻擊或崩潰時能快速恢復(fù),確保重要數(shù)據(jù)的機密性和完整性。以下的數(shù)據(jù)為預(yù)估數(shù)據(jù)(基于小范圍的實驗數(shù)據(jù)為依據(jù)):數(shù)據(jù)類別文件(記錄)大小 1文件(記錄)數(shù)量 1文件(記錄)大小 2文件(記錄)數(shù)量 2臺標數(shù)據(jù)(原始數(shù)據(jù),1 天周期)約 16KB/臺/天(由 200Kb/臺/天而得)約 36 個文件/臺/天約 32GB/200 萬臺/天約 7200 萬個/200 萬臺/天行為數(shù)據(jù)(原始數(shù)據(jù),1 天周期)約 60KB/臺/天(記錄)(由 400Kb/臺/天而得,加上了 10KB 的索引記錄) 約 50KB/臺/天(文件)(由 400Kb/臺/天而得)(平均估值)約 100 條記錄/臺/天(記錄)約 100 個文件/臺/天(文件)(平均估值)約 120GB/200 萬臺/天(記錄)約 100GB/200 萬臺/天(文件)(平均估值)約 2 億條/200 萬臺/天(記錄)約 2 億個/200 萬臺/天(文件)(平均估值)行為數(shù)據(jù)(原始數(shù)據(jù),永久保存,壓縮處理)約 60KB/臺/天(記錄)(由 400Kb/臺/天而得,加上了 10KB 的索引記錄) 約 50KB/臺/天(文件)(由 400Kb/臺/天而得)(平均估值)約 100 條記錄/臺/天約 100 個文件/臺/天(平均估值)約 45TB/200 萬臺/1 年(文件, 加上元數(shù)據(jù)描述文件)(平均估值) 注:記錄的大小約為 10GB約 35 萬條/200 萬臺/1 年(記錄)約 35 萬個/200 萬臺/1 年(文件)(平均估值) 注:128MB/1 個文件行為分析/收視率統(tǒng)計/推薦/電商索引等記 錄約 10KB/1 條(記錄)(平均估值)約 10TB/1 年(記錄)(平均估值)約 1015 億條記錄/1 年(記錄)(平均估值)11至少 6 大電商的鏡像數(shù)據(jù)約 30KB/1 個(文件)(平均估值)約 10 億個/1 年(文件)(平均估值)約 30TB/1 年(文件)(平均估值)12以 1 年為計算周期(數(shù)據(jù)整合、壓縮、清洗后),初步預(yù)估: 數(shù)據(jù)記錄:約為 1015 億條; 文件個數(shù):約為 1012 億個; 記錄總大?。杭s為 10TB;(雙份副本:需要約 20TB 存儲空間) 文件總大?。杭s為 75TB;(雙份副本:需要約 150TB 存儲空間) 總?cè)萘看笮。杭s為 85TB;(雙份副本:需要約 170TB 存儲空間)為了數(shù)據(jù)的高可靠性,為每份(文件/記錄)建立鏡像副本,所以總?cè)萘砍?步可以規(guī)劃約為 170TB。其中光纖陣列柜主要用來存儲統(tǒng)計分 析后的粗顆粒度數(shù)據(jù)。由于 云數(shù)據(jù)采集中心需要面對多種寬帶用戶(電信、移動、聯(lián)通),所以,數(shù)據(jù)中心 的對外的網(wǎng)絡(luò)需要直連上電信、移動、聯(lián)通三家公司的網(wǎng)絡(luò),保證以上三家公司 間的通信性能高速和可靠。Tomcat,消息隊列軟件分布式消息(DMQ)。16智能終端層主要包括 CC 黑電、白電、瀏覽器等產(chǎn)品設(shè)備,這些終端設(shè)備通過公共數(shù)據(jù)網(wǎng)(電信、聯(lián)通、移動)和 HTTP 協(xié)議,把終端傳感器采集的海量文 本、圖片數(shù)據(jù)以及用戶行為數(shù)據(jù)存儲在云數(shù)據(jù)采集中心里,以供后期分析計算用。n 文件系統(tǒng)功能和性能差強人意:難以實現(xiàn)全局命名空間的文件共享、 文件系統(tǒng)難以擴展,容易形成瓶頸。n 異構(gòu)設(shè)備繁雜:不同時期、不同公司、不同操作系統(tǒng)的異構(gòu)設(shè)備紛 繁復(fù)雜,無法整合,資源利用率極低。應(yīng)用分布式文件系統(tǒng),用戶可以采用廉價可靠的通用 服務(wù)器、SATA/SAS 硬盤以及以太網(wǎng)絡(luò)來構(gòu)建媲美企業(yè)級存儲產(chǎn)品的存儲系統(tǒng)。所不同的是,傳統(tǒng) NAS 通常以單一節(jié)點的方式實現(xiàn),容量和性能的擴展能力有限,易于成為性能瓶頸和 單一故障點。這些領(lǐng)域的數(shù)據(jù)訪問特征均為: 數(shù)據(jù)量巨大,I/O 吞吐率高,數(shù)據(jù)增長迅速以及數(shù)據(jù)可用性要求高。(4) 分布式文件系統(tǒng)的核心技術(shù)及特征:n 擴展性和高性能:分布式文件系統(tǒng)利用雙重特性來提供幾 TB 至數(shù) PB 的高擴展存儲解決方案。自我修復(fù)功能能夠把數(shù)據(jù)恢復(fù)到正確的狀態(tài),而且 修復(fù)是以增量的方式在后臺執(zhí)行,幾乎不會產(chǎn)生性能負載。當存儲虛擬機映像時,存儲的虛擬映像文件沒有數(shù)量限制, 成千虛擬機均通過單一掛載點進行數(shù)據(jù)共享。分布式文件系統(tǒng)中,所有在 ScaleOut 存儲配置中的存 儲系統(tǒng)都可以智能地定位任意數(shù)據(jù)分片,不需要查看索引或者向其 他服務(wù)器查詢。邏輯卷可以在所有配置服務(wù)器中增長和縮 減,可以在不同服務(wù)器遷移進行容量均衡,或者增加和移除系統(tǒng), 這些操作都可在線進行。對于商業(yè)客戶, 分布式文件系統(tǒng)可以以虛擬裝置的形式交付,也可以與虛擬機容器 打包,或者是公有云中部署的映像。分布式文件系統(tǒng)汲取了微內(nèi)核架構(gòu)的經(jīng)驗教訓(xùn),借 鑒了 GNU/Hurd 操作系統(tǒng)的設(shè)計思想,在用戶空間實現(xiàn)了完整的存 儲操作系統(tǒng)棧。每個功能以模塊形式實現(xiàn),然后以積木方式進 行簡單的組合,即可實現(xiàn)復(fù)雜的功能。如果用戶需要從分布式文件 系統(tǒng)中遷移數(shù)據(jù),不需要作任何修改仍然可以完全使用這些數(shù)據(jù)。分布式文 件系統(tǒng)獨特地采用無元數(shù)據(jù)服務(wù)的設(shè)計,取而代之使用算法來定位文件,元數(shù)據(jù)和數(shù)據(jù)沒有分離而是一起存儲。n 基于標準協(xié)議:分布式文件系統(tǒng)存儲服務(wù)支持 NFS, CIFS, HTTP, FTP 以及分布式文件系統(tǒng)原生協(xié)議,完全與 POSIX 標準兼容。(2) 分布式并行計算架構(gòu)圖分布式并行計算架構(gòu)圖(3) 作業(yè)調(diào)度及計算過程(4) 分布式并行計算技術(shù)特點n 池化資源管理利用池化技術(shù),任何一臺聯(lián)在互聯(lián)網(wǎng)上的普通 PC 機從硬件到軟件,可通過池化技術(shù)加入服務(wù)器池中,等待任務(wù)分配,系統(tǒng)能充分利用現(xiàn) 有服務(wù)器資源,將所有運算子任務(wù)分配給節(jié)點服務(wù)器,有效避免計 算資源閑置現(xiàn)象的發(fā)生。 提供內(nèi)存緩存數(shù)據(jù),所以數(shù)據(jù)存取速度非???,主要是由于它處理寫入的方式: 它們存儲在內(nèi)存中,然后通過后臺線程寫入磁盤。主要功能特性:l 面向集合存儲,易存儲對象類型的數(shù)據(jù)“面向集合”(CollenctionOriented),意思是數(shù)據(jù)被分組存儲在數(shù)據(jù)集 中,被稱為一個集合(Collenction)。如果需要的話,你完全可以把不同結(jié)構(gòu) 的文件存儲在同一個數(shù)據(jù)庫里。l 可通過網(wǎng)絡(luò)訪問l 可用于 Windows174。l Adhoc JavaScript 查詢讓您能夠使用基于任何文檔屬性的任何條件來查 找數(shù)據(jù)。l 高級聚合的 map/reduce 實現(xiàn)。l 基于集合的對象存儲,在需要規(guī)范化數(shù)據(jù)時允許參考查詢。推薦運行在 64 位平臺,因為 D2B 在 32 位模式運行時支持的最大文件尺寸 為 2GB。所有功能都可以在一臺設(shè)備中實現(xiàn),少部 分高級功能通過授權(quán)控制。但鏈路負載、全 局負載是單獨設(shè)備。這對于復(fù)雜應(yīng) 用是很重要的性價比高,實際上如果幾臺服務(wù)器,用F5之類的硬件產(chǎn)品
點擊復(fù)制文檔內(nèi)容
規(guī)章制度相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1