freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

云數(shù)據(jù)采集中心及大數(shù)據(jù)計算平臺建設(shè)方案(完整版)

2025-06-01 05:16上一頁面

下一頁面
  

【正文】 口數(shù)目 52 口傳輸速率 10M/100M/1000Mbps 擴展插槽 4堆疊支持 可堆疊 1U 機架式25.標(biāo)準(zhǔn)圖騰 機柜42U服務(wù)器機柜:600mm寬*1000mm深*2000mm高,內(nèi)含4個 風(fēng)扇、10塊托盤。其中,業(yè)務(wù)層開放和應(yīng)用層開放是更加貼近互聯(lián)網(wǎng)層 面的開放方式。CC 數(shù)據(jù)采集中心面對的是百萬/千萬級以上的智能終端的高 并發(fā)海量數(shù)據(jù)上傳,所以分布式消息平臺必須在‘?dāng)?shù)據(jù)接收224。 Observer為系統(tǒng)擴展提供了一種方法。l 順序性:在一個 DMQ 集群中,其中一臺 DMQ 服務(wù)器上的消息 a 在 消息 b 之前發(fā)布,那么在所有的 DMQ 服務(wù)器上的消息 a 都會在消息 b 之前被發(fā)布,DMQ 會保持一致順序。如果 某臺服務(wù)器崩潰了, 網(wǎng)格只需要簡單地創(chuàng)建一份丟失數(shù)據(jù)的新副本, 并將它們放到另一臺服務(wù)器上。究竟選擇 Nginx 還是 HAProxy 要看團(tuán)隊對這兩種軟件的熟悉程度, 越熟悉,就能容易掌控,減少風(fēng)險,我們團(tuán)隊對 Nginx 非常熟悉,所以,這里我 們推薦用 Nginx 作為軟件的反向代理工具。2) 由于負(fù)載均衡器本身不需要對數(shù)據(jù)進(jìn)行處理,性能瓶頸更多的是在于后臺服務(wù)器,通常采用軟負(fù)載均衡器已非常夠用,且其商 業(yè)友好的軟件源碼授權(quán)使得我們可以非常靈活的設(shè)計,無逢的和我們管理系統(tǒng)平臺相結(jié)合。大部分功能需要授權(quán)控制。D2B 服務(wù)端可運行在 Linux、Windows 或 OS X 平臺,支持 32 位和 64 位應(yīng) 用。l D2B 查詢結(jié)果存儲在提供過濾、聚合和排序等一系列功能的游標(biāo)中,包 括 limit()、skip()、 sort()、count()、 distinct() 和 group()等等高級特性。l 自動處理碎片,以支持云計算層次的擴展性。它的特點是高性能、易部署、易使 用,存儲數(shù)據(jù)非常方便。用戶通過統(tǒng)一計算平臺把任務(wù)分派給系統(tǒng)內(nèi)的多個節(jié)點,調(diào)度節(jié)點資源執(zhí)行 任務(wù),發(fā)揮多核并行處理優(yōu)勢,提升運算效率,充分運用網(wǎng)絡(luò)內(nèi)的計算資源達(dá)到 解決大規(guī)模計算問題的目的。特別是 對于海量小文件的應(yīng)用,元數(shù)據(jù)問題是個非常大的挑戰(zhàn)。n 模塊化堆棧式架構(gòu)(Modular Stackable Architecture):分布式文件系統(tǒng) 采用模塊化、堆棧式的架構(gòu),可通過靈活的配置支持高度定制化的 應(yīng)用環(huán)境,比如大文件存儲、海量小文件存儲、分布式文件系統(tǒng)、 多傳輸協(xié)議應(yīng)用等。分 布式文件系統(tǒng)采用開放式設(shè)計,廣泛支持工業(yè)標(biāo)準(zhǔn)的存儲、網(wǎng)絡(luò)和 計算機設(shè)備,而非與定制化的專用硬件設(shè)備捆綁。在其他的 ScaleOut 存儲系統(tǒng)中,元數(shù)據(jù)服務(wù)器通常會導(dǎo)致 I/O 性能瓶頸和單 點故障問題。n 高可用性:分布式文件系統(tǒng)可以對文件進(jìn)行自動復(fù)制,如鏡像或多 次復(fù)制,從而確保數(shù)據(jù)總是可以訪問,甚至是在硬件故障的情況下 也能正常訪問。目前,分布式文件系統(tǒng)已經(jīng)被應(yīng)用于政府、醫(yī)療影像、 勘查數(shù)據(jù)計算、視頻服務(wù)以及動畫制作等領(lǐng)域。分布式文件系統(tǒng)是一種構(gòu)建于通用 x86 部件之上的高可用、高可靠、高可擴 展的新型分布式文件系統(tǒng)。收視率統(tǒng)計應(yīng)用智能推薦應(yīng)用拍立購應(yīng)用云中心監(jiān)控第三方應(yīng)用API存儲設(shè)備網(wǎng)絡(luò)設(shè)備服務(wù)器設(shè)備JSSDCSJGSMPSSDS開放平臺S2DFSD2BPostgreSQLNginxApacheTomcatDMQCentOS x64云數(shù)據(jù)采集中心整體架構(gòu)圖智能終端智能終端智能終端……骨 干 網(wǎng)資源及監(jiān)控管理資源及權(quán)限管理WEB及消息服務(wù)器存儲/計算服務(wù)器存儲/計算服務(wù)器WEB及消息服務(wù)器存儲/計算服務(wù)器WEB及消息服務(wù)器…………分布式數(shù)據(jù)庫服務(wù)器數(shù)據(jù)公共網(wǎng)聯(lián)通/電信/移動防火墻分布式數(shù)據(jù)庫服務(wù)器分布式數(shù)據(jù)庫服務(wù)器負(fù)載均衡服務(wù)器……負(fù)載均衡服務(wù)器作業(yè)調(diào)度服務(wù)器(主)……作業(yè)調(diào)度服務(wù)器(備)云數(shù)據(jù)采集中心網(wǎng)絡(luò)結(jié)構(gòu)圖17 核心技術(shù)及功能 分布式文件存儲技術(shù)(1) 傳統(tǒng)存儲技術(shù)面臨的問題:n 構(gòu)建成本高:大容量及高網(wǎng)絡(luò)帶寬的高端存儲系統(tǒng)架構(gòu)昂貴。WEB 及應(yīng)用服務(wù)器軟件 Apacheamp。 作為數(shù)據(jù)通信用的全千兆三層交換機等等。l 高性能和安全性 規(guī)范地進(jìn)行系統(tǒng)建設(shè)和開發(fā),提供合理且經(jīng)濟有效的應(yīng)急方案,確保系 統(tǒng)的穩(wěn)定,向各類服務(wù)對象提供可靠的服務(wù)。 當(dāng) CC 的用戶量和采集的數(shù)據(jù)量與日俱增的時候,數(shù)據(jù)中心必須能通過添加更多 服務(wù)節(jié)點來擴展性能和負(fù)載能力,保證高可擴展性和高可用性從而滿足 CC 業(yè)務(wù) 發(fā)展的需要。目前 CC 數(shù)據(jù)中心是主要基于 CC 黑電、白電、瀏覽器等產(chǎn)品終端傳感器采 集的海量文本、圖片數(shù)據(jù)以及用戶數(shù)據(jù),為 CC 后續(xù)其他數(shù)據(jù)分析挖掘項目提供 數(shù)據(jù)支撐的信息平臺。 建設(shè)原則基于本項目的建設(shè)要求,本項目將遵循以下建設(shè)原則:l 前瞻性和高標(biāo)準(zhǔn) 整個項目要按照企業(yè)對大數(shù)據(jù)應(yīng)用的需要的高要求和高標(biāo)準(zhǔn)建設(shè),參考 行業(yè)標(biāo)桿應(yīng)用,建立滿足需求,面向未來的目標(biāo),整個項目具有一定前 瞻性。以下的數(shù)據(jù)為預(yù)估數(shù)據(jù)(基于小范圍的實驗數(shù)據(jù)為依據(jù)):數(shù)據(jù)類別文件(記錄)大小 1文件(記錄)數(shù)量 1文件(記錄)大小 2文件(記錄)數(shù)量 2臺標(biāo)數(shù)據(jù)(原始數(shù)據(jù),1 天周期)約 16KB/臺/天(由 200Kb/臺/天而得)約 36 個文件/臺/天約 32GB/200 萬臺/天約 7200 萬個/200 萬臺/天行為數(shù)據(jù)(原始數(shù)據(jù),1 天周期)約 60KB/臺/天(記錄)(由 400Kb/臺/天而得,加上了 10KB 的索引記錄) 約 50KB/臺/天(文件)(由 400Kb/臺/天而得)(平均估值)約 100 條記錄/臺/天(記錄)約 100 個文件/臺/天(文件)(平均估值)約 120GB/200 萬臺/天(記錄)約 100GB/200 萬臺/天(文件)(平均估值)約 2 億條/200 萬臺/天(記錄)約 2 億個/200 萬臺/天(文件)(平均估值)行為數(shù)據(jù)(原始數(shù)據(jù),永久保存,壓縮處理)約 60KB/臺/天(記錄)(由 400Kb/臺/天而得,加上了 10KB 的索引記錄) 約 50KB/臺/天(文件)(由 400Kb/臺/天而得)(平均估值)約 100 條記錄/臺/天約 100 個文件/臺/天(平均估值)約 45TB/200 萬臺/1 年(文件, 加上元數(shù)據(jù)描述文件)(平均估值) 注:記錄的大小約為 10GB約 35 萬條/200 萬臺/1 年(記錄)約 35 萬個/200 萬臺/1 年(文件)(平均估值) 注:128MB/1 個文件行為分析/收視率統(tǒng)計/推薦/電商索引等記 錄約 10KB/1 條(記錄)(平均估值)約 10TB/1 年(記錄)(平均估值)約 1015 億條記錄/1 年(記錄)(平均估值)11至少 6 大電商的鏡像數(shù)據(jù)約 30KB/1 個(文件)(平均估值)約 10 億個/1 年(文件)(平均估值)約 30TB/1 年(文件)(平均估值)12以 1 年為計算周期(數(shù)據(jù)整合、壓縮、清洗后),初步預(yù)估: 數(shù)據(jù)記錄:約為 1015 億條; 文件個數(shù):約為 1012 億個; 記錄總大?。杭s為 10TB;(雙份副本:需要約 20TB 存儲空間) 文件總大?。杭s為 75TB;(雙份副本:需要約 150TB 存儲空間) 總?cè)萘看笮。杭s為 85TB;(雙份副本:需要約 170TB 存儲空間)為了數(shù)據(jù)的高可靠性,為每份(文件/記錄)建立鏡像副本,所以總?cè)萘砍?步可以規(guī)劃約為 170TB。由于 云數(shù)據(jù)采集中心需要面對多種寬帶用戶(電信、移動、聯(lián)通),所以,數(shù)據(jù)中心 的對外的網(wǎng)絡(luò)需要直連上電信、移動、聯(lián)通三家公司的網(wǎng)絡(luò),保證以上三家公司 間的通信性能高速和可靠。16智能終端層主要包括 CC 黑電、白電、瀏覽器等產(chǎn)品設(shè)備,這些終端設(shè)備通過公共數(shù)據(jù)網(wǎng)(電信、聯(lián)通、移動)和 HTTP 協(xié)議,把終端傳感器采集的海量文 本、圖片數(shù)據(jù)以及用戶行為數(shù)據(jù)存儲在云數(shù)據(jù)采集中心里,以供后期分析計算用。n 異構(gòu)設(shè)備繁雜:不同時期、不同公司、不同操作系統(tǒng)的異構(gòu)設(shè)備紛 繁復(fù)雜,無法整合,資源利用率極低。所不同的是,傳統(tǒng) NAS 通常以單一節(jié)點的方式實現(xiàn),容量和性能的擴展能力有限,易于成為性能瓶頸和 單一故障點。(4) 分布式文件系統(tǒng)的核心技術(shù)及特征:n 擴展性和高性能:分布式文件系統(tǒng)利用雙重特性來提供幾 TB 至數(shù) PB 的高擴展存儲解決方案。當(dāng)存儲虛擬機映像時,存儲的虛擬映像文件沒有數(shù)量限制, 成千虛擬機均通過單一掛載點進(jìn)行數(shù)據(jù)共享。邏輯卷可以在所有配置服務(wù)器中增長和縮 減,可以在不同服務(wù)器遷移進(jìn)行容量均衡,或者增加和移除系統(tǒng), 這些操作都可在線進(jìn)行。分布式文件系統(tǒng)汲取了微內(nèi)核架構(gòu)的經(jīng)驗教訓(xùn),借 鑒了 GNU/Hurd 操作系統(tǒng)的設(shè)計思想,在用戶空間實現(xiàn)了完整的存 儲操作系統(tǒng)棧。如果用戶需要從分布式文件 系統(tǒng)中遷移數(shù)據(jù),不需要作任何修改仍然可以完全使用這些數(shù)據(jù)。n 基于標(biāo)準(zhǔn)協(xié)議:分布式文件系統(tǒng)存儲服務(wù)支持 NFS, CIFS, HTTP, FTP 以及分布式文件系統(tǒng)原生協(xié)議,完全與 POSIX 標(biāo)準(zhǔn)兼容。 提供內(nèi)存緩存數(shù)據(jù),所以數(shù)據(jù)存取速度非???,主要是由于它處理寫入的方式: 它們存儲在內(nèi)存中,然后通過后臺線程寫入磁盤。如果需要的話,你完全可以把不同結(jié)構(gòu) 的文件存儲在同一個數(shù)據(jù)庫里。l Adhoc JavaScript 查詢讓您能夠使用基于任何文檔屬性的任何條件來查 找數(shù)據(jù)。l 基于集合的對象存儲,在需要規(guī)范化數(shù)據(jù)時允許參考查詢。所有功能都可以在一臺設(shè)備中實現(xiàn),少部 分高級功能通過授權(quán)控制。這對于復(fù)雜應(yīng) 用是很重要的性價比高,實際上如果幾臺服務(wù)器,用F5之類的硬件產(chǎn)品顯得有些浪費,而用 軟件就要合算得多,因為服務(wù)器同時還可以跑應(yīng)用做集群等。HAProxy是一款提供高可用性的 基于TCP(第四層)和HTTP(第 七層)應(yīng)用的代理軟件。臺標(biāo)等非結(jié)構(gòu)化數(shù)據(jù)存儲在分布式文件系統(tǒng)(S2DFS)中, log 或者行為等結(jié)構(gòu)化數(shù)據(jù)存儲在分布式數(shù)據(jù)庫(MongonDB)中。 一致性哈希算法成本低,速度快并且最重要的是不需要額外的元數(shù)據(jù) 或者網(wǎng)絡(luò)通信就能確定鍵值的位置。參與領(lǐng)導(dǎo)者(Leader)發(fā)起的投票。通過嵌入式 nosql 內(nèi)核完 成上百萬并發(fā)量的緩存數(shù)據(jù)來提供異步發(fā)布和訂閱。平臺商將服務(wù)打包成統(tǒng)一的、可識別的接口并開放出去,以使得第 三方的服務(wù)以相應(yīng)形式接入到平臺之上,第三方開發(fā)者為平臺提供產(chǎn)品和服務(wù)的 同時能夠與平臺共享各種資源。開放平臺的使命是把各種智能家電以及電商的商品、用戶、交易、物流52等等基礎(chǔ)服務(wù),像水、電、煤一樣輸送給有需要的商家、開發(fā)者、社區(qū)媒體和各 行各業(yè)。 初步估計數(shù)據(jù)量在 60TB100TB 之間,由于數(shù)據(jù)量很大,需要配置大容量分布式存儲空間,需要分布 式文件系統(tǒng)和分布式數(shù)據(jù)庫支撐。大數(shù)據(jù)計算平臺 的需要的數(shù)據(jù):包括智能終端上報的、網(wǎng)上實時爬取得、二次計算分析而獲取的 等等,都通過通用接口存儲在云數(shù)據(jù)采集中心的分布式存儲平臺中(分布式文件 系統(tǒng)(S2DFS)、分布式數(shù)據(jù)庫(D2B))。前面部署的 10 臺設(shè)備通過對原始數(shù)據(jù)處理壓縮 后,存儲空間還有多余。l 支持實時上報數(shù)據(jù)的查看,包括 IC 卡 ID、頻道名稱、頻道 ID、收看開 始時間、收看結(jié)束時間,觀看時長(秒)、GW2IP 地址?!?支持按名稱、頻道 ID、開始時間單項或組合查詢已添加節(jié)目?;谶@種原因,CC 通過收集海量 用戶行為數(shù)據(jù),通過推薦算法,把觀眾想看的節(jié)目推薦給終端用戶,提高用戶的 體驗。l 用戶興趣模型呈現(xiàn)◎ 構(gòu)建“用戶興趣類別興趣特征”三級管理模式。數(shù)據(jù)采集的來源有: IPP 客戶端、瀏覽器、智能電視、智能空調(diào)、智能冰箱、 智能日電采集上來的用戶基本數(shù)據(jù)、終端“傳感器”數(shù)據(jù)、web 數(shù)據(jù)采集、用戶 EPG 數(shù)據(jù)等。◎ 支持以餅圖、柱狀圖的形式統(tǒng)計數(shù)字電視設(shè)定時間段內(nèi)某頻道所有 節(jié)目收視時長收視率和人次收視率?!?支持修改、刪除、增加、查看頻道 ID、頻道名稱。第四,應(yīng)用場景問題:HDFS 對存儲網(wǎng)頁等文件比較友好,畢竟它的基因就 是為互聯(lián)網(wǎng)搜索而開發(fā)出來的,但是 CC 的應(yīng)用場景很雜,要涉及到 網(wǎng)頁,文本處理,也要涉及到圖片、視頻等搜索,HDFS 對大尺寸視 頻文件,圖像文件的性能就不能很好的適應(yīng)。請參考下面的圖例:根據(jù) 小節(jié)對 S2DFS分布式文件系統(tǒng)的詳細(xì)介紹,本章節(jié)就不重復(fù)敘述, 由于要增加新的存儲設(shè)備,對于新設(shè)備上安裝分布式文件系統(tǒng)是否繼續(xù)選用 S2DFS 還是 HDFS,我們需要回答以下幾個問題:第一,預(yù)算增加及擴展問題:要部署 HDFS,還得單獨購買兩臺高性能設(shè)備 作為 HDFS 的元數(shù)據(jù)庫服務(wù)器(注:兩臺設(shè)備,構(gòu)成主備;配置不能 比我們現(xiàn)在選擇的設(shè)備配置差,不然就會成為瓶頸,如果差了,數(shù)據(jù) 節(jié)點就擴展不了幾臺。網(wǎng)絡(luò)爬蟲爬取的影視節(jié)目信息存儲 在數(shù)據(jù)中心,此數(shù)據(jù)量跟用戶收視記錄相關(guān),只爬取
點擊復(fù)制文檔內(nèi)容
規(guī)章制度相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1