freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

云數(shù)據(jù)采集中心及大數(shù)據(jù)計(jì)算平臺(tái)建設(shè)方案(完整版)

2025-06-01 05:16上一頁面

下一頁面
  

【正文】 口數(shù)目 52 口傳輸速率 10M/100M/1000Mbps 擴(kuò)展插槽 4堆疊支持 可堆疊 1U 機(jī)架式25.標(biāo)準(zhǔn)圖騰 機(jī)柜42U服務(wù)器機(jī)柜:600mm寬*1000mm深*2000mm高,內(nèi)含4個(gè) 風(fēng)扇、10塊托盤。其中,業(yè)務(wù)層開放和應(yīng)用層開放是更加貼近互聯(lián)網(wǎng)層 面的開放方式。CC 數(shù)據(jù)采集中心面對(duì)的是百萬/千萬級(jí)以上的智能終端的高 并發(fā)海量數(shù)據(jù)上傳,所以分布式消息平臺(tái)必須在‘?dāng)?shù)據(jù)接收224。 Observer為系統(tǒng)擴(kuò)展提供了一種方法。l 順序性:在一個(gè) DMQ 集群中,其中一臺(tái) DMQ 服務(wù)器上的消息 a 在 消息 b 之前發(fā)布,那么在所有的 DMQ 服務(wù)器上的消息 a 都會(huì)在消息 b 之前被發(fā)布,DMQ 會(huì)保持一致順序。如果 某臺(tái)服務(wù)器崩潰了, 網(wǎng)格只需要簡(jiǎn)單地創(chuàng)建一份丟失數(shù)據(jù)的新副本, 并將它們放到另一臺(tái)服務(wù)器上。究竟選擇 Nginx 還是 HAProxy 要看團(tuán)隊(duì)對(duì)這兩種軟件的熟悉程度, 越熟悉,就能容易掌控,減少風(fēng)險(xiǎn),我們團(tuán)隊(duì)對(duì) Nginx 非常熟悉,所以,這里我 們推薦用 Nginx 作為軟件的反向代理工具。2) 由于負(fù)載均衡器本身不需要對(duì)數(shù)據(jù)進(jìn)行處理,性能瓶頸更多的是在于后臺(tái)服務(wù)器,通常采用軟負(fù)載均衡器已非常夠用,且其商 業(yè)友好的軟件源碼授權(quán)使得我們可以非常靈活的設(shè)計(jì),無逢的和我們管理系統(tǒng)平臺(tái)相結(jié)合。大部分功能需要授權(quán)控制。D2B 服務(wù)端可運(yùn)行在 Linux、Windows 或 OS X 平臺(tái),支持 32 位和 64 位應(yīng) 用。l D2B 查詢結(jié)果存儲(chǔ)在提供過濾、聚合和排序等一系列功能的游標(biāo)中,包 括 limit()、skip()、 sort()、count()、 distinct() 和 group()等等高級(jí)特性。l 自動(dòng)處理碎片,以支持云計(jì)算層次的擴(kuò)展性。它的特點(diǎn)是高性能、易部署、易使 用,存儲(chǔ)數(shù)據(jù)非常方便。用戶通過統(tǒng)一計(jì)算平臺(tái)把任務(wù)分派給系統(tǒng)內(nèi)的多個(gè)節(jié)點(diǎn),調(diào)度節(jié)點(diǎn)資源執(zhí)行 任務(wù),發(fā)揮多核并行處理優(yōu)勢(shì),提升運(yùn)算效率,充分運(yùn)用網(wǎng)絡(luò)內(nèi)的計(jì)算資源達(dá)到 解決大規(guī)模計(jì)算問題的目的。特別是 對(duì)于海量小文件的應(yīng)用,元數(shù)據(jù)問題是個(gè)非常大的挑戰(zhàn)。n 模塊化堆棧式架構(gòu)(Modular Stackable Architecture):分布式文件系統(tǒng) 采用模塊化、堆棧式的架構(gòu),可通過靈活的配置支持高度定制化的 應(yīng)用環(huán)境,比如大文件存儲(chǔ)、海量小文件存儲(chǔ)、分布式文件系統(tǒng)、 多傳輸協(xié)議應(yīng)用等。分 布式文件系統(tǒng)采用開放式設(shè)計(jì),廣泛支持工業(yè)標(biāo)準(zhǔn)的存儲(chǔ)、網(wǎng)絡(luò)和 計(jì)算機(jī)設(shè)備,而非與定制化的專用硬件設(shè)備捆綁。在其他的 ScaleOut 存儲(chǔ)系統(tǒng)中,元數(shù)據(jù)服務(wù)器通常會(huì)導(dǎo)致 I/O 性能瓶頸和單 點(diǎn)故障問題。n 高可用性:分布式文件系統(tǒng)可以對(duì)文件進(jìn)行自動(dòng)復(fù)制,如鏡像或多 次復(fù)制,從而確保數(shù)據(jù)總是可以訪問,甚至是在硬件故障的情況下 也能正常訪問。目前,分布式文件系統(tǒng)已經(jīng)被應(yīng)用于政府、醫(yī)療影像、 勘查數(shù)據(jù)計(jì)算、視頻服務(wù)以及動(dòng)畫制作等領(lǐng)域。分布式文件系統(tǒng)是一種構(gòu)建于通用 x86 部件之上的高可用、高可靠、高可擴(kuò) 展的新型分布式文件系統(tǒng)。收視率統(tǒng)計(jì)應(yīng)用智能推薦應(yīng)用拍立購應(yīng)用云中心監(jiān)控第三方應(yīng)用API存儲(chǔ)設(shè)備網(wǎng)絡(luò)設(shè)備服務(wù)器設(shè)備JSSDCSJGSMPSSDS開放平臺(tái)S2DFSD2BPostgreSQLNginxApacheTomcatDMQCentOS x64云數(shù)據(jù)采集中心整體架構(gòu)圖智能終端智能終端智能終端……骨 干 網(wǎng)資源及監(jiān)控管理資源及權(quán)限管理WEB及消息服務(wù)器存儲(chǔ)/計(jì)算服務(wù)器存儲(chǔ)/計(jì)算服務(wù)器WEB及消息服務(wù)器存儲(chǔ)/計(jì)算服務(wù)器WEB及消息服務(wù)器…………分布式數(shù)據(jù)庫服務(wù)器數(shù)據(jù)公共網(wǎng)聯(lián)通/電信/移動(dòng)防火墻分布式數(shù)據(jù)庫服務(wù)器分布式數(shù)據(jù)庫服務(wù)器負(fù)載均衡服務(wù)器……負(fù)載均衡服務(wù)器作業(yè)調(diào)度服務(wù)器(主)……作業(yè)調(diào)度服務(wù)器(備)云數(shù)據(jù)采集中心網(wǎng)絡(luò)結(jié)構(gòu)圖17 核心技術(shù)及功能 分布式文件存儲(chǔ)技術(shù)(1) 傳統(tǒng)存儲(chǔ)技術(shù)面臨的問題:n 構(gòu)建成本高:大容量及高網(wǎng)絡(luò)帶寬的高端存儲(chǔ)系統(tǒng)架構(gòu)昂貴。WEB 及應(yīng)用服務(wù)器軟件 Apacheamp。 作為數(shù)據(jù)通信用的全千兆三層交換機(jī)等等。l 高性能和安全性 規(guī)范地進(jìn)行系統(tǒng)建設(shè)和開發(fā),提供合理且經(jīng)濟(jì)有效的應(yīng)急方案,確保系 統(tǒng)的穩(wěn)定,向各類服務(wù)對(duì)象提供可靠的服務(wù)。 當(dāng) CC 的用戶量和采集的數(shù)據(jù)量與日俱增的時(shí)候,數(shù)據(jù)中心必須能通過添加更多 服務(wù)節(jié)點(diǎn)來擴(kuò)展性能和負(fù)載能力,保證高可擴(kuò)展性和高可用性從而滿足 CC 業(yè)務(wù) 發(fā)展的需要。目前 CC 數(shù)據(jù)中心是主要基于 CC 黑電、白電、瀏覽器等產(chǎn)品終端傳感器采 集的海量文本、圖片數(shù)據(jù)以及用戶數(shù)據(jù),為 CC 后續(xù)其他數(shù)據(jù)分析挖掘項(xiàng)目提供 數(shù)據(jù)支撐的信息平臺(tái)。 建設(shè)原則基于本項(xiàng)目的建設(shè)要求,本項(xiàng)目將遵循以下建設(shè)原則:l 前瞻性和高標(biāo)準(zhǔn) 整個(gè)項(xiàng)目要按照企業(yè)對(duì)大數(shù)據(jù)應(yīng)用的需要的高要求和高標(biāo)準(zhǔn)建設(shè),參考 行業(yè)標(biāo)桿應(yīng)用,建立滿足需求,面向未來的目標(biāo),整個(gè)項(xiàng)目具有一定前 瞻性。以下的數(shù)據(jù)為預(yù)估數(shù)據(jù)(基于小范圍的實(shí)驗(yàn)數(shù)據(jù)為依據(jù)):數(shù)據(jù)類別文件(記錄)大小 1文件(記錄)數(shù)量 1文件(記錄)大小 2文件(記錄)數(shù)量 2臺(tái)標(biāo)數(shù)據(jù)(原始數(shù)據(jù),1 天周期)約 16KB/臺(tái)/天(由 200Kb/臺(tái)/天而得)約 36 個(gè)文件/臺(tái)/天約 32GB/200 萬臺(tái)/天約 7200 萬個(gè)/200 萬臺(tái)/天行為數(shù)據(jù)(原始數(shù)據(jù),1 天周期)約 60KB/臺(tái)/天(記錄)(由 400Kb/臺(tái)/天而得,加上了 10KB 的索引記錄) 約 50KB/臺(tái)/天(文件)(由 400Kb/臺(tái)/天而得)(平均估值)約 100 條記錄/臺(tái)/天(記錄)約 100 個(gè)文件/臺(tái)/天(文件)(平均估值)約 120GB/200 萬臺(tái)/天(記錄)約 100GB/200 萬臺(tái)/天(文件)(平均估值)約 2 億條/200 萬臺(tái)/天(記錄)約 2 億個(gè)/200 萬臺(tái)/天(文件)(平均估值)行為數(shù)據(jù)(原始數(shù)據(jù),永久保存,壓縮處理)約 60KB/臺(tái)/天(記錄)(由 400Kb/臺(tái)/天而得,加上了 10KB 的索引記錄) 約 50KB/臺(tái)/天(文件)(由 400Kb/臺(tái)/天而得)(平均估值)約 100 條記錄/臺(tái)/天約 100 個(gè)文件/臺(tái)/天(平均估值)約 45TB/200 萬臺(tái)/1 年(文件, 加上元數(shù)據(jù)描述文件)(平均估值) 注:記錄的大小約為 10GB約 35 萬條/200 萬臺(tái)/1 年(記錄)約 35 萬個(gè)/200 萬臺(tái)/1 年(文件)(平均估值) 注:128MB/1 個(gè)文件行為分析/收視率統(tǒng)計(jì)/推薦/電商索引等記 錄約 10KB/1 條(記錄)(平均估值)約 10TB/1 年(記錄)(平均估值)約 1015 億條記錄/1 年(記錄)(平均估值)11至少 6 大電商的鏡像數(shù)據(jù)約 30KB/1 個(gè)(文件)(平均估值)約 10 億個(gè)/1 年(文件)(平均估值)約 30TB/1 年(文件)(平均估值)12以 1 年為計(jì)算周期(數(shù)據(jù)整合、壓縮、清洗后),初步預(yù)估: 數(shù)據(jù)記錄:約為 1015 億條; 文件個(gè)數(shù):約為 1012 億個(gè); 記錄總大小:約為 10TB;(雙份副本:需要約 20TB 存儲(chǔ)空間) 文件總大?。杭s為 75TB;(雙份副本:需要約 150TB 存儲(chǔ)空間) 總?cè)萘看笮。杭s為 85TB;(雙份副本:需要約 170TB 存儲(chǔ)空間)為了數(shù)據(jù)的高可靠性,為每份(文件/記錄)建立鏡像副本,所以總?cè)萘砍?步可以規(guī)劃約為 170TB。由于 云數(shù)據(jù)采集中心需要面對(duì)多種寬帶用戶(電信、移動(dòng)、聯(lián)通),所以,數(shù)據(jù)中心 的對(duì)外的網(wǎng)絡(luò)需要直連上電信、移動(dòng)、聯(lián)通三家公司的網(wǎng)絡(luò),保證以上三家公司 間的通信性能高速和可靠。16智能終端層主要包括 CC 黑電、白電、瀏覽器等產(chǎn)品設(shè)備,這些終端設(shè)備通過公共數(shù)據(jù)網(wǎng)(電信、聯(lián)通、移動(dòng))和 HTTP 協(xié)議,把終端傳感器采集的海量文 本、圖片數(shù)據(jù)以及用戶行為數(shù)據(jù)存儲(chǔ)在云數(shù)據(jù)采集中心里,以供后期分析計(jì)算用。n 異構(gòu)設(shè)備繁雜:不同時(shí)期、不同公司、不同操作系統(tǒng)的異構(gòu)設(shè)備紛 繁復(fù)雜,無法整合,資源利用率極低。所不同的是,傳統(tǒng) NAS 通常以單一節(jié)點(diǎn)的方式實(shí)現(xiàn),容量和性能的擴(kuò)展能力有限,易于成為性能瓶頸和 單一故障點(diǎn)。(4) 分布式文件系統(tǒng)的核心技術(shù)及特征:n 擴(kuò)展性和高性能:分布式文件系統(tǒng)利用雙重特性來提供幾 TB 至數(shù) PB 的高擴(kuò)展存儲(chǔ)解決方案。當(dāng)存儲(chǔ)虛擬機(jī)映像時(shí),存儲(chǔ)的虛擬映像文件沒有數(shù)量限制, 成千虛擬機(jī)均通過單一掛載點(diǎn)進(jìn)行數(shù)據(jù)共享。邏輯卷可以在所有配置服務(wù)器中增長(zhǎng)和縮 減,可以在不同服務(wù)器遷移進(jìn)行容量均衡,或者增加和移除系統(tǒng), 這些操作都可在線進(jìn)行。分布式文件系統(tǒng)汲取了微內(nèi)核架構(gòu)的經(jīng)驗(yàn)教訓(xùn),借 鑒了 GNU/Hurd 操作系統(tǒng)的設(shè)計(jì)思想,在用戶空間實(shí)現(xiàn)了完整的存 儲(chǔ)操作系統(tǒng)棧。如果用戶需要從分布式文件 系統(tǒng)中遷移數(shù)據(jù),不需要作任何修改仍然可以完全使用這些數(shù)據(jù)。n 基于標(biāo)準(zhǔn)協(xié)議:分布式文件系統(tǒng)存儲(chǔ)服務(wù)支持 NFS, CIFS, HTTP, FTP 以及分布式文件系統(tǒng)原生協(xié)議,完全與 POSIX 標(biāo)準(zhǔn)兼容。 提供內(nèi)存緩存數(shù)據(jù),所以數(shù)據(jù)存取速度非??欤饕怯捎谒幚韺懭氲姆绞剑?它們存儲(chǔ)在內(nèi)存中,然后通過后臺(tái)線程寫入磁盤。如果需要的話,你完全可以把不同結(jié)構(gòu) 的文件存儲(chǔ)在同一個(gè)數(shù)據(jù)庫里。l Adhoc JavaScript 查詢讓您能夠使用基于任何文檔屬性的任何條件來查 找數(shù)據(jù)。l 基于集合的對(duì)象存儲(chǔ),在需要規(guī)范化數(shù)據(jù)時(shí)允許參考查詢。所有功能都可以在一臺(tái)設(shè)備中實(shí)現(xiàn),少部 分高級(jí)功能通過授權(quán)控制。這對(duì)于復(fù)雜應(yīng) 用是很重要的性價(jià)比高,實(shí)際上如果幾臺(tái)服務(wù)器,用F5之類的硬件產(chǎn)品顯得有些浪費(fèi),而用 軟件就要合算得多,因?yàn)榉?wù)器同時(shí)還可以跑應(yīng)用做集群等。HAProxy是一款提供高可用性的 基于TCP(第四層)和HTTP(第 七層)應(yīng)用的代理軟件。臺(tái)標(biāo)等非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)在分布式文件系統(tǒng)(S2DFS)中, log 或者行為等結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)在分布式數(shù)據(jù)庫(MongonDB)中。 一致性哈希算法成本低,速度快并且最重要的是不需要額外的元數(shù)據(jù) 或者網(wǎng)絡(luò)通信就能確定鍵值的位置。參與領(lǐng)導(dǎo)者(Leader)發(fā)起的投票。通過嵌入式 nosql 內(nèi)核完 成上百萬并發(fā)量的緩存數(shù)據(jù)來提供異步發(fā)布和訂閱。平臺(tái)商將服務(wù)打包成統(tǒng)一的、可識(shí)別的接口并開放出去,以使得第 三方的服務(wù)以相應(yīng)形式接入到平臺(tái)之上,第三方開發(fā)者為平臺(tái)提供產(chǎn)品和服務(wù)的 同時(shí)能夠與平臺(tái)共享各種資源。開放平臺(tái)的使命是把各種智能家電以及電商的商品、用戶、交易、物流52等等基礎(chǔ)服務(wù),像水、電、煤一樣輸送給有需要的商家、開發(fā)者、社區(qū)媒體和各 行各業(yè)。 初步估計(jì)數(shù)據(jù)量在 60TB100TB 之間,由于數(shù)據(jù)量很大,需要配置大容量分布式存儲(chǔ)空間,需要分布 式文件系統(tǒng)和分布式數(shù)據(jù)庫支撐。大數(shù)據(jù)計(jì)算平臺(tái) 的需要的數(shù)據(jù):包括智能終端上報(bào)的、網(wǎng)上實(shí)時(shí)爬取得、二次計(jì)算分析而獲取的 等等,都通過通用接口存儲(chǔ)在云數(shù)據(jù)采集中心的分布式存儲(chǔ)平臺(tái)中(分布式文件 系統(tǒng)(S2DFS)、分布式數(shù)據(jù)庫(D2B))。前面部署的 10 臺(tái)設(shè)備通過對(duì)原始數(shù)據(jù)處理壓縮 后,存儲(chǔ)空間還有多余。l 支持實(shí)時(shí)上報(bào)數(shù)據(jù)的查看,包括 IC 卡 ID、頻道名稱、頻道 ID、收看開 始時(shí)間、收看結(jié)束時(shí)間,觀看時(shí)長(zhǎng)(秒)、GW2IP 地址?!?支持按名稱、頻道 ID、開始時(shí)間單項(xiàng)或組合查詢已添加節(jié)目?;谶@種原因,CC 通過收集海量 用戶行為數(shù)據(jù),通過推薦算法,把觀眾想看的節(jié)目推薦給終端用戶,提高用戶的 體驗(yàn)。l 用戶興趣模型呈現(xiàn)◎ 構(gòu)建“用戶興趣類別興趣特征”三級(jí)管理模式。數(shù)據(jù)采集的來源有: IPP 客戶端、瀏覽器、智能電視、智能空調(diào)、智能冰箱、 智能日電采集上來的用戶基本數(shù)據(jù)、終端“傳感器”數(shù)據(jù)、web 數(shù)據(jù)采集、用戶 EPG 數(shù)據(jù)等?!?支持以餅圖、柱狀圖的形式統(tǒng)計(jì)數(shù)字電視設(shè)定時(shí)間段內(nèi)某頻道所有 節(jié)目收視時(shí)長(zhǎng)收視率和人次收視率?!?支持修改、刪除、增加、查看頻道 ID、頻道名稱。第四,應(yīng)用場(chǎng)景問題:HDFS 對(duì)存儲(chǔ)網(wǎng)頁等文件比較友好,畢竟它的基因就 是為互聯(lián)網(wǎng)搜索而開發(fā)出來的,但是 CC 的應(yīng)用場(chǎng)景很雜,要涉及到 網(wǎng)頁,文本處理,也要涉及到圖片、視頻等搜索,HDFS 對(duì)大尺寸視 頻文件,圖像文件的性能就不能很好的適應(yīng)。請(qǐng)參考下面的圖例:根據(jù) 小節(jié)對(duì) S2DFS分布式文件系統(tǒng)的詳細(xì)介紹,本章節(jié)就不重復(fù)敘述, 由于要增加新的存儲(chǔ)設(shè)備,對(duì)于新設(shè)備上安裝分布式文件系統(tǒng)是否繼續(xù)選用 S2DFS 還是 HDFS,我們需要回答以下幾個(gè)問題:第一,預(yù)算增加及擴(kuò)展問題:要部署 HDFS,還得單獨(dú)購買兩臺(tái)高性能設(shè)備 作為 HDFS 的元數(shù)據(jù)庫服務(wù)器(注:兩臺(tái)設(shè)備,構(gòu)成主備;配置不能 比我們現(xiàn)在選擇的設(shè)備配置差,不然就會(huì)成為瓶頸,如果差了,數(shù)據(jù) 節(jié)點(diǎn)就擴(kuò)展不了幾臺(tái)。網(wǎng)絡(luò)爬蟲爬取的影視節(jié)目信息存儲(chǔ) 在數(shù)據(jù)中心,此數(shù)據(jù)量跟用戶收視記錄相關(guān),只爬取
點(diǎn)擊復(fù)制文檔內(nèi)容
規(guī)章制度相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1