【正文】
云計算簡介 谷歌 GAE 三大云計算 亞馬遜 AWS 開源 Hadoop 理論研究熱點 總結與展望 一種在規(guī)模經濟驅動下產生的大規(guī)模分布式計算。它是一個資源池,其中包含了抽象的、虛擬化的、可動態(tài)伸縮和管理的計算資源、存儲資源、平臺和服務,并通過因特網(wǎng)按需提供給用戶。 Google File System(GFS) BigTable MapReduce Client Client Replicas Masters GFS Master GFS Master C0 C1 C2.. C5 Chunkserver 1 C0 C5 Chunkserver N C1 C3.. C5 Chunkserver 2 … Client Client Client ? 文件被分割成 chunks (典型大小為 64 MB) ? Master 管理元數(shù)據(jù) ? 數(shù)據(jù)傳輸直接在 clients/chunkservers之間進行 ? 容錯技術 ? 冗余備份 ? 日志 ? 校驗和 ? 管理技術 ? 大規(guī)模集群安裝升級 ? 故障檢測 ? 節(jié)點動態(tài)加入 ? 節(jié)能技術 Google File System(GFS) BigTable MapReduce ? 為什么設計 BigTable? ? 數(shù)據(jù)種類繁多 ? 海量服務請求 ? 設計目標: ? 適用性 ? 可擴展性 ? 高可用性 ? 簡單性 ? 數(shù)據(jù)模型 ? (row, column, timestamp) ? cell contents ? 基本架構 Google File System(GFS) BigTable MapReduce ? 數(shù)據(jù)處理的兩個階段 – Map: (in_key, in_value) ? {(keyj, valuej) | j = 1… k} – Reduce: (key, [value1,… valuem]) ? (key, f_value) D a t a s t o r e 1 D a t a s t o r e nm a p( k e y 1 , v a l u e s . . . )( k e y 2 , v a l u e s . . . )( k e y 3 , v a l u e s . . . )m a p( k e y 1 , v a l u e s . . . )( k e y 2 , v a l u e s . . . )( k e y 3 , v a l u e s . . . )I n p u t k e y * v a l u e p a i r sI n