【正文】
市加 載填充Feed填充Feed單 一 的 E T L 過 程 對 整 個 企 業(yè) 數(shù) 據(jù) 倉 庫 ( E D W ) , 依 賴 型 數(shù) 據(jù) 集 市 從 E D W 加 載 數(shù) 據(jù)?基于依賴型數(shù)據(jù)集市和操作型數(shù)據(jù)存儲 (ODS)的數(shù)據(jù)倉庫 外 部 的內 部 的源 數(shù) 據(jù) 系 統(tǒng)( S o u r c e D a t a S y s t e m s )數(shù) 據(jù) 存 儲 :關 系 型 的 ( r e l a t i o n a l )快 速 的 ( f a s t )處 理 過 程 :清 洗 ( c l e a n )調 和 ( r e c o n c i l e )導 出 ( d e r i v e )匹 配 ( m a t c h )合 并 ( c o m b i n e )消 除 重 復 ( r e m o v e d u p s )標 準 化 ( s t a n d a r d i z e )一 致 維 ( c o n f o r m d i m e n s i o n s )轉 換 ( T r a n s f o r m )裝 載 到 倉 庫L o a d i n t o D W抽 取 E x t r a c t抽 取 E x t r a c t抽 取 E x t r a c t抽 取 E x t r a c t清 洗 的 維 數(shù) 據(jù)數(shù) 據(jù) 集 結 區(qū) ( O D S ) 與 數(shù) 據(jù) 及 元 數(shù) 據(jù) 存 儲 區(qū)注 : O D S 與 數(shù) 據(jù) 倉 庫 是 一 個 進 而 是 相 同 的數(shù) 據(jù) 展 示 :查 詢 工 具報 表 生 成 器終 端 用 戶 應 用 ( 如C R M 、 S R M 等 )建 模 與 挖 掘 工 具可 視 化 工 具面 向 運 營 決 策 的 新 業(yè) 務 規(guī) 則終 端 用 戶 表 示 工 具( E n d U s e r P r e s e n t a t i o n T o o l s )ELT加 載填充Feed接 近 實 時 的 E T L 過 程 是 面 向 數(shù) 據(jù) 倉 庫 的 , 數(shù) 據(jù) 集 市 不 是 分 離 的 數(shù) 據(jù) 庫 , 僅 是 數(shù) 據(jù) 倉 庫 的 邏 輯 視 圖數(shù) 據(jù) 集 市數(shù) 據(jù) 集 市數(shù) 據(jù) 集 市數(shù) 據(jù) 集 市實 時 數(shù) 據(jù) 倉 庫轉 換 層接 近 實 時 地 回 流?邏輯型數(shù)據(jù)集市和實時數(shù)據(jù)倉庫系統(tǒng) 從數(shù)據(jù)倉庫到數(shù)據(jù)挖掘 數(shù)據(jù)倉庫的應用 ? 數(shù)據(jù)倉庫的三種應用 – 信息處理 ? 支持查詢和基本的統(tǒng)計分析,并使用交叉表、表、圖標和圖進行報表處理 – 分析處理 ? 對數(shù)據(jù)倉庫中的數(shù)據(jù)進行多維數(shù)據(jù)分析 ? 支持基本的 OLAP操作,切塊、切片、上卷、下鉆、轉軸等 – 數(shù)據(jù)挖掘 ? 從隱藏模式中發(fā)現(xiàn)知識 ? 支持關聯(lián)分析,構建分析性模型,分類和預測,并用可視化工具呈現(xiàn)挖掘的結果 從聯(lián)機分析處理到聯(lián)機分析挖掘 ? 為什么要聯(lián)機分析挖掘 – 數(shù)據(jù)倉庫中有高質量的數(shù)據(jù) ? 數(shù)據(jù)倉庫中存放著整合的、一致的、清理過的數(shù)據(jù) – 圍繞數(shù)據(jù)倉庫的信息處理結構 ? 存取、集成、合并多個異種數(shù)據(jù)庫的轉換,ODBC/OLEDB連接 ,Web訪問和訪問工具等 – 基于 OLAP的探測式數(shù)據(jù)分析 ? 使用上卷、下鉆、切片、轉軸等技術進行數(shù)據(jù)挖掘 – 數(shù)據(jù)挖掘功能的聯(lián)機選擇 ? 多種數(shù)據(jù)挖掘功能、算法和任務的整合 聯(lián)機分析挖掘的體系結構 數(shù)據(jù)倉庫 元數(shù)據(jù) 多維數(shù)據(jù)庫 OLAM 引擎 OLAP 引擎 用戶圖形界面 API 數(shù)據(jù)方體 API 數(shù)據(jù)庫 API 數(shù)據(jù)清理 數(shù)據(jù)集成 第三層 OLAP/OLAM 第二層 多維數(shù)據(jù)庫 第一層 數(shù)據(jù)存儲 第四層 用戶界面 數(shù)據(jù)的過濾、集成 過濾 數(shù)據(jù)庫 基于約束的數(shù)據(jù)挖掘 挖掘結果 數(shù)據(jù)倉庫的設計過程 (1) ? 自頂向下法、自底向上法或者兩者的混合方法 – 自頂向下法:由總體設計和規(guī)劃開始 ? 在技術成熟、商業(yè)理解透徹的情況下使用 – 自底向上法:以實驗和原型開始 ? 常用在模型和技術開發(fā)的初期,可以有效的對使用的技術和模型進行評估,降低風險 – 混合方法:上述兩者的結合 ? 從軟件過程的觀點 – 瀑布式方法:在進行下一步前,每一步都進行結構化和系統(tǒng)的分析 – 螺旋式方法:功能漸增的系統(tǒng)的快速產(chǎn)生,相繼版本之間間隔很短 數(shù)據(jù)倉庫的設計過程 (2) ? 典型的數(shù)據(jù)倉庫設計過程 – 選取待建模的 商務過程 ? 找到所構建的數(shù)據(jù)倉庫的主題,比如:銷售、貨運、訂單等等 – 選取商務過程的 顆粒度 ? 數(shù)據(jù)起始于多細的顆粒度,比如:記錄每條詳細訂單,或是開始于每日的匯總數(shù)據(jù) – 選取用于每個事實表記錄的 維 ? 常用的維有:時間、貨物、客戶、供應商等 – 選取將安放在事實表中的 度量 ? 常用的數(shù)字度量包括:售價、貨物數(shù)量等 數(shù)據(jù)倉庫開發(fā):困難與方法 ? 數(shù)據(jù)倉庫開發(fā)上的困難 – 自頂向下的開發(fā)方法從全系統(tǒng)的角度提供解決方案,使得(模塊)集成的問題最??;但是該方法十分昂貴,需要對組織進行長期研究和建模分析。 – 自底向上方法提供了更多的開發(fā)靈活性,價格便宜;但往往會遇到集成問題(每個模塊單獨運行都沒有問題,但是一集成就出異常) ? 解決方法: – 使用遞增性、演化性的開發(fā)方法 – 高層數(shù)據(jù)模型 ?企業(yè)倉庫和數(shù)據(jù)集市并行開發(fā) ?通過分布式模型集成各數(shù)據(jù)集市 ?多層數(shù)據(jù)倉庫 演講完畢,謝謝觀看!