【正文】
市加 載填充Feed填充Feed單 一 的 E T L 過 程 對 整 個 企 業(yè) 數(shù) 據(jù) 倉 庫 ( E D W ) , 依 賴 型 數(shù) 據(jù) 集 市 從 E D W 加 載 數(shù) 據(jù)?基于依賴型數(shù)據(jù)集市和操作型數(shù)據(jù)存儲 (ODS)的數(shù)據(jù)倉庫 外 部 的內(nèi) 部 的源 數(shù) 據(jù) 系 統(tǒng)( S o u r c e D a t a S y s t e m s )數(shù) 據(jù) 存 儲 :關(guān) 系 型 的 ( r e l a t i o n a l )快 速 的 ( f a s t )處 理 過 程 :清 洗 ( c l e a n )調(diào) 和 ( r e c o n c i l e )導(dǎo) 出 ( d e r i v e )匹 配 ( m a t c h )合 并 ( c o m b i n e )消 除 重 復(fù) ( r e m o v e d u p s )標(biāo) 準(zhǔn) 化 ( s t a n d a r d i z e )一 致 維 ( c o n f o r m d i m e n s i o n s )轉(zhuǎn) 換 ( T r a n s f o r m )裝 載 到 倉 庫L o a d i n t o D W抽 取 E x t r a c t抽 取 E x t r a c t抽 取 E x t r a c t抽 取 E x t r a c t清 洗 的 維 數(shù) 據(jù)數(shù) 據(jù) 集 結(jié) 區(qū) ( O D S ) 與 數(shù) 據(jù) 及 元 數(shù) 據(jù) 存 儲 區(qū)注 : O D S 與 數(shù) 據(jù) 倉 庫 是 一 個 進(jìn) 而 是 相 同 的數(shù) 據(jù) 展 示 :查 詢 工 具報 表 生 成 器終 端 用 戶 應(yīng) 用 ( 如C R M 、 S R M 等 )建 模 與 挖 掘 工 具可 視 化 工 具面 向 運(yùn) 營 決 策 的 新 業(yè) 務(wù) 規(guī) 則終 端 用 戶 表 示 工 具( E n d U s e r P r e s e n t a t i o n T o o l s )ELT加 載填充Feed接 近 實 時 的 E T L 過 程 是 面 向 數(shù) 據(jù) 倉 庫 的 , 數(shù) 據(jù) 集 市 不 是 分 離 的 數(shù) 據(jù) 庫 , 僅 是 數(shù) 據(jù) 倉 庫 的 邏 輯 視 圖數(shù) 據(jù) 集 市數(shù) 據(jù) 集 市數(shù) 據(jù) 集 市數(shù) 據(jù) 集 市實 時 數(shù) 據(jù) 倉 庫轉(zhuǎn) 換 層接 近 實 時 地 回 流?邏輯型數(shù)據(jù)集市和實時數(shù)據(jù)倉庫系統(tǒng) 從數(shù)據(jù)倉庫到數(shù)據(jù)挖掘 數(shù)據(jù)倉庫的應(yīng)用 ? 數(shù)據(jù)倉庫的三種應(yīng)用 – 信息處理 ? 支持查詢和基本的統(tǒng)計分析,并使用交叉表、表、圖標(biāo)和圖進(jìn)行報表處理 – 分析處理 ? 對數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行多維數(shù)據(jù)分析 ? 支持基本的 OLAP操作,切塊、切片、上卷、下鉆、轉(zhuǎn)軸等 – 數(shù)據(jù)挖掘 ? 從隱藏模式中發(fā)現(xiàn)知識 ? 支持關(guān)聯(lián)分析,構(gòu)建分析性模型,分類和預(yù)測,并用可視化工具呈現(xiàn)挖掘的結(jié)果 從聯(lián)機(jī)分析處理到聯(lián)機(jī)分析挖掘 ? 為什么要聯(lián)機(jī)分析挖掘 – 數(shù)據(jù)倉庫中有高質(zhì)量的數(shù)據(jù) ? 數(shù)據(jù)倉庫中存放著整合的、一致的、清理過的數(shù)據(jù) – 圍繞數(shù)據(jù)倉庫的信息處理結(jié)構(gòu) ? 存取、集成、合并多個異種數(shù)據(jù)庫的轉(zhuǎn)換,ODBC/OLEDB連接 ,Web訪問和訪問工具等 – 基于 OLAP的探測式數(shù)據(jù)分析 ? 使用上卷、下鉆、切片、轉(zhuǎn)軸等技術(shù)進(jìn)行數(shù)據(jù)挖掘 – 數(shù)據(jù)挖掘功能的聯(lián)機(jī)選擇 ? 多種數(shù)據(jù)挖掘功能、算法和任務(wù)的整合 聯(lián)機(jī)分析挖掘的體系結(jié)構(gòu) 數(shù)據(jù)倉庫 元數(shù)據(jù) 多維數(shù)據(jù)庫 OLAM 引擎 OLAP 引擎 用戶圖形界面 API 數(shù)據(jù)方體 API 數(shù)據(jù)庫 API 數(shù)據(jù)清理 數(shù)據(jù)集成 第三層 OLAP/OLAM 第二層 多維數(shù)據(jù)庫 第一層 數(shù)據(jù)存儲 第四層 用戶界面 數(shù)據(jù)的過濾、集成 過濾 數(shù)據(jù)庫 基于約束的數(shù)據(jù)挖掘 挖掘結(jié)果 數(shù)據(jù)倉庫的設(shè)計過程 (1) ? 自頂向下法、自底向上法或者兩者的混合方法 – 自頂向下法:由總體設(shè)計和規(guī)劃開始 ? 在技術(shù)成熟、商業(yè)理解透徹的情況下使用 – 自底向上法:以實驗和原型開始 ? 常用在模型和技術(shù)開發(fā)的初期,可以有效的對使用的技術(shù)和模型進(jìn)行評估,降低風(fēng)險 – 混合方法:上述兩者的結(jié)合 ? 從軟件過程的觀點 – 瀑布式方法:在進(jìn)行下一步前,每一步都進(jìn)行結(jié)構(gòu)化和系統(tǒng)的分析 – 螺旋式方法:功能漸增的系統(tǒng)的快速產(chǎn)生,相繼版本之間間隔很短 數(shù)據(jù)倉庫的設(shè)計過程 (2) ? 典型的數(shù)據(jù)倉庫設(shè)計過程 – 選取待建模的 商務(wù)過程 ? 找到所構(gòu)建的數(shù)據(jù)倉庫的主題,比如:銷售、貨運(yùn)、訂單等等 – 選取商務(wù)過程的 顆粒度 ? 數(shù)據(jù)起始于多細(xì)的顆粒度,比如:記錄每條詳細(xì)訂單,或是開始于每日的匯總數(shù)據(jù) – 選取用于每個事實表記錄的 維 ? 常用的維有:時間、貨物、客戶、供應(yīng)商等 – 選取將安放在事實表中的 度量 ? 常用的數(shù)字度量包括:售價、貨物數(shù)量等 數(shù)據(jù)倉庫開發(fā):困難與方法 ? 數(shù)據(jù)倉庫開發(fā)上的困難 – 自頂向下的開發(fā)方法從全系統(tǒng)的角度提供解決方案,使得(模塊)集成的問題最??;但是該方法十分昂貴,需要對組織進(jìn)行長期研究和建模分析。 – 自底向上方法提供了更多的開發(fā)靈活性,價格便宜;但往往會遇到集成問題(每個模塊單獨(dú)運(yùn)行都沒有問題,但是一集成就出異常) ? 解決方法: – 使用遞增性、演化性的開發(fā)方法 – 高層數(shù)據(jù)模型 ?企業(yè)倉庫和數(shù)據(jù)集市并行開發(fā) ?通過分布式模型集成各數(shù)據(jù)集市 ?多層數(shù)據(jù)倉庫 演講完畢,謝謝觀看!