【文章內(nèi)容簡介】
– 前端工具與應(yīng)用 數(shù)據(jù)倉庫架構(gòu) 數(shù)據(jù)倉庫 提取 清理 轉(zhuǎn)換 裝入 刷新 OLAP服務(wù)器 查詢報告 分析 數(shù)據(jù)挖掘 監(jiān)控、 整合 元數(shù)據(jù) 存儲 數(shù)據(jù)源 前端工具 輸出 數(shù)據(jù)集市 操作數(shù)據(jù)庫 其他外部信息源 數(shù)據(jù)存儲和管理 OLAP服務(wù)器 數(shù)據(jù)源 ■ 數(shù)據(jù)源是數(shù)據(jù)倉庫系統(tǒng)的基礎(chǔ),即系統(tǒng)的數(shù)據(jù)來源,通常包含企事業(yè)單位的各種內(nèi)部信息和外部信息。 – 內(nèi)部信息,例如存于操作型數(shù)據(jù)庫中的各種業(yè)務(wù)數(shù)據(jù)和辦公自動化系統(tǒng)中包含的各類文檔數(shù)據(jù); – 外部數(shù)據(jù),例如各類法律法規(guī)、市場信息、競爭對手的信息以及各類外部統(tǒng)計數(shù)據(jù)及其它有關(guān)文檔等。 數(shù)據(jù)的存儲與管理 ■ 數(shù)據(jù)的存儲與管理是整個數(shù)據(jù)倉庫系統(tǒng)的核心。 ■ 存儲 – 在現(xiàn)有各業(yè)務(wù)系統(tǒng)的基礎(chǔ)上,對數(shù)據(jù)進(jìn)行抽取、清理、并有效集成,按照主題進(jìn)行重新組織,最終確定數(shù)據(jù)倉庫的物理存儲結(jié)構(gòu),同時組織存儲數(shù)據(jù)倉庫的元數(shù)據(jù)(包括數(shù)據(jù)倉庫的數(shù)據(jù)字典、記錄系統(tǒng)定義、數(shù)據(jù)轉(zhuǎn)換規(guī)則、數(shù)據(jù)加載頻率以及業(yè)務(wù)規(guī)則等信息)。 ■ 管理 – 對數(shù)據(jù)倉庫系統(tǒng)的管理也就是對其相應(yīng)數(shù)據(jù)庫系統(tǒng)的管理,通常包括數(shù)據(jù)的安全、歸檔、備份、恢復(fù)等維護(hù)工作。 OLAP服務(wù)器 ■ OLAP(聯(lián)機(jī)分析處理)是針對某個特定的主題進(jìn)行聯(lián)機(jī)數(shù)據(jù)訪問、處理、分析,通過直觀的方式,從多個維度、多種數(shù)據(jù)綜合度進(jìn)行分析,并將結(jié)果呈現(xiàn)給使用者。 ■ OLAP讓使用者能夠從多角度對信息進(jìn)行快速、一致、交互地存取。 前端工具與應(yīng)用 ■ 前端工具主要包括各種數(shù)據(jù)分析工具、報表工具、查詢工具、數(shù)據(jù)挖掘工具(例如關(guān)聯(lián)分析、分類、預(yù)測等)以及各種基于數(shù)據(jù)倉庫或數(shù)據(jù)集市開發(fā)的應(yīng)用。 ■ 其中: – 數(shù)據(jù)分析工具主要針對 OLAP服務(wù)器 – 報表工具、數(shù)據(jù)挖掘工具既可以用于數(shù)據(jù)倉庫,也可針對 OLAP服務(wù)器 ETL簡介 ■ 數(shù)據(jù)從源系統(tǒng)加載到數(shù)據(jù)庫倉庫之前,需要進(jìn)行抽取E(Extract) 、清洗 C(cleaning)、轉(zhuǎn)換 T(transform),最后加載L(load) ,這就是 ETL過程。 ■ 抽取和加載通常是定期的,每天、每周、或者每月,根據(jù)數(shù)據(jù)倉庫面向的主題而定。 ■ ETL過程是一個數(shù)據(jù)流動的過程,中間的“ T” (轉(zhuǎn)換)是關(guān)鍵 數(shù)據(jù)倉庫系統(tǒng)的體系結(jié)構(gòu) 數(shù)據(jù)倉庫系統(tǒng)的體系結(jié)構(gòu)根據(jù)應(yīng)用需求的不同 , 可以分為四種類型: ( 1)兩層架構(gòu)( Generic TwoLevel Architecture)。 ( 2)獨(dú)立型數(shù)據(jù)集市( Independent Data Mart)。 ( 3)依賴型數(shù)據(jù)集市和操作型數(shù)據(jù)存儲( Dependent Data Mart and Operational Data Store)。 ( 4)邏輯型數(shù)據(jù)集市和實時數(shù)據(jù)倉庫( Logical Data Mart and RealTime Data Warehouse)。 從體系結(jié)構(gòu)的角度去看,數(shù)據(jù)倉庫模型可以有以下三種: – 企業(yè)倉庫 ■ 搜集關(guān)于跨越整個組織的主題的所有信息 – 數(shù)據(jù)集市 ■ 企業(yè)范圍數(shù)據(jù)的一個子集,對于特定的客戶是有用的。其范圍限于選定的主題,比如一個商場的數(shù)據(jù)集市 – 獨(dú)立的數(shù)據(jù)集市 VS. 非獨(dú)立的數(shù)據(jù)集市(數(shù)據(jù)來自于企業(yè)數(shù)據(jù)倉庫) – 虛擬倉庫 ■ 操作數(shù)據(jù)庫上的一系列視圖 ■ 只有一些可能的匯總視圖被物化 獨(dú)立的數(shù)據(jù)倉庫系統(tǒng) (企業(yè)數(shù)據(jù)倉庫) 唯 一 的 、 企 業(yè) 級 的數(shù) 據(jù) 倉 庫數(shù) 據(jù) 倉 庫D a t a W a r e h o u s e外 部 的內(nèi) 部 的源 數(shù) 據(jù) 系 統(tǒng)( S o u r c e D a t a S y s t e m s )數(shù) 據(jù) 集 結(jié) 區(qū)( D a t a S t a g i n g A r e a )處 理 過 程 :清 洗 ( c l e a n )調(diào) 和 ( r e c o n c i l e )導(dǎo) 出 ( d e r i v e )匹 配 ( m a t c h )合 并 ( c o m b i n e )消 除 重 復(fù)( r e m o v e d u p s )標(biāo) 準(zhǔn) 化( s t a n d a r d i z e )轉(zhuǎn) 換 ( t r a n s f o r m )輸 出 到 倉 庫( e x p o r t t o D W )抽 取 E x t r a c t抽 取 E x t r a c t抽 取 E x t r a c t抽 取 E x t r a c t清