【正文】
數(shù)據(jù)倉庫 ,聯(lián)機(jī)分析處理 ,數(shù)據(jù)挖掘 Data Warehousing, OLAP, and Data Mining ? 數(shù)據(jù)倉庫 : 一個(gè)面向主題的、集成的、隨時(shí)間變化的、非易失性數(shù)據(jù)的集合,用于支持管理層的決策過程。 ? OLAP 與 數(shù)據(jù)挖掘工具 : 是兩種主要的分析工具,提供給決策者對(duì)數(shù)據(jù)進(jìn)行分析,以針對(duì)分析結(jié)果做出決策。 概要 數(shù)據(jù)倉庫的引出 OLTP(OnLine Transaction Processing 聯(lián)機(jī)事務(wù)處理 )在日常的管理事務(wù)處理中獲得了巨大的成功,但是對(duì)管理人員的決策分析要求卻無法滿足。 ,管理人員常常希望能夠通過對(duì)組織中的大量數(shù)據(jù)進(jìn)行分析,了解業(yè)務(wù)的的發(fā)展趨勢(shì)。而傳統(tǒng)數(shù)據(jù)庫只保留了當(dāng)前的業(yè)務(wù)處理信息,缺乏決策分析所需要的大量的歷史信息。 ,就需要在數(shù)據(jù)庫的基礎(chǔ)上產(chǎn)生適應(yīng)決策分析的數(shù)據(jù)環(huán)境 ——數(shù)據(jù)倉庫 (Data Warehose)。 數(shù)據(jù)倉庫的定義與基本特性 ? 1. 數(shù)據(jù)倉庫的定義 William 1993年所寫的論著 《 Building the DataWarehouse》 首先系統(tǒng)地闡述了關(guān)于數(shù)據(jù)倉庫的思想、理論,為數(shù)據(jù)倉庫的發(fā)展奠定了歷史基石。文中他將數(shù)據(jù)倉庫定義為 : a data warehouse is a subjectoriented, integrated, nonvolatile, timevariant collection of data in support of management decisions. 一個(gè)面向主題的、集成的、非易失性的、隨時(shí)間變化的數(shù)據(jù)的集合,以用于支持管理層決策過程。 ? a) subjectoriented(面向主題性 ) 面向主題表示了數(shù)據(jù)倉庫中數(shù)據(jù)組織的基本原則,數(shù)據(jù)倉庫中的數(shù)由數(shù)據(jù)都是圍繞著某一主題組織展開的。由于數(shù)據(jù)倉庫的用戶大多是企業(yè)的管理決策者,這些人所面對(duì)的往往是一些比較抽象的、層次較高的管理分析對(duì)象。例如,企業(yè)中的客戶、產(chǎn)品、供應(yīng)商等都可以作為主題看待。 從信息管理的角度看, 主題就是在一個(gè)較高的管理層次上對(duì)信息系統(tǒng)的數(shù)據(jù)按照某一具體的管理對(duì)象進(jìn)行綜合、歸類所形成的分析對(duì)象。 從數(shù)據(jù)組織的角度看, 主題是一些數(shù)據(jù)集合,這些數(shù)據(jù)集合對(duì)分析對(duì)象作了比較完整的、一致的描述,這種描述不僅涉及到數(shù)據(jù)自身,而且涉及到數(shù)據(jù)之間的關(guān)系。 ? 數(shù)據(jù)倉庫的集成性是指根據(jù)決策分析的要求,將分散于各處的源數(shù)據(jù)進(jìn)行抽取、篩選、清理、綜合等工作,使數(shù)據(jù)倉庫的數(shù)據(jù)具有集成性。 b) integrated (數(shù)據(jù)集成性 ) 數(shù)據(jù)倉庫在從業(yè)務(wù)處理系統(tǒng)那里獲取數(shù)據(jù)時(shí),并不能將源數(shù)據(jù)庫中的數(shù)據(jù)直接加載到數(shù)據(jù)倉庫中,而是需要進(jìn)行一系列的數(shù)據(jù)預(yù)處理,即數(shù)據(jù)的抽取、篩選、清理、綜合等集成工作。 ? 也就是說,首先要從源數(shù)據(jù)庫中挑選出數(shù)據(jù)倉庫所需要的數(shù)據(jù),然后將這些來自不同數(shù)據(jù)庫中的數(shù)據(jù)按照某一標(biāo)準(zhǔn)進(jìn)行統(tǒng)一,即將不同數(shù)據(jù)源中的數(shù)據(jù)的單位、字長(zhǎng)與內(nèi)容按照數(shù)據(jù)倉庫的要求統(tǒng)一起來,消除源數(shù)據(jù)中字段的同名異義、異名同義現(xiàn)象,這些工作稱為數(shù)據(jù)的 清理 (clean),把數(shù)據(jù)倉庫的數(shù)據(jù)呈現(xiàn)給用戶一個(gè)一致統(tǒng)一的視圖。 ? 源數(shù)據(jù)加載到數(shù)據(jù)倉庫后,還要根據(jù)決策分析的 需要對(duì)這些數(shù)據(jù)進(jìn)行概括、聚集處理。 ? 數(shù)據(jù)倉庫的時(shí)變性,就是數(shù)據(jù)應(yīng)該隨著時(shí)間的推移而變化。 c) timevariant 數(shù)據(jù)的時(shí)變性