【正文】
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘綜述 概念、體系結(jié)構(gòu)、趨勢(shì)、應(yīng)用 報(bào)告人:朱建秋 20xx年 6月 7日 提綱 ? 數(shù)據(jù)倉(cāng)庫(kù)概念 ? 數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)及組件 ? 數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì) ? 數(shù)據(jù)倉(cāng)庫(kù)技術(shù)(與數(shù)據(jù)庫(kù)技術(shù)的區(qū)別) ? 數(shù)據(jù)倉(cāng)庫(kù)性能 ? 數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用 ? 數(shù)據(jù)挖掘應(yīng)用概述 ? 數(shù)據(jù)挖掘技術(shù)與趨勢(shì) ? 數(shù)據(jù)挖掘應(yīng)用平臺(tái)(科委申請(qǐng)項(xiàng)目) 數(shù)據(jù)倉(cāng)庫(kù)概念 ? 基本概念 ? 對(duì)數(shù)據(jù)倉(cāng)庫(kù)的一些誤解 基本概念 —數(shù)據(jù)倉(cāng)庫(kù) ? Data warehouse is a subject oriented, integrated,nonvolatile and time variant collection of data in support of management’s decision —— [Inmon,1996]. ? Data warehouse is a set of methods, techniques,and tools that may be leveraged together to produce a vehicle that delivers data to endusers on an integrated platform —— [Ladley,1997]. ? Data warehouse is a process of crating, maintaining,and using a decisionsupport infrastructure —— [Appleton,1995][Haley,1997][Gardner 1998]. 基本概念 —數(shù)據(jù)倉(cāng)庫(kù)特征 [Inmon,1996] ? 面向主題 ? 一個(gè)主題領(lǐng)域的表來(lái)源于多個(gè)操作型應(yīng)用(如:客戶主題,來(lái)源于:定單處理;應(yīng)收帳目;應(yīng)付帳目; … ) ? 典型的主題領(lǐng)域:客戶;產(chǎn)品;交易;帳目 ? 主題領(lǐng)域以一組相關(guān)的表來(lái)具體實(shí)現(xiàn) ? 相關(guān)的表通過(guò)公共的鍵碼聯(lián)系起來(lái)(如:顧客標(biāo)識(shí)號(hào) Customer ID) ? 每個(gè)鍵碼都有時(shí)間元素(從日期到日期;每月累積;單獨(dú)日期 … ) ? 主題內(nèi)數(shù)據(jù)可以存儲(chǔ)在不同介質(zhì)上(綜合級(jí),細(xì)節(jié)級(jí),多粒度) ? 集成 ? 數(shù)據(jù)提取、凈化、轉(zhuǎn)換、裝載 ? 穩(wěn)定性 ? 批處理增加,倉(cāng)庫(kù)已經(jīng)存在的數(shù)據(jù)不會(huì)改變 ? 隨時(shí)間而變化(時(shí)間維) ? 管理決策支持 基本概念 —Data Mart, ODS ? Data Mart ? 數(shù)據(jù)集市 小型的,面向部門或工作組級(jí)數(shù)據(jù)倉(cāng)庫(kù)。 ? Operation Data Store ? 操作數(shù)據(jù)存儲(chǔ) — ODS是能支持企業(yè)日常的全局應(yīng)用的數(shù)據(jù)集合 ,是不同于 DB的一種新的數(shù)據(jù)環(huán)境 , 是 DW 擴(kuò)展后得到的一個(gè)混合形式。四個(gè)基本特點(diǎn):面向主題的 (Subject Oriented)、 集成的、可變的、 當(dāng)前或接近當(dāng)前的。 基本概念 —ETL, 元數(shù)據(jù),粒度,分割 ? ETL ? ETL( Extract/Transformation/Load) —數(shù)據(jù)裝載、轉(zhuǎn)換、抽取工具。 Microsoft DTS。 IBM Visual Warehouse etc. ? 元數(shù)據(jù) ? 關(guān)于數(shù)據(jù)的數(shù)據(jù), 用于構(gòu)造、維持、管理、和使用數(shù)據(jù)倉(cāng)庫(kù), 在數(shù)據(jù)倉(cāng)庫(kù)中尤為重要。 ? 粒度 ? 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)單位中保存數(shù)據(jù)的細(xì)化或綜合程度的級(jí)別。細(xì)化程度越高,粒度越小。 ? 分割 ? 數(shù)據(jù)分散到各自的物理單元中去,它們能獨(dú)立地處理。 對(duì)數(shù)據(jù)倉(cāng)庫(kù)的一些誤解 ? 數(shù)據(jù)倉(cāng)庫(kù)與 OLAP ? 星型數(shù)據(jù)模型 ? 多維分析 ? 數(shù)據(jù)倉(cāng)庫(kù)不是一個(gè)虛擬的概念 ? 數(shù)據(jù)倉(cāng)庫(kù)與范式理論 ? 需要非范式化處理 提綱 ? 數(shù)據(jù)倉(cāng)庫(kù)概念 ? 數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)及組件 ? 數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì) ? 數(shù)據(jù)倉(cāng)庫(kù)技術(shù)(與數(shù)據(jù)庫(kù)技術(shù)的區(qū)別) ? 數(shù)據(jù)倉(cāng)庫(kù)性能 ? 數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用 ? 數(shù)據(jù)挖掘應(yīng)用概述 ? 數(shù)據(jù)挖掘技術(shù)與趨勢(shì) ? 數(shù)據(jù)挖掘應(yīng)用平臺(tái)(科委申請(qǐng)項(xiàng)目) 數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)及組件 ? 體系結(jié)構(gòu) ? ETL工具 ? 元數(shù)據(jù)庫(kù) (Repository)及元數(shù)據(jù)管理 ? 數(shù)據(jù)訪問(wèn)和分析工具 體系結(jié)構(gòu) [Pieter ,1998] Source Databases Data Extraction, Transformation, load Warehouse Admin. Tools Extract, Transform and Load Data Modeling Tool Central Metadata Architected Data Marts Data Access and Analysis EndUser DW Tools Central Data Warehouse Central Data Warehouse Mid Tier Mid Tier Data Mart Data Mart Local Metadata Local Metadata Local Metadata Metadata Exchange MDB Data Cleansing Tool Relational Appl. Package Legacy External RDBMS RDBMS 帶 ODS的體系結(jié)構(gòu) Source Databases Hub Data Extraction, Transformation, load Warehouse Admin. Tools Extract, Transform and Load Data Modeling Tool Central Metadata Architected Data Marts Data Access and Analysis Central Data Ware house and ODS Central Data Warehouse Mid Tier RDBMS Data Mart Mid Tier RDBMS Data Mart Local Metadata Local Metadata Local Metadata Metadata Exchange ODS OLTP Tools Data Cleansing Tool Relational Appl. Package Legacy External MDB EndUser DW Tools 現(xiàn)實(shí)環(huán)境 —異質(zhì)性 [Douglas Hackney ,20xx] Custom Marketing Data Warehouse Packaged Oracle Financial Data Warehouse Packaged I2 Supply Chain Non Architected Data Mart Subset Data Marts Oracle Financials i2 Supply Chain Siebel CRM 3rd Party eCommerce 聯(lián)合型數(shù)據(jù)倉(cāng)庫(kù) /數(shù)據(jù)集市體系結(jié)構(gòu) Real Time ODS Federated Financial Data Warehouse Subset Data Marts Common Staging Area Oracle Financials i2 Supply Chain Siebel CRM 3rd Party Federated Packaged I2 Supply Chain Data Marts Analytical Applications eCommerce Real Time Data Mining and Analytics Real Time Segmentation, Classification, Qualification, Offerings, etc. Federated Marketing Data Warehouse ETL tools amp。 DW templates Data profiling amp。 reengineering tools Demanddriven data acquisition amp。 analysis Metadata Interchange Federated data warehouse and data mart systems Decision engine models, rules and metrics OLAP amp。 data mining tools, Analysis templates Analytic application development tools amp。 ponents Analytic applications Front and backoffice OLTP