freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

ch14數(shù)據(jù)倉庫與數(shù)據(jù)挖掘-展示頁

2025-05-23 16:42本頁面
  

【正文】 OLAP多維分析技術(shù)建立在多維數(shù)據(jù)模型的基礎(chǔ)上,涉及的重要概念列舉如下: 維 ——是人們觀察數(shù)據(jù)的特定角度,是考慮問題時的一類屬性,屬性集合構(gòu)成一個維(如:時間維、地理維等)。 OLTP與 OLAP的比較,可用表 141以展示。采用 OLAP技術(shù),用戶能靈活操縱某企事業(yè)單位的數(shù)據(jù),以多維數(shù)據(jù)模型的形式,從多方面、多角度來觀察數(shù)據(jù)的狀態(tài),從而為決策分析提供有力支持。終端用戶的決策分析,需要對大量數(shù)據(jù)經(jīng)過計算而得到?jīng)Q策, Codd提出了多維數(shù)據(jù)模型的多維分析的概念,即出現(xiàn)了 OLAP技術(shù)的概念?!甭?lián)機分析處理( OLAP)的概念,最早是由關(guān)系數(shù)據(jù)庫系統(tǒng)奠基人 1993年提出的。那么,如何利用這些海量數(shù)據(jù),完成面向決策分析的任務(wù),傳統(tǒng)的 OLTP就難以勝任。例如,典型計費系統(tǒng)、航班售票系統(tǒng)等。 混合方法 ——可以認為是上面兩種方法的混合,既能利用自頂向下方法有計劃的戰(zhàn)略性特點,由能保持自底向上方法快速實現(xiàn)與較快應(yīng)用的優(yōu)點。 自底向上方法 ——從實驗與原型開始,先建部門數(shù)據(jù)集市,然后擴大到企業(yè)數(shù)據(jù)倉庫。 自頂向下方法 ——由總體規(guī)劃與設(shè)計開始,當對必須解決的業(yè)務(wù)應(yīng)用問題比較清楚,已掌握成熟的技術(shù),可采用這種方法。 ②數(shù)據(jù)倉庫模式設(shè)計階段 :面對實際應(yīng)用問題,如何面向主題進行數(shù)據(jù)倉庫設(shè)計 (采用多維數(shù)據(jù)模型設(shè)計星型、雪花等數(shù)據(jù)模式)是一個用戶、數(shù)據(jù)倉庫技術(shù)人員共同合作要完成的一個重要工作,有較大的難度。 ①數(shù)據(jù)準備階段 :主要是 ETL(抽取、轉(zhuǎn)換、裝載),數(shù)據(jù)抽取是指從異構(gòu)多數(shù)據(jù)源中圍繞主題選取相關(guān)的數(shù)據(jù),并要對這些數(shù)據(jù)進行清理,消除噪聲和不一致數(shù)據(jù),并完成集成過程中的轉(zhuǎn)換,使數(shù)據(jù)具有集成性,表示方式一致,并轉(zhuǎn)換為適合聚集操作的有關(guān)形式。數(shù)據(jù)模式中的概念分層,為數(shù)據(jù)管理的分析綜合提供了方便。 ③整體型:整體型聚集函數(shù)既不滿足分配型,也不滿足代數(shù)型,例如取中位數(shù)(一組數(shù)的位數(shù)數(shù)是指數(shù)據(jù)按大小排序后,取居中的一個數(shù),若有偶數(shù)個數(shù),則取居中兩數(shù)的平均值)就是一個整體型聚集函數(shù)。例如,Avg()可由 Sum() /Count()計算,其中 Sum()與 Count()都是分配型聚集函數(shù)。同理, Sum(), Min(), Max()也是分配型聚集函數(shù)。例如:計算 Count()可以這樣計算,先將數(shù)據(jù)立方體分割為若干個子立方體的集合,對每個子立方體計算 Count(),然后求和。度量可以根據(jù)所用的聚集函數(shù)而分成三類: ①分配型:假設(shè)數(shù)據(jù)劃分為 n個集合,函數(shù)在每一部分上計算得到一個聚集值。 度量( Measure)的分類與計算 ——數(shù)據(jù)立方體的度量是一個數(shù)值函數(shù),指的是對數(shù)據(jù)立方體的每一個點所求的值。圖 148, 149, 1410分別示例說明三種數(shù)據(jù)模式。常見的形式有:星型、雪花型以及事實星座型。 2021年 6月 14日星期一 數(shù)據(jù)庫教程(沈 ) 15 Ch14. 2. 數(shù)據(jù)倉庫 2)數(shù)據(jù)模式 采用數(shù)據(jù)模型來描述某一具體企事業(yè)單位的數(shù)據(jù)倉庫數(shù)據(jù),就引入了另一個概念 ——數(shù)據(jù)模式。 立方體比較直觀,便于圖示。事實是用數(shù)值度量的。例如,商店的維表可以包含屬性:商店名、地址、電話、經(jīng)理等。 N o . 3N o . 2N o . 1商 店1 季 度時 間( 季 度 )2 季 度3 季 度電 話 電 視P C 機 V C D4 季 度商 品2021年 6月 14日星期一 數(shù)據(jù)庫教程(沈 ) 14 Ch14. 2. 數(shù)據(jù)倉庫 所有的銷售數(shù)據(jù)組織成立方體形式,以多維形式對數(shù)據(jù)建模和觀察,它由維和事實定義。 現(xiàn)舉例說明數(shù)據(jù)立方體的概念。 數(shù)據(jù)倉庫一般來說是基于多維數(shù)據(jù)模型( MultiDimension Data Model)。它的系統(tǒng)組成體系機構(gòu)可用圖表示。 數(shù)據(jù)倉庫是在數(shù)據(jù)庫基礎(chǔ)上產(chǎn)生的一種數(shù)據(jù)集合,用于數(shù)據(jù)管理中的決策分析。 操 作 型 數(shù) 據(jù) 庫 數(shù) 據(jù) 倉 庫數(shù) 據(jù) 逐 個 記 錄 方 式 處 理 數(shù) 據(jù) 的 批 量 載 入 / 訪 問載 入訪 問修 改訪 問插 入刪 除2021年 6月 14日星期一 數(shù)據(jù)庫教程(沈 ) 12 Ch14. 2. 數(shù)據(jù)倉庫 2) DBS與 DWS DBS是我們前面詳細講過的一種數(shù)據(jù)管理系統(tǒng),第一部分就概述了系統(tǒng)組成結(jié)構(gòu)的三大部分:數(shù)據(jù)庫、數(shù)據(jù)管理系統(tǒng)和用戶界面。 操 作 型 數(shù) 據(jù) 庫 數(shù) 據(jù) 倉 庫. 時 間 期 限 : 當 前 到 6 0 ~ 9 0 天. 記 錄 更 新. 數(shù) 據(jù) 結(jié) 構(gòu) 包 含 或 不 包 含 時 間 元 素. 時 間 期 限 : 5 ~ 1 0 年. 數(shù) 據(jù) 的 復 雜 快 照. 數(shù) 據(jù) 結(jié) 構(gòu) 包 含 時 間 元 素2021年 6月 14日星期一 數(shù)據(jù)庫教程(沈 ) 11 Ch14. 2. 數(shù)據(jù)倉庫 非易失性:對于傳統(tǒng)的操作型數(shù)據(jù)庫通常是一次訪問或處理一到若干個記錄,可隨時對數(shù)據(jù)進行更新;但數(shù)據(jù)倉庫中的數(shù)據(jù)具有非常不同的特性:其數(shù)據(jù)倉庫不進行一般意義下的數(shù)據(jù)更新。而數(shù)據(jù)倉庫中的基本數(shù)據(jù)結(jié)構(gòu)總是包含某種時間元素。 操 作 型 數(shù) 據(jù) 庫 數(shù) 據(jù) 倉 庫應(yīng) 用 A M , F應(yīng) 用 B 1 , 0應(yīng) 用 C x , y應(yīng) 用 D 男 , 女M , F編 碼應(yīng) 用 A 管 道 c m應(yīng) 用 B 管 道 i n c h e s應(yīng) 用 C 管 道 m c f應(yīng) 用 D 管 道 y d s管 道 c m屬 性 度 量應(yīng) 用 A 描 述應(yīng) 用 B 描 述應(yīng) 用 C 描 述應(yīng) 用 D 描 述描 述重 要 信 息 源?應(yīng) 用 A 類 型 c h a r ( 1 0 )應(yīng) 用 B 類 型 d e c ( 9 , 2 )應(yīng) 用 C 類 型 p i c ‘ 9 9 9 9 9 9 9 ’應(yīng) 用 D 類 型 c h a r ( 1 2 )類 型 c h a r ( 1 2 )沖 突 的 類 型 描 述2021年 6月 14日星期一 數(shù)據(jù)庫教程(沈 ) 10 Ch14. 2. 數(shù)據(jù)倉庫 時變性:操作型數(shù)據(jù)庫一般的數(shù)據(jù)時間期限是 60~ 90天,而數(shù)據(jù)倉庫通常要存放 5~ 10年的數(shù)據(jù);操作型數(shù)據(jù)庫含有“當前值”的數(shù)據(jù),其準確性在訪問時是有效的,但此當前值數(shù)據(jù)能被更新。 操 作 型 數(shù) 據(jù) 庫 數(shù) 據(jù) 倉 庫( 應(yīng) 用 ) ( 主 題 )汽 車 保 險人 壽 保 險健 康 保 險意 外 傷 亡 保 險顧 客保 險 單保 險 費索 賠2021年 6月 14日星期一 數(shù)據(jù)庫教程(沈 ) 9 Ch14. 2. 數(shù)據(jù)倉庫 集成性:面向應(yīng)用的操作型數(shù)據(jù)庫系統(tǒng),對不同應(yīng)用有不同的表示方法,而當數(shù)據(jù)進入數(shù)據(jù)倉庫時,必須消除各種應(yīng)用問題的許多不一致性。 2021年 6月 14日星期一 數(shù)據(jù)庫教程(沈 ) 7 Ch14. 2. 數(shù)據(jù)倉庫 (1)概述 (2)數(shù)據(jù)倉庫的建立 ——數(shù)據(jù)模型、數(shù)據(jù)模式 (3)OLAP技術(shù) 2021年 6月 14日星期一 數(shù)據(jù)庫教程(沈 ) 8 Ch14. 2. 數(shù)據(jù)倉庫 (1)概述 1)數(shù)據(jù)倉庫的定義 現(xiàn)對數(shù)據(jù)倉庫定義中的 4個特性作進一步解釋 : 主題性:傳統(tǒng)的操作型數(shù)據(jù)庫系統(tǒng)都是圍繞某一企事業(yè)單位的應(yīng)用來組織數(shù)據(jù)的,而數(shù)據(jù)倉庫系統(tǒng)則是用于決策分析,要面向主題來組織數(shù)據(jù)?,F(xiàn)在通常采用被稱為數(shù)據(jù)倉庫之父的 . Inmon的說法作為 定義 :“數(shù)據(jù)倉庫是一個面向主題的、集成的、時變的、非易失的數(shù)據(jù)集合,支持管理部門的決策過程”。 2021年 6月 14日星期一 數(shù)據(jù)庫教程(沈 ) 6 Ch14. 20世紀 80年代中期,提出了數(shù)據(jù)倉庫的概念。 非易失的 :決策分析所需的數(shù)據(jù)不一定需要及時更新,通常只需兩種訪問方式:數(shù)據(jù)的初始化裝入和以讀為主的訪問。 時變的 :決策分析不但需要反映當前情況的數(shù)據(jù)(如 2~ 3個月),還需要歷史數(shù)據(jù)(通常是 5~ 10年),以便分析變化趨勢,進行決策。這些數(shù)據(jù)有些來自各類數(shù)據(jù)庫,有些來自文件,也有些來自Inter網(wǎng)獲取的 HTML文件。這也正解釋高層管理人員對現(xiàn)行數(shù)據(jù)管理的一種批評 ——“數(shù)據(jù)豐富,信息貧乏”。為什么呢?可從決策分析所需要數(shù)據(jù)有以下幾個方面的特征來看: 面向主題 :決策分析都是圍繞一些主題而展開的,如銷售企業(yè),圍繞顧客、供應(yīng)商、產(chǎn)品、銷售組織等主題,關(guān)注決策者關(guān)注的數(shù)據(jù)建模與分析,而不把注意力放在機構(gòu)的日常操作和事務(wù)處理。 2021年 6月 14日星期一 數(shù)據(jù)庫教程(沈 ) 5 Ch14. (2)數(shù)據(jù)倉庫的產(chǎn)生 數(shù)據(jù)管理對于高層管理人員,主要是進行決策分析。以下我們看到,在這種操作型數(shù)據(jù)庫基礎(chǔ)上,想要構(gòu)建 DSS,有很大困難,是不適合的。在這一層次,數(shù)據(jù)管理的任務(wù)重要應(yīng)是對數(shù)據(jù)的決策分析。本書介紹的關(guān)系數(shù)據(jù)庫技術(shù),基于OLTP建立的信息系統(tǒng),信息內(nèi)容適合綜合化處理,也可以較好地完成任務(wù)。本書介紹的關(guān)系數(shù)據(jù)庫技術(shù),建立相應(yīng)的聯(lián)機事務(wù)處理系統(tǒng)( OLTP, Online Transaction Processing),顯然能很好地完成這項任務(wù)。2021年 6月 14日星期一 數(shù)據(jù)庫教程(沈 ) 1 第四部分 新技術(shù)篇 1. 概述 2. 數(shù)據(jù)倉庫 3 .數(shù)據(jù)挖掘 2021年 6月 14日星期一 數(shù)據(jù)庫教程(沈 ) 2 Ch14. (1)數(shù)據(jù)管理的層次結(jié)構(gòu) (2)數(shù)據(jù)倉庫的產(chǎn)生 (3)從數(shù)據(jù)倉庫到數(shù)據(jù)挖掘 2021年 6月 14日星期一 數(shù)據(jù)庫教程(沈 ) 3 Ch14. (1)數(shù)據(jù)管理的層次結(jié)構(gòu) 下圖不同管理層次的三類信息系統(tǒng): 決 策 支 持 系 統(tǒng)( D S S )管 理 信 息 系 統(tǒng)( M I S )事 務(wù) 處 理 系 統(tǒng)( T P S )戰(zhàn) 略 層 : 高 層 管 理 人 員 完 成決 策 分 析戰(zhàn) 術(shù) 層 : 中 層 管 理 人 員 完 成綜 合 性 的 數(shù) 據(jù) 管 理操 作 層 : 基 層 管 理 人 員 完 成單 項 的 數(shù) 據(jù) 管 理2021年 6月 14日星期一 數(shù)據(jù)庫教程(沈 ) 4 Ch14. 事務(wù)處理系統(tǒng)( TPS, Transaction Processing System) ——對于基層管理人員來說,所要完成的數(shù)據(jù)管理任務(wù)基本上是針對某種業(yè)務(wù)應(yīng)用來做單項性管理。對這個層次的信息系統(tǒng)來說,一般是掌握基層業(yè)務(wù)部門的操作信息、運行狀態(tài)、完成日常管理。 管理信息系統(tǒng)( MIS, Management Information System) ——對于中層管理人員來說,所要完成的數(shù)據(jù)管理任務(wù)是起承上啟下的作用,一方面要綜合有關(guān)基層部門的有關(guān)信息,另一方面要向高層領(lǐng)導提供相關(guān)決策信息,并落實高層領(lǐng)導提出的全局性總目標。 決策支持系統(tǒng)( DSS, Decision Support System) ——對于高層領(lǐng)導人員來說,主要的任務(wù)是制定企事業(yè)單位的總目標并提出落實總目標的方針與預算。目前,數(shù)據(jù)都是 DBMS統(tǒng)一管理,企事業(yè)單位都相應(yīng)建立起了操作型數(shù)據(jù)庫。在這種背景下,數(shù)據(jù)倉庫( Data Warehouse)技術(shù)應(yīng)運而生。從決策分析的要求看,傳統(tǒng)的操作型數(shù)據(jù)庫,所建立 OLTP系統(tǒng)是很不合適的。對于決策分析的主題來說,所需的數(shù)據(jù)多為總結(jié)性數(shù)據(jù),而不一定需要操作型數(shù)據(jù)庫大量存放的細節(jié)數(shù)據(jù)。 集成的 :決策分析所需數(shù)據(jù)將是多種異構(gòu)數(shù)據(jù)源,不但需要本單位的數(shù)據(jù),也需要有關(guān)的其他單位的數(shù)據(jù)。所需的數(shù)據(jù)是多種異構(gòu)數(shù)據(jù)源的集成。由于數(shù)據(jù)須在時間維上展開,數(shù)據(jù)量將是非常巨大的。 在這樣的背景下, 數(shù)據(jù)倉庫技術(shù)應(yīng)運而生 。到底什么是數(shù)據(jù)倉庫?可以有多種方式定義,很難提出一個嚴格的定義。 (3)從數(shù)據(jù)倉庫到數(shù)據(jù)挖掘 對于構(gòu)建的數(shù)據(jù)倉庫,如何使用?數(shù)據(jù)倉庫系統(tǒng)的用戶界面包括的若干決策工具和接口,其中一個重要的技術(shù)就是數(shù)據(jù)挖掘( Data Mining,簡稱維 DM,也稱為知識發(fā)現(xiàn) KDD, Knowledge Discovery in DB and DW)。下圖表示數(shù)據(jù)組織圍繞保險公司面向主題的一個例子。如圖示例說明數(shù)據(jù)倉庫的集成問題。而數(shù)據(jù)倉庫中的數(shù)據(jù)僅僅是一系列某一時刻生成的復雜的快照;操作型數(shù)據(jù)庫的基本結(jié)構(gòu)中可能包含也可能不包含時間元素,如年、月、日等。圖示例說明數(shù)據(jù)隨時間變化的問題。圖表示數(shù)據(jù)的非易失性問題。聯(lián)機操作型數(shù)據(jù)庫系統(tǒng)主要任務(wù)是執(zhí)行聯(lián)機事務(wù)和查詢處理,所以,這種系統(tǒng)也稱為聯(lián)機事務(wù)處理系統(tǒng)( OLTP, Online Transaction Processi
點擊復制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1