freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘原理及應(yīng)用第1章(參考版)

2025-05-13 02:13本頁面
  

【正文】 69 End of Chapter 1 。介紹數(shù)據(jù)倉庫的體系結(jié)構(gòu)及數(shù)據(jù)倉庫中 ETL、元數(shù)據(jù)、 OLAP等一系列重要的概念。在給出數(shù)據(jù)倉庫的定義后,詳細(xì)闡述數(shù)據(jù)倉庫面向主題、數(shù)據(jù)集成、數(shù)據(jù)穩(wěn)定、數(shù)據(jù)隨時(shí)間變化的基本特征。 這個(gè)過程實(shí)際上也是數(shù)據(jù)在數(shù)據(jù)倉庫中的生命周期。數(shù)據(jù)倉庫系統(tǒng)中數(shù)據(jù)清理并不是簡單地刪除,而是從細(xì)化級(jí)別的數(shù)據(jù)逐漸上升為高度綜合級(jí)的數(shù)據(jù),直到數(shù)據(jù)已經(jīng)不再具備任何意義時(shí)被清除的過程。 數(shù)據(jù)倉庫的數(shù)據(jù)追加和清理 (4) 66 數(shù)據(jù)倉庫的數(shù)據(jù)清理與傳統(tǒng)數(shù)據(jù)庫系統(tǒng)中數(shù)據(jù)清理的含義有區(qū)別。我們可以通過分析數(shù)據(jù)庫系統(tǒng)日志來獲取數(shù)據(jù)變化的情況,得到追加內(nèi)容。 我們知道,各個(gè)應(yīng)用程序都是通過同數(shù)據(jù)庫服務(wù)器進(jìn)程通信來實(shí)現(xiàn)其數(shù)據(jù)訪問功能,最終數(shù)據(jù)的訪問和處理工作是由數(shù)據(jù)庫服務(wù)器來承擔(dān),因此數(shù)據(jù)庫服務(wù)器能夠感知數(shù)據(jù)的變化。 業(yè)務(wù)數(shù)據(jù)庫應(yīng)用程序主要是為了完成事務(wù)處理而設(shè)計(jì)的 ,要使所有的應(yīng)用程序都支持 DELTA文件的功能在實(shí)際的工程應(yīng)用中很難 , 因此 , 這種方法也沒有得到實(shí)用化 。 ( 3) DELTA文件法 “ DELTA文件法 ” 是一種從應(yīng)用程序來感知數(shù)據(jù)變化的方法 。 數(shù)據(jù)倉庫的數(shù)據(jù)追加和清理 (2) 64 ( 2) 前后快照比較法 其思想很簡單:將上次執(zhí)行完數(shù)據(jù)追加任務(wù)的當(dāng)前業(yè)務(wù)數(shù)據(jù)庫快照記錄下來 , 同要執(zhí)行新的數(shù)據(jù)追加任務(wù)前的原先業(yè)務(wù)數(shù)據(jù)庫快照進(jìn)行比較 , 比較這兩次快照的不同 , 來生成追加的內(nèi)容 。數(shù)據(jù)庫應(yīng)用的設(shè)計(jì)者主要是從實(shí)現(xiàn)事務(wù)處理的功能角度來考慮問題,因此,數(shù)據(jù)庫應(yīng)用的設(shè)計(jì)者通常不會(huì)增加時(shí)間標(biāo)記字段,因?yàn)樵摿袑?duì)于事務(wù)處理系統(tǒng)來說是不必要的。當(dāng)數(shù)據(jù)在上次數(shù)據(jù)導(dǎo)入完成后發(fā)生了變化,則修改這條記錄的時(shí)間標(biāo)記。要完成數(shù)據(jù)追加的工作,最關(guān)鍵的是“捕獲”數(shù)據(jù)變化,并將數(shù)據(jù)的變化記錄下來。而數(shù)據(jù)追加解決的是數(shù)據(jù)倉庫初始數(shù)據(jù)加載后,如何再向數(shù)據(jù)倉庫輸入數(shù)據(jù)的問題。一個(gè)系統(tǒng)某些性能的提高,總是以犧牲其他性能為代價(jià)的。 2 0 0 7 /1 采購表 2 0 0 7 /2 采購表 2 0 0 7 /1 2 0 0 7 /2 采購表 北京 帽子 4 昆明 水杯 2 上海 鋼筆 1 商品產(chǎn)地 商品名 商品編號(hào) 成都 帽子 4 廣州 毛巾 3 上海 鋼筆 1 商品產(chǎn)地 商品名 商品編號(hào) 2 0 0 7 /2 成都 帽子 4 2 0 0 7 /1 北京 帽子 4 2 0 0 7 /2 廣州 毛巾 3 2 0 0 7 /1 昆明 水杯 2 2 0 0 7 /1 2 0 0 7 /2 上海 鋼筆 1 購買時(shí)間 商品產(chǎn)地 商品名 商品編號(hào) 圖 1 . 1 2 連續(xù)文件示例 數(shù)據(jù)倉庫的數(shù)據(jù)組織形式( 4) 61 隨著時(shí)間的推移,如果又有新的數(shù)據(jù)表加入,則可以使用連續(xù)文件和新的數(shù)據(jù)表進(jìn)行類似的處理,以達(dá)到“兩全其美”的目的。 2 0 0 7 /1 采購表 2 0 0 7 /2 采購表 北京 帽子 4 昆明 水杯 2 上海 鋼筆 1 商品產(chǎn)地 商品名 商品編號(hào) 成都 帽子 4 廣州 毛巾 3 上海 鋼筆 1 商品產(chǎn)地 商品名 商品編號(hào) 圖 1 . 1 1 某商場的兩張采購表 數(shù)據(jù)倉庫的數(shù)據(jù)組織形式( 3) 60 圖 結(jié)果 。 “ 上海 ” 產(chǎn)的“ 鋼筆 ” 既在 2021/1購買 , 又在 2021/2購買 。 3. 連續(xù)文件 定期綜合文件其數(shù)據(jù)量級(jí)小時(shí)丟失了數(shù)據(jù)細(xì)節(jié),簡單堆積文件保留細(xì)節(jié)但數(shù)據(jù)量級(jí)又很大,是否可以綜合兩者的優(yōu)點(diǎn)呢?答案是肯定的。 定期綜合文件的組織方式使得數(shù)據(jù)量比簡單堆積文件方式大大減少,但是由于數(shù)據(jù)被進(jìn)行了綜合,使得數(shù)據(jù)的細(xì)節(jié)在綜合中丟失。 業(yè)務(wù)數(shù)據(jù)庫 2 0 0 7 / 1 / 1 2 0 0 7 / 1 / 2 2 0 0 7 / 1 / 3 …… 2 0 0 7 / 2 / 1 2 0 0 7 / 2 / 2 2 0 0 7 / 2 / 3 …… 數(shù)據(jù)庫快照 圖 1 . 1 0 簡單堆積數(shù)據(jù) 58 2. 定期綜合文件 在定期綜合文件這種方式中,數(shù)據(jù)存儲(chǔ)單位被分成日、周、月、季、年等多個(gè)級(jí)別。 數(shù)據(jù)粒度與數(shù)據(jù)分割( 3) 57 數(shù)據(jù)倉庫的數(shù)據(jù)組織形式( 1) 在數(shù)據(jù)倉庫發(fā)展過程中,出現(xiàn)了多種不同的數(shù)據(jù)組織形式: 1. 簡單堆積文件 簡單堆積文件就是將每天由業(yè)務(wù)數(shù)據(jù)庫提取并處理后的數(shù)據(jù)逐天存儲(chǔ)起來 , 如圖 。 但是 , 假如粒度處理不當(dāng) ,并且分割也沒有認(rèn)真地設(shè)計(jì)與實(shí)現(xiàn) , 將嚴(yán)重影響其他方面的設(shè)計(jì)效果 。 不過需注意的是:在數(shù)據(jù)倉庫中 , 圍繞分割問題的關(guān)鍵并不是該不該對(duì)數(shù)據(jù)進(jìn)行分割 , 而是如何分割 。 分割方法常??梢赃x擇時(shí)間 、 地點(diǎn) 、業(yè)務(wù)領(lǐng)域來劃分 , 也可以是其組合 。 所謂數(shù)據(jù)分割是指將數(shù)據(jù)分散到各自的物理單元中以便能夠獨(dú)立處理 , 提高數(shù)據(jù)處理的效率 。 在數(shù)據(jù)倉庫環(huán)境中粒度之所以是一個(gè)極其重要的概念,是因?yàn)樗钌畹赜绊懘娣旁跀?shù)據(jù)倉庫中的數(shù)據(jù)量的大小,同時(shí)影響數(shù)據(jù)倉庫所能回答的查詢類型,在數(shù)據(jù)倉庫中數(shù)據(jù)量大小與查詢的詳細(xì)程度之間要做出權(quán)衡。 粒度的第二種形式是指抽樣率,即以一定的抽樣率對(duì)數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行抽樣后得到一個(gè)樣本數(shù)據(jù)庫。由于數(shù)據(jù)倉庫最主要的目的是反映企業(yè)整體信息和 DSS(decision support system決策支持系統(tǒng) )分析,因而決大多數(shù)查詢都是基于一定程度的綜合數(shù)據(jù)之上,只有極少數(shù)查詢涉及到細(xì)節(jié)。粒度可以分為兩種形式,一種是對(duì)數(shù)據(jù)倉庫中的數(shù)據(jù)的綜合程度高低的一個(gè)度量,它既影響數(shù)據(jù)倉庫中數(shù)據(jù)量的多少,也影響數(shù)據(jù)倉庫中數(shù)據(jù)的用途。 在數(shù)據(jù)倉庫中 , 處理提取和綜合后的數(shù)據(jù)還包含非常重要的元數(shù)據(jù) , 它描述的是提取和綜合后的數(shù)據(jù)的組織方式 , 屬于數(shù)據(jù)的一種綜合類型 , 我們在數(shù)據(jù)倉庫的體系結(jié)構(gòu) ( ) 中已經(jīng)介紹了元數(shù)據(jù) 。 比如企業(yè)的管理者認(rèn)為企業(yè)的決策只同企業(yè)近 15年來的運(yùn)營數(shù)據(jù)有關(guān) , 則 15年之前的綜合數(shù)據(jù)也可以導(dǎo)出 。 數(shù)據(jù)倉庫的數(shù)據(jù)組織結(jié)構(gòu)( 3) 53 隨著時(shí)間的推移 , 系統(tǒng)中的一些細(xì)節(jié)數(shù)據(jù)已經(jīng) “ 老化 ”了 , 很少會(huì)被用戶使用 , 此時(shí)為了節(jié)省系統(tǒng)的存儲(chǔ)空間 , 可以將這些老化的細(xì)節(jié)數(shù)據(jù)導(dǎo)出到備份設(shè)備上 。 進(jìn)行 OLAP分析時(shí) , 常常需要不同層次的數(shù)據(jù)粒度 ,因此可以通過預(yù)運(yùn)算將數(shù)據(jù)綜合成每個(gè)用戶每 “ 天 ” 的通話次數(shù) ,還可以進(jìn)一步聚合成每個(gè)用戶每 “ 月 ” 的通話次數(shù) ( 圖 所示 ) 。 粒度越大 , 表示細(xì)節(jié)程度越低 , 綜合程度越高 。 51 一個(gè)典型的數(shù)據(jù)倉庫的數(shù)據(jù)組織如圖 高度綜合級(jí) 輕度綜合級(jí) 當(dāng)前細(xì)節(jié)級(jí) 早期細(xì)節(jié)級(jí) 后備數(shù)據(jù) 后備數(shù)據(jù) 后備數(shù)據(jù) 后備數(shù)據(jù) 電話呼叫明細(xì)信息 電話呼叫情況信息 每 “ 天 ” 電話呼叫情況信息 每 “ 月 ” 電話呼叫情況信息 圖 數(shù)據(jù)倉庫的數(shù)據(jù)組織結(jié)構(gòu)圖 數(shù)據(jù)倉庫的數(shù)據(jù)組織結(jié)構(gòu)( 2) 52 源數(shù)據(jù) ( 早期細(xì)節(jié)級(jí)數(shù)據(jù) ) 經(jīng)過綜合后 , 首先進(jìn)入當(dāng)前細(xì)節(jié)級(jí) , 然后根據(jù)應(yīng)用的需求 , 通過預(yù)運(yùn)算將數(shù)據(jù)聚合成輕度綜合和高度綜合級(jí) 。MOLAP是以多維的方式組織和存儲(chǔ)數(shù)據(jù) , ROLAP則利用現(xiàn)有的關(guān)系數(shù)據(jù)庫技術(shù)來模擬多維數(shù)據(jù) 。 旋轉(zhuǎn)是變換維的方向 , 即在表格中重新安排維的放置 ( 例如行列互換 ) 。 它包括向上探取 ( roll up) 和向下鉆取 ( drill down) 。 如果剩余的維只有兩個(gè) , 則是切片;如果有三個(gè) , 則是切塊 。 多維分析是指對(duì)以多維形式組織起來的數(shù)據(jù)采取切片( Slice) 、 切塊 ( Dice) 、 鉆取 ( Drilldown和 Rollup) 、 旋轉(zhuǎn)( Pivot) 等各種分析動(dòng)作 , 以求剖析數(shù)據(jù) , 使用戶能從多個(gè)角度 、 多側(cè)面地觀察數(shù)據(jù)庫中的數(shù)據(jù) , 從而深入理解包含在數(shù)據(jù)中的信息 。通過把一個(gè)實(shí)體的多項(xiàng)重要的屬性定義為多個(gè)維 , 使用戶能從不同維對(duì)數(shù)據(jù)進(jìn)行分析比較 。 而這些維的不同組合和所考察的度量指標(biāo)構(gòu)成的多維數(shù)組則是 OLAP分析的基礎(chǔ) , 可形式化表示為 ( 維 1, 維 2, …… , 維 n, 度量指標(biāo) ) , 如( 地區(qū) 、 時(shí)間 、 產(chǎn)品 、 銷售額 ) 。 例如 , 一個(gè)企業(yè)在考慮產(chǎn)品的銷售情況時(shí) , 通常從時(shí)間 、 地區(qū)和產(chǎn)品的不同角度來深入觀察產(chǎn)品的銷售情況 。OLAP的目標(biāo)是滿足決策支持或者滿足在多維環(huán)境下特定的查詢和報(bào)表需求 , 它的技術(shù)核心是 “ 維 ” 這個(gè)概念 。 它可以根據(jù)分析人員的要求 , 迅速靈活地對(duì)大量的數(shù)據(jù)進(jìn)行復(fù)雜的查詢處理 , 并以直觀的容易理解的形式將查詢結(jié)果提供給各種決策人員 , 使他們能夠迅速準(zhǔn)確地掌握企業(yè)的運(yùn)營情況 , 了解市場的需求 。 數(shù)據(jù)倉庫中的關(guān)鍵名詞( 7) 46 4. OLAP 數(shù)據(jù)倉庫是管理決策分析的基礎(chǔ) , 要有效地利用數(shù)據(jù)倉庫的信息資源 , 必須要有強(qiáng)大的工具對(duì)數(shù)據(jù)倉庫的信息進(jìn)行分析決策 。在 獨(dú)立 的數(shù)據(jù)集市中 , 數(shù)據(jù)來自一個(gè)或多個(gè)操作的系統(tǒng)或外部信息提供者 , 或者來自一個(gè)特定的部門或地域局部產(chǎn)生的數(shù)據(jù) 。然而 , 如果它們的規(guī)劃不是企業(yè)范圍的 , 從長遠(yuǎn)講 , 可能涉及很復(fù)雜的集成 。 通常 , 數(shù)據(jù)集市可以在低價(jià)格的部門服務(wù)器上實(shí)現(xiàn) 。 典型示例是銷售部門 、 庫存和發(fā)貨部門 、 財(cái)務(wù)部門和高級(jí)管理部門等的數(shù)據(jù)集市 。 換句話說 , 數(shù)據(jù)集市包含了用于
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1