freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘原理及應(yīng)用第1章(文件)

2025-06-02 02:13 上一頁面

下一頁面
 

【正文】 而不是為了存儲(chǔ)分析趨勢的歷史數(shù)據(jù)而創(chuàng)建的。 以下是某數(shù)據(jù)倉庫支持的一些查詢示例 : 2021年第三季度,整個(gè)英格蘭的總收入是多少? 2021年英國每一類房產(chǎn)銷售的總收入是多少? 2021年租借房產(chǎn)業(yè)務(wù)中每個(gè)城市哪個(gè)地域最受歡迎?與過去的兩年相比有何不同? 每個(gè)分支機(jī)構(gòu)本月的房產(chǎn)銷售月收入是多少,并與剛過去的12個(gè)月相比較。 37 查詢 / 報(bào)表 頂層:前端工具 中間層: O L A P 服務(wù)器 底層: 數(shù)據(jù)倉庫服務(wù)器 源數(shù)據(jù) 外部數(shù)據(jù) 圖 1 . 8 三層數(shù)據(jù)倉庫結(jié)構(gòu) O L A P 服務(wù)器 O L A P 服務(wù)器 輸出 元數(shù)據(jù)存儲(chǔ) 分析 數(shù)據(jù)挖掘 監(jiān)控 管理 數(shù)據(jù)倉庫 數(shù)據(jù)集市 提取 清理 變換 裝入 刷新 三層數(shù)據(jù)倉庫結(jié)構(gòu)( 2) 38 原則上,數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)被劃分為三層:數(shù)據(jù)倉庫服務(wù)器、 OLAP服務(wù)器和前端工具。 2) 中間層是 OLAP服務(wù)器,其典型的實(shí)現(xiàn)有:( ⅰ )關(guān)系OLAP( ROLAP)模型,即擴(kuò)展的關(guān)系 DBMS,它將多維數(shù)據(jù)上的操作映射為標(biāo)準(zhǔn)的關(guān)系操作;( ⅱ )多維 OLAP( MOALP)模型,一種特殊的服務(wù)器,它直接實(shí)現(xiàn)多維數(shù)據(jù)操作。 1. ETL( Extract/Transformation/Load) —數(shù)據(jù)抽取 、 轉(zhuǎn)換 、 加載工具 ETL工具就是進(jìn)行數(shù)據(jù)的抽取 、 轉(zhuǎn)換和加載 。例如,某超市確定以分析客戶的購買行為為主題建立數(shù)據(jù)倉庫,則我們只需將與客戶購買行為相關(guān)的數(shù)據(jù)提取出來,而超市服務(wù)員工的數(shù)據(jù) 就沒有必要放進(jìn)數(shù)據(jù)倉庫。 ( 3) 數(shù)據(jù)清洗( Data Clean) 由于企業(yè)常常為不同的應(yīng)用對象建立不同的業(yè)務(wù)數(shù)據(jù)庫,比如一個(gè)電信運(yùn)營公司擁有計(jì)費(fèi)數(shù)據(jù)庫、財(cái)務(wù)數(shù)據(jù)庫、客服數(shù)據(jù)庫、客戶投訴數(shù)據(jù)庫等業(yè)務(wù)系統(tǒng),這些業(yè)務(wù)系統(tǒng)中可能包含重復(fù)的信息,比如客服數(shù)據(jù)庫中的部分客戶基本信息也在客戶投訴數(shù)據(jù)庫中存在,由于不同的數(shù)據(jù)庫可能使用不同數(shù)據(jù)庫公司的產(chǎn)品,不同的業(yè)務(wù)系統(tǒng)可能由不同的軟件開發(fā)商提供,這使得各個(gè)業(yè)務(wù)數(shù)據(jù)庫中的數(shù)據(jù)可能存在不一致現(xiàn)象。 所謂 “ 清洗 ” 就是將錯(cuò)誤的 、 不一致的數(shù)據(jù)在進(jìn)入數(shù)據(jù)倉庫之前予以更正或刪除 , 以免影響決策支持系統(tǒng)決策的正確性 。 所謂數(shù)據(jù)的 “ 凈化提煉 ” 就是對從多個(gè)不同業(yè)務(wù)數(shù)據(jù)庫所抽取的數(shù)據(jù) , 進(jìn)行數(shù)據(jù)項(xiàng)名稱的統(tǒng)一 、 位數(shù)的統(tǒng)一 、 編碼的統(tǒng)一和形式的統(tǒng)一 , 消除重復(fù)數(shù)據(jù) 。它提供了有關(guān)數(shù)據(jù)的環(huán)境,用于構(gòu)造、維持、管理、和使用數(shù)據(jù)倉庫,在數(shù)據(jù)倉庫中尤為重要。 數(shù)據(jù)倉庫中的關(guān)鍵名詞( 4) 43 由操作環(huán)境到數(shù)據(jù)倉庫的映射信息 ,包括源數(shù)據(jù)庫和它們的內(nèi)容, ETL程序描述,數(shù)據(jù)分割、提取、清理和轉(zhuǎn)換的規(guī)則和缺省,數(shù)據(jù)刷新和裁減的規(guī)則以及數(shù)據(jù)安全信息(用戶授權(quán)和存取控制)。其它類型包括當(dāng)前的細(xì)節(jié)數(shù)據(jù)(幾乎總是在磁盤上),老的細(xì)節(jié)數(shù)據(jù)(通常在三級存儲(chǔ)器上),稍加綜合的數(shù)據(jù),以及高度綜合的數(shù)據(jù)(可以存入倉庫也可以不存入)。通常,數(shù)據(jù)倉庫將建立專用的元數(shù)據(jù)庫來存放和管理元數(shù)據(jù)。 換句話說 , 數(shù)據(jù)集市包含了用于特殊目的數(shù)據(jù)倉庫的部分?jǐn)?shù)據(jù) 。 通常 , 數(shù)據(jù)集市可以在低價(jià)格的部門服務(wù)器上實(shí)現(xiàn) 。在 獨(dú)立 的數(shù)據(jù)集市中 , 數(shù)據(jù)來自一個(gè)或多個(gè)操作的系統(tǒng)或外部信息提供者 , 或者來自一個(gè)特定的部門或地域局部產(chǎn)生的數(shù)據(jù) 。 它可以根據(jù)分析人員的要求 , 迅速靈活地對大量的數(shù)據(jù)進(jìn)行復(fù)雜的查詢處理 , 并以直觀的容易理解的形式將查詢結(jié)果提供給各種決策人員 , 使他們能夠迅速準(zhǔn)確地掌握企業(yè)的運(yùn)營情況 , 了解市場的需求 。 例如 , 一個(gè)企業(yè)在考慮產(chǎn)品的銷售情況時(shí) , 通常從時(shí)間 、 地區(qū)和產(chǎn)品的不同角度來深入觀察產(chǎn)品的銷售情況 。通過把一個(gè)實(shí)體的多項(xiàng)重要的屬性定義為多個(gè)維 , 使用戶能從不同維對數(shù)據(jù)進(jìn)行分析比較 。 如果剩余的維只有兩個(gè) , 則是切片;如果有三個(gè) , 則是切塊 。 旋轉(zhuǎn)是變換維的方向 , 即在表格中重新安排維的放置 ( 例如行列互換 ) 。 51 一個(gè)典型的數(shù)據(jù)倉庫的數(shù)據(jù)組織如圖 高度綜合級 輕度綜合級 當(dāng)前細(xì)節(jié)級 早期細(xì)節(jié)級 后備數(shù)據(jù) 后備數(shù)據(jù) 后備數(shù)據(jù) 后備數(shù)據(jù) 電話呼叫明細(xì)信息 電話呼叫情況信息 每 “ 天 ” 電話呼叫情況信息 每 “ 月 ” 電話呼叫情況信息 圖 數(shù)據(jù)倉庫的數(shù)據(jù)組織結(jié)構(gòu)圖 數(shù)據(jù)倉庫的數(shù)據(jù)組織結(jié)構(gòu)( 2) 52 源數(shù)據(jù) ( 早期細(xì)節(jié)級數(shù)據(jù) ) 經(jīng)過綜合后 , 首先進(jìn)入當(dāng)前細(xì)節(jié)級 , 然后根據(jù)應(yīng)用的需求 , 通過預(yù)運(yùn)算將數(shù)據(jù)聚合成輕度綜合和高度綜合級 。 進(jìn)行 OLAP分析時(shí) , 常常需要不同層次的數(shù)據(jù)粒度 ,因此可以通過預(yù)運(yùn)算將數(shù)據(jù)綜合成每個(gè)用戶每 “ 天 ” 的通話次數(shù) ,還可以進(jìn)一步聚合成每個(gè)用戶每 “ 月 ” 的通話次數(shù) ( 圖 所示 ) 。 比如企業(yè)的管理者認(rèn)為企業(yè)的決策只同企業(yè)近 15年來的運(yùn)營數(shù)據(jù)有關(guān) , 則 15年之前的綜合數(shù)據(jù)也可以導(dǎo)出 。粒度可以分為兩種形式,一種是對數(shù)據(jù)倉庫中的數(shù)據(jù)的綜合程度高低的一個(gè)度量,它既影響數(shù)據(jù)倉庫中數(shù)據(jù)量的多少,也影響數(shù)據(jù)倉庫中數(shù)據(jù)的用途。 粒度的第二種形式是指抽樣率,即以一定的抽樣率對數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行抽樣后得到一個(gè)樣本數(shù)據(jù)庫。 所謂數(shù)據(jù)分割是指將數(shù)據(jù)分散到各自的物理單元中以便能夠獨(dú)立處理 , 提高數(shù)據(jù)處理的效率 。 不過需注意的是:在數(shù)據(jù)倉庫中 , 圍繞分割問題的關(guān)鍵并不是該不該對數(shù)據(jù)進(jìn)行分割 , 而是如何分割 。 數(shù)據(jù)粒度與數(shù)據(jù)分割( 3) 57 數(shù)據(jù)倉庫的數(shù)據(jù)組織形式( 1) 在數(shù)據(jù)倉庫發(fā)展過程中,出現(xiàn)了多種不同的數(shù)據(jù)組織形式: 1. 簡單堆積文件 簡單堆積文件就是將每天由業(yè)務(wù)數(shù)據(jù)庫提取并處理后的數(shù)據(jù)逐天存儲(chǔ)起來 , 如圖 。 定期綜合文件的組織方式使得數(shù)據(jù)量比簡單堆積文件方式大大減少,但是由于數(shù)據(jù)被進(jìn)行了綜合,使得數(shù)據(jù)的細(xì)節(jié)在綜合中丟失。 “ 上海 ” 產(chǎn)的“ 鋼筆 ” 既在 2021/1購買 , 又在 2021/2購買 。 2 0 0 7 /1 采購表 2 0 0 7 /2 采購表 2 0 0 7 /1 2 0 0 7 /2 采購表 北京 帽子 4 昆明 水杯 2 上海 鋼筆 1 商品產(chǎn)地 商品名 商品編號(hào) 成都 帽子 4 廣州 毛巾 3 上海 鋼筆 1 商品產(chǎn)地 商品名 商品編號(hào) 2 0 0 7 /2 成都 帽子 4 2 0 0 7 /1 北京 帽子 4 2 0 0 7 /2 廣州 毛巾 3 2 0 0 7 /1 昆明 水杯 2 2 0 0 7 /1 2 0 0 7 /2 上海 鋼筆 1 購買時(shí)間 商品產(chǎn)地 商品名 商品編號(hào) 圖 1 . 1 2 連續(xù)文件示例 數(shù)據(jù)倉庫的數(shù)據(jù)組織形式( 4) 61 隨著時(shí)間的推移,如果又有新的數(shù)據(jù)表加入,則可以使用連續(xù)文件和新的數(shù)據(jù)表進(jìn)行類似的處理,以達(dá)到“兩全其美”的目的。而數(shù)據(jù)追加解決的是數(shù)據(jù)倉庫初始數(shù)據(jù)加載后,如何再向數(shù)據(jù)倉庫輸入數(shù)據(jù)的問題。當(dāng)數(shù)據(jù)在上次數(shù)據(jù)導(dǎo)入完成后發(fā)生了變化,則修改這條記錄的時(shí)間標(biāo)記。 數(shù)據(jù)倉庫的數(shù)據(jù)追加和清理 (2) 64 ( 2) 前后快照比較法 其思想很簡單:將上次執(zhí)行完數(shù)據(jù)追加任務(wù)的當(dāng)前業(yè)務(wù)數(shù)據(jù)庫快照記錄下來 , 同要執(zhí)行新的數(shù)據(jù)追加任務(wù)前的原先業(yè)務(wù)數(shù)據(jù)庫快照進(jìn)行比較 , 比較這兩次快照的不同 , 來生成追加的內(nèi)容 。 業(yè)務(wù)數(shù)據(jù)庫應(yīng)用程序主要是為了完成事務(wù)處理而設(shè)計(jì)的 ,要使所有的應(yīng)用程序都支持 DELTA文件的功能在實(shí)際的工程應(yīng)用中很難 , 因此 , 這種方法也沒有得到實(shí)用化 。我們可以通過分析數(shù)據(jù)庫系統(tǒng)日志來獲取數(shù)據(jù)變化的情況,得到追加內(nèi)容。數(shù)據(jù)倉庫系統(tǒng)中數(shù)據(jù)清理并不是簡單地刪除,而是從細(xì)化級別的數(shù)據(jù)逐漸上升為高度綜合級的數(shù)據(jù),直到數(shù)據(jù)已經(jīng)不再具備任何意義時(shí)被清除的過程。在給出數(shù)據(jù)倉庫的定義后,詳細(xì)闡述數(shù)據(jù)倉庫面向主題、數(shù)據(jù)集成、數(shù)據(jù)穩(wěn)定、數(shù)據(jù)隨時(shí)間變化的基本特征。 69 End of Chapter 1 。介紹數(shù)據(jù)倉庫的體系結(jié)構(gòu)及數(shù)據(jù)倉庫中 ETL、元數(shù)據(jù)、 OLAP等一系列重要的概念。 這個(gè)過程實(shí)際上也是數(shù)據(jù)在數(shù)據(jù)倉庫中的生命周期。 數(shù)據(jù)倉庫的數(shù)據(jù)追加和清理 (4) 66 數(shù)據(jù)倉庫的數(shù)據(jù)清理與傳統(tǒng)數(shù)據(jù)庫系統(tǒng)中數(shù)據(jù)清理的含義有區(qū)別。 我們知道,各個(gè)應(yīng)用程序都是通過同數(shù)據(jù)庫服務(wù)器進(jìn)程通信來實(shí)現(xiàn)其數(shù)據(jù)訪問功能,最終數(shù)據(jù)的訪問和處理工作是由數(shù)據(jù)庫服務(wù)器來承擔(dān),因此數(shù)據(jù)庫服務(wù)器能夠感知數(shù)據(jù)的變化。 ( 3) DELTA文件法 “ DELTA文件法 ” 是一種從應(yīng)用程序來感知數(shù)據(jù)變化的方法 。數(shù)據(jù)庫應(yīng)用的設(shè)計(jì)者主要是從實(shí)現(xiàn)事務(wù)處理的功能角度來考慮問題,因此,數(shù)據(jù)庫應(yīng)用的設(shè)計(jì)者通常不會(huì)增加時(shí)間標(biāo)記字段,因?yàn)樵摿袑τ谑聞?wù)處理系統(tǒng)來說是不必要的。要完成數(shù)據(jù)追加的工作,最關(guān)鍵的是“捕獲”數(shù)據(jù)變化,并將數(shù)據(jù)的變化記錄下來。一個(gè)系統(tǒng)某些性能的提高,總是以犧牲其他性能為代價(jià)的。 2 0 0 7 /1 采購表 2 0 0 7 /2 采購表 北京 帽子 4 昆明 水杯 2 上海 鋼筆 1 商品產(chǎn)地 商品名 商品編號(hào) 成都 帽子 4 廣州 毛巾 3
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1