freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘原理及應(yīng)用第1章(編輯修改稿)

2025-06-14 02:13 本頁(yè)面
 

【文章內(nèi)容簡(jiǎn)介】 。 兩個(gè)系統(tǒng)的主要區(qū)別概括如下: 數(shù)據(jù)內(nèi)容 :數(shù)據(jù)庫(kù)系統(tǒng)管理當(dāng)前數(shù)據(jù) 。 通常 , 這種數(shù)據(jù)太瑣碎 , 難以用于決策 。 數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)管理大量歷史的 、 存檔的 、 歸納的 、 計(jì)算的數(shù)據(jù) , 提供匯總和聚集機(jī)制 , 并在不同的粒度級(jí)別上存儲(chǔ)和管理信息 。 這種特點(diǎn)使得系統(tǒng)容易用于 “ 見(jiàn)多識(shí)廣 ” 的決策 。 29 數(shù)據(jù)目標(biāo) :數(shù)據(jù)庫(kù)系統(tǒng)是面向業(yè)務(wù)操作 , 用于辦事員 、 客戶和信息技術(shù)專業(yè)人員的事務(wù)和查詢處理 。 數(shù)據(jù)倉(cāng)庫(kù)是面向主題的 , 用于知識(shí)工人 ( 包括經(jīng)理 、 主管和分析人員 ) 的決策分析 。 數(shù)據(jù)特性 :數(shù)據(jù)庫(kù)系統(tǒng)存儲(chǔ)的是當(dāng)前數(shù)據(jù) , 數(shù)據(jù)是動(dòng)態(tài)變化的 , 按字段進(jìn)行更新操作 。 數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)是批量載入的 、靜態(tài)的 , 系統(tǒng)定期執(zhí)行提取過(guò)程為數(shù)據(jù)倉(cāng)庫(kù)增加數(shù)據(jù) , 這些數(shù)據(jù)一旦加入 , 一般不再?gòu)南到y(tǒng)中刪除 。 數(shù)據(jù)結(jié)構(gòu) :數(shù)據(jù)庫(kù)系統(tǒng)采用面向應(yīng)用的數(shù)據(jù)庫(kù)設(shè)計(jì) , 以高度結(jié)構(gòu)化和復(fù)雜的形式組織數(shù)據(jù) , 以適應(yīng)復(fù)雜的事務(wù)操作計(jì)算的需求 。 數(shù)據(jù)倉(cāng)庫(kù)通常采用面向主題的星型或雪花數(shù)據(jù)組織模式 ( 在 ) , 以適應(yīng)分析決策 , 數(shù)據(jù)結(jié)構(gòu)簡(jiǎn)單 。 兩個(gè)系統(tǒng)的主要區(qū)別( 2) 30 兩個(gè)系統(tǒng)的其他區(qū)別包括使用頻率、數(shù)據(jù)訪問(wèn)量、對(duì)響應(yīng)時(shí)間的要求等。這些都概括在表 。 兩個(gè)系統(tǒng)的主要區(qū)別( 3) 31 兩個(gè)系統(tǒng)的查詢支持不同 OLTP系統(tǒng)是為了快速回答簡(jiǎn)單查詢,而不是為了存儲(chǔ)分析趨勢(shì)的歷史數(shù)據(jù)而創(chuàng)建的。一般的, OLTP提供了大量的原始數(shù)據(jù),這些數(shù)據(jù)不易被分析。 數(shù)據(jù)倉(cāng)庫(kù)需要回答更復(fù)雜的查詢,而不僅僅是一些像“英國(guó)主要城市的商品平均銷售價(jià)格是多少”之類的簡(jiǎn)單聚集數(shù)據(jù)查詢。數(shù)據(jù)倉(cāng)庫(kù)需要回答的查詢類型可以是簡(jiǎn)單的查詢,也可以 是高度復(fù)雜的,且還與終端用戶使用的查詢工具相關(guān)。 以下是某數(shù)據(jù)倉(cāng)庫(kù)支持的一些查詢示例 : 2021年第三季度,整個(gè)英格蘭的總收入是多少? 2021年英國(guó)每一類房產(chǎn)銷售的總收入是多少? 2021年租借房產(chǎn)業(yè)務(wù)中每個(gè)城市哪個(gè)地域最受歡迎?與過(guò)去的兩年相比有何不同? 每個(gè)分支機(jī)構(gòu)本月的房產(chǎn)銷售月收入是多少,并與剛過(guò)去的12個(gè)月相比較。 如果對(duì)于 10萬(wàn)英鎊以上的房產(chǎn),法定價(jià)格上升 %而政府稅收下降 %,對(duì)英國(guó)不同區(qū)域的銷售會(huì)產(chǎn)生什么影響? 在英國(guó)主要城市中,哪種類型的房產(chǎn)銷售價(jià)格高于平均房產(chǎn)銷售價(jià)格?這與人口統(tǒng)計(jì)數(shù)據(jù)有何聯(lián)系? 32 兩個(gè)系統(tǒng)數(shù)據(jù)組織模式示例比較 ( 1) 33 兩個(gè)系統(tǒng)數(shù)據(jù)組織模式示例比較( 2) 34 從上述實(shí)例,不難看出: 1)在從面向應(yīng)用到面向主題的轉(zhuǎn)變過(guò)程中,丟棄了原來(lái)有的但不必要的、不適于分析的信息; 2)在原有的數(shù)據(jù)庫(kù)模式中,有關(guān)商品的信息分散在各個(gè)子系統(tǒng)之中;面向主題的數(shù)據(jù)組織方式所強(qiáng)調(diào)的就是要形成關(guān)于主題一致的信息集合; 3)不同主題之間有重疊內(nèi)容。 兩個(gè)系統(tǒng)數(shù)據(jù)組織模式示例比較( 3) 35 第一章 目錄 ? 從數(shù)據(jù)庫(kù)到數(shù)據(jù)倉(cāng)庫(kù) ? 什么是數(shù)據(jù)倉(cāng)庫(kù) ? 數(shù)據(jù)倉(cāng)庫(kù)與傳統(tǒng)數(shù)據(jù)庫(kù)的比較 ? 數(shù)據(jù)倉(cāng)庫(kù)的系統(tǒng)結(jié)構(gòu) ? 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織 ? 本章小結(jié) 36 數(shù)據(jù)倉(cāng)庫(kù)的系統(tǒng)結(jié)構(gòu) 三層數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu) ( 1) 數(shù)據(jù)倉(cāng)庫(kù)的系統(tǒng)結(jié)構(gòu)可以用圖 。由于數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用的出發(fā)點(diǎn)不同 ,數(shù)據(jù)倉(cāng)庫(kù)將獨(dú)立于業(yè)務(wù)數(shù)據(jù)庫(kù)系統(tǒng) , 但是數(shù)據(jù)倉(cāng)庫(kù)又同業(yè)務(wù)數(shù)據(jù)庫(kù)系統(tǒng)息息相關(guān) 。 37 查詢 / 報(bào)表 頂層:前端工具 中間層: O L A P 服務(wù)器 底層: 數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器 源數(shù)據(jù) 外部數(shù)據(jù) 圖 1 . 8 三層數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu) O L A P 服務(wù)器 O L A P 服務(wù)器 輸出 元數(shù)據(jù)存儲(chǔ) 分析 數(shù)據(jù)挖掘 監(jiān)控 管理 數(shù)據(jù)倉(cāng)庫(kù) 數(shù)據(jù)集市 提取 清理 變換 裝入 刷新 三層數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)( 2) 38 原則上,數(shù)據(jù)倉(cāng)庫(kù)的系統(tǒng)結(jié)構(gòu)被劃分為三層:數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器、 OLAP服務(wù)器和前端工具。 1) 底層是數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器,它幾乎總是一個(gè)關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)。數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)使用后端工具和實(shí)用程序從操作數(shù)據(jù)庫(kù)和外部信息源加載和刷新它的數(shù)據(jù),這些機(jī)制統(tǒng)稱 ETL ( Extract/Transformation/Load)工具,它們具有數(shù)據(jù)抽取、數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)加載和數(shù)據(jù)刷新等功能。此外,這一層還包含一個(gè)元數(shù)據(jù)存儲(chǔ),它是關(guān)于數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的信息,關(guān)于元數(shù)據(jù)的進(jìn)一步描述在 。 2) 中間層是 OLAP服務(wù)器,其典型的實(shí)現(xiàn)有:( ⅰ )關(guān)系OLAP( ROLAP)模型,即擴(kuò)展的關(guān)系 DBMS,它將多維數(shù)據(jù)上的操作映射為標(biāo)準(zhǔn)的關(guān)系操作;( ⅱ )多維 OLAP( MOALP)模型,一種特殊的服務(wù)器,它直接實(shí)現(xiàn)多維數(shù)據(jù)操作。 OLAP服務(wù)器將在 。 3) 頂層是客戶,它包括查詢和報(bào)告工具、分析工具和 /或數(shù)據(jù)挖掘工具(例如關(guān)聯(lián)分析、分類分析、預(yù)測(cè)等)。 三層數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)( 3) 39 數(shù)據(jù)倉(cāng)庫(kù)中的關(guān)鍵名詞( 1) 下面詳細(xì)討論數(shù)據(jù)倉(cāng)庫(kù)中的一些關(guān)鍵名詞 。 1. ETL( Extract/Transformation/Load) —數(shù)據(jù)抽取 、 轉(zhuǎn)換 、 加載工具 ETL工具就是進(jìn)行數(shù)據(jù)的抽取 、 轉(zhuǎn)換和加載 。 具體來(lái)講 ,ETL工具包括:數(shù)據(jù)提取 ( data extract) 、 數(shù)據(jù)轉(zhuǎn)換 ( data transform) 、 數(shù)據(jù)清洗 ( data cleaning) 和數(shù)據(jù)加載 ( data loading) 。 ( 1) 數(shù)據(jù)提取( Data Extract) 從數(shù)據(jù)倉(cāng)庫(kù)的角度來(lái)看,并不是業(yè)務(wù)數(shù)據(jù)庫(kù)中的所有數(shù)據(jù)都是決策支持所必需的。通常,數(shù)據(jù)倉(cāng)庫(kù)按照分析的主題來(lái)組織數(shù)據(jù),我們只需提取出系統(tǒng)分析必需的那一部分?jǐn)?shù)據(jù)。例如,某超市確定以分析客戶的購(gòu)買行為為主題建立數(shù)據(jù)倉(cāng)庫(kù),則我們只需將與客戶購(gòu)買行為相關(guān)的數(shù)據(jù)提取出來(lái),而超市服務(wù)員工的數(shù)據(jù) 就沒(méi)有必要放進(jìn)數(shù)據(jù)倉(cāng)庫(kù)。 現(xiàn)有的數(shù)據(jù)倉(cāng)庫(kù)產(chǎn)品幾乎都提供各種關(guān)系型數(shù)據(jù)接口,提供提取引擎,從關(guān)系型數(shù)據(jù)中提取數(shù)據(jù)。 40 ( 2) 數(shù)據(jù)轉(zhuǎn)換( Data Transform) 由于業(yè)務(wù)系統(tǒng)可能使用不同的數(shù)據(jù)庫(kù)廠商的產(chǎn)品,比如 IBM DB Oracle、 Informix、 Sybase、 NCR Teradata、 SQL Server等,各種數(shù)據(jù)庫(kù)產(chǎn)品提供的數(shù)據(jù)類型可能不同,因此,需要將不同格式的數(shù)據(jù)轉(zhuǎn)換成統(tǒng)一的數(shù)據(jù)格式。如時(shí)間格式“年 /月 /日”,“月 /日 /年”、“日 月 年”的不一致問(wèn)題等。 ( 3) 數(shù)據(jù)清洗( Data Clean) 由于企業(yè)常常為不同的應(yīng)用對(duì)象建立不同的業(yè)務(wù)數(shù)據(jù)庫(kù),比如一個(gè)電信運(yùn)營(yíng)公司擁有計(jì)費(fèi)數(shù)據(jù)庫(kù)、財(cái)務(wù)數(shù)據(jù)庫(kù)、客服數(shù)據(jù)庫(kù)、客戶投訴數(shù)據(jù)庫(kù)等業(yè)務(wù)系統(tǒng),這些業(yè)務(wù)系統(tǒng)中可能包含重復(fù)的信息,比如客服數(shù)據(jù)庫(kù)中的部分客戶基本信息也在客戶投訴數(shù)據(jù)庫(kù)中存在,由于不同的數(shù)據(jù)庫(kù)可能使用不同數(shù)據(jù)庫(kù)公司的產(chǎn)品,不同的業(yè)務(wù)系統(tǒng)可能由不同的軟件開(kāi)發(fā)商提供,這使得各個(gè)業(yè)務(wù)數(shù)據(jù)庫(kù)中的數(shù)據(jù)可能存在不一致現(xiàn)象。再者,由于數(shù)據(jù)被冗余地存放在不同的數(shù)據(jù)庫(kù)中,如果不同數(shù)據(jù)庫(kù)間的數(shù)據(jù)刷新不是實(shí)時(shí)的,則可能出現(xiàn)數(shù)據(jù)不同步的情況。 數(shù)據(jù)倉(cāng)庫(kù)中的關(guān)鍵名詞( 2) 41 對(duì)于決策支持系統(tǒng)來(lái)說(shuō) , 最重要的是決策的準(zhǔn)確性 , 因此確保數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的準(zhǔn)確性是極其重要的 。 從多個(gè)業(yè)務(wù)系統(tǒng)中獲取數(shù)據(jù)時(shí) , 必須對(duì)數(shù)據(jù)進(jìn)行必要的清洗 , 從而得到準(zhǔn)確的數(shù)據(jù) 。 所謂 “ 清洗 ” 就是將錯(cuò)誤的 、 不一致的數(shù)據(jù)在進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)之前予以更正或刪除 , 以免影響決策支持系統(tǒng)決策的正確性 。 ( 4) 數(shù)據(jù)加載 ( Data Load) 數(shù)據(jù)加載部件負(fù)責(zé)將數(shù)據(jù)按照物理數(shù)據(jù)模型定義的表結(jié)構(gòu)裝入數(shù)據(jù)倉(cāng)庫(kù) , 包括清空數(shù)據(jù)域 、 填充空格 、 有效性檢查等步驟 。 現(xiàn)在 ETL工具的功能越來(lái)越強(qiáng) 。 它具有支持?jǐn)?shù)據(jù)的 “ 凈化提煉 ” 功能 、 數(shù)據(jù)加工功能和自動(dòng)運(yùn)行功能 ( 包括處理過(guò)程的監(jiān)控 、調(diào)度和外部批處理作業(yè)的啟動(dòng)等 ) , 支持多種數(shù)據(jù)源 , 能自動(dòng)實(shí)現(xiàn)數(shù)據(jù)抽取 。 所謂數(shù)據(jù)的 “ 凈化提煉 ” 就是對(duì)從多個(gè)不同業(yè)務(wù)數(shù)據(jù)庫(kù)所抽取的數(shù)據(jù) , 進(jìn)行數(shù)據(jù)項(xiàng)名稱的統(tǒng)一 、 位數(shù)的統(tǒng)一 、 編碼的統(tǒng)一和形式的統(tǒng)一 , 消除重復(fù)數(shù)據(jù) 。 數(shù)據(jù)倉(cāng)庫(kù)中的關(guān)鍵名詞( 3) 42 2. 元數(shù)據(jù)( MetaData) “什么是元數(shù)據(jù)?” 元數(shù)據(jù) 是描述數(shù)據(jù)的數(shù)據(jù)。在數(shù)據(jù)倉(cāng)庫(kù)中,元數(shù)據(jù)是定義數(shù)據(jù)倉(cāng)庫(kù)對(duì)象的數(shù)據(jù)。元數(shù)據(jù)包括相應(yīng)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)名和定義、數(shù)據(jù)提取操作時(shí)被提取數(shù)據(jù)的時(shí)間和地點(diǎn)以及數(shù)據(jù)清理或數(shù)據(jù)集成過(guò)程添加的字段等。它提供了有關(guān)數(shù)據(jù)的環(huán)境,用于構(gòu)造、維持、管理、和使用數(shù)據(jù)倉(cāng)庫(kù),在數(shù)據(jù)倉(cāng)庫(kù)中尤為重要。 元數(shù)據(jù)通常包括: 數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)的描述信息 , 包括倉(cāng)庫(kù)模式 、 視圖 、 維 、 層次結(jié)構(gòu)和導(dǎo)出數(shù)據(jù)的定義 , 以及數(shù)據(jù)集市的位置和內(nèi)容 。 操作元數(shù)據(jù) , 包括數(shù)據(jù)血統(tǒng)信息 ( 來(lái)自何處以及如何轉(zhuǎn)換的 ) , 數(shù)據(jù)流通信息 ( 主動(dòng)的 、 檔案的或凈化的 ) 以及監(jiān)視信息(
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1