freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘原理及應(yīng)用第1章-文庫(kù)吧資料

2025-05-17 02:13本頁(yè)面
  

【正文】 特殊目的數(shù)據(jù)倉(cāng)庫(kù)的部分?jǐn)?shù)據(jù) 。比如市場(chǎng)發(fā)展規(guī)律的分析主題主要由市場(chǎng)部門(mén)的人員使用,我們可以在邏輯上或者物理上將這部分?jǐn)?shù)據(jù)分離出來(lái),當(dāng)市場(chǎng)部門(mén)人員需要信息時(shí),不需要到數(shù)據(jù)倉(cāng)庫(kù)的巨量數(shù)據(jù)中檢索,而只需在相應(yīng)的部門(mén)數(shù)據(jù)上進(jìn)行分析,因此從 效率和處理速度的角度出發(fā),這種劃分是合算的。通常,數(shù)據(jù)倉(cāng)庫(kù)將建立專(zhuān)用的元數(shù)據(jù)庫(kù)來(lái)存放和管理元數(shù)據(jù)。例如元數(shù)據(jù)用作目錄,幫助決策支持系統(tǒng)分析者對(duì)數(shù)據(jù)倉(cāng)庫(kù)的內(nèi)容定位;當(dāng)數(shù)據(jù)由操作環(huán)境到數(shù)據(jù)倉(cāng)庫(kù)環(huán)境轉(zhuǎn)換時(shí),作為數(shù)據(jù)映射指南;對(duì)于用在當(dāng)前細(xì)節(jié)數(shù)據(jù)與稍加綜合的數(shù)據(jù)之間以及稍加綜合的數(shù)據(jù) 與高度綜合的數(shù)據(jù)之間的匯總算法,也作為指南。其它類(lèi)型包括當(dāng)前的細(xì)節(jié)數(shù)據(jù)(幾乎總是在磁盤(pán)上),老的細(xì)節(jié)數(shù)據(jù)(通常在三級(jí)存儲(chǔ)器上),稍加綜合的數(shù)據(jù),以及高度綜合的數(shù)據(jù)(可以存入倉(cāng)庫(kù)也可以不存入)。 商務(wù)元數(shù)據(jù) ,包括商務(wù)術(shù)語(yǔ)和定義,數(shù)據(jù)擁有者信息和收費(fèi)策略。 數(shù)據(jù)倉(cāng)庫(kù)中的關(guān)鍵名詞( 4) 43 由操作環(huán)境到數(shù)據(jù)倉(cāng)庫(kù)的映射信息 ,包括源數(shù)據(jù)庫(kù)和它們的內(nèi)容, ETL程序描述,數(shù)據(jù)分割、提取、清理和轉(zhuǎn)換的規(guī)則和缺省,數(shù)據(jù)刷新和裁減的規(guī)則以及數(shù)據(jù)安全信息(用戶(hù)授權(quán)和存取控制)。 操作元數(shù)據(jù) , 包括數(shù)據(jù)血統(tǒng)信息 ( 來(lái)自何處以及如何轉(zhuǎn)換的 ) , 數(shù)據(jù)流通信息 ( 主動(dòng)的 、 檔案的或凈化的 ) 以及監(jiān)視信息( 倉(cāng)庫(kù)使用統(tǒng)計(jì) 、 錯(cuò)誤報(bào)告 、 審計(jì)跟蹤 ) 。它提供了有關(guān)數(shù)據(jù)的環(huán)境,用于構(gòu)造、維持、管理、和使用數(shù)據(jù)倉(cāng)庫(kù),在數(shù)據(jù)倉(cāng)庫(kù)中尤為重要。在數(shù)據(jù)倉(cāng)庫(kù)中,元數(shù)據(jù)是定義數(shù)據(jù)倉(cāng)庫(kù)對(duì)象的數(shù)據(jù)。 所謂數(shù)據(jù)的 “ 凈化提煉 ” 就是對(duì)從多個(gè)不同業(yè)務(wù)數(shù)據(jù)庫(kù)所抽取的數(shù)據(jù) , 進(jìn)行數(shù)據(jù)項(xiàng)名稱(chēng)的統(tǒng)一 、 位數(shù)的統(tǒng)一 、 編碼的統(tǒng)一和形式的統(tǒng)一 , 消除重復(fù)數(shù)據(jù) 。 現(xiàn)在 ETL工具的功能越來(lái)越強(qiáng) 。 所謂 “ 清洗 ” 就是將錯(cuò)誤的 、 不一致的數(shù)據(jù)在進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)之前予以更正或刪除 , 以免影響決策支持系統(tǒng)決策的正確性 。 數(shù)據(jù)倉(cāng)庫(kù)中的關(guān)鍵名詞( 2) 41 對(duì)于決策支持系統(tǒng)來(lái)說(shuō) , 最重要的是決策的準(zhǔn)確性 , 因此確保數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的準(zhǔn)確性是極其重要的 。 ( 3) 數(shù)據(jù)清洗( Data Clean) 由于企業(yè)常常為不同的應(yīng)用對(duì)象建立不同的業(yè)務(wù)數(shù)據(jù)庫(kù),比如一個(gè)電信運(yùn)營(yíng)公司擁有計(jì)費(fèi)數(shù)據(jù)庫(kù)、財(cái)務(wù)數(shù)據(jù)庫(kù)、客服數(shù)據(jù)庫(kù)、客戶(hù)投訴數(shù)據(jù)庫(kù)等業(yè)務(wù)系統(tǒng),這些業(yè)務(wù)系統(tǒng)中可能包含重復(fù)的信息,比如客服數(shù)據(jù)庫(kù)中的部分客戶(hù)基本信息也在客戶(hù)投訴數(shù)據(jù)庫(kù)中存在,由于不同的數(shù)據(jù)庫(kù)可能使用不同數(shù)據(jù)庫(kù)公司的產(chǎn)品,不同的業(yè)務(wù)系統(tǒng)可能由不同的軟件開(kāi)發(fā)商提供,這使得各個(gè)業(yè)務(wù)數(shù)據(jù)庫(kù)中的數(shù)據(jù)可能存在不一致現(xiàn)象。 40 ( 2) 數(shù)據(jù)轉(zhuǎn)換( Data Transform) 由于業(yè)務(wù)系統(tǒng)可能使用不同的數(shù)據(jù)庫(kù)廠商的產(chǎn)品,比如 IBM DB Oracle、 Informix、 Sybase、 NCR Teradata、 SQL Server等,各種數(shù)據(jù)庫(kù)產(chǎn)品提供的數(shù)據(jù)類(lèi)型可能不同,因此,需要將不同格式的數(shù)據(jù)轉(zhuǎn)換成統(tǒng)一的數(shù)據(jù)格式。例如,某超市確定以分析客戶(hù)的購(gòu)買(mǎi)行為為主題建立數(shù)據(jù)倉(cāng)庫(kù),則我們只需將與客戶(hù)購(gòu)買(mǎi)行為相關(guān)的數(shù)據(jù)提取出來(lái),而超市服務(wù)員工的數(shù)據(jù) 就沒(méi)有必要放進(jìn)數(shù)據(jù)倉(cāng)庫(kù)。 ( 1) 數(shù)據(jù)提取( Data Extract) 從數(shù)據(jù)倉(cāng)庫(kù)的角度來(lái)看,并不是業(yè)務(wù)數(shù)據(jù)庫(kù)中的所有數(shù)據(jù)都是決策支持所必需的。 1. ETL( Extract/Transformation/Load) —數(shù)據(jù)抽取 、 轉(zhuǎn)換 、 加載工具 ETL工具就是進(jìn)行數(shù)據(jù)的抽取 、 轉(zhuǎn)換和加載 。 3) 頂層是客戶(hù),它包括查詢(xún)和報(bào)告工具、分析工具和 /或數(shù)據(jù)挖掘工具(例如關(guān)聯(lián)分析、分類(lèi)分析、預(yù)測(cè)等)。 2) 中間層是 OLAP服務(wù)器,其典型的實(shí)現(xiàn)有:( ⅰ )關(guān)系OLAP( ROLAP)模型,即擴(kuò)展的關(guān)系 DBMS,它將多維數(shù)據(jù)上的操作映射為標(biāo)準(zhǔn)的關(guān)系操作;( ⅱ )多維 OLAP( MOALP)模型,一種特殊的服務(wù)器,它直接實(shí)現(xiàn)多維數(shù)據(jù)操作。數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)使用后端工具和實(shí)用程序從操作數(shù)據(jù)庫(kù)和外部信息源加載和刷新它的數(shù)據(jù),這些機(jī)制統(tǒng)稱(chēng) ETL ( Extract/Transformation/Load)工具,它們具有數(shù)據(jù)抽取、數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)加載和數(shù)據(jù)刷新等功能。 37 查詢(xún) / 報(bào)表 頂層:前端工具 中間層: O L A P 服務(wù)器 底層: 數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器 源數(shù)據(jù) 外部數(shù)據(jù) 圖 1 . 8 三層數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu) O L A P 服務(wù)器 O L A P 服務(wù)器 輸出 元數(shù)據(jù)存儲(chǔ) 分析 數(shù)據(jù)挖掘 監(jiān)控 管理 數(shù)據(jù)倉(cāng)庫(kù) 數(shù)據(jù)集市 提取 清理 變換 裝入 刷新 三層數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)( 2) 38 原則上,數(shù)據(jù)倉(cāng)庫(kù)的系統(tǒng)結(jié)構(gòu)被劃分為三層:數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器、 OLAP服務(wù)器和前端工具。 兩個(gè)系統(tǒng)數(shù)據(jù)組織模式示例比較( 3) 35 第一章 目錄 ? 從數(shù)據(jù)庫(kù)到數(shù)據(jù)倉(cāng)庫(kù) ? 什么是數(shù)據(jù)倉(cāng)庫(kù) ? 數(shù)據(jù)倉(cāng)庫(kù)與傳統(tǒng)數(shù)據(jù)庫(kù)的比較 ? 數(shù)據(jù)倉(cāng)庫(kù)的系統(tǒng)結(jié)構(gòu) ? 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織 ? 本章小結(jié) 36 數(shù)據(jù)倉(cāng)庫(kù)的系統(tǒng)結(jié)構(gòu) 三層數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu) ( 1) 數(shù)據(jù)倉(cāng)庫(kù)的系統(tǒng)結(jié)構(gòu)可以用圖 。 以下是某數(shù)據(jù)倉(cāng)庫(kù)支持的一些查詢(xún)示例 : 2021年第三季度,整個(gè)英格蘭的總收入是多少? 2021年英國(guó)每一類(lèi)房產(chǎn)銷(xiāo)售的總收入是多少? 2021年租借房產(chǎn)業(yè)務(wù)中每個(gè)城市哪個(gè)地域最受歡迎?與過(guò)去的兩年相比有何不同? 每個(gè)分支機(jī)構(gòu)本月的房產(chǎn)銷(xiāo)售月收入是多少,并與剛過(guò)去的12個(gè)月相比較。 數(shù)據(jù)倉(cāng)庫(kù)需要回答更復(fù)雜的查詢(xún),而不僅僅是一些像“英國(guó)主要城市的商品平均銷(xiāo)售價(jià)格是多少”之類(lèi)的簡(jiǎn)單聚集數(shù)據(jù)查詢(xún)。 兩個(gè)系統(tǒng)的主要區(qū)別( 3) 31 兩個(gè)系統(tǒng)的查詢(xún)支持不同 OLTP系統(tǒng)是為了快速回答簡(jiǎn)單查詢(xún),而不是為了存儲(chǔ)分析趨勢(shì)的歷史數(shù)據(jù)而創(chuàng)建的。 兩個(gè)系統(tǒng)的主要區(qū)別( 2) 30 兩個(gè)系統(tǒng)的其他區(qū)別包括使用頻率、數(shù)據(jù)訪問(wèn)量、對(duì)響應(yīng)時(shí)間的要求等。 數(shù)據(jù)結(jié)構(gòu) :數(shù)據(jù)庫(kù)系統(tǒng)采用面向應(yīng)用的數(shù)據(jù)庫(kù)設(shè)計(jì) , 以高度結(jié)構(gòu)化和復(fù)雜的形式組織數(shù)據(jù) , 以適應(yīng)復(fù)雜的事務(wù)操作計(jì)算的需求 。 數(shù)據(jù)特性 :數(shù)據(jù)庫(kù)系統(tǒng)存儲(chǔ)的是當(dāng)前數(shù)據(jù) , 數(shù)據(jù)是動(dòng)態(tài)變化的 , 按字段進(jìn)行更新操作 。 29 數(shù)據(jù)目標(biāo) :數(shù)據(jù)庫(kù)系統(tǒng)是面向業(yè)務(wù)操作 , 用于辦事員 、 客戶(hù)和信息技術(shù)專(zhuān)業(yè)人員的事務(wù)和查詢(xún)處理 。 數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)管理大量歷史的 、 存檔的 、 歸納的 、 計(jì)算的數(shù)據(jù) , 提供匯總和聚集機(jī)制 , 并在不同的粒度級(jí)別上存儲(chǔ)和管理信息 。 兩個(gè)系統(tǒng)的主要區(qū)別概括如下: 數(shù)據(jù)內(nèi)容 :數(shù)據(jù)庫(kù)系統(tǒng)管理當(dāng)前數(shù)據(jù) 。 另一方面 , 數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)在數(shù)據(jù)分析和決策支持方面提供服務(wù) 。 這種系統(tǒng)稱(chēng)為聯(lián)機(jī)事務(wù)處理 ( OLTP) 系統(tǒng) 。數(shù)據(jù)批量載入(提?。┑闹芷趯?shí)際上決定了動(dòng)畫(huà)間隔的時(shí)間,數(shù)據(jù)提取的周期短,則動(dòng)畫(huà)的速度快,圖 。 穩(wěn)定性( 1) 25 修改 訪問(wèn) 載入 數(shù)據(jù)庫(kù)系統(tǒng) 數(shù)據(jù)倉(cāng)庫(kù) 數(shù)據(jù)的記錄方式處理 數(shù)據(jù)的批量載入 / 訪問(wèn) 訪問(wèn) 插入 刪除 圖 1. 6 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)穩(wěn)定性示意 穩(wěn)定性( 2) 26 隨時(shí)間而變化 數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)是批量載入的,是穩(wěn)定的,這使得數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)總是擁有時(shí)間維度。沒(méi)有大量歷史數(shù)據(jù)的支持是難以進(jìn)行企業(yè)的決策分析的,因此數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)大多表示過(guò)去某一時(shí)刻的數(shù)據(jù),主要用于查詢(xún)、分析,不像業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)庫(kù)那樣,要經(jīng)常進(jìn)行修改、添加,除非數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是錯(cuò)誤的。 集成 24 業(yè)務(wù)系統(tǒng)一般只需要當(dāng)前數(shù)據(jù),在數(shù)據(jù)庫(kù)中一般也只存儲(chǔ)短期數(shù)據(jù),因此在數(shù)據(jù)庫(kù)系統(tǒng)中數(shù)據(jù)是不穩(wěn)定的,它記錄的是系統(tǒng)中數(shù)據(jù)變化的瞬態(tài)。全面而正確的數(shù)據(jù)是有效地分析和決策的首要前提,相關(guān)數(shù)據(jù)收集得越完整,得到的結(jié)果就越可靠。 3) 源數(shù)據(jù)加載到數(shù)據(jù)倉(cāng)庫(kù)后,還要根據(jù)決策分析的需要對(duì)這些數(shù)據(jù)進(jìn)行概括、聚集處理。在進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)之前必須經(jīng)過(guò)綜合、計(jì)算,同時(shí)拋棄一些分析處理不需要的數(shù)據(jù)項(xiàng),必要時(shí)還要增 加一些可能涉及的外部數(shù)據(jù)。 客戶(hù)基本信息表 客戶(hù)呼叫記錄表 客戶(hù)話費(fèi)表 客戶(hù)咨詢(xún)表 客戶(hù)標(biāo)識(shí) 客戶(hù)姓名 客戶(hù)年齡 客戶(hù)地址 ? 客戶(hù)標(biāo)識(shí) 客戶(hù)呼叫時(shí)間 客戶(hù)呼叫地點(diǎn) 客戶(hù)呼叫號(hào)碼 呼叫時(shí)長(zhǎng) ? 客戶(hù)標(biāo)識(shí) 客戶(hù)本月總話費(fèi) 本月月租費(fèi) 本月通話費(fèi) 本月短信費(fèi) ? 客戶(hù)標(biāo)識(shí) 客戶(hù)咨詢(xún)內(nèi)容 咨詢(xún)答案 ? 圖 1 . 5 屬于相同主題域的數(shù)據(jù)集合使用相同的公共鍵碼連接 面向主題( 4) 23 數(shù)據(jù)倉(cāng)庫(kù)中存儲(chǔ)的數(shù)據(jù)一般從企業(yè)原來(lái)已建立的數(shù)據(jù)庫(kù)系統(tǒng)中提取出來(lái),但并不是原有數(shù)據(jù)的簡(jiǎn)單拷貝,而是經(jīng)過(guò)了 抽取、篩選、清理、綜合等工作。 面向主題( 3) 22 如圖 “客戶(hù)主題”的數(shù)據(jù)存儲(chǔ),屬于“客戶(hù)”主題域的數(shù)據(jù)集合使用相同的公共鍵碼“客戶(hù)標(biāo)識(shí)”來(lái)連接。 ) , 這樣將極大的影響系統(tǒng)
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1