freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘原理及應用第1章-文庫吧

2025-04-19 02:13 本頁面


【正文】 處理和信息分析數(shù)據(jù)環(huán)境的分離 , 劃清了數(shù)據(jù)處理的分析型環(huán)境與事務型環(huán)境之間的界限 , 從而由原來以單一數(shù)據(jù)庫為中心的數(shù)據(jù)環(huán)境發(fā)展為以數(shù)據(jù)庫為中心的事務處理系統(tǒng)和以數(shù)據(jù)倉庫為基礎的分析處理系統(tǒng) 。 企業(yè)的生產(chǎn)環(huán)境 , 也由以數(shù)據(jù)庫為中心的環(huán)境發(fā)展為以數(shù)據(jù)庫和數(shù)據(jù)倉庫為中心的環(huán)境 。 事務處理和分析處理數(shù)據(jù)環(huán)境的分離( 2) 15 事 務 處 理 數(shù) 據(jù) 環(huán) 境 數(shù)據(jù)倉庫 客戶數(shù)據(jù)庫 計費數(shù)據(jù)庫 財務數(shù)據(jù)庫 O L T P O L A P 知 識 事 務 處 理 策 略 事 務 處 理 抽取、轉換和清洗 產(chǎn)生 圖 1 . 3 事務 處理 和 信息 分析 數(shù)據(jù)環(huán)境 的劃分 信 息分 析 數(shù) 據(jù) 環(huán) 境 事務處理和分析處理數(shù)據(jù)環(huán)境的分離( 3) 16 綜上所述,在事務處理環(huán)境中直接構建分析處理應用是不合適的,要提高分析和決策的效率和有效性,分析型處理及其數(shù)據(jù)必須與操作型處理及其數(shù)據(jù)相分離。必須把分析型數(shù)據(jù)從事務處理環(huán)境中提取出來,按照 DSS處理的需要進行重新組織,建立單獨的分析處理環(huán)境,數(shù)據(jù)倉庫正是為了構建這種新的分析處理環(huán)境而出現(xiàn)的一種數(shù)據(jù)存儲和組織技術。 目前,數(shù)據(jù)倉庫技術正成為企業(yè)信息集成和輔助決策應用的關鍵技術之一。當然,數(shù)據(jù)倉庫的主要驅動力并不是過去的缺點和問題,而是市場商業(yè)經(jīng)營行為的改變,市場競爭要求捕獲和分析事務級的業(yè)務數(shù)據(jù)。 事務處理和分析處理數(shù)據(jù)環(huán)境的分離( 4) 17 第一章 目錄 ? 從數(shù)據(jù)庫到數(shù)據(jù)倉庫 ? 什么是數(shù)據(jù)倉庫 ? 數(shù)據(jù)倉庫與傳統(tǒng)數(shù)據(jù)庫的比較 ? 數(shù)據(jù)倉庫的系統(tǒng)結構 ? 數(shù)據(jù)倉庫的數(shù)據(jù)組織 ? 本章小結 18 什么是數(shù)據(jù)倉庫 20世紀 80年代中期,“數(shù)據(jù)倉庫”這個名詞首次出現(xiàn)在號稱“數(shù)據(jù)倉庫之父” 《 Building Data Warehouse》一書中,在該書中, “一個面向主題的、集成的、穩(wěn)定的、隨時間變化的數(shù)據(jù)的集合,以用于 支持管理決策過程。”(“ A data warehouse is a subjectoriented, integrated, nonvolatile, timevariant collection of data in support of management decisions.”) 對于什么是數(shù)據(jù)倉庫,還有許多不同的定義,如: “數(shù)據(jù)倉庫是融合方法、技術和工具以在完整的平臺上將數(shù)據(jù)提交給終端用戶的一種手段”。 “數(shù)據(jù)倉庫是對分布在企業(yè)內(nèi)部各處的業(yè)務數(shù)據(jù)的整合、加工和分析的過程”。 “數(shù)據(jù)倉庫是一種具有集成性、穩(wěn)定性和提供決策支持的處理”。 “為查詢和分析(不是事務處理)而設計的關系數(shù)據(jù)庫” 在眾多的數(shù)據(jù)倉庫定義中,公認的仍然是 ,該定義指出了數(shù)據(jù)倉庫 面向主題、集成、穩(wěn)定、隨時間變化 這 4個最重要的特征。 19 與傳統(tǒng)數(shù)據(jù)庫面向應用進行數(shù)據(jù)組織的特點相對應,數(shù)據(jù)倉庫中的數(shù)據(jù)是面向主題進行組織的。什么是主題呢?首先,從信息管理的角度看, 主題就是在一個較高的管理層次上對信息系統(tǒng)的數(shù)據(jù)按照某一具體的管理對象進行綜合、歸類所形成的分析對象 。從數(shù)據(jù)組織的角度看, 主題是一些數(shù)據(jù)集合,這些數(shù)據(jù)集合對分析對象作了比較完整的、一致的描述,這種描述不僅涉及到數(shù)據(jù)自身,而且涉及到數(shù)據(jù)之間的關系。 面向主題的數(shù)據(jù)組織方式,就是在較高層次上對分析對象的數(shù)據(jù)的一個完整、一致的描述,能完整、統(tǒng)一地刻畫各個分析對象所涉及的企業(yè)的各項數(shù)據(jù),以及數(shù)據(jù)之間的聯(lián)系。所謂較高層次是相對面向應用的數(shù)據(jù)組織方式而言的,是指按照主題進行數(shù)據(jù)組織的方式具有更高的數(shù)據(jù)抽象級別 面向主題( 1) 20 收益數(shù)據(jù) 客戶數(shù)據(jù) 計 費 數(shù) 據(jù) 庫 財 務 數(shù) 據(jù) 庫 客 戶 服 務 數(shù) 據(jù) 庫 傳統(tǒng)數(shù)據(jù)庫系統(tǒng) 面 向 主 題 的 數(shù) 據(jù) 倉 庫 圖 1. 4 數(shù)據(jù)倉庫面向主題的特性 面向主題( 2) 21 例如在圖 , 我們示例了一個電信企業(yè)的情況 。該企業(yè)基于傳統(tǒng)數(shù)據(jù)庫已經(jīng)建立有計費數(shù)據(jù)庫 、 財務數(shù)據(jù)庫 、客戶服務數(shù)據(jù)庫等 。 其中 , 計費數(shù)據(jù)庫記錄了客戶的消費情況 ,財務數(shù)據(jù)庫記錄了客戶的繳費情況 , 客戶服務數(shù)據(jù)庫記錄了客戶的咨詢和投訴情況 , 這些數(shù)據(jù)庫里都有與客戶主題相關的數(shù)據(jù) 。 如果直接基于傳統(tǒng)數(shù)據(jù)庫系統(tǒng)進行 “ 客戶 ” 和 “ 收益 ” 信息的分析 , 則需要訪問多個數(shù)據(jù)庫才能獲得客戶或收益各個側面的信息 ( 收益主題需從計費數(shù)據(jù)庫和財務數(shù)據(jù)庫中了解公司各項業(yè)務的收入情況;客戶主題則要從計費數(shù)據(jù)庫 、 財務數(shù)據(jù)庫 、 客戶服務數(shù)據(jù)庫中獲得客戶消費 、 交費 、 咨詢等全方位的信息 。 ) , 這樣將極大的影響系統(tǒng)處理的時間和效率 , 并且數(shù)據(jù)之間的不一致性和不同步等問題將影響決策的可靠性 。 而以“ 客戶 ” 和 “ 收益 ” 主題組織的數(shù)據(jù)倉庫 , 將某個主題的全部相關數(shù)據(jù)集中于一個地方 , 這樣決策者可以非常方便地在數(shù)據(jù)倉庫中的一個位置檢索包含某個主題的所有數(shù)據(jù) 。 面向主題( 3) 22 如圖 “客戶主題”的數(shù)據(jù)存儲,屬于“客戶”主題域的數(shù)據(jù)集合使用相同的公共鍵碼“客戶標識”來連接。從圖 ,數(shù)據(jù)在數(shù)據(jù)倉庫中還是以數(shù)據(jù)表的形式進行存儲,但是,數(shù)據(jù)的組織方式和建模方法已經(jīng)同數(shù)據(jù)庫系統(tǒng)有了較大的改變。 客戶基本信息表 客戶呼叫記錄表 客戶話費表 客戶咨詢表 客戶標識 客戶姓名 客戶年齡 客戶地址 ? 客戶標識 客戶呼叫時間 客戶呼叫地點 客戶呼叫號碼 呼叫時長 ? 客戶標識 客戶本月總話費 本月月租費 本月通話費 本月短信費 ? 客戶標識 客戶咨詢內(nèi)容 咨詢答案 ? 圖 1 . 5 屬于相同主題域的數(shù)據(jù)集合使用相同的公共鍵碼連接 面向主題( 4) 23 數(shù)據(jù)倉庫中存儲的數(shù)據(jù)一般從企業(yè)原來已建立的數(shù)據(jù)庫系統(tǒng)中提取出來,但并不是原有數(shù)據(jù)的簡單拷貝,而是經(jīng)過了 抽取、篩選、清理、綜合等工作。這是因為: 1) 原有數(shù)據(jù)庫系統(tǒng)記錄的是每一項業(yè)務處理的流水帳,這些數(shù)據(jù)不適合于分析處理。在進入數(shù)據(jù)倉庫之前必須經(jīng)過綜合、計算,同時拋棄一些分析處理不需要的數(shù)據(jù)項,必要時還要增 加一些可能涉及的外部數(shù)據(jù)。 2) 數(shù)據(jù)倉庫每一個主題所對應的源數(shù)據(jù)在源分散數(shù)據(jù)庫中有許多重復或不一致之處,必須將這些數(shù)據(jù)轉換成全局統(tǒng)一的定義,消除不一致和錯誤之處,以保證數(shù)據(jù)的質量;顯然,對不準確,甚至不正確的數(shù)據(jù)分析得出的結果將不能用于指導企 業(yè)做出科學的決策。 3) 源數(shù)據(jù)加載到數(shù)據(jù)倉庫后,還要根據(jù)決策分析的需要對這些數(shù)據(jù)進行概括、聚集處理。 事實上,決策支持系統(tǒng)需要集成的數(shù)據(jù)。全面而正確的數(shù)據(jù)是有效地分析和決策的首要前提,相關數(shù)據(jù)收集得越完整,得到的結果就越可靠。因此,對源數(shù)據(jù)的集成是數(shù)據(jù)倉庫建設中 最關鍵,也是最復雜的一步。 集成 24 業(yè)務系統(tǒng)一般只需要當前數(shù)據(jù),在數(shù)據(jù)庫中一般也只存儲短期數(shù)據(jù),因此在數(shù)據(jù)庫系統(tǒng)中數(shù)據(jù)是不穩(wěn)定的,它記錄的是系統(tǒng)中數(shù)據(jù)變化的瞬態(tài)。 但對于決策分析而言,歷史數(shù)據(jù)是相當重要的,許多分析方法必須以大量的歷史數(shù)據(jù)為依托。沒有大量歷史數(shù)據(jù)的支持是難以進行企業(yè)的決策分析的,因此數(shù)據(jù)倉庫中的數(shù)據(jù)大多表示過去某一時刻的數(shù)據(jù),主要用于查詢、分析,不像業(yè)務系統(tǒng)中的數(shù)據(jù)庫那樣,要經(jīng)常進行修改、添加,除非數(shù)據(jù)倉庫中的數(shù)據(jù)是錯誤的。 圖 ,可以看到數(shù)據(jù)倉庫在數(shù)據(jù)存儲方面是分批進行的,定期執(zhí)行提取過程為數(shù)據(jù)倉庫增加數(shù)據(jù),這些數(shù)據(jù)一旦加入,一般不再從系統(tǒng)中刪除。 穩(wěn)定性( 1) 25 修改 訪問 載入 數(shù)據(jù)庫系統(tǒng) 數(shù)據(jù)倉庫 數(shù)據(jù)的記錄方式處理 數(shù)據(jù)的批量載入 / 訪問 訪問 插入 刪除 圖 1. 6 數(shù)據(jù)倉庫的數(shù)據(jù)穩(wěn)定性示意 穩(wěn)定性( 2) 26 隨時間而變化 數(shù)據(jù)倉庫中數(shù)據(jù)是批量載入的,是穩(wěn)定的,這使得數(shù)據(jù)倉庫中的數(shù)據(jù)總是擁有時間維度。從這個角度,數(shù)據(jù)倉庫實際是記錄了系統(tǒng)的各個瞬態(tài),并通過將各個瞬態(tài)連接起來形成動畫,從而在數(shù)據(jù)分析的時候再現(xiàn)系統(tǒng)運動的全過程。數(shù)據(jù)批量載入(提?。┑闹芷趯嶋H上決定了動畫間隔的時間,數(shù)據(jù)提取的周期短,則動畫的速度快,圖 。 t n t 3 t 2 t 1 業(yè)務系統(tǒng)的運營 數(shù)據(jù)倉庫的快照集合 圖 1. 7 數(shù)據(jù)倉庫數(shù)據(jù)隨時間變化的特點 27 第一章 目錄 ? 從數(shù)據(jù)庫到數(shù)據(jù)倉庫 ? 什么是數(shù)據(jù)倉庫 ? 數(shù)據(jù)倉庫與傳統(tǒng)數(shù)據(jù)庫的比較 ? 數(shù)據(jù)倉庫的系統(tǒng)結構 ? 數(shù)據(jù)倉庫的數(shù)據(jù)組織 ? 本章小結 28 數(shù)據(jù)倉庫與傳統(tǒng)數(shù)據(jù)庫的比較 兩個系統(tǒng)的主要區(qū)別( 1) 傳統(tǒng)數(shù)據(jù)庫系統(tǒng)的主要任務是執(zhí)行聯(lián)機事務和查詢處理 。 這種系統(tǒng)稱為聯(lián)機事務處理 ( OLTP) 系統(tǒng) 。 它們涵蓋了一個組織的大部分日常操作 , 如購買 、 庫存 、 制造 、 銀行 、 工資 、 注冊 、記帳等 。 另一方面 , 數(shù)據(jù)倉庫系統(tǒng)在數(shù)據(jù)分析和決策支持方面提供服務 。 這種系統(tǒng)稱為聯(lián)機分析處理 ( OLAP) 系統(tǒng)
點擊復制文檔內(nèi)容
環(huán)評公示相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1