freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘原理及應(yīng)用第1章-在線瀏覽

2025-07-12 02:13本頁面
  

【正文】 型數(shù)據(jù)庫可能使用 SQL Server。 如果一個大型企業(yè)的決策領(lǐng)導(dǎo)需要一份關(guān)于公司整體運營情況的報表 , 通常需要動用大量的人力和物力才能達(dá)到 。 蜘蛛網(wǎng)問題( 7) 11 由于數(shù)據(jù)分散在各個數(shù)據(jù)庫中,因此需要編寫的程序很多??梢?,面對企業(yè)中存在的蜘蛛網(wǎng)現(xiàn)象,為產(chǎn)生一份關(guān)于公司整體運營情況的報表,將動用大量的人力、物力和時間才能完成。換句話說,如果生成第一份企業(yè)報表需要大量資源,生成所有后繼報表可以建立在第一份企業(yè)報表基礎(chǔ)之上,那么不妨為生成第一份報表付出一些代價。 除非事先知道未來的企業(yè)報表需求,并且除非這些需求影響到第一張報表的建造,每個新的企業(yè)報表總是要花費同前面差不多的代價。 蜘蛛網(wǎng)問題( 8) 12 3. 難以將數(shù)據(jù)轉(zhuǎn)化成信息 除了數(shù)據(jù)處理效率和數(shù)據(jù)可信度的問題之外,“蜘蛛網(wǎng)”式的結(jié)構(gòu)還難以將數(shù)據(jù)轉(zhuǎn)化成信息。因此要想比較完整地回答這個問題,實際上需要將客戶多方面的數(shù)據(jù)綜合成信息。 另外 , 每個數(shù)據(jù)庫由于其數(shù)據(jù)量和業(yè)務(wù)處理的需求不同 , 對歷史數(shù)據(jù)的存儲時間也不同 , 因此在蜘蛛網(wǎng)環(huán)境中的系統(tǒng)難以提供完整的歷史數(shù)據(jù) 。 蜘蛛網(wǎng)問題( 9) 13 數(shù)據(jù)庫系統(tǒng)作為數(shù)據(jù)管理手段 , 主要用于事務(wù)處理 。 傳統(tǒng)的 DSS( Decision Support System, 決策支持系統(tǒng) ) 一般是直接建立在這種事務(wù)處理環(huán)境上的 。 盡管數(shù)據(jù)庫在事務(wù)處理方面的應(yīng)用獲得了巨大的成功 , 但它對分析處理的支持一直不能令人滿意 , 這也正是產(chǎn)生 “ 蜘蛛網(wǎng) ” 問題的原因之所在 。 這樣,數(shù)據(jù)處理被分為事務(wù)型處理和分析型處理兩大類。比如電信部門的計費數(shù)據(jù)庫用于記錄客戶的通信消費情況,銀行的數(shù)據(jù)庫用于記錄客戶的帳號、密碼、存入和支出等一系列業(yè)務(wù)行為。 比如 , 通過對超市近期數(shù)據(jù)進(jìn)行分析可以發(fā)現(xiàn)近期暢銷的產(chǎn)品 , 從而為公司的采購部門提供指導(dǎo)信息 。 決策分析數(shù)據(jù)環(huán)境包含的信息往往是企業(yè)的宏觀信息而非具體的細(xì)節(jié) , 其目的是為企業(yè)的決策者提供信息支持 , 并最終指導(dǎo)企業(yè)的商務(wù)活動 。 事務(wù)處理和信息分析數(shù)據(jù)環(huán)境的分離 , 劃清了數(shù)據(jù)處理的分析型環(huán)境與事務(wù)型環(huán)境之間的界限 , 從而由原來以單一數(shù)據(jù)庫為中心的數(shù)據(jù)環(huán)境發(fā)展為以數(shù)據(jù)庫為中心的事務(wù)處理系統(tǒng)和以數(shù)據(jù)倉庫為基礎(chǔ)的分析處理系統(tǒng) 。 事務(wù)處理和分析處理數(shù)據(jù)環(huán)境的分離( 2) 15 事 務(wù) 處 理 數(shù) 據(jù) 環(huán) 境 數(shù)據(jù)倉庫 客戶數(shù)據(jù)庫 計費數(shù)據(jù)庫 財務(wù)數(shù)據(jù)庫 O L T P O L A P 知 識 事 務(wù) 處 理 策 略 事 務(wù) 處 理 抽取、轉(zhuǎn)換和清洗 產(chǎn)生 圖 1 . 3 事務(wù) 處理 和 信息 分析 數(shù)據(jù)環(huán)境 的劃分 信 息分 析 數(shù) 據(jù) 環(huán) 境 事務(wù)處理和分析處理數(shù)據(jù)環(huán)境的分離( 3) 16 綜上所述,在事務(wù)處理環(huán)境中直接構(gòu)建分析處理應(yīng)用是不合適的,要提高分析和決策的效率和有效性,分析型處理及其數(shù)據(jù)必須與操作型處理及其數(shù)據(jù)相分離。 目前,數(shù)據(jù)倉庫技術(shù)正成為企業(yè)信息集成和輔助決策應(yīng)用的關(guān)鍵技術(shù)之一。 事務(wù)處理和分析處理數(shù)據(jù)環(huán)境的分離( 4) 17 第一章 目錄 ? 從數(shù)據(jù)庫到數(shù)據(jù)倉庫 ? 什么是數(shù)據(jù)倉庫 ? 數(shù)據(jù)倉庫與傳統(tǒng)數(shù)據(jù)庫的比較 ? 數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu) ? 數(shù)據(jù)倉庫的數(shù)據(jù)組織 ? 本章小結(jié) 18 什么是數(shù)據(jù)倉庫 20世紀(jì) 80年代中期,“數(shù)據(jù)倉庫”這個名詞首次出現(xiàn)在號稱“數(shù)據(jù)倉庫之父” 《 Building Data Warehouse》一書中,在該書中, “一個面向主題的、集成的、穩(wěn)定的、隨時間變化的數(shù)據(jù)的集合,以用于 支持管理決策過程。 “數(shù)據(jù)倉庫是對分布在企業(yè)內(nèi)部各處的業(yè)務(wù)數(shù)據(jù)的整合、加工和分析的過程”。 “為查詢和分析(不是事務(wù)處理)而設(shè)計的關(guān)系數(shù)據(jù)庫” 在眾多的數(shù)據(jù)倉庫定義中,公認(rèn)的仍然是 ,該定義指出了數(shù)據(jù)倉庫 面向主題、集成、穩(wěn)定、隨時間變化 這 4個最重要的特征。什么是主題呢?首先,從信息管理的角度看, 主題就是在一個較高的管理層次上對信息系統(tǒng)的數(shù)據(jù)按照某一具體的管理對象進(jìn)行綜合、歸類所形成的分析對象 。 面向主題的數(shù)據(jù)組織方式,就是在較高層次上對分析對象的數(shù)據(jù)的一個完整、一致的描述,能完整、統(tǒng)一地刻畫各個分析對象所涉及的企業(yè)的各項數(shù)據(jù),以及數(shù)據(jù)之間的聯(lián)系。該企業(yè)基于傳統(tǒng)數(shù)據(jù)庫已經(jīng)建立有計費數(shù)據(jù)庫 、 財務(wù)數(shù)據(jù)庫 、客戶服務(wù)數(shù)據(jù)庫等 。 如果直接基于傳統(tǒng)數(shù)據(jù)庫系統(tǒng)進(jìn)行 “ 客戶 ” 和 “ 收益 ” 信息的分析 , 則需要訪問多個數(shù)據(jù)庫才能獲得客戶或收益各個側(cè)面的信息 ( 收益主題需從計費數(shù)據(jù)庫和財務(wù)數(shù)據(jù)庫中了解公司各項業(yè)務(wù)的收入情況;客戶主題則要從計費數(shù)據(jù)庫 、 財務(wù)數(shù)據(jù)庫 、 客戶服務(wù)數(shù)據(jù)庫中獲得客戶消費 、 交費 、 咨詢等全方位的信息 。 而以“ 客戶 ” 和 “ 收益 ” 主題組織的數(shù)據(jù)倉庫 , 將某個主題的全部相關(guān)數(shù)據(jù)集中于一個地方 , 這樣決策者可以非常方便地在數(shù)據(jù)倉庫中的一個位置檢索包含某個主題的所有數(shù)據(jù) 。從圖 ,數(shù)據(jù)在數(shù)據(jù)倉庫中還是以數(shù)據(jù)表的形式進(jìn)行存儲,但是,數(shù)據(jù)的組織方式和建模方法已經(jīng)同數(shù)據(jù)庫系統(tǒng)有了較大的改變。這是因為: 1) 原有數(shù)據(jù)庫系統(tǒng)記錄的是每一項業(yè)務(wù)處理的流水帳,這些數(shù)據(jù)不適合于分析處理。 2) 數(shù)據(jù)倉庫每一個主題所對應(yīng)的源數(shù)據(jù)在源分散數(shù)據(jù)庫中有許多重復(fù)或不一致之處,必須將這些數(shù)據(jù)轉(zhuǎn)換成全局統(tǒng)一的定義,消除不一致和錯誤之處,以保證數(shù)據(jù)的質(zhì)量;顯然,對不準(zhǔn)確,甚至不正確的數(shù)據(jù)分析得出的結(jié)果將不能用于指導(dǎo)企 業(yè)做出科學(xué)的決策。 事實上,決策支持系統(tǒng)需要集成的數(shù)據(jù)。因此,對源數(shù)據(jù)的集成是數(shù)據(jù)倉庫建設(shè)中 最關(guān)鍵,也是最復(fù)雜的一步。 但對于決策分析而言,歷史數(shù)據(jù)是相當(dāng)重要的,許多分析方法必須以大量的歷史數(shù)據(jù)為依托。 圖 ,可以看到數(shù)據(jù)倉庫在數(shù)據(jù)存儲方面是分批進(jìn)行的,定期執(zhí)行提取過程為數(shù)據(jù)倉庫增加數(shù)據(jù),這些數(shù)據(jù)一旦加入,一般不再從系統(tǒng)中刪除。從這個角度,數(shù)據(jù)倉庫實際是記錄了系統(tǒng)的各個瞬態(tài),并通過將各個瞬態(tài)連接起來形成動畫,從而在數(shù)據(jù)分析的時候再現(xiàn)系統(tǒng)運動的全過程。 t n t 3 t 2 t 1 業(yè)務(wù)系統(tǒng)的運營 數(shù)據(jù)倉庫的快照集合 圖 1. 7 數(shù)據(jù)倉庫數(shù)據(jù)隨時間變化的特點 27 第一章 目錄 ? 從數(shù)據(jù)庫到數(shù)據(jù)倉庫 ? 什么是數(shù)據(jù)倉庫 ? 數(shù)據(jù)倉庫與傳統(tǒng)數(shù)據(jù)庫的比較 ? 數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu) ? 數(shù)據(jù)倉庫的數(shù)據(jù)組織 ? 本章小結(jié) 28 數(shù)據(jù)倉庫與傳統(tǒng)數(shù)據(jù)庫的比較 兩個系統(tǒng)的主要區(qū)別( 1) 傳統(tǒng)數(shù)據(jù)庫系統(tǒng)的主要任務(wù)是執(zhí)行聯(lián)機事務(wù)和查詢處理 。 它們涵蓋了一個組織的大部分日常操作 , 如購買 、 庫存 、 制造 、 銀行 、 工資 、 注冊 、記帳等 。 這種系統(tǒng)稱為聯(lián)機分析處理 ( OLAP) 系統(tǒng) 。 通常 , 這種數(shù)據(jù)太瑣碎 , 難以用于決策 。 這種特點使得系統(tǒng)容易用于 “ 見多識廣 ” 的決策 。 數(shù)據(jù)倉庫是面向主題的 , 用于知識工人 ( 包括經(jīng)理 、 主管和分析人員 ) 的決策分析 。 數(shù)據(jù)倉庫中數(shù)據(jù)是批量載入的 、靜態(tài)的 , 系統(tǒng)定期執(zhí)行提取過程為數(shù)據(jù)倉庫增加數(shù)據(jù) , 這些數(shù)據(jù)一旦加入 , 一般不再從系統(tǒng)中刪除 。 數(shù)據(jù)倉庫通常采用面向主題的星型或雪花數(shù)據(jù)組織模式 ( 在 ) , 以適應(yīng)分析決策 , 數(shù)據(jù)結(jié)構(gòu)簡單 。這些都概括在表 。一般的, OLTP提供了大量的原始數(shù)據(jù),這些數(shù)據(jù)不易被分析。數(shù)據(jù)倉庫需要回答的查詢類型可以是簡單的查詢,也可以 是高度復(fù)雜的,且還與終端用戶使用的查詢工具相關(guān)。 如果對于 10萬英鎊以上的房產(chǎn),法定價格上升 %而政府稅收下降 %,對英國不同區(qū)域的銷售會產(chǎn)生什么影響? 在英國主要城市中,哪種類型的房產(chǎn)銷售價格高于平均房產(chǎn)銷售價格?這與人口統(tǒng)計數(shù)據(jù)有何聯(lián)系? 32 兩個系統(tǒng)數(shù)據(jù)組織模式示例比較 ( 1) 33 兩個系統(tǒng)數(shù)據(jù)組織模式示例比較( 2) 34 從上述實例,不難看出: 1)在從面向應(yīng)用到面向主題的轉(zhuǎn)變過程中,丟棄了原來有的但不必要的、不適于分析的信息; 2)在原有的數(shù)據(jù)庫模式中,有關(guān)商品的信息分散在各個子系統(tǒng)之中;面向主題的數(shù)據(jù)組織方式所強調(diào)的就是要形成關(guān)于主題一致的信息集合; 3)不同主題之間有重疊內(nèi)容。由于數(shù)據(jù)庫和數(shù)據(jù)倉庫應(yīng)用的出發(fā)點不同 ,數(shù)據(jù)倉庫將獨立于業(yè)務(wù)數(shù)據(jù)庫系統(tǒng) , 但是數(shù)據(jù)倉庫又同業(yè)務(wù)數(shù)據(jù)庫系統(tǒng)息息相關(guān) 。 1) 底層是數(shù)據(jù)倉庫服務(wù)器,它幾乎總是一個關(guān)系數(shù)據(jù)庫系統(tǒng)。此外,這一層還包含一個元數(shù)據(jù)存儲,它是關(guān)于數(shù)據(jù)倉庫和數(shù)據(jù)倉庫中數(shù)據(jù)的信息,關(guān)于元數(shù)據(jù)的進(jìn)一步描述在 。 OLAP服務(wù)器將在 。 三層數(shù)據(jù)倉庫結(jié)構(gòu)( 3) 39 數(shù)據(jù)倉庫中的關(guān)鍵名詞( 1) 下面詳細(xì)討論數(shù)據(jù)倉庫中的一些關(guān)鍵名詞 。 具體來講 ,ETL工具包括:數(shù)據(jù)提取 ( data extract) 、 數(shù)據(jù)轉(zhuǎn)換 ( data transform) 、 數(shù)據(jù)清洗 ( data cleaning) 和數(shù)據(jù)加載 ( data loading) 。通常,數(shù)據(jù)倉庫按照分析的主題來組織數(shù)據(jù),我們只需提取出系統(tǒng)分析必需的那一部分?jǐn)?shù)據(jù)。 現(xiàn)有的數(shù)據(jù)倉庫產(chǎn)品幾乎都提供各種關(guān)系型數(shù)據(jù)接口,提供提取引擎,從關(guān)系型數(shù)據(jù)中提取數(shù)據(jù)。如時間格式“年 /
點擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1