freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘原理及應(yīng)用v(已修改)

2025-05-30 08:48 本頁面
 

【正文】 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘 原理及應(yīng)用 東華理工大學(xué) 理學(xué)院 劉愛華 目錄 1. 數(shù)據(jù)倉庫基礎(chǔ) 7. 分類和預(yù)測(cè) 2. 數(shù)據(jù)倉庫設(shè)計(jì)和實(shí)現(xiàn) 8. 關(guān)聯(lián)分析 3. 數(shù)據(jù)倉庫實(shí)例 9. Web挖掘 4. OLAP和 OLAM 10. 數(shù)據(jù)挖掘?qū)嵗? 5 . 數(shù)據(jù)挖掘基礎(chǔ) 11. 知識(shí) 6. 聚類分析 12. 語義網(wǎng)和本體 1 數(shù)據(jù)倉庫基礎(chǔ) 引言 體系結(jié)構(gòu) 組成 元數(shù)據(jù) 數(shù)據(jù)粒度 數(shù)據(jù)模型 ETL 引言 ? 數(shù)據(jù)倉庫定義 數(shù)據(jù)倉庫是在企業(yè)管理和決策中面向主題的、集成的、與時(shí)間相關(guān)的、不可修改的數(shù)據(jù)集合。 此定義由最為權(quán)威的、被稱為 “ 數(shù)據(jù)倉庫之父 ” 的 William H. Inmon 先生給出。 ?面向主題的 是相對(duì)于傳統(tǒng)數(shù)據(jù)庫的面向應(yīng)用而言的。所謂面向應(yīng)用,指的是系統(tǒng)實(shí)現(xiàn)過程中主要圍繞著一些應(yīng)用或功能。而面向主題則考慮一個(gè)個(gè)的問題域,對(duì)問題域涉及到的數(shù)據(jù)和分析數(shù)據(jù)所采用的功能給予同樣的重視。 ?典型的主題領(lǐng)域 顧客、產(chǎn)品、事務(wù)或活動(dòng)、保險(xiǎn)單、索賠和賬目。 引言 ?集成的 數(shù)據(jù)倉庫中的數(shù)據(jù)來自各個(gè)不同的數(shù)據(jù)源(操作數(shù)據(jù)庫)。由于歷史的原因,各操作數(shù)據(jù)庫的組織結(jié)構(gòu)往往是不同的,在這些異構(gòu)數(shù)據(jù)輸入到數(shù)據(jù)倉庫之前,必須經(jīng)歷一個(gè)集成過程。 引言 ?集成的 最重要的特點(diǎn) 。 應(yīng)用問題的設(shè)計(jì)人員制定出不同的設(shè)計(jì)決策 , 且表示方法不同 。 例如編碼 、命名習(xí)慣 、 實(shí)際屬性和屬性度量等方面不一致 。 數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫時(shí) , 需要消除各種不一致性 。 例如 , 數(shù)據(jù)倉庫中顧客 “ 性別 ” 的編碼 , 可采用 “ 男 /女 ” 或 “ m/f”, 采用哪種方式并不重要 ,重要的是在數(shù)據(jù)倉庫中應(yīng)該統(tǒng)一編碼 。 如果應(yīng)用數(shù)據(jù)編碼為 “ X/Y”, 則進(jìn)入數(shù)據(jù)倉庫時(shí)需要進(jìn)行轉(zhuǎn)換 。 此外 , 對(duì)所有應(yīng)用所涉及的問題都要考慮一致性 。 例如命名習(xí)慣 、 鍵碼結(jié)構(gòu) 、 屬性度量以及數(shù)據(jù)特點(diǎn)等 。 引言 ?與時(shí)間相關(guān)的 數(shù)據(jù)倉庫以維的形式對(duì)數(shù)據(jù)進(jìn)行組織,時(shí)間維是數(shù)據(jù)倉庫中很重要的一個(gè)維度。并且數(shù)據(jù)倉庫中的數(shù)據(jù)時(shí)間跨度大,從幾年甚至到幾十年,稱為歷史數(shù)據(jù)。 引言 ? 不可修改的 面向應(yīng)用的事務(wù)數(shù)據(jù)庫需要對(duì)數(shù)據(jù)進(jìn)行頻繁的插入、更新操作,而對(duì)于數(shù)據(jù)倉庫中數(shù)據(jù)的操作僅限于數(shù)據(jù)的初始導(dǎo)入和記錄查詢。 操作型數(shù)據(jù)是一次訪問和處理一個(gè)記錄,可以對(duì)操作型數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行更新。但數(shù)據(jù)倉庫中的數(shù)據(jù)則不同,通常是一起載入與訪問的,在數(shù)據(jù)倉庫環(huán)境中并不進(jìn)行一般意義上的數(shù)據(jù)更新。 引言 體系結(jié)構(gòu) ? 二層體系結(jié)構(gòu) 數(shù)據(jù)挖掘 / 數(shù)據(jù)展現(xiàn)系統(tǒng)數(shù)據(jù)集市數(shù)據(jù)集市數(shù)據(jù)集市數(shù)據(jù)集市數(shù)據(jù)倉庫存儲(chǔ)數(shù)據(jù) 元數(shù)據(jù)數(shù)據(jù)暫存區(qū)抽取 / 轉(zhuǎn)換 / 清潔業(yè)務(wù)系統(tǒng)數(shù)據(jù) 外部數(shù)據(jù) 體系結(jié)構(gòu) ? 三層體系結(jié)構(gòu) 數(shù)據(jù)挖掘 / 數(shù)據(jù)展現(xiàn)系統(tǒng)數(shù)據(jù)集市數(shù)據(jù)集市數(shù)據(jù)集市數(shù)據(jù)集市數(shù)據(jù)倉庫存儲(chǔ)數(shù)據(jù) 元數(shù)據(jù)數(shù)據(jù)暫存區(qū)抽取 / 轉(zhuǎn)換 / 清潔業(yè)務(wù)系統(tǒng)數(shù)據(jù) 外部數(shù)據(jù)ODS 數(shù)據(jù)倉庫組成 ? 一個(gè)數(shù)據(jù)倉庫的大小一般都是在 100GB以上 ? 通常 , 數(shù)據(jù)倉庫系統(tǒng)應(yīng)該包含下列程序: ( 1) 抽取數(shù)據(jù)與加載數(shù)據(jù) ( 2) 整理并轉(zhuǎn)換數(shù)據(jù) ( 采用一種數(shù)據(jù)倉庫適用的數(shù)據(jù)格式 ) ( 3) 備份與備存數(shù)據(jù) ( 4) 管理所有查詢 ( 即將查詢導(dǎo)向適當(dāng)?shù)臄?shù)據(jù)源 ) 數(shù) 據(jù) 查 詢C L A P 工 具C L A P 工 具經(jīng) 營 數(shù) 據(jù)外 部 數(shù) 據(jù)詳 細(xì) 信 息集 合 信 息元 數(shù) 據(jù)倉 庫 管 理 器加 載管 理器查 詢管 理器信 息數(shù) 據(jù)決 策 數(shù)據(jù)倉庫組成 元數(shù)據(jù) ? 定義 元數(shù)據(jù)( Metadata)是關(guān)于數(shù)據(jù)的數(shù)據(jù)。 在數(shù)據(jù)倉庫系統(tǒng)中,元數(shù)據(jù)可以幫助數(shù)據(jù)倉庫管理員和數(shù)據(jù)倉庫開發(fā)人員非常方便地找到他們所需的數(shù)據(jù);元數(shù)據(jù)是描述數(shù)據(jù)倉庫中數(shù)據(jù)結(jié)構(gòu)和構(gòu)建方法的數(shù)據(jù)。 元數(shù)據(jù) ? 分類 按照用途的不同分為技術(shù)元數(shù)據(jù)( Technical Metadata)和業(yè)務(wù)元數(shù)據(jù)( Business Metadata)兩大類。 -技術(shù)元數(shù)據(jù)存儲(chǔ)關(guān)于數(shù)據(jù)倉庫系統(tǒng)技術(shù)細(xì)節(jié)的數(shù)據(jù),是用于開發(fā)和管理數(shù)據(jù)倉庫使用的數(shù)據(jù),它保證了數(shù)據(jù)倉庫系統(tǒng)的正常運(yùn)行; -業(yè)務(wù)元數(shù)據(jù)從業(yè)務(wù)角度描述數(shù)據(jù)倉庫中的數(shù)據(jù),它提供介于使用者和實(shí)際系統(tǒng)之間的語義層,使得數(shù)據(jù)倉庫使用人員能夠“讀懂”數(shù)據(jù)倉庫中的數(shù)據(jù)。 數(shù)據(jù)粒度 ? 定義 粒度是指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)的細(xì)化或綜合程度的級(jí)別。細(xì)化程度越高,粒度級(jí)就越?。幌喾?,細(xì)化程度越低,粒度級(jí)就越大。 粒度深深地影響存放在數(shù)據(jù)倉庫中數(shù)據(jù)量的大小,同時(shí)影響數(shù)據(jù)倉庫所能回答的查詢類型。 在數(shù)據(jù)倉庫中的數(shù)據(jù)粒度與查詢的詳細(xì)程度之間要做出權(quán)衡。 數(shù)據(jù)粒度 當(dāng)提高粒度級(jí)別時(shí),數(shù)據(jù)所能回答查詢的能力會(huì)隨之降低。換言之,在一個(gè)很低的粒度級(jí)別上,幾乎可以回答任何問題,但在高粒度級(jí)別上,數(shù)據(jù)所能處理的問題的數(shù)量是有限的。 數(shù)據(jù)模型 數(shù)據(jù)模型是對(duì)現(xiàn)實(shí)世界的一種抽象,根據(jù)抽象程度的不同,可形成不同抽象層次上的數(shù)據(jù)模型。與數(shù)據(jù)庫的數(shù)據(jù)模型相類似,數(shù)據(jù)倉庫的數(shù)據(jù)模型也分為三個(gè)層次: ? 概念模型 ? 邏輯模型 ? 物理模型 ? 數(shù)據(jù)倉庫的數(shù)據(jù)模型 星型結(jié)構(gòu) 雪花型結(jié)構(gòu) 星型雪花型結(jié)構(gòu) ? 數(shù)據(jù)倉庫的數(shù)據(jù)=事實(shí)數(shù)據(jù)+維度數(shù)據(jù) 不論是星型、雪花型或者是星型雪花型結(jié)構(gòu)都是以事實(shí)表為中心。不同點(diǎn)只是在外圍維度表相互之間的關(guān)系不同而已。 數(shù)據(jù)模型 將原來業(yè)務(wù)系統(tǒng)的數(shù)據(jù)經(jīng)過抽取、轉(zhuǎn)換、加載到數(shù)據(jù)倉庫所在的中心存儲(chǔ)庫的過程稱為 ETL (Extraction, Transformation and Loading)過程,制定這個(gè)過程的策略稱之為 ETL策略,而完成 ETL過程的工具則是 ETL工具。相對(duì)于數(shù)據(jù)倉庫中的表而言,業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫中的表稱為源表,業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫稱為源數(shù)據(jù)庫,數(shù)據(jù)倉庫中所有的數(shù)據(jù)都來自于業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫。在打造一個(gè)數(shù)據(jù)倉庫的過程中,ETL的實(shí)施是一項(xiàng)繁瑣、冗長(zhǎng)而艱巨的任務(wù),因?yàn)樗P(guān)系到數(shù)據(jù)倉庫中數(shù)據(jù)的質(zhì)量問題,如果導(dǎo)入的數(shù)據(jù)漏洞百出,對(duì)決策者來說無疑是個(gè)噩耗。 ETL過程是搭建“數(shù)據(jù)倉庫”時(shí) 最重要的 和 最易誤解的 步驟之一。 ETL ETL過程不僅僅是數(shù)據(jù)的 遷移(Migration)或 凈化 (Cleansing),也應(yīng)該是 企業(yè)數(shù)據(jù)管理策略 中不可缺少的一部分。 ETL過程的功能是: 發(fā)現(xiàn) 數(shù)據(jù)倉庫需要的數(shù)據(jù),將其從源系統(tǒng)中 抽取 出來,并進(jìn)行一定的 處理 ,然后 裝載 到數(shù)據(jù)倉庫中去。 ETL ? 提高數(shù)據(jù)質(zhì)量 ? 提供一種統(tǒng)一的、跨平臺(tái)的存取數(shù)據(jù)方法 ? 將數(shù)據(jù)“信息化”,為企業(yè)決策者的經(jīng)營分析提供信息來源 ETL 2 數(shù)據(jù)倉庫設(shè)計(jì)和實(shí)現(xiàn) 數(shù)據(jù)倉庫設(shè)計(jì) ETL設(shè)計(jì) 數(shù)據(jù)倉庫實(shí)現(xiàn) ( 1)確定數(shù)據(jù)倉庫的主題 根據(jù)電信業(yè)務(wù)和電信運(yùn)營的需求,電信公司涉及的最主要的 三 個(gè)主題是: ? 客戶發(fā)展 ? 收益分析 ? 呼叫特性分析 數(shù)據(jù)倉庫設(shè)計(jì) ( 2)數(shù)據(jù)倉庫模型的設(shè)計(jì) —— 可用的數(shù)據(jù) 例如,要完成客戶發(fā)展、收益分析、呼叫特性分析三個(gè)主題,下列三部分信息是必要的,即: ? 客戶的基本信息表 ? 客戶的賬單信息表 ? 客戶的呼叫信息表 數(shù)據(jù)倉庫設(shè)計(jì) ( 2)數(shù)據(jù)倉庫模型的設(shè)計(jì) —— 粒度的確定 在數(shù)據(jù)倉庫設(shè)計(jì)中,最重要的步驟是確定數(shù)據(jù)的粒度。 ? 單一粒度 對(duì)于客戶基本信息表,由于它屬于增長(zhǎng)較為緩慢的信息(隨著客戶數(shù)量的增長(zhǎng),客戶業(yè)務(wù)信息的變更表會(huì)增長(zhǎng)
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫吧 www.dybbs8.com
公安備案圖鄂ICP備17016276號(hào)-1