freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘-wenkub

2023-03-28 12:41:51 本頁面
 

【正文】 不同粒度的數(shù)據(jù)分析 ? 很多數(shù)據(jù)挖掘功能都可以和 OLAP操作集成,以提供不同概念層上的知識發(fā)現(xiàn) – 分類 – 預(yù)測 – 關(guān)聯(lián) – 聚集 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 24/101 2023/3/28 數(shù)據(jù)倉庫的定義與基本特性 ? 1. 數(shù)據(jù)倉庫的定義 William 1993年所寫的論著《 Building the DataWarehouse》 首先系統(tǒng)地闡述了關(guān)于數(shù)據(jù)倉庫的思想、理論,為數(shù)據(jù)倉庫的發(fā)展奠定了歷史基石。 例如:對股票市場交易數(shù)據(jù)進(jìn)行時序演變分析,則可能得到這樣的規(guī)則:ATT股票連續(xù)上漲兩天且 DEC股票不下跌,那么第三天 IBM股票上漲的可能性為 75%。 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 13/101 2023/3/28 分類和預(yù)測 例: 通過訓(xùn)練數(shù)據(jù)獲得了如下規(guī)則: IF 年齡 =“31..40” AND 收入 =“較高 ” THEN 信用程度 =“優(yōu)秀 ” 規(guī)則的含義:年齡在 31到 40之間,收入較高的情況下,這類顧客 群的信用程度被認(rèn)為是 “ 優(yōu)秀 ” – IF age = “=30” AND student = “no” THEN buys_puter = “no” – IF age = “=30” AND student = “yes” THEN buys_puter = “yes” – IF age = “31… 40” THEN buys_puter = “yes” – IF age = “40” AND credit_rating = “excellent” THEN buys_puter = “yes” – IF age = “40” AND credit_rating = “fair” THEN buys_puter = “no” 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 14/101 2023/3/28 聚類分析 ? 聚類分析: – 將物理或抽象對象的集合分組成為由類似的對象組成的多個類的過程。 ? 例: %]70%,20[sup) ,( )48...42 ,( )39...30 ,( ????con fiden cepo rtpu terXbu yskkXinco meXage華中農(nóng)業(yè)大學(xué) 信息學(xué)院 12/101 2023/3/28 分類和預(yù)測 分類在商業(yè)上應(yīng)用最多, 其目的是找出一組能夠 描述數(shù)據(jù)集合典型特征的模型和函數(shù)。 ? 相比于上述系統(tǒng),數(shù)據(jù)挖掘系統(tǒng)關(guān)注更廣的范圍,是一個多學(xué)科的融合 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 8/101 2023/3/28 在何種數(shù)據(jù)上進(jìn)行數(shù)據(jù)挖掘 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 9/101 2023/3/28 數(shù)據(jù)挖掘的主要功能 ——可以挖掘哪些模式? ? 一般功能 – 描述性的數(shù)據(jù)挖掘 – 預(yù)測性的數(shù)據(jù)挖掘 ? 通常,用戶并不知道在數(shù)據(jù)中能挖掘出什么東西,對此我們會在數(shù)據(jù)挖掘中應(yīng)用一些常用的數(shù)據(jù)挖掘功能,挖掘出一些常用的模式,包括: – 概念 /類描述 : 特性化和區(qū)分 – 關(guān)聯(lián)分析 – 分類和預(yù)測 – 聚類分析 – 孤立點分析 – 趨勢和演變分析 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 10/101 2023/3/28 概念 /類描述 : 特性化和區(qū)分 ? 概念描述: 為數(shù)據(jù)的特征化和比較產(chǎn)生描述(當(dāng)所描述的概念所指的是一類對象時,也稱為類描述) – 特征化:提供給定數(shù)據(jù)集的簡潔匯總。 ? 我們擁有豐富的數(shù)據(jù),但卻缺乏有用的信息 ? 解決方法:數(shù)據(jù)倉庫技術(shù)和數(shù)據(jù)挖掘技術(shù) – 數(shù)據(jù)倉庫 (Data Warehouse)和在線分析處理 (OLAP) – 數(shù)據(jù)挖掘:在大量的數(shù)據(jù)中挖掘感興趣的知識(規(guī)則,規(guī)律,模式,約束) 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 3/101 2023/3/28 什么是數(shù)據(jù)挖掘? ? 數(shù)據(jù)挖掘 (從數(shù)據(jù)中發(fā)現(xiàn)知識 ) – 從 大量的數(shù)據(jù) 中挖掘哪些令人感興趣的、有用的、隱含的、先前未知的和可能有用的 模式或知識 – 挖掘的不僅僅是數(shù)據(jù)(所以 “ 數(shù)據(jù)挖掘 ” 并非一個精確的用詞) ? 數(shù)據(jù)挖掘的 替換詞 – 數(shù)據(jù)庫中的知識挖掘( KDD) – 知識提煉 – 數(shù)據(jù) /模式分析 – 數(shù)據(jù)考古 – 數(shù)據(jù)捕撈、信息收獲等等。 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 4/101 2023/3/28 數(shù)據(jù)挖掘 : 數(shù)據(jù)庫中的知識挖掘 (KDD) – 數(shù)據(jù)挖掘 ——知識挖掘的核心 數(shù)據(jù)清理 數(shù)據(jù)集成 數(shù)據(jù)庫 數(shù)據(jù)倉庫 任務(wù)相關(guān)數(shù)據(jù) 選擇 數(shù)據(jù)挖掘 模式評估 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 5/101 2023/3/28 KDD的步驟 ? 從 KDD對數(shù)據(jù)挖掘的定義中可以看到當(dāng)前研究領(lǐng)域?qū)?shù)據(jù)挖掘的 狹義和廣義 認(rèn)識 1. 數(shù)據(jù)清理 : (這個可能要占全過程 60%的工作量 ) 2. 數(shù)據(jù)集成 3. 數(shù)據(jù)選擇 4. 數(shù)據(jù)變換 5. 數(shù)據(jù)挖掘(選擇適當(dāng)?shù)乃惴▉碚业礁信d趣的模式 —狹義) (如圖形等表示方法 ) 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 6/101 2023/3/28 典型數(shù)據(jù)挖掘系統(tǒng)的體系結(jié)構(gòu) 數(shù)據(jù)倉庫 數(shù)據(jù)清洗 過濾 數(shù)據(jù)庫 數(shù)據(jù)庫或數(shù)據(jù)倉庫服務(wù)器 數(shù)據(jù)挖掘引擎 模式評估 圖形用戶界面 知識庫 數(shù)據(jù)集成 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 7/101 2023/3/28 并非所有的東西都是數(shù)據(jù)挖掘 ? 基于數(shù)據(jù)倉庫的 OLAP系統(tǒng) – OLAP系統(tǒng)專注于數(shù)據(jù)的匯總,而數(shù)據(jù)挖掘系統(tǒng)可以對數(shù)據(jù)進(jìn)行多種復(fù)雜的處理。 ?例:對 AllElectronic公司的 “ 大客戶 ”(年消費額 $1000以上)的特征化描述: 40- 50歲,有固定職業(yè),信譽良好,等等 – 區(qū)分:提供兩個或多個數(shù)據(jù)集的比較描述。 數(shù)據(jù)分類實際上就是從數(shù)據(jù)庫對象中發(fā)現(xiàn)共性, 并將數(shù)據(jù)對象分成不同類別的過程。 – 最大化 類內(nèi)的相似性 和最小化 類間的相似性 ? 例:對 WEB日志的數(shù)據(jù)進(jìn)行聚類,以發(fā)現(xiàn)相同的用戶訪問模式 ? 聚類分析與分類分析相反, 首先輸入的是一組沒有被標(biāo)記的記錄,系統(tǒng)按照一定的規(guī)則合理地劃分記錄集合 (相當(dāng)于給記錄打標(biāo)記,只不過分類標(biāo)準(zhǔn)不是用戶指定的), 然后可以采用分類分析法進(jìn)行數(shù)據(jù)分析,并根據(jù)分析的結(jié)果重新對原來的記錄集合(沒有被標(biāo)記的記錄集合)進(jìn)行劃分, 進(jìn)而再一次進(jìn)行分類分析,如此循環(huán)往復(fù),直到獲得滿意的分析結(jié)果為止 。 – 趨勢和偏差 : 回歸分析 – 序列模式匹配:周期性分析 – 基于類似性的分析 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 17/101 2023/3/28 所有模式都是有趣的嗎? ? 數(shù)據(jù)挖掘可能產(chǎn)生數(shù)以千計的模式或規(guī)則,但并不是所有的模式或規(guī)則都是令人感興趣的。文中他將數(shù)據(jù)倉庫定義為 : a data warehouse is a subjectoriented, integrated, nonvolatile, timevariant collection of data in support of management decisions. 一個面向主題的、集成的、非易失性的、隨時間變化的數(shù)據(jù)的集合,以用于支持管理層決策過程。 從信息管理的角度看, 主題就是在一個較高的管理層次上對信息系統(tǒng)的數(shù)據(jù)按照某一具體的管理對象進(jìn)行綜合、歸類所形成的分析對象。 – 確保命名約定、編碼結(jié)構(gòu)、屬性度量等的一致性。 ?數(shù)據(jù)倉庫 :從歷史的角度提供信息(比如過去 510 年) – 數(shù)據(jù)倉庫中的每一個關(guān)鍵結(jié)構(gòu)都隱式或顯式地包含時間元素,而操作數(shù)據(jù)庫中的關(guān)鍵結(jié)構(gòu)可能就不包括時間元素 – 盡管數(shù)據(jù)倉庫中的數(shù)據(jù)并不像業(yè)務(wù)數(shù)據(jù)庫那樣反映業(yè) 務(wù)處理的實際狀況,但是數(shù)據(jù)也不能長期不變,如果依 據(jù) 10年前的數(shù)據(jù)進(jìn)行決策分析,那決策所帶來的后果將 是十分可怕的。 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 29/101 2023/3/28 ? 數(shù)據(jù)倉庫的非易失性是指數(shù)據(jù)倉庫的數(shù)據(jù)不進(jìn)行更新處理, 而是一旦數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫以后,就會保持一個相當(dāng)長的時間。 – 不需要事務(wù)處理,恢復(fù),和并發(fā)控制等機制(大大提高了處理速度) – 只需要兩種數(shù)據(jù)訪問 : ?數(shù)據(jù)的初始轉(zhuǎn)載和數(shù)據(jù)訪問(讀操作) 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 31/101 2023/3/28 數(shù)據(jù)倉庫的構(gòu)建與使用 ? 數(shù)據(jù)倉庫的構(gòu)建包括一系列的數(shù)據(jù)預(yù)處理過程 – 數(shù)據(jù)清理 – 數(shù)據(jù)集成 – 數(shù)據(jù)變換 ? 數(shù)據(jù)倉庫的使用熱點是商業(yè)決策行為,例如: – 增加客戶聚焦 – 產(chǎn)品重定位 – 尋找獲利點 – 客戶關(guān)系管理 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 32/101 2023/3/28 數(shù)據(jù)倉庫與操作數(shù)據(jù)庫系統(tǒng) ? 操作數(shù)據(jù)庫系統(tǒng)的主要任務(wù)是 聯(lián)機事務(wù)處理 OLTP – 日常操作 : 購買,庫存,銀行,制造,工資,注冊,記帳等 ? 數(shù)據(jù)倉庫的主要任務(wù)是 聯(lián)機分析處理 OLAP – 數(shù)據(jù)分析和決策支持,支持以不同的形式顯示數(shù)據(jù)以滿足不同的用戶需要 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 33/101 2023/3/28 OLAP VS. OLTP (1) ? 用戶和系統(tǒng)的面向性 – 面向顧客(事務(wù)) VS. 面向市場(分析) ? 數(shù)據(jù)內(nèi)容 – 當(dāng)前的、詳細(xì)的數(shù)據(jù)(如超市一個月的數(shù)據(jù)) VS. 歷史的、匯總的數(shù)據(jù) ? 數(shù)據(jù)庫設(shè)計 – 實體-聯(lián)系模型 (ER)和面向應(yīng)用的數(shù)據(jù)庫設(shè)計 VS. 星型 /雪花模型和面向主題的數(shù)據(jù)庫設(shè)計 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 34/101 2023/3/28 OLAP VS. OLTP (2) ? 數(shù)據(jù)視圖 – 當(dāng)前的、企業(yè)內(nèi)部的數(shù)據(jù) VS. 經(jīng)過演化的、集成的數(shù)據(jù) ? 訪問模式 – 事務(wù)操作(如查詢、寫入、修改) VS. 只讀查詢(但很多是復(fù)雜的查詢) ? 任務(wù)單位 – 簡短的事務(wù) VS. 復(fù)雜的查詢 ? 訪問數(shù)據(jù)量 – 數(shù)十個 VS. 數(shù)百萬個 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 35/101 2023/3/28 OLAP VS. OLTP (3) ? 用戶數(shù) – 數(shù)千個 VS. 數(shù)百個 (復(fù)雜查詢,消耗資源) ? 數(shù)據(jù)庫規(guī)模 – 100M數(shù) GB(因此一般關(guān)注近期數(shù)據(jù)) VS. 100GB數(shù) TB ? 設(shè)計優(yōu)先性 – 高性能、高可用性 VS. 高靈活性、端點用戶自治 ? 度量 – 事務(wù)吞吐量 VS. 查詢吞吐量、響應(yīng)時間 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 36/101 2023/3/28 為什么需要一個分離的數(shù)據(jù)倉庫 ? ? “既然操作數(shù)據(jù)庫存放了大量數(shù)據(jù)”, “為什么不直接在這種數(shù)據(jù)庫上進(jìn)行聯(lián)機分析處理,而是另外花費時間和資源去構(gòu)造一個分離的數(shù)據(jù)倉庫?”分離的主要原因是提高兩個系統(tǒng)的性能 – DBMS是為 OLTP而設(shè)計的: 存儲方式 ,索引 , 并發(fā)控制 , 恢復(fù)( OLAP不需要) – 數(shù)據(jù)倉庫是為 OLAP而設(shè)計: 復(fù)雜的 OLAP查詢 , 多維視圖,匯總 為什么需要一個分離的數(shù)據(jù)倉庫 ? ? 兩個系統(tǒng)提供不同的功能和處理不同的數(shù)據(jù) : – 歷史數(shù)
點擊復(fù)制文檔內(nèi)容
醫(yī)療健康相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1