freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)倉庫第七章(已修改)

2025-03-17 09:06 本頁面
 

【正文】 第七章 概念描述 概念描述基本知識 數(shù)據(jù)概化與基于匯總的特征化 解析特征化 — 屬性相關(guān)分析 挖掘概念比較 — 區(qū)分不同的類 第七章 概念描述 (續(xù) ) DB中存放大量細(xì)節(jié)性數(shù)據(jù),而用戶通常希望以簡潔的描述形式觀察匯總的數(shù)據(jù)集。這種描述可提供 某類數(shù)據(jù)的概貌 以及 與其他數(shù)據(jù)類的區(qū)別 。此外,用戶希望方便靈活地以不同的粒度和從不同的角度描述數(shù)據(jù)集。這種描述性數(shù)據(jù)挖掘稱為概念描述,它是數(shù)據(jù)挖掘的一個重要部分。 概念描述基本知識 概念: 通常指數(shù)據(jù)的匯集。 概念描述: 是描述式數(shù)據(jù)挖掘最基本形式,它以簡潔匯總的形式描述給定數(shù)據(jù)集,提供數(shù)據(jù)的有趣的一般特性。 概念描述基本知識(續(xù)) 概念描述的組成: ?特征化 :提供了一個有關(guān)數(shù)據(jù)整體的簡潔清晰描述。(定性描述) ?比較 :提供了基于多組不同類數(shù)據(jù)的對比概念描述。(對比定性描述) 概念描述基本知識(續(xù)) 概念描述 與 數(shù)據(jù)概化 密切相關(guān)。給定存放在 DB中的大量數(shù)據(jù),能夠以簡潔的形式在更一般的抽象層描述數(shù)據(jù)是很有用的。允許數(shù)據(jù)集在多個抽象層概化,便于考察數(shù)據(jù)的一般行為。 這種 多維 ,多層數(shù)據(jù)概化 類似于 DW中的多維數(shù)據(jù)分析。而 概念描述 類似于DW的 OLAP。 概念描述基本知識(續(xù)) 大型數(shù)據(jù)庫的概念描述和數(shù)據(jù)倉庫的 OLAP有何差別? ?概念描述可處理復(fù)雜的數(shù)據(jù)類型和聚集。 ?概念描述是自動處理數(shù)據(jù)挖掘過程。 概念描述基本知識(續(xù)) 概念描述的方法包括 多層概化、匯總、特征化和比較。 這些方法形成實現(xiàn)數(shù)據(jù)挖掘的兩個主要功能模塊的基礎(chǔ): 多層 特征化 和 比較 。 第七章 概念描述 概念描述基本知識 數(shù)據(jù)概化與基于匯總的特征化 解析特征化 — 屬性相關(guān)分析 挖掘概念比較 — 區(qū)分不同的類 數(shù)據(jù)概化與基于匯總的 特征化 數(shù)據(jù)概化是一個分析過程,它將 DB中與任務(wù)相關(guān)的大數(shù)據(jù)集從較低的概念層抽象到較高的概念層。對大量數(shù)據(jù)進行有效靈活的概化方法主要有兩種: ?數(shù)據(jù)立方體方法 ?基于屬性的歸納方法 利用 數(shù)據(jù)立方體方法 進行數(shù)據(jù)概化,被分析的數(shù)據(jù)存放在一個多維數(shù)據(jù)庫中,通過對多維數(shù)據(jù)立方進行上卷或下鉆操作,可完成數(shù)據(jù)概化和數(shù)據(jù)細(xì)化工作。 (續(xù)) 數(shù)據(jù)立方體提供了一種有效的數(shù)據(jù)概化方法,且構(gòu)成了描述性數(shù)據(jù)挖掘中一個重要功能。但由于 OLAP的數(shù)據(jù)立方實現(xiàn)是將維的類型限制在簡單非數(shù)值類型,且將處理限制在簡單數(shù)據(jù)匯總方面,因此數(shù)據(jù)立方體并不能解決概念描述所能解決的一些重要問題。如:描述中應(yīng)作用哪些維?概化過程應(yīng)進行到哪個抽象層次上?這些問題均是由用戶負(fù)責(zé)提供答案的。 基本思想: 首先使用 RDB查詢收集任務(wù)相關(guān)的數(shù)據(jù);然后通過考察任務(wù)相關(guān)數(shù)據(jù)中每個屬性的不同值的個數(shù),進行概化。數(shù)據(jù)概化是通過 屬性刪除 或 屬性概化 操作來完成。通過合并相同行并累計它們相應(yīng)的個數(shù)。這自然就減少了概化后數(shù)據(jù)集的大小,所獲結(jié)果以圖表、規(guī)則等多種不同形式提供給用戶。 (續(xù)) ?例 1: 從一個大學(xué)數(shù)據(jù)庫的學(xué)生數(shù)據(jù)中挖掘出研究生的一般特征。給定的屬性有:姓名、性別、專業(yè)、出生地、出生日期、居住地、電話和 GPA(平均等級分)。 ?AOI方法的 第一步: 利用 DB查詢語言從大學(xué) DB中將學(xué)生數(shù)據(jù)抽取出來,然后指定一組與挖掘任務(wù)相關(guān)的屬性集。 (續(xù)) 由于數(shù)據(jù)挖掘查詢通常只涉及 DB的一部分,選擇相關(guān)的數(shù)據(jù)集不僅使得挖掘更有效,而且與在整個 DB挖掘相比,能產(chǎn)生更有意義的規(guī)則。 對用戶而言,指定挖掘的屬性可能比較困難。有時,用戶只能選擇少量他感到可能重要的屬性,而遺漏在描述中可能起作用的其他屬性。 (續(xù)) 如: 出生地 維由屬性 城市 、 省 和 國家 定義。在這些屬性中,用戶或許只考慮了城市屬性。為了對出生地進行概化處理,就必須將出生地概化所涉及到的其它屬性包含進來。換句話說,系統(tǒng)自動地包括省和國家作為相關(guān)屬性,使得城市可以在歸納過程中概化到較高的概念層。 (續(xù)) 另一方面,用戶可能引進過多的屬性,如:指定所有的屬性,這樣大學(xué) DB的所有屬性都將包含在分析中,而有些屬性對有趣的描述是沒有用的。 姓名 性別 專業(yè) 出生地 出生日 居住地 電話 GPA 王東海 男 CS 合肥市 合肥市金寨 路 65號 05513665678 李哲 男 CS 合肥市 合肥市蕪湖 路 186號 05513656012 汪燕 女 PH 上海市 上海市高安 路 1250號 02162381960 初始工作關(guān)系:任務(wù)相關(guān)數(shù)據(jù)的集合 (續(xù)) 對已經(jīng)準(zhǔn)備好的數(shù)據(jù),如何進行基于屬性歸納? ?AOI方法的第二步: 進行數(shù)據(jù)概化操作,可用兩種方法之一進行: 屬性刪除 , 屬性概化 。 (續(xù)) ?屬性刪除 基于如下規(guī)則: 若一個屬性有許多不同數(shù)值,且 (a)該屬性無法進行概化操作 (如:沒有定義相應(yīng)的概念分層),或 (b)它的更高層次概念是用其他屬性描述的 ,則該屬性應(yīng)當(dāng)從數(shù)據(jù)集中刪除
點擊復(fù)制文檔內(nèi)容
法律信息相關(guān)推薦
文庫吧 www.dybbs8.com
公安備案圖鄂ICP備17016276號-1