freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)倉(cāng)庫(kù) 第七章-全文預(yù)覽

  

【正文】 究生的集合組成。根據(jù)計(jì)算的屬性與數(shù)據(jù)挖掘任務(wù)的相關(guān)性,對(duì)屬性排序,然后刪除不相關(guān)和弱相關(guān)屬性。 (續(xù)) 概念描述 的屬性相關(guān)分析,執(zhí)行步驟如下: ?(1)數(shù)據(jù)收集: 通過(guò)查詢處理,收集目標(biāo)類和對(duì)比類的數(shù)據(jù)。一個(gè)決策樹(shù)可用于對(duì)數(shù)據(jù)對(duì)象進(jìn)行分類 ,因此決策樹(shù)可以看成是 Ci的一個(gè)信息源 ,為產(chǎn)生相應(yīng)信息需要的信息熵為: (續(xù)) () 若屬性 A的取值為 {a1, a2, … , av}, 且該屬性用作決策樹(shù)的一個(gè)結(jié)點(diǎn)時(shí),可將S 劃分為子集 {S1, S2, … , Sv }。該方法刪除信息量較少的屬性,收集信息較多的屬性,用于概念描述分析。在這種情況下,除特征化的數(shù)據(jù)集外, DB中可比較的數(shù)據(jù)集都作為對(duì)比類。 (續(xù)) 屬性的相關(guān)性要根據(jù)屬性區(qū)分一個(gè)類與其他類的能力來(lái)評(píng)估。 (續(xù)) ?例: 一輛汽車的顏色不太可能用于區(qū)分貴賤汽車(類別),但汽車的型號(hào)、品牌、制造商、款式和氣缸數(shù)可能是更相關(guān)的屬性。 (續(xù)) 通常,用戶告訴數(shù)據(jù)挖掘系統(tǒng)每個(gè)維應(yīng)當(dāng)概化到多高層次并不困難,但確定數(shù)據(jù)集的定性描述應(yīng)包含哪些屬性是一件困難的事。數(shù)組的每個(gè)元素存放對(duì)應(yīng)的計(jì)數(shù)和其他聚集值。 (續(xù) ) (3)P←generalization(W ) 通過(guò)用其在映射中對(duì)應(yīng)的 v’ 替換 W中每個(gè)值 v,累計(jì)計(jì)數(shù)并計(jì)算所有聚集值,導(dǎo)出主概化關(guān)系 P。 ? 8) GPA: 假定存在 GPA的概念分層,將平均成績(jī)分成若干區(qū)間,如: {, , …} , 也可相應(yīng)的描述為: {優(yōu)秀,良好, … }, 因此該屬性可以被概化。號(hào)碼和街道的不同值一般很多,而且這些概念的層次相當(dāng)?shù)?。如果初始關(guān)系中,國(guó)家取值超過(guò)了屬性概化閾值,則出生地應(yīng)當(dāng)刪除,因?yàn)楸M管可以進(jìn)行概化操作,概化閾值也不會(huì)滿足。又假設(shè)屬性概化閾值置為 5,在初始數(shù)據(jù)集合中有 25個(gè)不同取值。無(wú)論使用哪種概化控制技術(shù),都應(yīng)當(dāng)允許用戶調(diào)整概化閾值,以便得到有趣的規(guī)則。如果屬性的不同值個(gè)數(shù)大于屬性概化閾值,則應(yīng)當(dāng)進(jìn)行進(jìn)一步的屬性刪除或?qū)傩愿呕? (續(xù)) 若屬性概化得“太高”,則導(dǎo)致過(guò)分概化,產(chǎn)生的規(guī)則可能沒(méi)有多少信息。 屬性刪除 和 屬性概化 兩個(gè)規(guī)則都表明,如果某屬性有大量的不同值,應(yīng)當(dāng)進(jìn)行進(jìn)一步概化。 (續(xù)) 另一方面,用戶可能引進(jìn)過(guò)多的屬性,如:指定所有的屬性,這樣大學(xué) DB的所有屬性都將包含在分析中,而有些屬性對(duì)有趣的描述是沒(méi)有用的。 (續(xù)) 如: 出生地 維由屬性 城市 、 省 和 國(guó)家 定義。 ?AOI方法的 第一步: 利用 DB查詢語(yǔ)言從大學(xué) DB中將學(xué)生數(shù)據(jù)抽取出來(lái),然后指定一組與挖掘任務(wù)相關(guān)的屬性集。通過(guò)合并相同行并累計(jì)它們相應(yīng)的個(gè)數(shù)。但由于 OLAP的數(shù)據(jù)立方實(shí)現(xiàn)是將維的類型限制在簡(jiǎn)單非數(shù)值類型,且將處理限制在簡(jiǎn)單數(shù)據(jù)匯總方面,因此數(shù)據(jù)立方體并不能解決概念描述所能解決的一些重要問(wèn)題。 這些方法形成實(shí)現(xiàn)數(shù)據(jù)挖掘的兩個(gè)主要功能模塊的基礎(chǔ): 多層 特征化 和 比較 。而 概念描述 類似于DW的 OLAP。(對(duì)比定性描述) 概念描述基本知識(shí)(續(xù)) 概念描述 與 數(shù)據(jù)概化 密切相關(guān)。 概念描述基本知識(shí) 概念: 通常指數(shù)據(jù)的匯集。第七章 概念描述 概念描述基本知識(shí) 數(shù)據(jù)概化與基于匯總的特征化 解析特征化 — 屬性相關(guān)分析 挖掘概念比較 — 區(qū)分不同的類 第七章 概念描述 (續(xù) ) DB中存放大量細(xì)節(jié)性數(shù)據(jù),而用戶通常希望以簡(jiǎn)潔的描述形式觀察匯總的數(shù)據(jù)集。這種描述性數(shù)據(jù)挖掘稱為概念描述,它是數(shù)據(jù)挖掘的一個(gè)重要部分。(定性描述) ?比較 :提供了基于多組不同類數(shù)據(jù)的對(duì)比概念描述。 這種 多維 ,多層數(shù)據(jù)概化 類似于 DW中的多維數(shù)據(jù)分析。 概念描述基本知識(shí)(續(xù)) 概念描述的方法包括 多層概化、匯總、特征化和比較。 (續(xù)) 數(shù)據(jù)立方體提供了一種有效的數(shù)據(jù)概化方法,且構(gòu)成了描述性數(shù)據(jù)挖掘中一個(gè)重要功能。數(shù)據(jù)概化是通過(guò) 屬性刪除 或 屬性概化 操作來(lái)完成。給定的屬性有:姓名、性別、專業(yè)、出生地、出生日期、居住地、電話和 GPA(平均等級(jí)分)。有時(shí),用戶只能選擇少量他感到可能重要的屬性,而遺漏在描述中可能起作用的其他屬性。換句話說(shuō),系統(tǒng)自動(dòng)地包括省和國(guó)家作為相關(guān)屬性,使得城市可以在歸納過(guò)程中概化到較高的概念層。 (續(xù)) ?屬性概化 基于如下規(guī)則: 若一個(gè)屬性有許多不同數(shù)值,且該屬性存在一組概化操作,則可以選擇一個(gè)概化操作對(duì)該屬性進(jìn)行處理。該過(guò)程的控制稱為 屬性概化控制 。 (續(xù)) 有許多控制概化過(guò)程的方法,下面是兩種常用的方法: (1)屬性概化閾值控制 該技術(shù)是對(duì)所有屬性統(tǒng)一設(shè)置一個(gè)概化閾值( 取值范圍一般為 2到 8)。 (續(xù)) 這兩種技術(shù)可以順序使用:首先使用 屬性概化閾值控制 技術(shù)概化每個(gè)屬性,然后使用 概化關(guān)系閾值控制 進(jìn)一步減少概化關(guān)系的(規(guī)模)大小。 (續(xù)) ? 3)專
點(diǎn)擊復(fù)制文檔內(nèi)容
法律信息相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1