【正文】
? 概化方法的不同 ? 機(jī)器學(xué)習(xí):按照元組概化 ? 概念描述:按照屬性概化 特征化和比較 ? 什么是概念描述 ? ? 數(shù)據(jù)概化和基于匯總的特征化 ? 分析特征化 : 分析屬性之間的關(guān)聯(lián)性 ? 挖掘類比較 :獲取不同類之間的不同處 ? 在大型數(shù)據(jù)庫(kù)中挖掘描述統(tǒng)計(jì)度量 ? 討論 ? 總結(jié) 。 ? 概念描述:只有正樣本。 ? 延長(zhǎng)線 : 從盒子延長(zhǎng)到最大和最小值 A Boxplot A boxplot 數(shù)據(jù)分布的可視化:盒圖分析 在大型數(shù)據(jù)庫(kù)中挖掘統(tǒng)計(jì)信息 ? 方差 ? 標(biāo)準(zhǔn)差 : 方差的平方根 ? 衡量分散程度 ? 當(dāng)且僅當(dāng)所有值一樣的時(shí)候?yàn)?0。 ? 用相同層次的描述對(duì)元組進(jìn)行比較。 ? 使用預(yù)定義的數(shù)據(jù)立方體: ? 預(yù)先構(gòu)建數(shù)據(jù)立方體 ? Cube計(jì)算的花費(fèi)和額外的存儲(chǔ)空間 特征化和比較 ? 什么是概念描述 ? ? 數(shù)據(jù)概化和基于匯總的特征化 ? 分析特征化 : 分析屬性之間的關(guān)聯(lián)性 ? 挖掘類比較 :獲取不同類之間的不同處 ? 在大型數(shù)據(jù)庫(kù)中挖掘描述統(tǒng)計(jì)度量 ? 討論 ? 總結(jié) 屬性相關(guān)性分析 ? why? ? 哪些維需要包括 ? ? 需要概化到什么層次 ? ? 減少屬性;從而容易理解模型結(jié)果 ? What? ? 使用統(tǒng)計(jì)的方法進(jìn)行數(shù)據(jù)預(yù)處理 ? 過(guò)濾掉一些不相關(guān)或者相關(guān)性比較弱的字段 ? 保留并對(duì)相關(guān)屬性進(jìn)行排序 ? 相關(guān)性和維度、層次有關(guān) ? 分析特征化,分析比較 屬性相關(guān)性分析 ? 步驟: ? 數(shù)據(jù)收集 ? 使用保守的 AOI進(jìn)行預(yù)相關(guān)分析 ? 相關(guān)性分析,刪除不相關(guān)和弱相關(guān)屬性 ? 使用 AOI產(chǎn)生概念描述 相關(guān)性度量標(biāo)準(zhǔn) ? 相關(guān)性度量標(biāo)準(zhǔn)決定了如何對(duì)屬性進(jìn)行判斷的標(biāo)準(zhǔn) ? 方法 ? 信息增益 information gain (ID3) ? 增益比 gain ratio () ? Gini索引 gini index ? 不確定性 ? 相關(guān)系數(shù) Entropy 和 Information Gain ? 集合 S中類別 Ci的記錄個(gè)數(shù)是 si 個(gè) i = {1, …, m} ? 期望信息 ? 屬性 A的熵是 ? 信息增益 ssss,...,s,ss imiim2121 lo g)I( ????)s,...,s(Is s...sE ( A ) mjjvjmjj 111?????E ( A ))s, . . . ,s,I(sG ai n( A ) m ?? 21一個(gè)例子 (131頁(yè)例 ) ? 任務(wù) ? 使用分析特征化來(lái)了解研究生的一般特征 ? 屬性名稱 gender, major, birth_place, birth_date, phone, and gpa ? Gen(ai) = concept hierarchies on ai ? Ui = attribute analytical thresholds for ai ? Ti = attribute generalization thresholds for ai ? R = attribute relevance threshold 例子:分析特征化(續(xù)) ? 1. 數(shù)據(jù)收集 ? target class: graduate student ? contrasting class: undergraduate student ? Ui分析概化 ? 屬性刪除 ? remove name and phone ? 屬性概化 ? generalize major, birth_place, birth_date and gpa ? accumulate counts ? 候選關(guān)系 : gender, major, birth_country, age_range and gpa 例子:分析特征化 (2) g ende r m a jo r bi rth _ c o untr y a g e_ r a n g e g pa co unt M Scien ce Can ad a 2 1 25 Ver y _ g o o d 16 F Scien ce Fo reign 2 6 30 Excellen t 22 M Eng in eering Fo reign 2 6 30 Excellen t 18 F Scien ce Fo reign 2 6 30 Excellen t 25 M Scien ce Can ad a 2 1 25 Excellen t 21 F Eng in eering Ca n ad a 2 1 25 Excellen t 18 Candidate relation for Target class: Graduate students (?=120) g ende r m a jo r bi rth _ c o untr y a g e_ r a n g e g pa co unt M Scien ce Fo reign = 20 Ver y _ g o o d 18 F Bu sin ess Can ad a = 20 Fair 20 M Bu sin ess Can ad a = 20 Fair 22 F Scien ce Can ad a 2 1 25 Fair 24 M Eng in eering Fo reign 2 1 25 Ver y _ g o o d 22 F Eng in eering Can ad a = 20 Excellen t 2 4 Candidate relation for Contrasting class: Undergraduate students (?=130) 例子:分析特征化 (3) ? 3. 相關(guān)性分析 ? 計(jì)算期望信息 ? 計(jì)算每個(gè)屬性的熵 9 9 8 80250130250130250120250120200120 2221 .l o gl o g),I()s,I ( s ?????F o r m a jo r= ” S ci e n ce” : S11=8 4 S21=4 2 I ( s11,s21) =0 . 9 1 8 3F o r m a jo r= ” En g in eer in g ” : S12=3 6 S22=4 6 I ( s12,s22) =0 . 9 8 9 2F o r m a jo r= ” Bus in ess ” : S13=0 S23=4 2 I ( s13,s23) =0Number of grad students in “Science” Number of undergrad students in “Science” 例子:分析特征化 (4) ? 得出每個(gè)屬性的熵 ? 計(jì)算每個(gè)屬性的 Information Gain ? Information gain for all attributes 7 8 7 302504225082250126 231322122111 .)s,s(I)s,s(I)s,s(IE ( ma j o r ) ????2115021 .E ( m ajor ))s,I ( s)G ain( m ajor ???G a i n ( g e n d e r ) = 0 . 0 0 0 3G a i n ( b i r t h _ c o u n t r y ) = 0 . 0 4 0 7G a i n ( m a j o r ) = 0 . 2 1 1 5G a i n ( g p a ) = 0 . 4 4 9 0G a i n ( a g e _ r a n g e ) = 0 . 5 9 7 1例子:分析特征化 (5) ? 4. Initial working relation (W0) derivation ? R = ? 刪除不相關(guān)或者弱相關(guān)的屬性 = drop gender, birth_country ? 刪除比較類的關(guān)系 ? 5. 在 W0進(jìn)行 AOI分析 m a jor a g e_ ra ng e g pa co unt Scien ce 2 1 25 Ver y _ g o o d 16 Scien ce 2 6 30 Excellen t 47 Scien ce 2 1 25 Excellen t 21 Eng in eering 2 1 25 Excellen t 18 Eng in eering 2 6 30 Excellen t 18 Initial target class working relation W0: Gradua