【正文】
? 不純度度量方法的選擇對(duì)決策樹性能影響很小 ?分類模型的誤差: – 訓(xùn)練誤差:在訓(xùn)練記錄上誤分樣本的比例 – 泛化誤差(檢驗(yàn)誤差):模型在未知記錄上的期望誤差 ?一個(gè)好的分類模型,必須具有低的訓(xùn)練誤差和泛化誤差。 結(jié)點(diǎn)要么表示一個(gè)測(cè)試條件 (),要么表示一個(gè)類標(biāo)號(hào) () – find_best_split():從剩余屬性中挑選一個(gè)屬性作為結(jié)點(diǎn)的測(cè)試條件。在計(jì)算相鄰結(jié)點(diǎn)時(shí)值,部分類分布保持不變,減少計(jì)算量。 – 極端情況如:以顧客 ID進(jìn)行劃分,比其他劃分方法能得到更“純”的派生結(jié)點(diǎn) 改進(jìn)方法 ? 信息增益(熵差) : ni = 孩子節(jié)點(diǎn) i的記錄數(shù) n = 節(jié)點(diǎn) p的記錄數(shù) ?用于 ID3和 ???????? ??ki isplit iEntropynnpEntropyGAIN 1 )()(? 增益率 : 將父節(jié)點(diǎn) p劃分為 k部分 n表示 p的記錄數(shù) ni 表示第 i部分( p的第 i個(gè)節(jié)點(diǎn))的記錄數(shù) – 調(diào)整信息增益,引入劃分信息 SplitInfo,把屬性測(cè)試條件產(chǎn)生的輸出數(shù)也考慮進(jìn)去。 ?用 增益 Δ來作為確定劃分效果的標(biāo)準(zhǔn) 其中: I(.)是結(jié)點(diǎn)不純性度量 ,N是父節(jié)點(diǎn)上的記錄總數(shù),k是父節(jié)點(diǎn)的分支數(shù), N(vj)是子女結(jié)點(diǎn) vj的記錄個(gè)數(shù)。log2 (4/6) = 120( ) [ ( | ) l og ( | ) ]ciEn tr opy t p i t p i t??? ? ??結(jié)點(diǎn) N 2 計(jì)數(shù) 類 = C 0 1 類 = C 1 5 結(jié)點(diǎn) N 3 計(jì)數(shù)類 = C 0 3 類 = C 1 3 練習(xí) 1 ?已知:數(shù)據(jù)見課本表 47( P122 題 2),采用熵作為結(jié)點(diǎn)的不純度度量。log 1 = – 0 – 0 = 0 P(C0) = 1/6 P(C1) = 5/6 Entropy = – (1/6) 在二元分類問題中,任意結(jié)點(diǎn)的類分布可以記作 (p0, p1),其中p1 =1 p0 。 假設(shè) t表示結(jié)點(diǎn), Dt 表示與結(jié)點(diǎn) t相關(guān)聯(lián)的訓(xùn)練記錄集, y={y1,y2,…,yc}是類標(biāo)號(hào) ? Hunt算法的遞歸定義 : – 如果 Dt 中所有記錄都屬于 同一個(gè)類 yt, 則 t就是葉子節(jié)點(diǎn),并用 yt標(biāo)號(hào) – 如果 Dt 是一個(gè) 空集 ,那么 t就是葉子節(jié)點(diǎn),其標(biāo)號(hào)為其父結(jié)點(diǎn)上訓(xùn)練記錄中的多數(shù)類 Tid Re f und Marital Stat u s Taxable In e Che a t 1 Yes Single 125K No 2 No Marr i ed 100K No 3 No Single 70K No 4 Yes Marr i ed 120K No 5 No Divor ce d 95K Yes 6 No Marr i ed 60K No 7 Yes Divor ce d 220K No 8 No Single 85K Yes 9 No Marr i ed 75K No 10 No Singl e 90K Yes 10 Dt ? – 如果 Dt 中包含屬于 多個(gè)類 的記錄,則選擇一個(gè) 屬性測(cè)試條件 ,將記錄劃分成若干個(gè)子集。 ? 分類性能度量: 11 0011 10 01 11= fff f f f?? ? ? ?正 確 預(yù) 測(cè) 數(shù)準(zhǔn) 確 率 預(yù) 測(cè) 總 數(shù) 10 0111 10 01 11= f f f f?? ? ? ?錯(cuò) 誤 預(yù) 測(cè) 數(shù)差 錯(cuò) 率 預(yù) 測(cè) 總 數(shù)預(yù)測(cè)的類 類 =1 類 =0 實(shí)際 的數(shù) 類 =1 f11 f10 類 =0 f01 f00 分類過程 A p p l y M o d elI n d u c t i o nD e d u c t i o nL ea r n M o d elM o d e lTid A t t r i b 1 A t t r i b 2 A t t r i b 3 C l a s s 1 Yes L a rg e 125K No 2 No Me d iu m 100K No 3 No S m a ll 70K No 4 Yes Me d iu m 120K No 5 No L a rg e 95K Yes 6 No Me d iu m 60K No 7 Yes L a rg e 220K No 8 No S m a ll 85K Yes 9 No Me d iu m 75K No 10 No S m a ll 90K Yes 10 T i d A t t r i b 1 A t t r i b 2 A t t r i b 3 Class 11 No S m a ll 55K ? 12 Y e s Me d iu m 80K ? 13 Y e s L a rg e 110K ? 14 No S m a ll 95K ? 15 No L a rg e 67K ? 10 T e s t S e tL e a r n i n ga l g o r i t h mT r a i n i n g S e tA p p l y M o d elI n d u c t i o nD e d u c t i o nL ea r n M o d elM o d e lTid A t t r i b 1 A t t r i b 2 A t t r i b 3 C l a s s 1 Yes L a rg e 125K No 2 No Me d iu m 100K No 3 No S m a ll 70K No 4 Yes Me d iu m 120K No 5 No L a rg e 95K Yes 6 No Me d iu m 60K No 7 Yes L a rg e 220K No 8 No S m a ll 85K Yes 9 No Me d iu m 7