【正文】
lo gmiiiSSESSS??? ?i?信息增益 ? 信息增益 ( information gain) ? 以 A作為查詢,生長出 v個分支的信息熵 ? 以 A為查詢的信息增益 ? 選擇信息增益最大的屬性作為 N節(jié)點的查詢 21 1 1( ) ( ) l o gv v mj j ij ijjj j i jjS S S SE A E SS S S S? ? ???? ? ? ??? ? ??? ????? ? ?( ) ( ) ( )G a in A E S E A??信息增益 ? 例子 ? 訓(xùn)練集 S1: buys_puter= “yes”, S2: buys_puter= “no” 信息增益 ? 根節(jié)點上的熵不純度 ? age作為查詢的信息熵 229 9 5 5( ) l og l og 0. 94 014 14 14 14E roo t??? ? ? ?????1 2 22 2 3 3( ) l og l og 715 5 5 5E root??? ? ? ?????2( ) 0E ro ot ?3 2 23 3 2 2( ) l og l og 715 5 5 5E root??? ? ? ?????1 2 35 4 5( ) ( ) ( ) ( ) 14 14 14E age i root i root i root? ? ? ?信息增益 ? age作為查詢的信息增益 ? 類似可以計算出所有屬性的信息增益 ? age的信息增益最大,所以選擇 age作為根節(jié)點的查詢,對訓(xùn)練集進行首次劃分 ( ) ( ) ( ) 0 .2 4 6G a in a g e E r o o t E a g e? ? ?( ) ( ) ( _ ) Gain inc omeGain st ude ntGain c re dit rat ing???信息增益率 ? 信息增益作為查詢選擇標(biāo)準(zhǔn)的缺點: 偏向有較多不同取值的屬性 ? 為克服這一缺點, J. R. Quinlan在其著名的 算法中采用 信息增益率 ( gain ratio)作為選擇標(biāo)準(zhǔn) ()_ ( )()G ain AG ain ratio AI V A?21( ) l ogv jjjSSI V ASS????? ?信息增益率 ? 例子 2225 5 4 4 5 5( ) l og l og l og 1. 57 814 14 14 14 14 14I V ag e??? ? ? ? ?????2224 4 6 6 4 4( ) l og l og l og 1. 55 614 14 14 14 14 14I V inc om e??? ? ? ? ?????227 7 7 7( ) l og l og 1. 66 114 14 14 14I V stude nt??? ? ? ?????228 8 6 6( _ ) l og l og 0. 98 514 14 14 14I V c re dit ra ti ng??? ? ? ?????()_ ( ) 56()G ain ag eG ain ratio ag eI V ag e??()_ ( ) ()G ain inc om eG ain rati o inc om eI V inc om e??( _ )_ ( _ ) 49( _ )G ain c re dit ratingG ain ratio c re dit ratingI V c re dit rating??()_ ( ) 0 .0 9 1()G a in stud e n tG a in ra ti o stud e n tI V stud e n t??Gini不純度 ? :節(jié)點 N上樣本總個數(shù) ? :其中屬于 類的樣本個數(shù)( i=1,2, …, m ) ? :屬性 A的第 j個取值( j=1,2, …, v ) ? 該節(jié)點處的 Gini不純度 ? 屬性 A將 S劃分為 v個子集 ? 中屬于 類的樣本個數(shù)為 i?21( ) 1miiSG ini SS????? ?????i?Gini不純度 ? 以 A作為查詢,生長出 v個分支的 Gini不純度 ? 選擇 Gini不純度差最大(即 Gini(A)最?。┑膶傩宰鳛?N節(jié)點的查