【正文】
1 類 =0 實(shí)際 的數(shù) 類 =1 f11 f10 類 =0 f01 f00 分類過程 A p p l y M o d elI n d u c t i o nD e d u c t i o nL ea r n M o d elM o d e lTid A t t r i b 1 A t t r i b 2 A t t r i b 3 C l a s s 1 Yes L a rg e 125K No 2 No Me d iu m 100K No 3 No S m a ll 70K No 4 Yes Me d iu m 120K No 5 No L a rg e 95K Yes 6 No Me d iu m 60K No 7 Yes L a rg e 220K No 8 No S m a ll 85K Yes 9 No Me d iu m 75K No 10 No S m a ll 90K Yes 10 T i d A t t r i b 1 A t t r i b 2 A t t r i b 3 Class 11 No S m a ll 55K ? 12 Y e s Me d iu m 80K ? 13 Y e s L a rg e 110K ? 14 No S m a ll 95K ? 15 No L a rg e 67K ? 10 T e s t S e tL e a r n i n ga l g o r i t h mT r a i n i n g S e tA p p l y M o d elI n d u c t i o nD e d u c t i o nL ea r n M o d elM o d e lTid A t t r i b 1 A t t r i b 2 A t t r i b 3 C l a s s 1 Yes L a rg e 125K No 2 No Me d iu m 100K No 3 No S m a ll 70K No 4 Yes Me d iu m 120K No 5 No L a rg e 95K Yes 6 No Me d iu m 60K No 7 Yes L a rg e 220K No 8 No S m a ll 85K Yes 9 No Me d iu m 75K No 10 No S m a ll 90K Yes 10 T i d A t t r i b 1 A t t r i b 2 A t t r i b 3 Class 11 No S m a ll 55K ? 12 Y e s Me d iu m 80K ? 13 Y e s L a rg e 110K ? 14 No S m a ll 95K ? 15 No L a rg e 67K ? 10 T e s t S e tL e a r n i n ga l g o r i t h mT r a i n i n g S e t訓(xùn)練集 檢驗(yàn)集 學(xué)習(xí)模型 學(xué)習(xí)模型 學(xué)習(xí)算法 模型 分類技術(shù) ? 基于決策樹的方法 Decision Tree based Methods ? 基于規(guī)則的方法 Rulebased Methods ? 基于記憶的推理 Memory based reasoning ? 神經(jīng)網(wǎng)絡(luò) Neural Networks ? 樸素貝葉斯和貝葉斯信念網(wǎng)絡(luò) Na239。ve Bayes and Bayesian Belief Networks ? 支持向量機(jī) Support Vector Machines 決策樹定義 ?決策樹是由結(jié)點(diǎn)和有向邊組成的層次結(jié)構(gòu)。 選擇最佳劃分的度量 ?選擇最佳劃分的度量通常是根據(jù)劃分后 子女結(jié)點(diǎn)不純性的程度 : 不純的程度越低,類分布就越傾斜,劃分就越好。 ?問題: – 整個訓(xùn)練樣本集的不純度是多少? – 如果對數(shù)據(jù)按 車型 屬性進(jìn)行多路劃分,則 ?(車型 =運(yùn)動)的結(jié)點(diǎn)的不純度是多少? ?(車型 =豪華)的結(jié)點(diǎn)的不純度是多少? ?(車型 =家用)的結(jié)點(diǎn)的不純度是多少? 計(jì)算不純性方法 2: 基尼指數(shù)( gini) ? 結(jié)點(diǎn) t的吉尼指數(shù) : 其中, c為結(jié)點(diǎn) t中不同類標(biāo)號個數(shù) p( i | t)是給定結(jié)點(diǎn) t中屬于類 i的記錄所占比例,簡記為 pi ? 結(jié)點(diǎn) Gini指數(shù)的取值范圍: – 當(dāng)記錄均勻分布于各分類時,將取得最大值 (1 1/nc) – 當(dāng)所有記錄都屬于同一分類時,將取得最小值 (0) 120( ) 1 [ ( | ) ]ciG ini t p i t???? ?例:分別計(jì)算 3個結(jié)點(diǎn)的 Gini指數(shù) P(C0) = 0/6 = 0 P(C1) = 6/6 = 1 Gini = 1 – P(C0)2 – P(C1)2 = 1 – 0 – 1 = 0 P(C0) = 1/6 P(C1) = 5/6 Gini = 1 – (1/6)2 – (5/6)2 = P(C0) = 2/6 P(C1) = 4/6 Gini = 1 – (2/6)2 – (4/6)2 = 120( ) 1 [ ( | ) ]ciG ini t p i t???? ?結(jié)點(diǎn) N 1 計(jì)數(shù) 類 = C 0 0 類 = C 1 6 結(jié)點(diǎn) N 2 計(jì)數(shù) 類 = C 0 1 類 = C 1 5 結(jié)點(diǎn) N 3 計(jì)數(shù) 類 = C 0 3 類 = C 1 3 練習(xí) 2 ?已知:數(shù)據(jù)見課本表 47( P122 題 2),采用Gini指數(shù) 作為結(jié)點(diǎn)的不純度度量。 – 如果一個屬性產(chǎn)生了大量的劃分,它的劃分信息SplitInfo將會很大,從而增益率降低。 – Classify():為葉子結(jié)點(diǎn)確定類標(biāo)號。 – 根據(jù)課本的決策樹模型,正常用戶訪問有何特征? 決策樹歸納的特點(diǎn) ? 是一種構(gòu)建分類模型