【正文】
可能會(huì)產(chǎn)生子樹在決策樹中重復(fù)出現(xiàn)的情況 ? 對(duì)于非水平和垂直的決策邊界問題,可以使用斜決策樹或構(gòu)造歸納方法來解決。 ?算法輸出:構(gòu)造的決策樹 ?主要函數(shù): – createNode():建立一個(gè)新結(jié)點(diǎn)。 – 效率低 – 計(jì)算代價(jià)昂貴 TaxableIne 80K?Yes NoTi d 有房者 婚姻 狀況 收入 拖欠 貸款者 1 Yes Single 125K No 2 No Marr i ed 100K No 3 No Single 70K No 4 Yes Marr i ed 120K No 5 No Divor ce d 95K Yes 6 No Marr i ed 60K No 7 Yes Divor ce d 220K No 8 No Single 85K Yes 9 No Marr i ed 75K No 10 No Single 90K Yes 10 改進(jìn)方法: ? 根據(jù)劃分屬性,先對(duì)記錄進(jìn)行 排序 ? 從兩個(gè)相鄰的排過序的屬性值中 選擇中間值作為候選劃分點(diǎn)(5 6 7 80、 …… )。 ?問題 (a)~(g) ?熵和 Gini指數(shù)等不純度趨向有利于具有大量不同值的屬性 – 產(chǎn)生大量輸出測試條件,從而導(dǎo)致與每個(gè)劃分關(guān)聯(lián)的記錄很少。 ?問題: – 整個(gè)訓(xùn)練樣本集的不純度是多少? – 如果對(duì)數(shù)據(jù)按 車型 屬性進(jìn)行多路劃分,則 ?(車型 =運(yùn)動(dòng))的結(jié)點(diǎn)的不純度是多少? ?(車型 =豪華)的結(jié)點(diǎn)的不純度是多少? ?(車型 =家用)的結(jié)點(diǎn)的不純度是多少? 二元分類問題結(jié)點(diǎn)不純性度量之間的比較: 利用不純性度量,選擇最佳劃分 ?方法: 分別比較父節(jié)點(diǎn)(劃分前)的不純程度和子女結(jié)點(diǎn)(劃分后)的不純程度,它們的差值越大,測試條件的效果就越好。log2 (2/6) – (4/6)log 0 – 1哪個(gè)劃分測試條件最佳? 為了度量不同的測試條件,常用劃分前和劃分后記錄的 類分布定義: p(i|t)表示結(jié)點(diǎn) t中,屬于類 i的記錄所占的比例,常簡記為 pi。包含屬性 測試條件,用于分開不同特性的記錄 每個(gè)葉結(jié)點(diǎn)都賦予一個(gè) 類標(biāo)號(hào) 決策樹 例 1 Ti d 有房者 婚姻 狀況 收入 拖欠 貸款者 1 Yes Single 125K No 2 No Marr i ed 100K No 3 No Single 70K No 4 Yes Marr i ed 120K No 5 No Divor ce d 95K Yes 6 No Marr i ed 60K No 7 Yes Divor ce d 220K No 8 No Single 85K Yes 9 No Marr i ed 75K No 10 No Single 90K Yes 10 有房產(chǎn) 婚姻狀況 收入 YES NO NO NO Yes No Married Single, Divorced 80K 80K 屬性劃分 訓(xùn)練數(shù)據(jù) 模型:決策樹 決策樹 例 2 MarSt Refund TaxInc YES NO NO NO Yes No Married Single, Divorced 80K 80K 對(duì)于相同的數(shù)據(jù),能構(gòu)造多種不同的決策樹 Ti d 有房者 婚姻 狀況 收入 拖欠 貸款者 1 Yes Single 125K No 2 No Marr i ed 100K No 3 No Single 70K No 4 Yes Marr i ed 120K No 5 No Divor ce d 95K Yes 6 No Marr i ed 60K No 7 Yes Divor ce d 220K No 8 No Single 85K Yes 9 No Marr i ed 75K No 10 No Single 90K Yes 10 決策樹應(yīng)用過程:使用模型測試數(shù)據(jù)- 1 Refund MarSt TaxInc YES NO NO NO Yes No Married Single, Divorced 80K 80K Refu nd Mari tal S tat u s Taxabl e In e Chea t No Marri ed 80K ? 10 檢驗(yàn)數(shù)據(jù) 從樹根開始 使用模型測試數(shù)據(jù)- 2 Refund MarSt TaxInc YES NO NO NO Yes No Married Single, Divorced 80K 80K Refu nd Mari tal S tat u s Taxabl e In e Chea t No Marri ed 80K ? 10 Test Data 使用模型測試數(shù)據(jù)- 3 Refund MarSt TaxInc YES NO NO NO Yes No Married Single, Divorced 80K 80K Refu nd Mari tal S tat u s Taxabl e In e Chea t No Marri ed 80K ? 10 Test Data 使用模型測試數(shù)據(jù)- 4 Refund MarSt TaxInc YES NO NO NO Yes No Married Single, Divorced 80K 80K Refu nd Mari tal S tat u s Taxabl e In e Chea t No Marri ed 80K ? 10 Test Data 使用模型測試數(shù)據(jù)- 5 Refund MarSt TaxInc YES NO NO NO Yes No Married Single, Divorced 80K 80K Refu nd Mari tal S tat u s Taxabl e In e Chea t