【正文】
es No samples中所有樣本屬于同一個(gè)類 Cheat=No 2. samples = {1,4,7 } attribute_list = { MarSt, TaxInc } NO 例子:算法過(guò)程 Ti d Re f un d M ar italS t atu sT ax ableIne Chea t1 Y es S i n gl e 12 5 K No2 No M arr i ed 10 0 K No3 No S i n gl e 70K No4 Y es M arr i ed 12 0 K No5 No Di v orc ed 95K Y es6 No M arr i ed 60K No7 Y es Di v orc ed 22 0 K No8 No S i n gl e 85K Y es9 No M arr i ed 75K No10 No S i n gl e 90K Y es10Refund Yes No 假設(shè)選擇 MarSt為最優(yōu)分割屬性: 3. samples = { 2,3,5,6,8,9,10 } attribute_list = { MarSt, TaxInc } NO MarSt Single Married Divorced 4. samples = { 3,8,10 }, attribute_list = {TaxInc} 5. samples = { 5,7 }, attribute_list = {TaxInc} 6. samples = { 2,9 }, attribute_list = {TaxInc} 例子:算法過(guò)程 Ti d Re f un d M ar italS t atu sT ax ableIne Chea t1 Y es S i n gl e 12 5 K No2 No M arr i ed 10 0 K No3 No S i n gl e 70K No4 Y es M arr i ed 12 0 K No5 No Di v orc ed 95K Y es6 No M arr i ed 60K No7 Y es Di v orc ed 22 0 K No8 No S i n gl e 85K Y es9 No M arr i ed 75K No10 No S i n gl e 90K Y es10Refund Yes No 選擇 TaxInc為最優(yōu)分割屬性: 4. samples = { 3,8,10 } attribute_list = { TaxInc } NO MarSt Single Married Divorced TaxInc 80K = 80K YES NO ? 問(wèn)題 1:分類從 哪個(gè) 屬性開(kāi)始? ——選擇 分裂變量的標(biāo)準(zhǔn) ? 問(wèn)題 2:為什么 工資 以 80為界限? ——找到被選擇的變量的 分裂點(diǎn)的標(biāo)準(zhǔn) (連續(xù)變量情況) 分類劃分的優(yōu)劣用 不純性度量 來(lái)分析。 決策樹(shù)根據(jù)所選取的屬性是數(shù)值型還是離散型,每次將數(shù)據(jù)劃分成兩個(gè)或 n個(gè)子集。如果使用的輸入維 是離散的,取 n個(gè)可能的值之一,則該節(jié)點(diǎn)檢測(cè) 的值,并取相應(yīng)的分支,實(shí)現(xiàn)一個(gè) n路劃分。通過(guò)屬性選擇度量,選擇出最好的將樣本分類的屬性。對(duì)每個(gè)輸入使用由該區(qū)域的訓(xùn)練數(shù)據(jù)計(jì)算得到的對(duì)應(yīng)的局部模型。決策樹(shù) Decision Tree 決策樹(shù)算法是一種歸納分類算法 ,它通過(guò)對(duì)訓(xùn)練集的學(xué)習(xí) ,挖掘出有用的規(guī)則 ,用于對(duì)新集進(jìn)行預(yù)測(cè) 。 決策樹(shù)歸納的基本算法是貪心算法,自頂向下遞歸方式構(gòu)造決策樹(shù)。 簡(jiǎn)介 決策樹(shù)的結(jié)構(gòu) 決策樹(shù)算法以樹(shù)狀結(jié)構(gòu)表示數(shù)據(jù)分類的結(jié)果。 決策點(diǎn)具有離散分支,而數(shù)值輸入應(yīng)當(dāng)離散化。然后使用對(duì)應(yīng)的子集遞歸地進(jìn)行劃分,直到不需要?jiǎng)澐?,此時(shí),創(chuàng)建一個(gè)樹(shù)葉節(jié)點(diǎn)標(biāo)記它。如果對(duì)于所有分支,劃分后選擇相同分支的所有實(shí)例都屬于相同的類,則這個(gè)劃分是純的。 一種度量不純性的可能函數(shù)是熵函數(shù) ( entropy)。 ? 選擇一個(gè)屬性劃分?jǐn)?shù)據(jù),使得子女節(jié)點(diǎn)上數(shù)據(jù)的類值(例中 “yes” 或 “no” )大部分都相同(低無(wú)序性)。這相當(dāng)于降低系統(tǒng)的熵。 ? ( 6)以此類推,遞歸,繼續(xù)劃分 ? 遞歸繼續(xù)選擇 ? 當(dāng)天氣為晴時(shí),所達(dá)到的節(jié)點(diǎn)上的可 能的深一層的分支 ? 除天氣外,其他屬性產(chǎn)生的信息增益 分別為: gain(temperature)= gain(humidity)= gain(windy)= ? 繼續(xù)再選擇濕度 (humidity)作為劃分屬性 天氣,晴分支 純子節(jié)點(diǎn) ? ( 6)以此類推,遞歸,繼續(xù)劃分 ? 天氣,晴分支,氣溫, gain(temperature)=位 ? 天氣,晴分支,濕度, gain(humidity)= (純的子女節(jié)點(diǎn)) ? 天氣,晴分支,有風(fēng), gain(windy)= ? 天氣,雨分支,氣溫, gain(temperature)=位 ? 天氣,雨分支,濕度, gain(humidi