【正文】
3. samples = {2,3,5,6,8,9,10 } attribute_list = { MarSt, TaxInc } 例子:算法過程 Ti d Re f un d M ar italS t atu sT ax ableIne Chea t1 Y es S i n gl e 12 5 K No2 No M arr i ed 10 0 K No3 No S i n gl e 70K No4 Y es M arr i ed 12 0 K No5 No Di v orc ed 95K Y es6 No M arr i ed 60K No7 Y es Di v orc ed 22 0 K No8 No S i n gl e 85K Y es9 No M arr i ed 75K No10 No S i n gl e 90K Y es10Refund Yes No samples中所有樣本屬于同一個(gè)類 Cheat=No 2. samples = {1,4,7 } attribute_list = { MarSt, TaxInc } NO 例子:算法過程 Ti d Re f un d M ar italS t atu sT ax ableIne Chea t1 Y es S i n gl e 12 5 K No2 No M arr i ed 10 0 K No3 No S i n gl e 70K No4 Y es M arr i ed 12 0 K No5 No Di v orc ed 95K Y es6 No M arr i ed 60K No7 Y es Di v orc ed 22 0 K No8 No S i n gl e 85K Y es9 No M arr i ed 75K No10 No S i n gl e 90K Y es10Refund Yes No 假設(shè)選擇 MarSt為最優(yōu)分割屬性: 3. samples = { 2,3,5,6,8,9,10 } attribute_list = { MarSt, TaxInc } NO MarSt Single Married Divorced 4. samples = { 3,8,10 }, attribute_list = {TaxInc} 5. samples = { 5,7 }, attribute_list = {TaxInc} 6. samples = { 2,9 }, attribute_list = {TaxInc} 例子:算法過程 Ti d Re f un d M ar italS t atu sT ax ableIne Chea t1 Y es S i n gl e 12 5 K No2 No M arr i ed 10 0 K No3 No S i n gl e 70K No4 Y es M arr i ed 12 0 K No5 No Di v orc ed 95K Y es6 No M arr i ed 60K No7 Y es Di v orc ed 22 0 K No8 No S i n gl e 85K Y es9 No M arr i ed 75K No10 No S i n gl e 90K Y es10Refund Yes No 選擇 TaxInc為最優(yōu)分割屬性: 4. samples = { 3,8,10 } attribute_list = { TaxInc } NO MarSt Single Married Divorced TaxInc 80K = 80K YES NO ? 問題 1:分類從 哪個(gè) 屬性開始? ——選擇 分裂變量的標(biāo)準(zhǔn) ? 問題 2:為什么 工資 以 80為界限? ——找到被選擇的變量的 分裂點(diǎn)的標(biāo)準(zhǔn) (連續(xù)變量情況) 分類劃分的優(yōu)劣用 不純性度量 來分析。如果使用的輸入維 是離散的,取 n個(gè)可能的值之一,則該節(jié)點(diǎn)檢測 的值,并取相應(yīng)的分支,實(shí)現(xiàn)一個(gè) n路劃分。對每個(gè)輸入使用由該區(qū)域的訓(xùn)練數(shù)據(jù)計(jì)算得到的對應(yīng)的局部模型。 決策樹歸納的基本算法是貪心算法,自頂向下遞歸方式構(gòu)造決策樹。 決策點(diǎn)具有離散分支,而數(shù)值輸入應(yīng)當(dāng)離散化。如果對于所有分支,劃分后選擇相同分支的所有實(shí)例都屬于相同的類,則這個(gè)劃分是純的。 ? 選擇一個(gè)屬性劃分?jǐn)?shù)據(jù),使得子女節(jié)點(diǎn)上數(shù)據(jù)的類值(例中 “yes” 或 “no” )大部分都相同(低無序性)。 ? ( 6)以此類推,遞歸,繼續(xù)劃分 ? 遞歸繼續(xù)選擇 ? 當(dāng)天氣為晴時(shí),所達(dá)到的節(jié)點(diǎn)上的可 能的深一層的分支 ? 除天氣外,其他屬性產(chǎn)生的信息增益 分別為: gain(temperature)= gain(humidity)= gain(windy)= ? 繼續(xù)再選擇濕度 (humidity)作為劃分屬性 天氣,晴分支 純子節(jié)點(diǎn) ? ( 6)以此類推,遞歸,繼續(xù)劃分 ? 天氣,晴分支,氣溫, gain(temperature)=位 ? 天氣,晴分支,濕度, gain(humidity)= (純的子女節(jié)點(diǎn)) ? 天氣,晴分支,有風(fēng)