【正文】
作為根節(jié)點時系統(tǒng)的信息 增益和屬性熵,選擇增益比最大 的作為最終的根節(jié)點。 outlook temperature humidity windy play sunny hot high FALSE no sunny hot high TRUE no overcast hot high FALSE yes rainy mild high FALSE yes rainy cool normal FALSE yes rainy cool normal TRUE no overcast cool normal TRUE yes sunny mild high FALSE no sunny cool normal FALSE yes rainy mild normal FALSE yes sunny mild normal TRUE yes overcast mild high TRUE yes overcast hot normal FALSE yes rainy mild high TRUE no 只看最后一列我們得到打球的概率是 9/14,不打球的概率是 5/14。所謂信息量,就是熵 。 ? 增益( Information Gain): 在信息增益中,衡量標(biāo)準(zhǔn)是看特征能夠為分類系統(tǒng)帶來多少信息,帶來的信息越多,該特征越重要。 集成方法: 裝袋法和推舉法 。 斜決策樹: 斜決策樹適用于處理連續(xù)型數(shù)據(jù),決策準(zhǔn)則使用屬性的線性組合。 RainForest框架( 《 Rainforesta framework for fast decision tree construction of large datasets》 J Gehrke, R Ramakrishnan, V Ganti VLDB, 1998)實現(xiàn)了多種具體的 決策樹構(gòu)建方法,適用于大規(guī)模數(shù)據(jù)集的處理。 決策樹算法發(fā)展 二級存儲 : 針對不能完全放入內(nèi)存的數(shù)據(jù)集,在確保分類器算法效能的前提下 ,要做到數(shù)據(jù)集掃描遍數(shù)的極小化 。 :產(chǎn)生的分類規(guī)則易于理解,準(zhǔn)確率較高 。 ID3算法 : 《 Induction of decision trees》 JR Quinlan Machine learning, 1986 ID3算法的原型來自于 Hunt等人提出的概念學(xué)習(xí)系統(tǒng)( concept learning system, CLS) 。目前應(yīng)用在臨床決策、生產(chǎn)制造、文檔分析、生物信息學(xué)、空間數(shù)據(jù)建模等領(lǐng)域。 數(shù)據(jù): weka中的 weather數(shù)據(jù)(字符型、數(shù)值型) outlook,temperature,humidity,windy,play sunny,hot,high,FALSE,no sunny,hot,high,TRUE,no overcast,hot,high,FALSE,yes rainy,mild,high,FALSE,yes rainy,cool,normal,FALSE,yes