【正文】
fair noyouth high no excellent nomiddle_aged high no fair yessenior medium no fair yessenior low yes fair yessenior low yes excellent nomiddle_aged low yes excellent yesyouth medium no fair noyouth low yes fair yessenior medium yes fair yesyouth medium yes excellent yesmiddle_aged medium no excellent yesmiddle_aged high yes fair yessenior medium no excellent no判定歸納樹(shù)算法示例 (1)n 對(duì)于上述數(shù)據(jù),可以略過(guò)步驟 1, 2n 步驟 3,計(jì)算基于熵的度量 —— 信息增益,作為樣本劃分的根據(jù)q Gain(age)=q Gain(ine)=q Gain(student)=q Gain(credit_rating)=n 然后,對(duì)測(cè)試屬性每個(gè)已知的值,創(chuàng)建一個(gè)分支,并以此劃分樣本,得到第一次劃分判定歸納樹(shù)算法示例 (2)判定歸納樹(shù)算法示例 (3)age?overcaststudent? credit rating?no yes fairexcellentyouth seniorno noyes yesyesMiddle aged防止分類(lèi)中的過(guò)分適應(yīng)n 產(chǎn)生的決策樹(shù)會(huì)出現(xiàn)過(guò)分適應(yīng)數(shù)據(jù)的問(wèn)題q 由于數(shù)據(jù)中的噪聲和孤立點(diǎn),許多分枝反應(yīng)的是訓(xùn)練數(shù)據(jù)中的異常q 對(duì)新樣本的判定很不精確n 防止過(guò)分適應(yīng)的兩種方法q 先剪枝:通過(guò)提前停止樹(shù)的構(gòu)造 —— 如果在一個(gè)節(jié)點(diǎn)劃分樣本將導(dǎo)致低于預(yù)定義臨界值的分裂( . 使用信息增益度量)n 選擇一個(gè)合適的臨界值往往很困難q 后剪枝:由 “完全生長(zhǎng) ”的樹(shù)剪去分枝 —— 對(duì)于樹(shù)中的每個(gè)非樹(shù)葉節(jié)點(diǎn),計(jì)算該節(jié)點(diǎn)上的子樹(shù)被剪枝可能出現(xiàn)的期望錯(cuò)誤率n 使用一個(gè)獨(dú)立的測(cè)試集來(lái)評(píng)估每顆樹(shù)的準(zhǔn)確率,就能得到具有最小期望錯(cuò)誤率的決策樹(shù)由決策樹(shù)提取分類(lèi)規(guī)則n 可以提取決策樹(shù)表示的知識(shí),并以 IFTHEN形式的分類(lèi)規(guī)則表示n 對(duì)從根到樹(shù)葉的每條路徑創(chuàng)建一個(gè)規(guī)則n 沿著給定路徑上的每個(gè)屬性 值對(duì)形成規(guī)則前件( IF部分)的一個(gè)合取項(xiàng)n 葉節(jié)點(diǎn)包含類(lèi)預(yù)測(cè),形成規(guī)則后件( THEN部分)n IFTHEN規(guī)則易于理解,尤其樹(shù)很大時(shí)n 示例:n IF age = “youth” AND student = “no” THEN buys_puter = “no”n IF age = “youth” AND student = “yes” THEN buys_puter = “yes”n IF age = “middle_aged” THEN buys_puter = “yes”n IF age = “senior” AND credit_rating = “excellent” THEN buys_puter = “yes”n IF age = “senior” AND credit_r