【正文】
? 說明:在有些情況下,可能需要確定多個最佳分割點。 ? 依此方式,計算其他分割點的 信息增益比 ,并從中選出具有 最大信息增益比 的分割點。 ? 例如:第一個分割點為 (23+25)/2=24,它可將數(shù)據(jù)集劃分為年齡在區(qū)間 [23, 24]的樣本和在區(qū)間 (24, 65]的樣本。 ? 對于連續(xù)值屬性 Ac, 假設在某個結(jié)點上的樣本數(shù)量為 total, 則 : ? (3) 從 total1個分割點中選擇最佳分割點 。 ? 當處理離散型屬性時 , ID3算法相同; ? 當處理連續(xù)型屬性時 , 性轉(zhuǎn)換成離散型屬性 。 ? 當處理離散型屬性時 , ID3算法相同; ? 當處理連續(xù)型屬性時 , 性轉(zhuǎn)換成離散型屬性 。 ? ID3算法只能對屬性值為離散型的數(shù)據(jù)集進行劃分(構(gòu)建決策樹),不能處理屬性值為連續(xù)型的數(shù)據(jù)集。 41 ID3算法 —— 示例( buy_puter) 42 ID3算法 ? ID3算法的 優(yōu)點 : ? ID3算法通常只需要測試一部分屬性就可完成對訓練數(shù)據(jù)集的分類。由于屬性 age有三個不同取值( youth, middle_aged, senior),因此可將數(shù)據(jù)集劃分成三個子集: X1, X2和 X3。由于屬性 age有三個不同取值( youth, middle_aged, senior),因此可將數(shù)據(jù)集劃分成三個子集: X1, X2和 X3。的數(shù)據(jù)樣本所占的比例中類別為表示在子集且,j121 / )(log), .. .,(CXnnpppnnIn fossjsjsmjjsjsmss ?????33 ID3算法 ? 計算屬性 Af劃分數(shù)據(jù)集時的 信息增益 : ? 屬性的信息增益值越大,表示它的區(qū)分度就越高,使用該屬性進行分類的效果就越好。 ? ID3算法只能處理屬性值為 離散型 的數(shù)據(jù)集的劃分。 21 決策樹 生成 目標:根據(jù)客戶的如下屬性, 是否有貸款 、 婚姻狀況 、 收入水平 ,來判斷客戶是否存在“金融欺騙”行為。 ? 例如:在文字識別中,經(jīng)常統(tǒng)計 識別正確率 ,以此來表示識別系統(tǒng)的性能。 16 分類過程的數(shù)據(jù)預處理 ? 在執(zhí)行分類過程之前,通過對數(shù)據(jù)進行預處理,可以提高分類過程的 準確性 、 有效性 和 可伸縮性 。 ? 常用的預處理操作包括: ? 數(shù)據(jù)清理 ? 相關分析 :數(shù)據(jù)中的有些屬性可能與當前任務不相關或者是冗余的,則可以刪除這些屬性以加快學習過程,并使學習結(jié)果更精確。 8 第一步 —— 建立模型 訓練數(shù)據(jù)集 N A M E RANK Y E A R S T E N U R E DM i k e A s s i s t a n t P r o f 3 noM a r y A s s i s t a n t P r o f 7 y e sB i l l P r o f e s s o r 2 y e sJ i m A s s o c i a t e P r o f 7 y e sD a v e A s s i s t a n t P r o f 6 noA n n e A s s o c i a t e P r o f 3 no分類模型 IF rank = ?professor‘ OR years 6 THEN tenured = ?yes‘ 分類規(guī)則 9 第二步 —— 使用模型 分類規(guī)則 測試數(shù)據(jù)集 N A M E RANK Y E A R S T E N U R E DT o m A s s is ta n t P r o f 2 noM e r lis a A s s o c ia te P r o f 7 noG e o r g e P r o fe s s o r 5 y e sJ o s e p h A s s is ta n t P r o f 7 y e s未知數(shù)據(jù) (Jeff, Professor, 4) Tenured? 10 第四章 分類和預測 ? 分類和預測的定義 ? 數(shù)據(jù)分類方法 ? 決策樹 ? 神經(jīng)網(wǎng)絡 ? SVM ? 貝葉斯網(wǎng)絡 ? 數(shù)據(jù)預測方法 ? 線性回歸 ? 非線性回歸 11 數(shù)據(jù)分類方法 ? 分類過程的數(shù)據(jù)預處理 ? 分類的評價標準 —— 性能度量 12 分類過程的數(shù)據(jù)預處理 ? 在執(zhí)行分類過程之前,通過對數(shù)據(jù)進行