【正文】
iu m 75K No 10 No S m a ll 90K Yes 10 T i d A t t r i b 1 A t t r i b 2 A t t r i b 3 Class 11 No S m a ll 55K ? 12 Y e s Me d iu m 80K ? 13 Y e s L a rg e 110K ? 14 No S m a ll 95K ? 15 No L a rg e 67K ? 10 T e s t S e tL e a r n i n ga l g o r i t h mT r a i n i n g S e t訓(xùn)練集 檢驗集 學(xué)習(xí)模型 學(xué)習(xí)模型 學(xué)習(xí)算法 模型 分類技術(shù) ? 基于決策樹的方法 Decision Tree based Methods ? 基于規(guī)則的方法 Rulebased Methods ? 基于記憶的推理 Memory based reasoning ? 神經(jīng)網(wǎng)絡(luò) Neural Networks ? 樸素貝葉斯和貝葉斯信念網(wǎng)絡(luò) Na239。Data Mining 第四章 分類:基本概念、決策樹和模型評估 預(yù)備知識 解決分類問題的一般方法 分類例子 ?預(yù)測癌細(xì)胞是良性還是惡性 ?將信用卡交易分為合法和欺詐 ?…… 分類:定義 ? 給定一個記錄集 – 每個記錄包含一個屬性集,通常最后一個屬性是該記錄的分類( class )屬性 . ? 目標(biāo):找到一個模型(從其余屬性值到分類屬性的轉(zhuǎn)換函數(shù)),實現(xiàn)對未知分類的記錄進行盡可能精確地分類。ve Bayes and Bayesian Belief Networks ? 支持向量機 Support Vector Machines 決策樹定義 ?決策樹是由結(jié)點和有向邊組成的層次結(jié)構(gòu)。并對每個子集進行遞歸分類。 選擇最佳劃分的度量 ?選擇最佳劃分的度量通常是根據(jù)劃分后 子女結(jié)點不純性的程度 : 不純的程度越低,類分布就越傾斜,劃分就越好。log2 (1/6) – (5/6) ?問題: – 整個訓(xùn)練樣本集的不純度是多少? – 如果對數(shù)據(jù)按 車型 屬性進行多路劃分,則 ?(車型 =運動)的結(jié)點的不純度是多少? ?(車型 =豪華)的結(jié)點的不純度是多少? ?(車型 =家用)的結(jié)點的不純度是多少? 計算不純性方法 2: 基尼指數(shù)( gini) ? 結(jié)點 t的吉尼指數(shù) : 其中, c為結(jié)點 t中不同類標(biāo)號個數(shù) p( i | t)是給定結(jié)點 t中屬于類 i的記錄所占比例,簡記為 pi ? 結(jié)點 Gini指數(shù)的取值范圍: – 當(dāng)記錄均勻分布于各分類時,將取得最大值 (1 1/nc) – 當(dāng)所有記錄都屬于同一分類時,將取得最小值 (0) 120( ) 1 [ ( | ) ]ciG ini t p i t???? ?例:分別計算 3個結(jié)點的 Gini指數(shù) P(C0) = 0/6 = 0 P(C1) = 6/6 = 1 Gini = 1 – P(C0)2 – P(C1)2 = 1 – 0 – 1 = 0 P(C0) = 1/6 P(C1) = 5/6 Gini = 1 – (1/6)2 – (5/6)2 = P(C0) = 2/6 P(C1) = 4/6 Gini = 1 – (2/6)2 – (4/6)2 = 120( ) 1 [ ( | ) ]ciG ini t p i t???? ?結(jié)點 N 1 計數(shù) 類 = C 0 0 類 = C 1 6 結(jié)點 N 2 計數(shù) 類 = C 0 1 類 = C 1 5 結(jié)點 N 3 計數(shù) 類 = C 0 3 類 = C 1 3 練習(xí) 2 ?已知:數(shù)據(jù)見課本表 47( P122 題 2),采用Gini指數(shù) 作為結(jié)點的不純度度量。 1()( ) ( )kjjjNvI pare nt I vN?? ? ? ? 決策樹歸納算法,通常就是選擇最大化增益Δ的測試條件,作為當(dāng)前節(jié)點的屬性測試條件。 – 如果一個屬性產(chǎn)生了大量的劃分,它的劃分信息SplitInfo將會很大,從而增益率降低。 ? 進一步優(yōu)化 :僅僅考慮位于具有不同類標(biāo)號的兩個相鄰記錄之間的候選劃分點( 5 80、 97),計算其 Gini指數(shù)。 – Classify():為葉子結(jié)點確定類標(biāo)號。 ?決策樹分類方法存在的問題(與模型復(fù)雜度相關(guān)) – 模型擬合不足 Underfitting ?當(dāng)模型過于簡單時,訓(xùn)練誤差和檢驗誤差都比較大 ?出現(xiàn)原因:模型尚未學(xué)習(xí)到數(shù)據(jù)的真實結(jié)構(gòu) – 模型過分?jǐn)M合 Overfitting ?樹的規(guī)模變得太大,即使訓(xùn)練誤差還在繼續(xù)降低,但是檢驗誤差開始增大 ?出現(xiàn)原因:模型過分?jǐn)M合了訓(xùn)練數(shù)據(jù)中的噪聲數(shù)據(jù),或者是訓(xùn)練數(shù)據(jù)缺乏代表性的數(shù)據(jù) 擬合不足 和 過分?jǐn)M合 Overfitting 訓(xùn)練誤差 檢驗誤差 Underfitting 噪聲導(dǎo)致過分?jǐn)M合 決策邊界被噪聲點扭曲 缺乏代表性樣本導(dǎo)致過分?jǐn)M合 處理決策樹歸納中的過分?jǐn)M合 ? 先剪枝(提前終止規(guī)則) – 樹增長算法在產(chǎn)生完全擬合整個訓(xùn)練數(shù)據(jù)集的完全增長的決策樹之前就停止決策樹的生長 – 方法:選取不純度增益的閾值 – 優(yōu)點:避免產(chǎn)生過分?jǐn)M合訓(xùn)練數(shù)據(jù)的過于復(fù)雜的子樹 – 缺點:閾值大小難于選取 ? 后剪枝 – 初始決策樹按照最大規(guī)模生長,然后進行剪枝,按照自底向上的方式修剪完全增長的決策樹 – 方法:用新結(jié)點代替子樹;用子樹的常用分支代替子樹 – 優(yōu)點:避免過早終止決策樹的生長 – 缺點:需要浪費額外開銷 演講完畢,謝謝觀看! 。 – 根據(jù)課本的決策樹模型,正常用戶訪問有何特征? 決策樹歸納的特點 ? 是一種構(gòu)建分類模型的非參數(shù)方法 ? 大多決策樹算法都采用啟發(fā)式的方法來簡化搜索 ? 決策樹容易構(gòu)建,對未知樣本的分類也快 ? 決策樹相對容易理解 ? 對于噪聲的干擾具有相當(dāng)好的魯棒性 ? 冗余屬性不會對決策樹的準(zhǔn)確率造成不利影響 ? 對于數(shù)據(jù)碎片問題,可以通過規(guī)定閾值來檢測和解決 ?