正文內容

6-決策樹分類(ppt96頁)(存儲版)

2025-02-04 02:32上一頁面

下一頁面

　　

【正文】，可依屬性 A 將 D 劃分為 v 個子集 { D1, D2, ..., Dj , ..., Dv } 其中， Dj為 D中的樣本子集，它們在 A上具有屬性值 aj 這些劃分將對應于從該節(jié)點 A出來的分支。數據集的信息熵假設按屬性 A 劃分 D 中的樣本，且屬性 A 根據訓練數據的觀測具有 v 個不同取值 { a1, a2, ..., aj , ..., av }。（ 1） D中包含有 50%的正例和 50%的負例。每個葉結點 (橢圓框 )代表一個類 : buys_puters=yes 或者 buys_puters=no ? 在這個例子中，特征向量為： (age, student, credit_rating, buys_puters) ? 被決策數據的格式為 : (age, student, credit_rating) ? 輸入新的被決策的記錄，可以預測該記錄隸屬于哪個類。決策樹分類王成（副教授）計算機科學與技術學院主要內容 ? 什么是決策樹 ? ID3算法 ? 算法改進 ? CART算法 Decision Tree Modeling 決策樹是一種簡單且應用廣泛的預測方法決策樹圖常見的決策樹形式每個內部結點 (方形框 )代表對某個屬性的一次檢測。信息熵 (Entropy) 對于任意一個隨機變量 X(比如奪冠球隊 )，它的熵定義為 ????XxxPxPXH )(l o g)()(變量的不確定性越大，熵也就越大，把它搞清楚所需要的信息量也就越大數據集的信息熵設數據集 D中有 m個不同的類 C1, C2, C3, ..., Cm 設 Ci,D是數據集 D中 Ci類的樣本的集合 , |D|和 |Ci,D|分別是 D和 Ci,D中的樣本個數 21( ) lo gmiiiInfo D p p??? ?其中 pi是數據集 D中任意樣本屬于類 Ci的概率，用估計 |||| ,DC Di數據集 D的信息熵 : 例 : 計算對下列數據集分類所需的信息熵年齡收入學生信用買了電腦 30 高否一般否 30 高否好否 3040 高否一般是 40 中等否一般是 40 低是一般是 40 低是好否 3040 低是好是 30 中否一般否 30 低是一般是 40 中是一般是 30 中是好是 3040 中否好是 3040 高是一般是 40 中否好否 22()5 5 9 9l o g l o g1 4 1 4 1 4 1 40 . 9 4 0In fo D? ? ??|D|=14 |C1,D|=5 |C2,D|=9 使用熵衡量數據純度假設有一個數據集合 D，其中只有兩個類，一個是正例類，一個是負例類計算 D中正例類和負例類在三種不同的組分下熵的變化情況。這正是決策樹學習中需要的。ve Bayes CART 改進 1：信息增益的問題假設按屬性 A 劃分 D 中的樣本，且屬性 A 根據訓練數據的觀測具有 v 個不同取值{ a1, a2, ..., aj , ..., av }。例如，不玩 () 表示到達“不玩”節(jié)點，其中不屬于“不玩” 改進 3：分類過程濕度玩 () 不玩 () =75 75 天氣晴 (天氣 =晴，溫度 =90，濕度 =缺失 ...) 對于任一實例，濕度 =75 的可能性是 ( + )，濕度 75 的可能性是 ( + ) 當濕度 =75 時，分類為玩的可能性 = 100% 分類為不玩的可能性 = 0 當濕度 75 時，分類為玩的可能性 = 分類為不玩的可能性 = 3/=88% 最終分類的概率分布為：玩 = 100% + 12% = 44% 不玩 = 88% = 56% 改進 4：學習過程中的過度擬合 ? 上述的決策樹算法增長樹的每一個分支的深度，直到恰好能對訓練樣例比較完美地分類。改進 4：預剪枝 { , }?age youthsenior??student ?cre it fair?yes yes no 剪枝處理 { }?ine medium?yes no 4 5 3 1 1 no 否否否否是是是是最直接的方法：事先限定樹的最大生長高度如果設為 3，則如圖剪枝改進 4：后剪枝訓練過程中允許對數據的過度擬合，然后再利用測試集對樹進行修剪樹葉用被替換的子樹最頻繁的類標號 { , }?age youthsenior??student ?cre it fair?yes yes no { }?ine medium?yes no 4 1 3 1 1 no ?credit fair?2 {}ine highyes/no 2 NO 是是是是是是否否否否否否改進 4：后剪枝在測試集上定義損失函數 C，我們的目標是通過剪枝使得在測試集上 C的值下降。 21( ) 1miiG in i D p??? ?其中，是中樣本屬于類的概率，并用估計。最大的分類可以達到 100%的準確，最大的回歸樹殘差為 0。歸納對于認識的發(fā)展和完善具有重要的意義。歸納可分為自頂向下，自底向上和雙向搜索三種方式。 F的每一個逼近都叫做一個假設。概念學習也可以看作是一個搜索問題的過程。若沒有更多的信息，只能假定對于未見實例最好的假設就是訓練數據最佳擬合的假設。 1988年， Utgoff 在 ID4基礎上提出了 ID5學習算法，進一步提高了效率。 ? 決策樹學習算法的最大優(yōu)點是，它可以自學習。如果判定是二元的，那么構造的將是一棵二叉樹，在樹中每回答一個問題就降到樹的下一層，這類樹一般稱為 CART（ Classification And Regression Tree）。本質上決策樹是通過一系列規(guī)則對數據進行分類的過程。他們需要更多的數據準備階段：如缺失值的處理、啞變量編碼。在用于預測時，重要的變量會漂浮到樹的頂端，這種方式產生的一個有用的結果是使得我們很容易就能發(fā)現(xiàn)哪些解釋變量最勝任預測工作。 ? 決策樹方法之所以經常被選用是因為它能理順一些可以理解的規(guī)則。 ? 設計分類原則，即數據的哪些屬性可以被用來分類，以及如何將該屬性量化。節(jié)點用于存貯信息或知識，分枝用于連接各個節(jié)點。決策樹的基本原理 ? 決策樹學習采用的是自頂向下的遞歸方法。 ? 從一類無序、無規(guī)則的事物（概念）中推理出決策樹表示的分類規(guī)則。這些計數存儲在混同矩陣（ Confusion Matrix）的表格中，二元分類問題混淆矩陣如下：實際的類類 1 f11 類 0 f01 f10 f00 類 1 類 0 預測的類準確率 =正確的預測數 /預測總數 =（ f11+f00） /(f11+f01+f10+f00) 差錯率 =錯誤的預測數 /預測總數 =（ f10+f01） /(f11+f01+f10+f00) 歸納學習假設機器學習的任務是在整個實例集合 X上確定與目標概念 c相同的假設。在表示中通常需要修改參數（如 a, b）。自頂向下法對可能的一般性描述集進行搜索，試圖找到一些滿足一定要求的最優(yōu)的描述。銳角三角形內角和等于 180度；鈍角三角形內角和等于 180度；三角形內角和直角三角形內角和等于 180度；等于 180度已知三角形 ABC， A角等于 76度， B角等于 89度，則其 C角等于 15度歸納學習由于依賴于檢驗數據，因此又稱為檢驗學習。歸納是從特殊到一般的過程。同樣，太小的決策樹僅含有很少的分支，會導致欠擬合。 3. 重復上述過程，直到所有的非葉節(jié)點 (除了根節(jié)點 )都被嘗試了。決策樹作出這樣的判斷是因為只有一個訓練樣例具有這些特點（鷹，恒溫，不冬眠）被劃分為非哺乳動物。 2()1 1 1 ( l o g )1 4 1 10P I DI n f o D???對屬性 PID劃分得到的信息增益最大，顯然，這種劃分對分類沒有用處。 jDD InfoA(D)越小，表示劃分的純度越高信息增益 ( ) ( ) ( )AGainA InfoD Info D??選擇具有最高信息增益 Gain(A) 的屬性 A作為分裂屬性按照能做 “ 最佳分類 ” 的屬性 A劃分，使完成樣本分類需要的信息量最小 max ()G a in Am in ()AIn fo D確定第一次分裂的屬性：按年齡劃分年齡收入學生信用買了電腦 30 高否一般否 30 高否好否 3040 高否一般是 40 中等否一般是 40 低是一般是 40 低是好否 3040 低是好是 30 中否一般否 30 低是一般是 40 中是一般是 30 中是好是 3040 中否好是 3040 高是一般是 40 中否好否年齡 30的有 5個 , 其中 3個為“否” 年齡 3040的有 4個 , 其中 0個為“否” 年齡 40的有 5個 , 其中 2個為“否” 6 )53log5352log52(145)40log4044log44(144)52log5253log53(145?????????? Info年齡 (D) Gain(年齡 ) = Info(D) Info年齡 (D) = = 確定第一次分裂的屬性：按收入劃分年齡收入學生信用買了電腦 30 高否

點擊復制文檔內容

公司管理相關推薦

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

6-決策樹分類(ppt96頁)(存儲版)

決策樹建模-資料下載頁

決策樹(完整)-資料下載頁

決策樹課件-資料下載頁

決策樹算法-資料下載頁

?；髽I(yè)隱患排查與治理(ppt96頁)-資料下載頁

pmc生產計劃與物料控制(ppt96頁)-資料下載頁

如何制定企業(yè)戰(zhàn)略規(guī)劃ppt(ppt96頁)-資料下載頁

pa團隊訓練(ppt96)-資料下載頁

決策樹網絡計劃動態(tài)規(guī)劃參考-資料下載頁

工程安全生產風險管理ppt96頁)-資料下載頁

成本控制與結構優(yōu)化(ppt96頁)-資料下載頁

4分類和預測(1)決策樹-資料下載頁

分類基本概念、決策樹與模型評估-資料下載頁

決策樹算法在商標分類中的應用-資料下載頁

【新版】風險管理例題六-決策樹法-資料下載頁

6-決策樹分類(ppt96頁)(更新版)

6-決策樹分類(ppt96頁)(專業(yè)版)

6-決策樹分類(ppt96頁)(留存版)

6-決策樹分類(ppt96頁)-文庫吧

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

6-決策樹分類(ppt96頁)(存儲版)

決策樹建模-資料下載頁

決策樹(完整)-資料下載頁

決策樹課件-資料下載頁

決策樹算法-資料下載頁

?；髽I(yè)隱患排查與治理(ppt96頁)-資料下載頁

pmc生產計劃與物料控制(ppt96頁)-資料下載頁

如何制定企業(yè)戰(zhàn)略規(guī)劃ppt(ppt96頁)-資料下載頁

pa團隊訓練(ppt96)-資料下載頁

決策樹網絡計劃動態(tài)規(guī)劃參考-資料下載頁

工程安全生產風險管理ppt96頁)-資料下載頁

成本控制與結構優(yōu)化(ppt96頁)-資料下載頁

4分類和預測(1)決策樹-資料下載頁

分類基本概念、決策樹與模型評估-資料下載頁

決策樹算法在商標分類中的應用-資料下載頁

【新版】風險管理例題六-決策樹法-資料下載頁

6-決策樹分類(ppt96頁)(更新版)

6-決策樹分類(ppt96頁)(專業(yè)版)

6-決策樹分類(ppt96頁)(留存版)

6-決策樹分類(ppt96頁)-文庫吧

?；髽I(yè)隱患排查與治理(ppt96頁)-資料下載頁

分類基本概念、決策樹與模型評估-資料下載頁