正文內(nèi)容

決策樹與模型評價基本概念-資料下載頁

2025-01-14 19:40本頁面

　　

【正文】，針鼴誤分為非哺乳動物 – 相反，一個更簡單的決策樹 2，具有較低的檢驗誤差（10%），盡管它的訓(xùn)練誤差較高，為 20% – 決策樹 1過分擬合了訓(xùn)練數(shù)據(jù)。因為屬性測試條件 4條腿具有欺騙性，它擬合了誤標記的訓(xùn)練紀錄，導(dǎo)致了對檢驗集中記錄的誤分類噪聲導(dǎo)致的過分擬合（例子）噪聲導(dǎo)致決策邊界的改變缺乏代表性樣本導(dǎo)致的過分擬合 ? 根據(jù)少量訓(xùn)練記錄做出分類決策的模型也容易受過分擬合的影響。 ? 由于訓(xùn)練數(shù)據(jù)缺乏具有代表性的樣本，在沒有多少訓(xùn)練記錄的情況下，學(xué)習(xí)算法仍然細化模型就會產(chǎn)生過分擬合。 ? 例子：五個訓(xùn)練記錄，所有的記錄都是正確標記的，對應(yīng)的決策樹盡管訓(xùn)練誤差為 0，但檢驗誤差高達 30% ? 人、大象和海豚被誤分類，因為決策樹把恒溫但不冬眠的動物分為非哺乳動物。決策樹做出這樣的分類決策是因為只有一個訓(xùn)練記錄（鷹）具有這些特征。 ? 這個例子清楚的表明，當決策樹的葉結(jié)點沒有足夠的代表性樣本時，很可能做出錯誤的預(yù)測。過分擬合與多重比較 ? 模型的過分擬合可能出現(xiàn)在使用多重比較過程的算法中 ? 多重比較的例子：考慮未來十個交易日股市是升還是降 – 一個人十次猜測至少正確預(yù)測八次的概率是： – 假設(shè)從 50個股票分析家中選擇一個投資顧問，策略是選擇在未來的十個交易日做出最多正確預(yù)測的分析家。 – 該策略的缺點是，即使所有的分析家都用隨機猜測做出預(yù)測，至少有一個分析家做出八次正確預(yù)測的概率是：1（） 50=，這一結(jié)果相當高。 ? 多重比較過程與模型過分擬合有什么關(guān)系？ – 在決策樹增長過程中，可以進行多種測試，以確定哪個屬性能夠最好的劃分訓(xùn)練數(shù)據(jù)。 – 在這種情況下，算法實際上是使用多重比較過程來決定是否需要擴展決策樹。 – 當候選屬性多，訓(xùn)練記錄數(shù)少時，這種影響就變得更加明顯。泛化誤差估計 ? 過分擬合的主要原因一直是個爭辯的話題，但大家還是普遍同意模型的復(fù)雜度對模型的過分擬合有影響。 ? 如何確定正確的模型復(fù)雜度？理想的復(fù)雜度是能產(chǎn)生最低泛化誤差的模型的復(fù)雜度。 ? 估計泛化誤差的方法 – 使用再代入估計。用訓(xùn)練誤差提供對泛化誤差的樂觀估計 – 結(jié)合模型復(fù)雜度 – 估計統(tǒng)計上界 – 使用確定集結(jié)合模型復(fù)雜度 ? 奧卡姆剃刀（ Occam39。s Razor ）：給定兩個具有相同泛化誤差的模型，較簡單的模型比復(fù)雜的模型更可取 ? 因為復(fù)雜模型中的附加成分很大程度上是偶然的擬合。因此，分類模型評估應(yīng)把模型復(fù)雜度考慮進去 ? 方法：悲觀誤差估計、最小描述長度原則（ MDL）悲觀誤差評估 ? 悲觀誤差估計公式： ? Q(ti)為每個結(jié)點 ti的罰分， e(T)為訓(xùn)練樣本集的錯分樣本數(shù)， Nt為訓(xùn)練樣本總數(shù)， k為葉結(jié)點數(shù)。 tkiikiiiNTQTetntQteTe)()()()]()([)(39。11???????? ? 例子 1：如果罰分等于，訓(xùn)練樣本集中樣本數(shù)為 24個，我們構(gòu)建了 7個葉結(jié)點的決策樹，訓(xùn)練樣本集的錯分樣本數(shù)為 4 ? 根據(jù)公式我們得 e’(T)=(4+7*)/24= ? 例子 2：如果罰分等于，訓(xùn)練樣本集中樣本數(shù)為 24個，我們構(gòu)建了 4個葉結(jié)點的決策樹，訓(xùn)練樣本集的錯分樣本數(shù)為 6 ? 根據(jù)公式我們得 e’(T)=(6+4*)/24= ? 當罰分等于 1時，例 1， 2為， ? ，結(jié)點就應(yīng)當擴充，因為擴展一個結(jié)點等價于總誤差增加，代價比犯一個訓(xùn)練錯誤小最小描述長度 (MDL) ? Cost(Model,Data) = Cost(Data|Model) + Cost(Model) – Cost 是傳輸總代價 . – 最小化 cost值 . ? Cost(Data|Model) 是誤分類記錄編碼的開銷 . ? Cost(Model) 是模型編碼的開銷 . A BA?B?C?1001Y e s NoB 1 B 2C 1 C 2X yX 1 1X 2 0X 3 0X 4 1… …X n 1X yX 1 ?X 2 ?X 3 ?X 4 ?… …X n ?使用確認集 ? 該方法中，不是用訓(xùn)練集估計泛化誤差，而是把原始的訓(xùn)練數(shù)據(jù)集分為兩個較小的子集，一個子集用于訓(xùn)練，而另一個稱為確認集，用于估計泛化誤差。 ? 該方法為評估模型在未知樣本上的性能提供了較好辦法。處理決策樹中的過分擬合 ? 先剪枝 (Early Stopping Rule) – 樹增長算法在產(chǎn)生完全擬合整個訓(xùn)練數(shù)據(jù)集的之前就停止決策樹的生長 – 為了做到這一點，需要采用更具限制性的結(jié)束條件 : ? 當結(jié)點的記錄數(shù)少于一定閾值，則停止生長 ?當不純性度量的增益低于某個確定的閾值時，則停止生長 (., information gain). – 缺點：很難為提前終止選取正確的閾值 : ? 閾值太高，導(dǎo)致擬合不足 ?閾值太低，導(dǎo)致不能充分解決過分擬合的問題。處理決策樹中的過分擬合 … ? 后剪枝 – 在該方法中，初始決策樹按照最大規(guī)模生長，然后進行剪枝的步驟，按照自底向上的方式修剪完全增長的決策樹。 – 修剪有兩種做法 : ? 用新的葉結(jié)點替換子樹，該葉結(jié)點的類標號由子樹下記錄中的多數(shù)類確定 ?用子樹中最常用的分支代替子樹處理決策樹中的過分擬合 … – 與先剪枝相比，后剪枝技術(shù)傾向于產(chǎn)生更好的結(jié)果。 – 因為不像先剪枝，后剪枝是根據(jù)完全增長的決策樹作出的剪枝決策，先剪枝則可能過早終止決策樹的生長。 – 然而，對于后剪枝，當子樹被剪掉后，生長完全決策樹的額外開銷就被浪費了。不平衡類問題 PREDICTED CLASS ACTUAL CLASS Class=Yes Class=No Class=Yes a (TP) b (FN) Class=No c (FP) d (TN) FNFPTNTPTNTPdcbada?????????? Accuracy ）準確率（準確率的缺點 ? 考慮 2類問題 – 類 0的樣本數(shù) = 9990 – 類 1的樣本數(shù) = 10 ? 如果模型預(yù)測所有的樣本為類 0, 準確率為 9990/10000 = % – 準確率的值具有欺騙性 – 模型并沒有分對類 1的任何樣本度量 TPT P RFPF P RFNF N RT P F NP r e c is ion ( p) R e c a l l ( r )2 2 *F 1 F m e a sur e ( F )2*T P FNTNT N RT N FPT N FPTPT P FPTPT P FNrp T Pr p T P T P FN??????????????? ? ?真正率真負率假正率假負率精度召回率度量? 精度確定在分類器斷言為正類的那部分記錄中實際為正類的記錄所占的比例。精度越高，分類器的假正類錯誤率就越低。 ? 召回率度量被分類器正確預(yù)測的正樣本的比例。具有高召回率的分類器很少將正樣本誤分為負樣本。 ROC (Receiver Operating Characteristic) ? ROC曲線是顯示分類器真正率（ TPR）和假正率（ FPR）之間折中的一種圖形化方法。 ? ROC 曲線上有幾個關(guān)鍵點，它們有公認的解釋： – （ TPR=0， FPR=0）：把每個實例都預(yù)測為負類的模型 – （ TPR=1， FPR=1）：把每個實例都預(yù)測為正類的模型 – （ TPR=1， FPR=0）：理想模型使用 ROC曲線比較模型 ? 沒有哪個模型能夠壓倒對方 ? FRR,M1 較好 ? FRR, M2較好 ? ROC曲線下方的面積 ? 理想情況 : ? 面積 = 1 ? 隨機猜測 : ? 面積 = 怎樣產(chǎn)生 ROC曲線 Class + + + + + P TP 5 4 4 3 3 3 3 2 2 1 0 FP 5 5 4 4 3 2 1 1 0 0 0 TN 0 0 1 1 2 3 4 4 5 5 5 FN 0 1 1 2 2 2 2 3 3 4 5 TPR 1 0 FPR 1 1 0 .4 0 0 0 Threshold = ROC 曲線 :

點擊復(fù)制文檔內(nèi)容

規(guī)章制度相關(guān)推薦

決策樹例題-資料下載頁

【總結(jié)】風(fēng)險型決策?最大概率法、收益期望值法、決策樹法★決策樹法?將損益期望值法中的各個方案的情況用一個概率樹來表示，就形成了決策樹。它是模擬樹木生長的過程，從出發(fā)點開始不斷分枝來表示所分析問題的各種發(fā)展可能性，并以各分枝的損益期望值中的最大者作為選擇的依據(jù)。?決策樹的畫法、決策樹的例子?例題8、例題9、例題10決

2025-01-13 19:35

決策樹簡介-資料下載頁

【總結(jié)】決策樹第十組：郭浩韓學(xué)成何珺何軍黃安迪§數(shù)據(jù)分類介紹分類是數(shù)據(jù)挖掘的一個重要課題,它的目的是：構(gòu)造一個分類函數(shù)或分類模型,該模型能把數(shù)據(jù)庫中的數(shù)據(jù)項映射到給定類別中的某一個。數(shù)據(jù)分類的過程一般來說主要包含兩個步驟

2025-01-13 19:37

決策樹技術(shù)-資料下載頁

【總結(jié)】決策樹技術(shù)DecisionTrees組員：賈小彥鄧蓓蓓戴維內(nèi)容提要?簡介?決策樹基本概念?決策樹的優(yōu)缺點?經(jīng)典算法簡介?決策樹和決策規(guī)則是解決實際應(yīng)用中分類問題的數(shù)據(jù)挖掘方法。?一般來說，分類是把數(shù)據(jù)項映射到其中一個事先定義的類中的這樣一個學(xué)習(xí)函數(shù)的過程。由一組輸入的屬性值向量(

2025-01-12 21:57

決策樹講義-資料下載頁

【總結(jié)】第6章決策樹主要內(nèi)容決策樹基本概念決策樹算法決策樹研究問題主要參考文獻主要內(nèi)容決策樹基本概念決策樹算法決策樹研究問題主要參考文獻第6章決策樹決策樹基本概念關(guān)于分類問題分類（Classification）任務(wù)就是通過學(xué)習(xí)獲得一個目標函

2025-01-13 19:48

決策樹學(xué)習(xí)-資料下載頁

【總結(jié)】一.示例學(xué)習(xí)示例學(xué)習(xí)也稱實例學(xué)習(xí),它是一種歸納學(xué)習(xí)。示例學(xué)習(xí)是從若干實例(包括正例和反例)中歸納出一般概念或規(guī)則的學(xué)習(xí)方法。第一個拱橋的語義網(wǎng)絡(luò)第二個拱橋的語義網(wǎng)絡(luò)學(xué)習(xí)程序歸納出的語義網(wǎng)絡(luò)拱橋概念的語義網(wǎng)絡(luò)例1假設(shè)示例空間中有橋牌中"同花"概念的兩個示例:示例1：花色(c1，梅花)∧花

2025-01-13 18:39

5決策樹-資料下載頁

【總結(jié)】1決策樹(DecisionTree)2023/1/292?1、分類的意義數(shù)據(jù)庫了解類別屬性與特征預(yù)測分類模型—決策樹分類模型—聚類一、分類(Classification)2023/1/293數(shù)據(jù)庫分類標記性別年齡婚姻否是否是

2025-01-14 06:46

決策樹建模-資料下載頁

【總結(jié)】第四章決策樹建模第十組：郭浩韓學(xué)成何珺何軍黃安迪§數(shù)據(jù)分類介紹分類是數(shù)據(jù)挖掘的一個重要課題,它的目的是：構(gòu)造一個分類函數(shù)或分類模型,該模型能把數(shù)據(jù)庫中的數(shù)據(jù)項映射到給定類別中的某一個。數(shù)據(jù)分類的過程一般來說主要包含兩個步驟

2025-01-13 19:37

決策樹(完整)-資料下載頁

【總結(jié)】《機器學(xué)習(xí)》周志華?第4章決策樹?第5章神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)?第6章支持向量機?第8章集成學(xué)習(xí)?第9章聚類?關(guān)聯(lián)規(guī)則學(xué)習(xí)第4章決策樹根據(jù)訓(xùn)練數(shù)據(jù)是否擁有標記信息學(xué)習(xí)任務(wù)決策樹（decisiontree）模型常常用來解決分類和回歸問

2025-01-22 17:54

決策樹課件-資料下載頁

【總結(jié)】Clementine的決策樹1主要內(nèi)容n決策樹算法概述n從學(xué)習(xí)角度看，決策樹屬有指導(dǎo)學(xué)習(xí)算法n目標：用于分類和回歸n分類回歸樹及應(yīng)用nCHAID算法及應(yīng)用nQUEST算法及應(yīng)用n模型的對比分析2決策樹算法概述：基本概念n得名其分析結(jié)論的展示方式類似一棵倒置的樹?根節(jié)點?葉節(jié)點?中間節(jié)點?2叉樹和多叉樹3決策樹算法概述

2025-01-12 21:58

相親、交友與決策樹-資料下載頁

【總結(jié)】決策樹學(xué)習(xí)方法初探——一個初學(xué)者的視角從我國的一個社會問題說起?這是一個–愁壞父親母親–捧紅了江蘇衛(wèi)視–卻樂壞了馬云（和寶強）–的問題從我國的一個社會問題說起?剩男剩女問題引爆的商機–雙十一的購物狂歡–交友婚

2025-03-04 13:15

決策樹算法-資料下載頁

【總結(jié)】第七章決策樹和決策規(guī)則本章目標?分析解決分類問題的基于邏輯的方法的特性.?描述決策樹和決策規(guī)則在最終分類模型中的表述之間的區(qū)別.?介紹.?了解采用修剪方法降低決策樹和決策規(guī)則的復(fù)雜度.?決策樹和決策規(guī)則是解決實際應(yīng)用中分類問題的數(shù)據(jù)挖掘方法。?一般來說，分類是把數(shù)據(jù)項映射到其中一個事先定義的類中的這樣一

2025-01-13 19:47

決策分析基本概念-資料下載頁

【總結(jié)】第五章決策分析—基本概念5/4/20231上海交通大學(xué)繼續(xù)教育學(xué)院本章重點1、什么是經(jīng)濟決策？2、經(jīng)濟決策如何分類？3、什么是決策分析？4、進行決策分析的一般程序怎樣？5、在決策分析過程中需要研究哪些成本特性、考慮哪些決策成本概念？

2025-04-06 14:19

1決策的基本概念-資料下載頁

【總結(jié)】1決策的基本概念?決策的定義?決策論的發(fā)展簡史?決策論與其他學(xué)科的關(guān)系?決策問題的基本特點與要素?決策問題的分類?決策分析的步驟?例題:油井鉆探問題決策的定義?決策:decisionmaking?決策論:decisiontheory?決策分析:decisi

2025-01-18 14:41

圖與網(wǎng)絡(luò)模型的基本概念-資料下載頁

【總結(jié)】第十一章圖與網(wǎng)絡(luò)模型§1圖與網(wǎng)絡(luò)的基本概念§2最短路問題§3最小生成樹問題§4最大流問題§5最小費用最大流問題1§1圖與網(wǎng)絡(luò)的基本概念圖論中圖是由點和邊構(gòu)成，可以反映一些對象之間的關(guān)系。例如：在一個人群中，對相互認識這個關(guān)系

2025-01-18 11:58

不良貸款分析決策樹-決策樹分析方法運用-資料下載頁

【總結(jié)】不良貸款分析決策樹─決策樹分析方法運用CBRC─ADB目的?通過構(gòu)造對不良貸款數(shù)量分析的決策樹，掌握決策樹分析方法?演示的內(nèi)容是對決策樹方法論的介紹，練習(xí)者在演練中注意對方法的總結(jié)，以便推而廣之。計算指標是加深認識的手段，進一步的研究可增加更多的分析指標和更復(fù)雜的計算指標方法?

2025-02-16 16:57