freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

分類與決策樹-資料下載頁(yè)

2025-02-07 01:28本頁(yè)面
  

【正文】 后剪枝 訓(xùn)練集: 驗(yàn)證集: 訓(xùn)練后得到的決策樹: color x2 ? class red ? ? success blue ? ? failure blue ? ? failure color x2 ? class red ? ? failure red ? ? failure red ? ? failure blue ? ? success failure 驗(yàn)證集誤差: 4?1 最小誤差樹與最佳剪枝樹 三、產(chǎn)生分類規(guī)則并應(yīng)用 對(duì)從根到葉節(jié)點(diǎn)的每一條路徑創(chuàng)建一條規(guī)則: 沿著給定路徑上的每個(gè)劃分 用邏輯 AND形成分類規(guī)則的 IF部分,對(duì)應(yīng)葉節(jié)點(diǎn)的類別形成 THEN部分。 例如: R1: IF Own_home=yes THEN Class=yes R2: IF Own_home=No AND Has_job=Yes THEN Class=Yes R3: IF Own_home=No AND Has_job=No THEN Class=No Own_home Yes No No:6 Yes:3 Yes:6 No:0 has_job Yes No Yes:3 No:0 No:6 Yes:0 規(guī)則的覆蓋率 準(zhǔn)確率 四、問題討論 缺失值問題 決策樹葉子節(jié)點(diǎn)的準(zhǔn)確含義 決策樹方法的特點(diǎn)與改進(jìn) 目標(biāo)變量在數(shù)據(jù)集樣本與總體的分布不一致時(shí)如何處理? 變量值缺失問題 訓(xùn)練集中的輸入變量值缺失 新 數(shù)據(jù)中裂分 變量 值 缺失 使用代理劃分 假定 X* 是節(jié)點(diǎn) t的最佳劃分 s*的裂分變量 ,代理劃分 s(劃分 效果最接近s*)使用另外一個(gè)輸入變量 X。 如果要預(yù)測(cè)的新記錄在 X*上有缺失值而在 X變量上沒有缺失值 ,則預(yù)測(cè)將使用代理劃分 s。 問題討論 缺失值問題 決策樹葉子節(jié)點(diǎn)的準(zhǔn)確含義 決策樹方法的特點(diǎn)與改進(jìn) 目標(biāo)變量在數(shù)據(jù)集樣本與總體的分布不一致時(shí)如何處理? 決策樹葉子節(jié)點(diǎn)的準(zhǔn)確含義 Person Hair Length Weight Age Class Homer 0” 250 36 M Marge 10” 150 34 F Bart 2” 90 10 M Lisa 6” 78 8 F Maggie 4” 20 1 F Abe 1” 170 70 M Selma 8” 160 41 F Otto 10” 180 38 M Krusty 6” 200 45 M P(class=M)=100% P(class=F)=80% Weight = 165? yes no 問題討論 缺失值問題 決策樹葉子節(jié)點(diǎn)的準(zhǔn)確含義 決策樹方法的特點(diǎn)與改進(jìn) 目標(biāo)變量在數(shù)據(jù)集樣本與總體的分布不一致時(shí)如何處理? 決策樹分類方法的特點(diǎn) 優(yōu)點(diǎn): 1) 可以生成容易理解的規(guī)則; 2) 計(jì)算量相對(duì)來說不是很大; 3) 可以處理連續(xù)和離散變量; 4) 可以清晰的顯示哪些變量比較重要。 5) 對(duì)輸入變量的缺失 值、噪聲、冗余屬性不敏感 缺點(diǎn): 1) 對(duì)數(shù)值型變量需要進(jìn)行離散化或候選劃分較多; 2) 模型穩(wěn)定性受數(shù)據(jù)影響較大; 3)一般的算法一次只能根據(jù)一個(gè)變量來裂分 單屬性裂分 VS多屬性裂分 決策樹方法改進(jìn) 提高算法可伸縮性 ? RainForest(雨林)算法 – 在每個(gè)節(jié)點(diǎn),對(duì)每個(gè)屬性維護(hù)一個(gè) AVC(屬性 值,類標(biāo)號(hào)及其計(jì)數(shù))集,將其存于內(nèi)存中。 決策樹方法改進(jìn) ? 自助樂觀算法 ? 可視化挖掘 —基于感知的分類 (PBC)法 問題討論 缺失值問題 決策樹葉子節(jié)點(diǎn)的準(zhǔn)確含義 決策樹方法的特點(diǎn)與改進(jìn) 目標(biāo)變量在數(shù)據(jù)集樣本與總體的分布不一致時(shí)如何處理? 后驗(yàn)概率的調(diào)整 設(shè)置先驗(yàn)概率條件下 練習(xí) Customer ID Student Credit Rating Class: Buy PDA 1 No Fair No 2 No Excellent No 3 No Fair Yes 4 No Fair Yes 5 Yes Fair Yes 6 Yes Excellent No 7 Yes Excellent Yes 8 No Excellent No 以信息增益最大作為裂分目標(biāo), 哪個(gè)變量將是決策樹的根節(jié)點(diǎn)? log2(2/3) = , log2(1/3) = , log2(1/2) = 1, log2(3/5) = , Log2(2/5) = , log2(1/4) = 2, log2(3/4) = 58
點(diǎn)擊復(fù)制文檔內(nèi)容
醫(yī)療健康相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1