freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

決策樹(shù)和模型評(píng)估課件-資料下載頁(yè)

2025-01-14 19:41本頁(yè)面
  

【正文】 Lux ury }C1 2 2C2 1 5Gin i 0. 419CarTy peFa mi ly Sports Lux uryC1 1 2 1C2 4 1 1Gini 0. 393Multiway split Twoway split (find best partition of values) 基于 GINI指數(shù)的 連續(xù)屬性 劃分方法 ? 問(wèn)題:需要選擇候選劃分點(diǎn) ? 方法 1:窮舉法 – 將記錄中所有的屬性值作為候選劃分點(diǎn),計(jì)算每個(gè)候選的Gini指標(biāo),并從中選擇具有最小值的候選劃分點(diǎn)。 – 效率低 – 計(jì)算代價(jià)昂貴 TaxableIne 80K?Yes NoTi d 有房者 婚姻 狀況 收入 拖欠 貸款者 1 Yes Single 125K No 2 No Marr i ed 100K No 3 No Single 70K No 4 Yes Marr i ed 120K No 5 No Divor ce d 95K Yes 6 No Marr i ed 60K No 7 Yes Divor ce d 220K No 8 No Single 85K Yes 9 No Marr i ed 75K No 10 No Single 90K Yes 10 改進(jìn)方法: ? 根據(jù)劃分屬性,先對(duì)記錄進(jìn)行 排序 ? 從兩個(gè)相鄰的排過(guò)序的屬性值中 選擇中間值作為候選劃分點(diǎn)(5 6 7 80、 ……)。在計(jì)算相鄰結(jié)點(diǎn)時(shí)值,部分類分布保持不變,減少計(jì)算量。 ? 進(jìn)一步優(yōu)化 :僅僅考慮位于具有不同類標(biāo)號(hào)的兩個(gè)相鄰記錄之間的候選劃分點(diǎn)( 5 80、 97),計(jì)算其 Gini指數(shù)。 Ch eat No No No Yes Yes Yes No No No NoTa xab l e In c om e60 70 75 85 90 95 100 120 125 22055 65 72 80 87 92 97 110 122 172 230= = = = = = = = = = = Yes 0 3 0 3 0 3 0 3 1 2 2 1 3 0 3 0 3 0 3 0 3 0No 0 7 1 6 2 5 3 4 3 4 3 4 3 4 4 3 5 2 6 1 7 0G ini 候選劃分點(diǎn) 排序后的值 決策樹(shù)歸納的設(shè)計(jì)問(wèn)題 2: 如何停止分裂過(guò)程? ?停止方法: – 方法 1:當(dāng)所有記錄都屬于同一分類時(shí),停止劃分 – 方法 2:當(dāng)所有記錄都有相似(相同)屬性值時(shí),停止劃分 – 方法 3:提前終止 決策樹(shù)歸納算法 ?算法輸入:訓(xùn)練記錄集 E和屬性集 F。 ?算法輸出:構(gòu)造的決策樹(shù) ?主要函數(shù): – createNode():建立一個(gè)新結(jié)點(diǎn)。 結(jié)點(diǎn)要么表示一個(gè)測(cè)試條件 (),要么表示一個(gè)類標(biāo)號(hào) () – find_best_split():從剩余屬性中挑選一個(gè)屬性作為結(jié)點(diǎn)的測(cè)試條件。 – Classify():為葉子結(jié)點(diǎn)確定類標(biāo)號(hào)。 多數(shù)情況下, = – stopping_cond():測(cè)試是否應(yīng)該決策樹(shù)的增長(zhǎng) )|(argmaxitipTreeGrowth算法框架( P101) if stopping_cond(E,F)= true then left=createNode() =Classify() return leaf else root=createNode() =find_best_split(E,F) 令 V={v|v是 } for 每個(gè) v ∈ V do Ev={e|(e)=v 并且 e∈ E} child=TreeGrowth(Ev,F) 將 child作為 root派生結(jié)點(diǎn)加到樹(shù)中,將邊 (root?child)記為 v end for end if return root 案例學(xué)習(xí): Web機(jī)器人檢測(cè) ?閱讀課本例子,回答下列問(wèn)題: – 什么是 Web使用挖掘? – Web使用挖掘的數(shù)據(jù)源是什么?這些數(shù)據(jù)是如何得到的? – 為什么說(shuō)在 Web挖掘中,區(qū)分正常用戶訪問(wèn)和Web機(jī)器人訪問(wèn)時(shí)重要的? – 本例子中,決策樹(shù)模型是如何建立起來(lái)的?請(qǐng)你用 1分鐘長(zhǎng)度的時(shí)間,敘述其建立的過(guò)程。 – 根據(jù)課本的決策樹(shù)模型,正常用戶訪問(wèn)有何特征? 決策樹(shù)歸納的特點(diǎn) ? 是一種構(gòu)建分類模型的非參數(shù)方法 ? 大多決策樹(shù)算法都采用啟發(fā)式的方法來(lái)簡(jiǎn)化搜索 ? 決策樹(shù)容易構(gòu)建,對(duì)未知樣本的分類也快 ? 決策樹(shù)相對(duì)容易理解 ? 對(duì)于噪聲的干擾具有相當(dāng)好的魯棒性 ? 冗余屬性不會(huì)對(duì)決策樹(shù)的準(zhǔn)確率造成不利影響 ? 對(duì)于數(shù)據(jù)碎片問(wèn)題,可以通過(guò)規(guī)定閾值來(lái)檢測(cè)和解決 ? 可能會(huì)產(chǎn)生子樹(shù)在決策樹(shù)中重復(fù)出現(xiàn)的情況 ? 對(duì)于非水平和垂直的決策邊界問(wèn)題,可以使用斜決策樹(shù)或構(gòu)造歸納方法來(lái)解決。 ? 不純度度量方法的選擇對(duì)決策樹(shù)性能影響很小 ?分類模型的誤差: – 訓(xùn)練誤差:在訓(xùn)練記錄上誤分樣本的比例 – 泛化誤差(檢驗(yàn)誤差):模型在未知記錄上的期望誤差 ?一個(gè)好的分類模型,必須具有低的訓(xùn)練誤差和泛化誤差。 ?決策樹(shù)分類方法存在的問(wèn)題(與模型復(fù)雜度相關(guān)) – 模型擬合不足 Underfitting ?當(dāng)模型過(guò)于簡(jiǎn)單時(shí),訓(xùn)練誤差和檢驗(yàn)誤差都比較大 ?出現(xiàn)原因:模型尚未學(xué)習(xí)到數(shù)據(jù)的真實(shí)結(jié)構(gòu) – 模型過(guò)分?jǐn)M合 Overfitting ?樹(shù)的規(guī)模變得太大,即使訓(xùn)練誤差還在繼續(xù)降低,但是檢驗(yàn)誤差開(kāi)始增大 ?出現(xiàn)原因:模型過(guò)分?jǐn)M合了訓(xùn)練數(shù)據(jù)中的噪聲數(shù)據(jù),或者是訓(xùn)練數(shù)據(jù)缺乏代表性的數(shù)據(jù) 擬合不足 和 過(guò)分?jǐn)M合 Overfitting 訓(xùn)練誤差 檢驗(yàn)誤差 Underfitting 噪聲導(dǎo)致過(guò)分?jǐn)M合 決策邊界被噪聲點(diǎn)扭曲 缺乏代表性樣本導(dǎo)致過(guò)分?jǐn)M合 處理決策樹(shù)歸納中的過(guò)分?jǐn)M合 ? 先剪枝(提前終止規(guī)則) – 樹(shù)增長(zhǎng)算法在產(chǎn)生完全擬合整個(gè)訓(xùn)練數(shù)據(jù)集的完全增長(zhǎng)的決策樹(shù)之前就停止決策樹(shù)的生長(zhǎng) – 方法:選取不純度增益的閾值 – 優(yōu)點(diǎn):避免產(chǎn)生過(guò)分?jǐn)M合訓(xùn)練數(shù)據(jù)的過(guò)于復(fù)雜的子樹(shù) – 缺點(diǎn):閾值大小難于選取 ? 后剪枝 – 初始決策樹(shù)按照最大規(guī)模生長(zhǎng),然后進(jìn)行剪枝,按照自底向上的方式修剪完全增長(zhǎng)的決策樹(shù) – 方法:用新結(jié)點(diǎn)代替子樹(shù);用子樹(shù)的常用分支代替子樹(shù) – 優(yōu)點(diǎn):避免過(guò)早終止決策樹(shù)的生長(zhǎng) – 缺點(diǎn):需要浪費(fèi)額外開(kāi)銷
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報(bào)告相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1