freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

決策樹--(ppt66頁)-文庫吧資料

2025-01-26 17:54本頁面
  

【正文】 了懲罰因子,所以子樹的誤判率計算未必占到便宜。于是我們需要把子樹的誤判計算加上一個經(jīng)驗性的懲罰因子。該方法 引入了統(tǒng)計學(xué)上連續(xù)修正的概念 彌補(bǔ) REP中的缺陷,在評價子樹的訓(xùn)練錯誤公式中添加了一個常數(shù),假定每個葉子結(jié)點都自動對實例的某個部分進(jìn)行錯誤的分類。 REP——錯誤率降低剪枝 該剪枝方法考慮將樹上的每個節(jié)點作為修剪的候選對象,決定是否修剪這個結(jié)點由如下步驟組成: 1:刪除以此結(jié)點為根的子樹 2:使其成為葉子結(jié)點 3:賦予該結(jié)點關(guān)聯(lián)的訓(xùn)練數(shù)據(jù)的最常見分類 4:當(dāng)修剪后的樹對于驗證集合的性能不會比原來的樹差時,才真正刪除該結(jié)點 訓(xùn)練集合可能過擬合,使用驗證集合數(shù)據(jù)能夠?qū)ζ溥M(jìn)行修正,反復(fù)進(jìn)行上面的操作,從底向上的處理結(jié)點,刪除那些能夠最大限度的提高驗證集合的精度的結(jié)點,直到進(jìn)一步修剪有害為止 (有害是指修剪會減低驗證集合的精度 )。 這個方法的動機(jī)是:即使學(xué)習(xí)器可能會被訓(xùn)練集中的隨機(jī)錯誤和巧合規(guī)律所誤導(dǎo),但驗證集合不大可能表現(xiàn)出同樣的隨機(jī)波動。 ,當(dāng)編碼長度最小時,停止樹增長,如 MDL(Minimum Description Length)準(zhǔn)則。 ,但是用統(tǒng)計測試來估計修剪特定結(jié)點是否會改善訓(xùn)練集合外的數(shù)據(jù)的評估性能。相比于先剪枝,這種方法更常用,正是因為在先剪枝方法中精確地估計何時停止樹增長很困難。高閾值可能導(dǎo)致過分簡化的樹,而低閾值可能使得樹的簡化太少。 先剪枝方法不但相對簡單,效率很高,而且不需要生成整個決策樹,適合于解決大規(guī)模問題。該樹葉可以持有子集元組中最頻繁的類; 有多種不同的方式可以讓決策樹停止生長,下面介紹幾種停止決策樹生長的方法: ,當(dāng)決策樹達(dá)到該高度時就可以停止決策樹的生長,這是一種最為簡單的方法; ,即使這些實例不屬于同一類,也可以停止決策樹的生長。 決策樹的剪枝 ? 算法 樹的剪枝算法 ? 關(guān)于剪枝的補(bǔ)充 ——先剪枝 剪枝是一個簡化過擬合決策樹的過程。 三 .如何解決過度擬合數(shù)據(jù)問題? 針對原因 1的解決方法: 合理、有效地抽樣,用相對能夠反映業(yè)務(wù)邏輯的訓(xùn)練 集去產(chǎn)生決策樹; 針對原因 2的主要解決方法: 剪枝:提前停止樹的增長或者對已經(jīng)生成的樹按照一 定的規(guī)則進(jìn)行后剪枝。 二 .產(chǎn)生過度擬合數(shù)據(jù)問題的原因有哪些? 原因 1:樣本問題 ( 1)樣本里的噪音數(shù)據(jù)干擾過大,大到模型過分記住了噪音特征,反而忽略了真實的輸入輸出間的關(guān)系;(什么是噪音數(shù)據(jù)?) ( 2)樣本抽取錯誤,包括(但不限于)樣本數(shù)量太少,抽樣方法錯誤,抽樣時沒有足夠正確考慮業(yè)務(wù)場景或業(yè)務(wù)特點,等等導(dǎo)致抽出的樣本數(shù)據(jù)不能有效足夠代表業(yè)務(wù)邏輯或業(yè)務(wù)場景; ( 3)建模時使用了樣本中太多無關(guān)的輸入變量。小,而在測試集上 H的錯誤率卻比 H39。 定義: 給定一個假設(shè) H,如果在假設(shè)空間上存在另一個假設(shè) H39。 補(bǔ)充:如何解決決策樹的過擬合問題 概念 原因 解決 什么是過度擬合數(shù)據(jù) 過度擬合數(shù)據(jù)是怎么產(chǎn)生的 怎么去解決這個問題 補(bǔ)充:如何解決決策樹的過擬合問題 ——概念 過度擬合( overfitting):如果 決策樹對訓(xùn)練樣本的特征描述得“過于精確”,無法實現(xiàn)對新樣本的合理分析,所以此時它不是一棵分析新數(shù)據(jù)的最佳決策樹。 ? 條件熵 ? 信息增益 ? 信息增益的具體公式 ? 信息增益算法 ? 例 對表 D, 根據(jù)信息增益準(zhǔn)則選擇最優(yōu)特征。 特征選擇 是決定用哪個特征來劃分特征空間。表的最后一列是類別,是否同意貸款,取 2個值:是、否。 ID 年齡 有工作 有自己的房子 信貸情況 類別 1 青年 否 否 一般 否 2 青年 否 否 好 否 3 青年 是 否 好 是 4 青年 是 是 一般 是 5 青年 否 否 一般 否 6 中年 否 否 一般 否 7 中年 否 否 好 否 8 中年 是 是 好 是 9 中年 否 是 非常好 是 10 中年 否 是 非常好 是 11 老年 否 是 非常好 是 12 老年 否 是 好 是 13 老年 是 否 好 是 14 老年 是 否 非常好 是 15 老年 否 否 一般 否 例 右表是一個由 15個樣本組成的貸款申請訓(xùn)練數(shù)據(jù)。 特征選擇 特征選擇問題 ?特征選擇在于選取
點擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1