freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

決策樹--(ppt66頁)(參考版)

2025-01-24 17:54本頁面
  

【正文】 投票機(jī)制舉例 ? 假定有 N個用戶可以為 X個電影投票 (假定投票者不能給同一電影重復(fù)投票 ),投票有 5星共 5檔。 ? 在實(shí)際生活中,我們聽取一個人的意見,會考慮這個人過去的意見是否有用,從而加大或者減少權(quán)值。 * 從樣本集中用 Bootstrap采樣選出 n個樣本; * 從所有屬性中隨機(jī)選擇 k個屬性,選擇最佳分割屬性 作為節(jié)點(diǎn)建立 CART決策樹; * 重復(fù)以上兩步 m次,即建立了 m棵 CART決策樹 * 這 m個 CART形成隨機(jī)森林,通過投票表決結(jié)果,決 ? 定數(shù)據(jù)屬于哪一類 解決決策樹過擬合的另一種方法 ——隨機(jī)森林 隨機(jī)森林 /Bagging和決策樹的關(guān)系 * 當(dāng)然可以使用決策樹作為基本分類器 * 但也可以使用 SVM、 Logistic回歸等其他分類器,習(xí)慣上, ? 這些分類器組成的“總分類器”,仍然叫做隨機(jī) 森林 。后來意思發(fā)生了轉(zhuǎn)變,隱喻“不需要外界幫助,僅依靠自身力量讓自己變得更好” 解決決策樹過擬合的另一種方法 ——隨機(jī)森林 組合模型 ——Bagging的策略(三個臭皮匠頂個諸葛亮的意思) * bootstrap aggregation * 從樣本集中重采樣 (有重復(fù)的 )選出 n個樣本 * 在所有屬性上,對這 n個樣本建立分類器 (ID 、 CART、 SVM、 Logistic回歸等 ) *重復(fù)以上兩步 m次,即獲得了 m個分類器 *將數(shù)據(jù)放在這 m個分類器上,最后根據(jù)這 m個分類器 的投票結(jié)果,決定數(shù)據(jù)屬于哪一類 解決決策樹過擬合的另一種方法 ——隨機(jī)森林 解決決策樹過擬合的另一種方法 ——隨機(jī)森林 隨機(jī)森林應(yīng)用非常廣泛,根據(jù)目標(biāo)變量的取值類型大致可分為兩類 一種是 分類 :當(dāng)目標(biāo)變量取值為離散型時(屬性變量、種類變量、有序變量、多級變量等),采用該法可進(jìn)行分類; 當(dāng)目標(biāo)變量為連續(xù)型,則可做回歸,對應(yīng)的預(yù)測結(jié)果是目標(biāo)變量的分布。 注: Bootstrap本義是指高靴子口后面的懸掛物、小環(huán)、帶子,是穿靴子時用手向上拉的工具。 我們將 Gini指數(shù)來作為準(zhǔn)則判別哪種劃分比較好。對回歸樹用平方誤差最小化準(zhǔn)則,對分類樹用基尼指數(shù) (Gini index)最小化準(zhǔn)則,進(jìn)行特征選擇,生成二叉樹。 步驟: ( 1)決策樹生成:基于訓(xùn)練數(shù)據(jù)集生成決策樹,生成的決策樹要盡量大; ( 2)決策樹剪枝:用驗(yàn)證數(shù)據(jù)集對已生成的樹進(jìn)行剪枝并選擇最優(yōu)子樹,這時用損失函數(shù)最小作為剪枝的標(biāo)準(zhǔn)。 ?CART假設(shè)決策樹是 二叉樹 ,內(nèi)部結(jié)點(diǎn)特征的取值為“是”和“否。39。39。 39。 CCP續(xù) 通常使用 1SE( 1 standard error of minimum error)規(guī)則從步驟 1產(chǎn)生的一系列剪枝樹中選擇一棵最佳的剪枝決策樹。 1)()(R1 ???NTRt t?例子 我們以非葉結(jié)點(diǎn) T4為例,假設(shè)已有的數(shù)據(jù)有 60條,那么 R(t)=r(t)*p(t)=(7/16)*(16/60)=7/60 R( Tt) =∑R(i)=(2/5)*(5/60)+(0/2)*(2/60)+(3/9)*(9/60)=5/60 α =( R(t)R( Tt) )/(|N1|1)=1/60 CCP續(xù) CCP剪枝算法分為 兩個步驟: T的每個非葉結(jié)點(diǎn)計(jì)算 α 值,循環(huán)剪掉具有最小α 值的子樹,直到剩下根節(jié)點(diǎn)。 PEP——小例題 T4這棵子樹的誤差率: 子樹誤判次數(shù)的標(biāo)準(zhǔn)誤差: 子樹替換為一個葉節(jié)點(diǎn)后,其誤判個數(shù)為: 7+= 因?yàn)?+,所以決定將子樹 T4替換這一個葉子節(jié)點(diǎn)。 那么一棵樹錯誤分類一個樣本值為 1,正確分類一個樣本值為 0,該樹錯誤分類的概率(誤判率)為 e( e為分布的固有屬性 ,可以通過 統(tǒng)計(jì)出來),那么樹的誤判次數(shù)就是伯努利分布,我們可以估計(jì)出該樹的誤判次數(shù)均值和標(biāo)準(zhǔn)差: PEP續(xù) 把子樹替換成葉子節(jié)點(diǎn)后,該葉子的誤判次數(shù)也是一個伯努利分布,其概率誤判率 e為 (E+)/N,因此葉子節(jié)點(diǎn)的誤判次數(shù)均值為 使用訓(xùn)練數(shù)據(jù),子樹總是比替換為一個葉節(jié)點(diǎn)后產(chǎn)生的誤差小,但是使用校正后有誤差計(jì)算方法卻并非如此,當(dāng)子樹的誤判個數(shù)大過對應(yīng)葉節(jié)點(diǎn)的誤判個數(shù)一個標(biāo)準(zhǔn)差之后,就決定剪枝: 這個條件就是剪枝的標(biāo)準(zhǔn)。那么子樹是否可以被剪枝就取決于剪枝后的錯誤 J+ PEP續(xù) 的標(biāo)準(zhǔn)誤差內(nèi)。這個 ,那么一棵子樹,它有 L個葉子節(jié)點(diǎn),那么該子樹的誤判率估計(jì)為 這樣的話,我們可以看到一棵子樹雖然具有多個子節(jié)點(diǎn),但由于加上
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1