freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

決策樹(shù)建模概述-資料下載頁(yè)

2025-01-14 19:43本頁(yè)面
  

【正文】 的一般特性,而是訓(xùn)練集的局部特性。 當(dāng)將這個(gè)模型應(yīng)用到新的測(cè)試集上時(shí)就導(dǎo)致預(yù)測(cè)結(jié)果的不準(zhǔn)確。 因此,一個(gè)完整的決策樹(shù)構(gòu)造過(guò)程將包含 決策樹(shù)的創(chuàng)建 和 決策樹(shù)的剪枝 這兩方面。 剪枝是一種克服噪聲的技術(shù),用于解決過(guò)匹配問(wèn)題, 同時(shí)它也能使樹(shù)得到簡(jiǎn)化而變得更容易理解。 有效性和風(fēng)險(xiǎn)性 剪枝的原則包括 : ? 奧卡姆剃刀原則 ——“如無(wú)必要,勿增實(shí)體”。即在與 觀察相容的情況下,應(yīng)當(dāng)選擇最簡(jiǎn)單的一棵決策樹(shù)。 ? 決策樹(shù)越小就越容易理解,其存儲(chǔ)與傳輸?shù)拇鷥r(jià)也就 越小。 ? 決策樹(shù)越復(fù)雜,節(jié)點(diǎn)越多,每個(gè)節(jié)點(diǎn)包含的訓(xùn)練樣本個(gè)數(shù)越少,則支持每個(gè)節(jié)點(diǎn)的假設(shè)的樣本個(gè)數(shù)就越少,可能導(dǎo)致決策樹(shù)在測(cè)試集上的 分類錯(cuò)誤率就會(huì)增大 。 但決策樹(shù)過(guò)小也會(huì)導(dǎo)致錯(cuò)誤率較大。因此, 需要在樹(shù)的大小與正確率之間尋找均衡點(diǎn) 有效性和風(fēng)險(xiǎn)性 常用的剪枝技術(shù)有預(yù)剪枝 (prepruning)和后剪枝 (postpruning)兩種。 ? 預(yù)剪枝 :在構(gòu)造決策樹(shù)時(shí),決定不再對(duì) 不純的訓(xùn)練子集 進(jìn)行進(jìn)一步劃分的剪枝方法 預(yù)剪枝技術(shù)限制了決策樹(shù)的過(guò)度生長(zhǎng) 如 CHAID, ID3系列的 ID ? 后剪枝 :在樹(shù)完全生成之后的剪枝策略 如 CART算法等 剪枝的目的就是刪除由于噪聲數(shù)據(jù)而引起的分枝,從而避免決策樹(shù)的過(guò)匹配。 有效性和風(fēng)險(xiǎn)性 預(yù)剪枝中最直接而簡(jiǎn)單的方法是事先指定決策樹(shù)生長(zhǎng)的最大深度,使決策樹(shù)不能得到充分生長(zhǎng)。這種停止標(biāo)準(zhǔn)一般能夠取得比較好的效果。不過(guò)指定樹(shù)的高度的方法要求用戶對(duì)數(shù)據(jù)的取值分布有較為清晰的把握,而且須對(duì)參數(shù)值進(jìn)行反復(fù)嘗試,否則無(wú)法給出一個(gè)較為合理的樹(shù)高度閾值。 有效性和風(fēng)險(xiǎn)性 后剪枝技術(shù)允許決策樹(shù)過(guò)度生長(zhǎng),然后根據(jù)一定的 規(guī)則,剪去決策樹(shù)中那些不具有 一般代表性 的葉節(jié)點(diǎn)或分枝。 后剪枝算法有自上而下和自下而上兩種剪枝策略。 自下而上的算法首先從最底層的內(nèi)節(jié)點(diǎn)開(kāi)始,剪去滿足一定條件的內(nèi)節(jié)點(diǎn),在生成的新決策樹(shù)上遞歸調(diào)用這個(gè)算法,直到?jīng)]有可以剪枝的節(jié)點(diǎn)為止。 自上而下的算法是從根節(jié)點(diǎn)開(kāi)始向下逐個(gè)考慮節(jié)點(diǎn)的剪枝問(wèn)題,只要節(jié)點(diǎn)滿足剪枝的條件就進(jìn)行剪枝。 有效性和風(fēng)險(xiǎn)性 目前,決策樹(shù)修剪策略主要有三種 : 悲觀修剪(pessimistic pruning),代價(jià)復(fù)雜度修剪 (costplexity pruning)和基于最小描述長(zhǎng)度 (minimum description length,MDL)原理的修剪。 悲觀修剪是 Quinlan在 1987年提出的,該方法將所有的樣本用于樹(shù)的構(gòu)建和修剪,但是這種方法產(chǎn)生的樹(shù)太大,并且有時(shí)候精度不高。代價(jià)復(fù)雜度修剪使用了獨(dú)立的樣本用于修剪,這種策略適用于訓(xùn)練樣本比較多的情況。在訓(xùn)練樣本數(shù)目較少的情況下,需要將所有的樣本既用于樹(shù)的構(gòu)建,又用于樹(shù)的修剪?;?MDL原理的修剪是使用較多并且效果較好的方法。 167。 樹(shù)的建模過(guò)程 屬性選擇 屬性選擇的統(tǒng)計(jì)度量 (又稱為 分枝指標(biāo) splitting index,SI )的計(jì)算是決策樹(shù)構(gòu)建算法的 關(guān)鍵 。 不同的決策樹(shù)算法采用不同的統(tǒng)計(jì)度量,主要有 : ? 信息增益 ——Information Gain ( ID3和 ), 所有屬性假設(shè)都是 種類字段 ,經(jīng)過(guò)修改之后可以適用于 數(shù)值字段 。 ? 基尼指數(shù) ——Gini index(即 Gini指標(biāo) ) CART算法、 CHAID算法和 SLIQ算法使用 適用于種類和數(shù)值字段等等。 TO BE CONTINUED……
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)教案相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1