freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘08分類和預(yù)測(cè)(編輯修改稿)

2025-06-14 03:06 本頁(yè)面
 

【文章內(nèi)容簡(jiǎn)介】 劃分的方法 ? 理想情況,每個(gè)劃分都是“純”的,即落在給定劃分內(nèi)的元組都屬于相同的類 ? 屬性選擇度量又稱為分裂準(zhǔn)則 ? 常用的屬性選擇度量 ? 信息增益 ? 增益率 ? Gini指標(biāo) 信息增益 (1) ? S是一個(gè) 訓(xùn)練樣本 的集合,該樣本中每個(gè)集合的 類編號(hào) 已知。每個(gè)樣本為一個(gè) 元組 。有個(gè)屬性用來(lái)判定某個(gè)訓(xùn)練樣本的類編號(hào) ? 假設(shè) S中有 m個(gè)類,總共 s個(gè)訓(xùn)練樣本,每個(gè)類Ci有 si個(gè)樣本 (i= 1,2,3...m),那么任意一個(gè)樣本屬于類 Ci的概率是 si / s,那么用來(lái)分類一個(gè)給定樣本的 期望信息 是: sssssssInf o imiim 2121 l og),...,( ????信息增益 (2) ? 一個(gè)有 v個(gè)值的屬性 A{a1,a2,...,av}可以將 S分成 v個(gè)子集 {S1,S2,...,Sv},其中 Sj包含 S中屬性 A上的值為 aj的樣本。假設(shè) Sj包含類 Ci的 sij個(gè)樣本。根據(jù) A的這種劃分的期望信息稱為 A的 熵 ? A上該劃分的獲得的信息增益定義為: ? 具有高信息增益的屬性,是給定集合中具有高區(qū)分度的屬性。所以可以通過(guò)計(jì)算 S中樣本的每個(gè)屬性的信息增益,來(lái)得到一個(gè)屬性的相關(guān)性的排序。 ),...,(...)( 111mjjvjmjj ssIsssAE ?????)(), .. .,()( 21 AEsssIAG a i n m ??age ine student credit_rating buys_puter youth high no fair no youth high no excellent no middle_aged high no fair yes senior medium no fair yes senior low yes fair yes senior low yes excellent no middle_aged low yes excellent yes youth medium no fair no youth low yes fair yes senior medium yes fair yes youth medium yes excellent yes middle_aged medium no excellent yes middle_aged high yes fair yes senior medium no excellent no 判定歸納樹(shù)算法示例 (1) ? 對(duì)于上述數(shù)據(jù),可以略過(guò)步驟 1, 2 ? 步驟 3,計(jì)算基于熵的度量 ——信息增益,作為樣本劃分的根據(jù) ? Gain(age)= ? Gain(ine)= ? Gain(student)= ? Gain(credit_rating)= ? 然后,對(duì)測(cè)試屬性每個(gè)已知的值,創(chuàng)建一個(gè)分支,并以此劃分樣本,得到第一次劃分 判定歸納樹(shù)算法示例 (2) 判定歸納樹(shù)算法示例 (3) age? overcast student? credit rating? no yes fair excellent youth senior no no yes yes yes Middle aged 防止分類中的過(guò)分適應(yīng) ? 產(chǎn)生的決策樹(shù)會(huì)出現(xiàn)過(guò)分適應(yīng)數(shù)據(jù)的問(wèn)題 ? 由于數(shù)據(jù)中的噪聲和孤立點(diǎn),許多分枝反應(yīng)的是訓(xùn)練數(shù)據(jù)中的異常 ? 對(duì)新樣本的判定很不精確 ? 防止過(guò)分適應(yīng)的兩種方法 ? 先剪枝:通過(guò)提前停止樹(shù)的構(gòu)造 ——如果在一個(gè)節(jié)點(diǎn)劃分樣本將導(dǎo)致低于預(yù)定義臨界值的分裂( . 使用信息增益度量) ? 選擇一個(gè)合
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1