freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)分類(lèi)-決策樹(shù)(編輯修改稿)

2025-03-27 11:30 本頁(yè)面
 

【文章內(nèi)容簡(jiǎn)介】 本子集遞歸調(diào)用上述方法建立下一級(jí)子節(jié)點(diǎn) ?當(dāng)某個(gè)分支上的所有數(shù)據(jù)樣本都屬于同一個(gè)類(lèi)別時(shí)劃分停止,形成葉節(jié)點(diǎn) ?或者當(dāng)某個(gè)分支上的樣本不屬于同一個(gè)類(lèi)別,但是又沒(méi)有剩余的描述屬性可以進(jìn)一步劃分?jǐn)?shù)據(jù)集時(shí)也形成葉節(jié)點(diǎn),并且用多數(shù)樣本所屬的類(lèi)別來(lái)標(biāo)記這個(gè)葉節(jié)點(diǎn) 33 ID3算法示例 該樣本集中共 包含 4個(gè)描述 屬性和 1個(gè)類(lèi)別 屬性,空間容量 為 14 目標(biāo)是利用 ID3 思想構(gòu)建一棵 可用于新樣本 分類(lèi)的決策樹(shù) 34 A1公司職員 A2年齡 A3收入 A4信譽(yù)度 C買(mǎi)保險(xiǎn) 否 =40 高 良 c2 否 =40 高 優(yōu) c2 否 41~50 高 良 c1 否 50 中 良 c1 是 50 低 良 c1 是 50 低 優(yōu) c2 是 41~50 低 優(yōu) c1 否 =40 中 良 c2 是 =40 低 良 c1 是 50 中 良 c1 是 =40 中 優(yōu) c1 否 41~50 中 優(yōu) c1 是 41~50 高 良 c1 否 50 中 優(yōu) c2 第 1步:計(jì)算對(duì)訓(xùn)練集分類(lèi)所需的期望信息 ?已知 ? total=14 ? c1(買(mǎi)保險(xiǎn) )的樣本數(shù)量是 n1=9 ? c2(不買(mǎi)保險(xiǎn) )的樣本數(shù)量是 n2=5 ?所以 ? P(c1)=9/14 ? P(c2)=5/14 ?根據(jù)期望信息公式可得 35 ))145(log145)149(log149())((log)(),(2221221?????? ??jjjcPcPnnI第 2步:計(jì)算 A1(公司職員)的熵 ? A1包含兩種取值:“是”和“否” ?利用 A1可將 X劃分為兩個(gè)子集 X1和 X2 ? X1中的數(shù)據(jù)樣本都是公司職員( 7個(gè)) ? 標(biāo)號(hào)為 c1的有 6個(gè), n11=6 ? 標(biāo)號(hào)為 c2的有 1個(gè), n21=1 ? 則可得 ? p11=6/7 ? p21=1/7 36 A1公司職員 C買(mǎi)保險(xiǎn) 否 c2 否 c2 否 c1 否 c1 是 c1 是 c2 是 c1 否 c2 是 c1 是 c1 是 c1 否 c1 是 c1 否 c2 ))71(log71)76(log76()(log),(22211212111?????? ??jjj ppnnI第 2步:計(jì)算 A1(公司職員)的熵 ?利用 A1可將 X劃分為兩個(gè)子集 X1和 X2 ? X2中的數(shù)據(jù)樣本都不是公司職員( 7個(gè)) ? 標(biāo)號(hào)為 c1的有 3個(gè), n12=3 ? 標(biāo)號(hào)為 c2的有 4個(gè), n22=4 ? 則可得 ? p12=3/7 ? p22=4/7 37 A1公司職員 C買(mǎi)保險(xiǎn) 否 c2 否 c2 否 c1 否 c1 是 c1 是 c2 是 c1 否 c2 是 c1 是 c1 是 c1 否 c1 是 c1 否 c2 ))74(log74)73(log73()(log),(22212222212?????? ??jjj ppnnI第 2步:計(jì)算 A1(公司職員)的熵 ?則計(jì)算出 A1劃分訓(xùn)練集所得的熵為 38 147147),()(2121211??????? ??sssss nnItot alnnAE第 3步:計(jì)算 A1(公司職員)的信息增益 39 )(),()( 12111????? AEnnIAGainA 益為:劃分?jǐn)?shù)據(jù)集時(shí)的信息增利用描述屬性第 4步:求出其他描述屬性的信息增益 ? Gain(A2)= ? Gain(A3)= ? Gain(A4)= ?經(jīng)比較可知 Gain(A2)最大,所以選擇 A2(年齡)作為決策樹(shù)的根節(jié)點(diǎn) ?進(jìn)一步將樹(shù)劃分為 3個(gè)分支 40 第 5步:根據(jù)根節(jié)點(diǎn)劃分?jǐn)?shù)據(jù)集 年齡 =40的子集 在此子集內(nèi)繼續(xù)檢查 Gain(A1)、 Gain(A3)、 Gain(A4) 選取信息增益最大的描述屬性作為內(nèi)部節(jié)點(diǎn) 41 A1公司職員 A3收入 A4信譽(yù)度 C買(mǎi)保險(xiǎn) 否 高 良 c2 否 高 優(yōu) c2 否 中 良 c2 是 低 良 c1 是 中 優(yōu) c1 第 5步:根據(jù)根節(jié)點(diǎn)劃分?jǐn)?shù)據(jù)集 年齡 41~50的子集 該子集中所有樣本的類(lèi)別標(biāo)號(hào)都一樣,所以無(wú)需繼續(xù)劃分 可將它標(biāo)注為一個(gè)葉節(jié)點(diǎn),而且葉節(jié)點(diǎn)的類(lèi)標(biāo)號(hào)為 c1 42 A1公司職員 A3收入 A4信譽(yù)度 C買(mǎi)保險(xiǎn) 否 高 良 c1 是 低 優(yōu) c1 否 中 優(yōu) c1 是 高 良 c1 第 5步:根據(jù)根節(jié)點(diǎn)劃分?jǐn)?shù)據(jù)集 年齡 50的子集 在此子集內(nèi)繼續(xù)檢查 Gain(A1)、 Gain(A3)、 Gain(A4) 選取信息增益最大的描述屬性作為內(nèi)部節(jié)點(diǎn) 43 A1公司職員 A3收入 A4信譽(yù)度 C買(mǎi)保險(xiǎn) 否 中 良 c1 是 低 良 c1 是 低 優(yōu) c2 是 中 良 c1 否 中 優(yōu) c2 ID3算法小結(jié) ?使用 ID3算法的基本思想是
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1