freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

決策樹分類器培訓(xùn)課件(完整版)

  

【正文】 information gain) ? 所以,需要計(jì)算每個(gè)屬性的信息增益值 2023/1/31 Guilin 39 信息增益計(jì)算方法 ? 一個(gè)屬性的信息增益是它產(chǎn)生的子集合的父集合的不純度與該子集合的不純度之差 ? 該子集合的不純度是它分解的表的不純度的加權(quán)之和,權(quán)值一般是每個(gè)表所占的比例 ? 對(duì)于熵方法,屬性 i的信息增益計(jì)算如下 ? Information gain(i) = i的父集合的熵 – ?(ki/n * Si產(chǎn)生的表 ki的熵 ) 2023/1/31 Guilin 40 屬 性 Travel Cost的 信息增益 ? 對(duì)于訓(xùn)練數(shù)據(jù)集 D,我們有三個(gè)類 4B、 3C、 3T,D的熵是 ? 對(duì)于屬性 Travel Cost,它產(chǎn)生的子集合可以分成如下三個(gè)表 ? 值 Cheap有兩個(gè)類 4B, 1T,它的熵是 ? 值 Standard有一個(gè)類 2T,它的熵是 0 ? 值 Expensive有一個(gè)類,它的熵是 0 ? 屬性 Travel Cost的信息增益是 – (5/10 * +2/10*0+3/10*0) = 2023/1/31 Guilin 41 屬性 Travel Cost按三種方法計(jì)算的信息增益 ? 同樣,我們也可以用 Gini索引和分類誤差計(jì)算屬性 Travel Cost的 信息增益 ? 采用三種方法計(jì)算出屬性 Travel Cost的信息增益如下 ? Entropy: ? Gini Index: ? Classification Error: 2023/1/31 Guilin 42 屬 性 Gender按三種 方法計(jì)算的信息增益 ? 采用三種方法計(jì)算出屬性 Gender的信息增益如下 ? Entropy: ? Gini Index: ? Classification Error: 2023/1/31 Guilin 43 屬性 Car Ownership按三種方法計(jì)算的信息增益 ? 采用三種方法計(jì)算出屬性 Car Ownership的信息增益如下 ? Entropy: ? Gini Index: ? Classification Error: 2023/1/31 Guilin 44 屬 性 Ine Level按三種 方法計(jì)算的信息增益 ? 采用三種方法計(jì)算出屬性 Ine Level的信息增益如下 ? Entropy: ? Gini Index: ? Classification Error: 2023/1/31 Guilin 45 分裂屬性選擇的標(biāo)準(zhǔn) ? 在決策樹構(gòu)建中,哪個(gè)屬性是目前最好的? ? 產(chǎn)生最小樹的屬性 ? 啟發(fā)式 : 選擇產(chǎn)生最純的屬性 ? 常用的度量: 信息增益 ? 策略: 選擇信息增益最大的屬性為分裂數(shù)據(jù)集合的屬性 2023/1/31 Guilin 46 選擇第一個(gè)分裂屬性 ? 有了所有屬性的信息增益后,我們就可以找出信息增益最大的那個(gè)屬性: ? i* = argmax {information gain of attribute i} ? 在我們的例子中,屬性 Travel Cost產(chǎn)生的信息增益最大 ? 該屬性作為決策樹的當(dāng)前節(jié)點(diǎn) ? 因?yàn)樗堑谝粋€(gè)節(jié)點(diǎn),它就是決策樹的根節(jié)點(diǎn) ? 一棵決策樹可以只有一個(gè)節(jié)點(diǎn) 2023/1/31 Guilin 47 用屬性 Travel Cost分裂訓(xùn)練數(shù)據(jù)集 ? 一個(gè)分裂屬性選定后,我們可以根據(jù)該屬性將當(dāng)前的數(shù)據(jù)集合分裂成多個(gè)子集合 ? 在我們的例子中,我們根據(jù) Travel Cost的取值分列 D ? 訓(xùn)練數(shù)據(jù)集合 D被分裂成三個(gè)子集合 2023/1/31 Guilin 48 用屬性 Travel Cost分裂訓(xùn)練數(shù)據(jù)集的結(jié)果 ? 數(shù)據(jù)被分裂后,我們有 ? Travel Cost = Expensive只有一個(gè)類 Car ? Travel Cost = Standard只有一個(gè)類 Train ? Travel Cost = Cheap需要進(jìn)一步分裂 ? 產(chǎn)生純類(只含一個(gè)類)的屬性值總是作為決策樹的葉節(jié)點(diǎn) ? 這樣就完成了決策樹構(gòu)造的第一個(gè)循環(huán) 2023/1/31 Guilin 49 訓(xùn)練數(shù)據(jù)集的三個(gè)子集合 2023/1/31 Guilin 50 用屬性 Travel Cost產(chǎn)生的樹 2023/1/31 Guilin 51 第二次循環(huán) ? 屬性值 Expensive和 Standard是純類,不再需要分裂 ? 當(dāng) Travel Cost = Cheap,它有多個(gè)類,需要繼續(xù)分裂 ? 將相應(yīng)的表中的數(shù)據(jù)作為待分裂的數(shù)據(jù),開(kāi)始第二次循環(huán) 2023/1/31 Guilin 52 為第二次循環(huán)產(chǎn)生數(shù)據(jù)集合 2023/1/31 Guilin 53 Cheap連接的節(jié)點(diǎn)的數(shù)據(jù)集合的不純度 ? 現(xiàn)在只有三個(gè)屬性 Gender、 car ownership、 Ine level
點(diǎn)擊復(fù)制文檔內(nèi)容
規(guī)章制度相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1