freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

決策樹(shù)分類(lèi)器培訓(xùn)課件-在線瀏覽

2025-02-15 19:41本頁(yè)面
  

【正文】 合分裂成多個(gè)子集合 ? 在我們的例子中,我們根據(jù) Travel Cost的取值分列 D ? 訓(xùn)練數(shù)據(jù)集合 D被分裂成三個(gè)子集合 2023/1/31 Guilin 48 用屬性 Travel Cost分裂訓(xùn)練數(shù)據(jù)集的結(jié)果 ? 數(shù)據(jù)被分裂后,我們有 ? Travel Cost = Expensive只有一個(gè)類(lèi) Car ? Travel Cost = Standard只有一個(gè)類(lèi) Train ? Travel Cost = Cheap需要進(jìn)一步分裂 ? 產(chǎn)生純類(lèi)(只含一個(gè)類(lèi))的屬性值總是作為決策樹(shù)的葉節(jié)點(diǎn) ? 這樣就完成了決策樹(shù)構(gòu)造的第一個(gè)循環(huán) 2023/1/31 Guilin 49 訓(xùn)練數(shù)據(jù)集的三個(gè)子集合 2023/1/31 Guilin 50 用屬性 Travel Cost產(chǎn)生的樹(shù) 2023/1/31 Guilin 51 第二次循環(huán) ? 屬性值 Expensive和 Standard是純類(lèi),不再需要分裂 ? 當(dāng) Travel Cost = Cheap,它有多個(gè)類(lèi),需要繼續(xù)分裂 ? 將相應(yīng)的表中的數(shù)據(jù)作為待分裂的數(shù)據(jù),開(kāi)始第二次循環(huán) 2023/1/31 Guilin 52 為第二次循環(huán)產(chǎn)生數(shù)據(jù)集合 2023/1/31 Guilin 53 Cheap連接的節(jié)點(diǎn)的數(shù)據(jù)集合的不純度 ? 現(xiàn)在只有三個(gè)屬性 Gender、 car ownership、 Ine level ? Cheap連接的節(jié)點(diǎn)的數(shù)據(jù)集合的不純度如下 2023/1/31 Guilin 54 屬 性 Gender按三種 方法計(jì)算的信息增益 ? 采用三種方法計(jì)算出屬性 Gender的信息增益如下 ? Entropy: ? Gini Index: ? Classification Error: 2023/1/31 Guilin 55 其它屬性按三種方法計(jì)算的信息增益 ? 采用三種方法計(jì)算出屬性 Car Ownership的信息增益如下 ? Entropy: ? Gini Index: ? Classification Error: ? 采用三種方法計(jì)算出屬性 Ine Level的信息增益如下 ? Entropy: ? Gini Index: ? Classification Error: 2023/1/31 Guilin 56 為第二次循環(huán)選擇分裂屬性 ? 通過(guò)比較屬性 Gender的信息增益最大 ? 當(dāng)前的數(shù)據(jù)集合將按照屬性 Gender的取值分裂 ? 在我們的例子中,屬性值 Male 只有一個(gè)類(lèi) Bus,屬性值 Female有多個(gè)類(lèi),需要繼續(xù)分裂 2023/1/31 Guilin 57 第二次循環(huán)的數(shù)據(jù)集合分裂 2023/1/31 Guilin 58 第二次循環(huán)產(chǎn)生的樹(shù) 2023/1/31 Guilin 59 用屬性 Gender分裂子數(shù)據(jù)集的結(jié)果 ? 節(jié)點(diǎn) Gender有兩個(gè)值 ? Male ? Female ? 屬性值 Male是純的類(lèi),是葉節(jié)點(diǎn) ? 屬性值 Female有多個(gè)類(lèi),需要在下一個(gè)循環(huán)繼續(xù)分裂 2023/1/31 Guilin 60 第三次循環(huán) ? 第三次循環(huán)的數(shù)據(jù)是第二次循環(huán)留待分的數(shù)據(jù)集合 ? 屬性值 Female的數(shù)據(jù) ? 剩下可以考慮的屬性只有兩個(gè) ? Car ownership ? Ine level 2023/1/31 Guilin 61 為第三次循環(huán)產(chǎn)生數(shù)據(jù)集合 2023/1/31 Guilin 62 Female連接的節(jié)點(diǎn)的數(shù)據(jù)集合的不純度 ? 只有兩個(gè)記錄 ? 兩個(gè)記錄有不同的類(lèi) ? 如果選用屬性 car ownership作為分裂屬性,我們將得到兩個(gè)純類(lèi)的子集合 ? 同樣,如果選用屬性 ine level作為分裂屬性,我們也將得到兩個(gè)純類(lèi)的子集合 ? 所以,任意選一個(gè)即可,不需要計(jì)算信息增益值 ? 假設(shè)我們選用屬性 car ownership,我們得到一顆決策樹(shù),循環(huán)結(jié)束 2023/1/31 Guilin 63 建立的決策樹(shù) 2023/1/31 Guilin 64 評(píng)估技術(shù) ? Holdout: 訓(xùn)練集合 /測(cè)試集合 ? 數(shù)據(jù)集合很大時(shí)較好 ? kfold交叉驗(yàn)證 : ? 將數(shù)據(jù)集合分成 k子集合 ? 在每次建樹(shù)時(shí),使用一個(gè)子集合作為測(cè)試集合,其它 k1子集合一起作為訓(xùn)練集合 ? 用這 k次結(jié)果的均值作為參照 ? 它消除了訓(xùn)練集合 /測(cè)試集合方法的 隨機(jī)性 2023/1/31 Guilin 65 65 交叉驗(yàn)證圖解 ? 數(shù)據(jù)集合分成 k段 ? ? ? 一個(gè)做測(cè)試,其它的用來(lái)訓(xùn)練分類(lèi)器 ? ? 重復(fù)到 Test iteration 2023/1/31 Guilin 66 增益率 ? 增益率( Gain ratio): 是 信息增益的一個(gè)改良版,它可以減少信息增益偏好于取值較多的屬性 ? 增益率考慮分支數(shù)目和分枝的大小 ? 它通過(guò)內(nèi)在信息改良信息增益值 ? 也稱(chēng)為分裂
點(diǎn)擊復(fù)制文檔內(nèi)容
規(guī)章制度相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1