freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

決策樹分類器培訓課件-展示頁

2025-01-20 19:41本頁面
  

【正文】 式 ? 設(shè)一個訓練數(shù)據(jù)集合 D有多個屬性和一個類屬性 ? 對于 D,取出每個屬性和類屬性形成一個子集合 ? 如果有 m個屬性,我們就從 D構(gòu)造出 m個子集合 ? 設(shè)第 i個屬性的子集合為 Si ? 這里, D 是 Si的父親 2023/1/31 Guilin 34 舉例說明(訓練數(shù)據(jù)) 2023/1/31 Guilin 35 舉例說明(訓練數(shù)據(jù)的子集合) S1 S2 S3 S4 2023/1/31 Guilin 36 取多值的屬性 ? 對于屬性 i的 Si表(子集合),我們需要分別計算每個屬性 i的不純度 ? 例如,屬性 Travel cost有三個值: Cheap, Standard和 Expensive ? 它應(yīng)該分成三個表(子集合) 2023/1/31 Guilin 37 屬性 Travel cost與三個表 Travel Costs: Cheap Standard Expensive 2023/1/31 Guilin 38 信息增益( information gain) ? 選擇分裂數(shù)據(jù)集 D的屬性,需要比較 D和各個子集合 Si之間的不純度差異 ? 數(shù)據(jù)集 D和子集合 Si的不純度之差異被稱為信息增益( information gain) ? 所以,需要計算每個屬性的信息增益值 2023/1/31 Guilin 39 信息增益計算方法 ? 一個屬性的信息增益是它產(chǎn)生的子集合的父集合的不純度與該子集合的不純度之差 ? 該子集合的不純度是它分解的表的不純度的加權(quán)之和,權(quán)值一般是每個表所占的比例 ? 對于熵方法,屬性 i的信息增益計算如下 ? Information gain(i) = i的父集合的熵 – ?(ki/n * Si產(chǎn)生的表 ki的熵 ) 2023/1/31 Guilin 40 屬 性 Travel Cost的 信息增益 ? 對于訓練數(shù)據(jù)集 D,我們有三個類 4B、 3C、 3T,D的熵是 ? 對于屬性 Travel Cost,它產(chǎn)生的子集合可以分成如下三個表 ? 值 Cheap有兩個類 4B, 1T,它的熵是 ? 值 Standard有一個類 2T,它的熵是 0 ? 值 Expensive有一個類,它的熵是 0 ? 屬性 Travel Cost的信息增益是 – (5/10 * +2/10*0+3/10*0) = 2023/1/31 Guilin 41 屬性 Travel Cost按三種方法計算的信息增益 ? 同樣,我們也可以用 Gini索引和分類誤差計算屬性 Travel Cost的 信息增益 ? 采用三種方法計算出屬性 Travel Cost的信息增益如下 ? Entropy: ? Gini Index: ? Classification Error: 2023/1/31 Guilin 42 屬 性 Gender按三種 方法計算的信息增益 ? 采用三種方法計算出屬性 Gender的信息增益如下 ? Entropy: ? Gini Index: ? Classification Error: 2023/1/31 Guilin 43 屬性 Car Ownership按三種方法計算的信息增益 ? 采用三種方法計算出屬性 Car Ownership的信息增益如下 ? Entropy: ? Gini Index: ? Classification Error: 2023/1/31 Guilin 44 屬 性 Ine Level按三種 方法計算的信息增益 ? 采用三種方法計算出屬性 Ine Level的信息增益如下 ? Entropy: ? Gini Index: ? Classification Error: 2023/1/31 Guilin 45 分裂屬性選擇的標準 ? 在決策樹構(gòu)建中,哪個屬性是目前最好的? ? 產(chǎn)生最小樹的屬性 ? 啟發(fā)式 : 選擇產(chǎn)生最純的屬性 ? 常用的度量: 信息增益 ? 策略: 選擇信息增益最大的屬性為分裂數(shù)據(jù)集合的屬性 2023/1/31 Guilin 46 選擇第一個分裂屬性 ? 有了所有屬性的信息增益后,我們就可以找出信息增益最大的那個屬性: ? i* = argmax {information gain of attribute i} ? 在我們的例子中,屬性 Travel Cost產(chǎn)生的信息增益最大 ? 該屬性作為決策樹的當前節(jié)點 ? 因為它是第一個節(jié)點,它就是決策樹的根節(jié)點 ? 一棵決策樹可以只有一個節(jié)點 2023/1/31 Guilin 47 用屬性 Travel Cost分裂訓練數(shù)據(jù)集 ? 一個分裂屬性選定后,我們可以根據(jù)該屬性將當前的數(shù)據(jù)集
點擊復(fù)制文檔內(nèi)容
規(guī)章制度相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1