freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

決策樹分類器培訓(xùn)課件-文庫吧資料

2025-01-18 19:41本頁面
  

【正文】 x ? Classification error 2023/1/31 Guilin 20 不純度的定義 ? 給定一個訓(xùn)練數(shù)據(jù)集( 決策表 ),我們能根 據(jù)類屬性度量它的 同構(gòu)性 (或 異構(gòu)性 heterogeneity) ? 如果一個訓(xùn)練數(shù)據(jù)集的 類屬性 只取 一個類值 ,它是純的或者同構(gòu)的 ? 如果一個訓(xùn)練數(shù)據(jù)集的類屬性取 多個類值 ,它是不純的或者異構(gòu)的 2023/1/31 Guilin 21 如何度量 不純度 ? 有多種量化方法度量 不純度 ? 最常用的三種方法如下 ? ? ? ? 上面所有的度量方法都含有類 j的概率 pj ? ?? j jj ppEntropy 2log???j jpIndexGini 21_ }m ax{1_jperrortionClassifi ca ??2023/1/31 Guilin 22 舉例說明(訓(xùn)練數(shù)據(jù)) 2023/1/31 Guilin 23 舉例說明(類的頻率) ? 在訓(xùn)練數(shù)據(jù)集合中,類屬性 Transportation mode有三個類值 Bus、 Car和 Train ? 我們的例子中,每個值出現(xiàn)的次數(shù)如下 ? 4 buses ? 3 cars ? 3 trains ? 簡單記為 4B, 3C, 3T ? 總數(shù)據(jù)量是 10個標(biāo)記的例子 2023/1/31 Guilin 24 舉例說明(計算概率) ? 根據(jù)上面的數(shù)據(jù),每個類的概率如下: ? p(Bus) = 4 / 10 = ? p(Car) = 3 / 10 = ? p(Train) = 3 / 10 = ? 注意,在上面的概率計算中,我們只考慮了類屬性 Transportation mode,其它屬性都不考慮 ? 有了每個類的概率,我們就可以用前面的方法計算訓(xùn)練數(shù)據(jù)集合的不純度 2023/1/31 Guilin 25 舉例說明(用熵計算概率) ? 計算訓(xùn)練數(shù)據(jù)集合的不純度的一個方法就是采用熵( entropy) ? 已知 p(Bus) = , p(Car) = p(Train) = ,熵的計算如下: ? Entropy = – log () – log () – log () = ? 對數(shù)的底是 2 ? ?? j jj ppEntropy 2log2023/1/31 Guilin 26 熵的性質(zhì) ? 一個純的訓(xùn)練數(shù)據(jù)集合(只有一個類)的熵是0,這是因?yàn)楦怕?1的對數(shù) log (1) = 0 ? 在多個類的情況下,熵在每個類的概率相等時達(dá)到最大值 ? 下面的圖描出了不同的類個數(shù) n的熵的最大值,這里, p=1/n ? 熵的最大值是 n*p*log p ? 注意:當(dāng)類個數(shù) n2時,熵 1 2023/1/31 Guilin 27 圖示熵的性質(zhì) 2023/1/31 Guilin 28 舉例說明( 用 Gini索 引 計算概率) ? 計算訓(xùn)練數(shù)據(jù)集合的不純度的第二個方法是采用 Gini索引( Gini index) ? ? 已知 p(Bus) = , p(Car) = p(Train) = , Gini索引值的計算如下: Gini Index = 1 – (^2 + ^2 + ^2) = ??? j jpIndexGini 21_2023/1/31 Guilin 29 Gini索引的 性質(zhì) ? 一個純的訓(xùn)練數(shù)據(jù)集合(只有一個類)的 Gini索引值是 0,這是因?yàn)楦怕?1的 Gini索引值是 1(1)^2 = 0 ? 與熵一樣, Gini索引在每個類的概率相等時達(dá)到最大值 ? 下面的圖描出了不同的類個數(shù) n的 Gini索引的最大值,這里, p=1/n ? 注意:無論有多少個類值, Gini索引值總是在 0和1之間 2023/1/31 Guilin 30 圖示 Gini索引的 性質(zhì) 2023/1/31 Guilin 31 舉例說明( 用分 類誤差 計算概率) ? 計算訓(xùn)練數(shù)據(jù)集合的不純度的第三個方法是采用分類誤差( classification error) ? 已知 p(Bus) = , p(Car) = p(Train) = ,分類誤差值的計算如下: ? Classification_Error = 1 – Max{, , } = 1 = }m ax{1_ jperrortionClassifi ca ??2023/1/31 Guilin 32 分類誤差的 性質(zhì) ? 與熵和 Gini索引一樣,一個純的訓(xùn)練數(shù)據(jù)集合(只有一個類)的分類誤差值是 0,這是因?yàn)楦怕?1的分類誤差值是 1max(1) = 0 ? 分類誤差值總是在 0和 1之間 ? 對于給定類的個數(shù), Gini索引的最大值總是與分類誤差的最大值相等 ? 設(shè)每個類的概率為 p=1/n, Gini索引的最大值是1n*(1/n)^2 = 11/n,而分類誤差的最大值也是1max{1/n} =11/n 2023/1/31 Guilin 33 決策樹算法的運(yùn)行方式 ? 這里解釋決策樹算法的運(yùn)行方
點(diǎn)擊復(fù)制文檔內(nèi)容
規(guī)章制度相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1