freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

決策樹(shù)分類器培訓(xùn)課件-文庫(kù)吧在線文庫(kù)

  

【正文】 舉例說(shuō)明(計(jì)算概率) ? 根據(jù)上面的數(shù)據(jù),每個(gè)類的概率如下: ? p(Bus) = 4 / 10 = ? p(Car) = 3 / 10 = ? p(Train) = 3 / 10 = ? 注意,在上面的概率計(jì)算中,我們只考慮了類屬性 Transportation mode,其它屬性都不考慮 ? 有了每個(gè)類的概率,我們就可以用前面的方法計(jì)算訓(xùn)練數(shù)據(jù)集合的不純度 2023/1/31 Guilin 25 舉例說(shuō)明(用熵計(jì)算概率) ? 計(jì)算訓(xùn)練數(shù)據(jù)集合的不純度的一個(gè)方法就是采用熵( entropy) ? 已知 p(Bus) = , p(Car) = p(Train) = ,熵的計(jì)算如下: ? Entropy = – log () – log () – log () = ? 對(duì)數(shù)的底是 2 ? ?? j jj ppEntropy 2log2023/1/31 Guilin 26 熵的性質(zhì) ? 一個(gè)純的訓(xùn)練數(shù)據(jù)集合(只有一個(gè)類)的熵是0,這是因?yàn)楦怕?1的對(duì)數(shù) log (1) = 0 ? 在多個(gè)類的情況下,熵在每個(gè)類的概率相等時(shí)達(dá)到最大值 ? 下面的圖描出了不同的類個(gè)數(shù) n的熵的最大值,這里, p=1/n ? 熵的最大值是 n*p*log p ? 注意:當(dāng)類個(gè)數(shù) n2時(shí),熵 1 2023/1/31 Guilin 27 圖示熵的性質(zhì) 2023/1/31 Guilin 28 舉例說(shuō)明( 用 Gini索 引 計(jì)算概率) ? 計(jì)算訓(xùn)練數(shù)據(jù)集合的不純度的第二個(gè)方法是采用 Gini索引( Gini index) ? ? 已知 p(Bus) = , p(Car) = p(Train) = , Gini索引值的計(jì)算如下: Gini Index = 1 – (^2 + ^2 + ^2) = ??? j jpIndexGini 21_2023/1/31 Guilin 29 Gini索引的 性質(zhì) ? 一個(gè)純的訓(xùn)練數(shù)據(jù)集合(只有一個(gè)類)的 Gini索引值是 0,這是因?yàn)楦怕?1的 Gini索引值是 1(1)^2 = 0 ? 與熵一樣, Gini索引在每個(gè)類的概率相等時(shí)達(dá)到最大值 ? 下面的圖描出了不同的類個(gè)數(shù) n的 Gini索引的最大值,這里, p=1/n ? 注意:無(wú)論有多少個(gè)類值, Gini索引值總是在 0和1之間 2023/1/31 Guilin 30 圖示 Gini索引的 性質(zhì) 2023/1/31 Guilin 31 舉例說(shuō)明( 用分 類誤差 計(jì)算概率) ? 計(jì)算訓(xùn)練數(shù)據(jù)集合的不純度的第三個(gè)方法是采用分類誤差( classification error) ? 已知 p(Bus) = , p(Car) = p(Train) = ,分類誤差值的計(jì)算如下: ? Classification_Error = 1 – Max{, , } = 1 = }m ax{1_ jperrortionClassifi ca ??2023/1/31 Guilin 32 分類誤差的 性質(zhì) ? 與熵和 Gini索引一樣,一個(gè)純的訓(xùn)練數(shù)據(jù)集合(只有一個(gè)類)的分類誤差值是 0,這是因?yàn)楦怕?1的分類誤差值是 1max(1) = 0 ? 分類誤差值總是在 0和 1之間 ? 對(duì)于給定類的個(gè)數(shù), Gini索引的最大值總是與分類誤差的最大值相等 ? 設(shè)每個(gè)類的概率為 p=1/n, Gini索引的最大值是1n*(1/n)^2 = 11/n,而分類誤差的最大值也是1max{1/n} =11/n 2023/1/31 Guilin 33 決策樹(shù)算法的運(yùn)行方式 ? 這里解釋決策樹(shù)算法的運(yùn)行方式 ? 設(shè)一個(gè)訓(xùn)練數(shù)據(jù)集合 D有多個(gè)屬性和一個(gè)類屬性 ? 對(duì)于 D,取出每個(gè)屬性和類屬性形成一個(gè)子集合 ? 如果有 m個(gè)屬性,我們就從 D構(gòu)造出 m個(gè)子集合 ? 設(shè)第 i個(gè)屬性的子集合為 Si ? 這里, D 是 Si的父親 2023/1/31 Guilin 34 舉例說(shuō)明(訓(xùn)練數(shù)據(jù)) 2023/1/31 Guilin 35 舉例說(shuō)明(訓(xùn)練數(shù)據(jù)的子集合) S1 S2 S3 S4 2023/1/31 Guilin 36 取多值的屬性 ? 對(duì)于屬性 i的 Si表(子集合),我們需要分別計(jì)算每個(gè)屬性 i的不純度 ? 例如,屬性 Travel cost有三個(gè)值: Cheap, Standard和 Expensive ? 它應(yīng)該分成三個(gè)表(子集合) 2023/1/31 Guilin 37 屬性 Travel cost與三個(gè)表 Travel Costs: Cheap Standard Expensive 2023/1/31 Guilin 38 信息增益( information gain) ? 選擇分裂數(shù)據(jù)集 D的屬性,需要比較 D和各個(gè)子集合 Si之間的不純度差異 ? 數(shù)據(jù)集 D和子集合 Si的不純度之差異被稱為信息增益(
點(diǎn)擊復(fù)制文檔內(nèi)容
規(guī)章制度相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1