freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

決策樹和模型評(píng)估課件-在線瀏覽

2025-02-15 19:41本頁面
  

【正文】 問題 1:如何分裂記錄? ? ——給不同類型的屬性指定測(cè)試條件的方法 ? ——對(duì)每種測(cè)試條件進(jìn)行評(píng)估測(cè)量 – 問題 2:何時(shí)停止分裂過程? 決策樹歸納的設(shè)計(jì)問題 1: 定義屬性測(cè)試條件 ? 表示屬性測(cè)試條件的方法 – 根據(jù)屬性類型 ?標(biāo)稱型 Nominal ?序數(shù)型 Ordinal ?連續(xù)型 Continuous – 按劃分路數(shù) ?二元?jiǎng)澐? 2way split ?多路劃分 Multiway split 標(biāo)稱屬性的劃分方法: (數(shù)據(jù)集見 P122習(xí)題 2) ? 多路劃分法 : 劃分成幾個(gè)不同的值 ——輸出數(shù)取決于該屬性不同屬性值的個(gè)數(shù) . ? 二分法 : 劃分為兩個(gè)不同的值 . (需要找到最佳的劃分方法) CarType Family Sports Luxury CarType {Family, Luxury} {Sports} CarType {Sports, Luxury} {Family} OR ? 多路劃分法 ? 二分法 ( 分組必須保留屬性值之間的序關(guān)系 ) 注意:第三種劃分方法合理嗎 ? 序數(shù)屬性的劃分方法: Size Small Medium Large Size {Medium, Large} {Small} Size {Small, Medium} {Large} OR Size {Small, Large} {Medium} 連續(xù)屬性的劃分方法 ?多路劃分: 離散化屬性值,每個(gè)離散化區(qū)間賦予一個(gè)新的序數(shù)值 ?二分法: (A v) or (A ? v) – 需要從所有可能的劃分點(diǎn)中選擇產(chǎn)生最佳劃分的點(diǎn) 決策樹歸納的設(shè)計(jì)問題 1: 找到最好劃分方法 O w nC a r ?C 0 : 6C 1 : 4C 0 : 4C 1 : 6C 0 : 1C 1 : 3C 0 : 8C 1 : 0C 0 : 1C 1 : 7C a rT y p e ?C 0 : 1C 1 : 0C 0 : 1C 1 : 0C 0 : 0C 1 : 1S t u d e n tI D ?. . .Y e sN oF a m i l yS p o r t sL u x u r y c1c1 0c2 0C 0 : 0C 1 : 1. . .c1 1 劃分前 : 數(shù)據(jù)集有 20個(gè)記錄,標(biāo)號(hào)為 class 0和class 1的各有 10個(gè)。 在二元分類問題中,任意結(jié)點(diǎn)的類分布可以記作 (p0, p1),其中p1 =1 p0 。 C0: 5C1: 5C0: 9C1: 1不同類,具有較高的不純度 同類,具有較低的不純度 結(jié)點(diǎn)不純度的度量方法: ?熵 Entropy ?基尼指數(shù) Gini Index ?分類差錯(cuò)率 Classification error 計(jì)算不純性方法 1: 熵 ? 結(jié)點(diǎn) t的熵 : 其中, c為結(jié)點(diǎn) t中不同類標(biāo)號(hào)個(gè)數(shù) p( i | t)是給定結(jié)點(diǎn) t中屬于類 i的記錄所占比例,簡記為 pi ?結(jié)點(diǎn)熵值的取值范圍: – 當(dāng)記錄均勻分布于各分類時(shí),將取得最大值 (log nc) – 當(dāng)所有記錄都屬于同一分類時(shí),將取得最小值 (0) 120( ) [ ( | ) l og ( | ) ]ciEn tr opy t p i t p i t??? ? ??例:分別計(jì)算 3個(gè)結(jié)點(diǎn)的熵 結(jié)點(diǎn) N 1 計(jì)數(shù) 類 = C 0 0 類 = C 1 6 P(C0) = 0/6 = 0 P(C1) = 6/6 = 1 Entropy = – 0log 1 = – 0 – 0 = 0 P(C0) = 1/6 P(C1) = 5/6 Entropy = – (1/6)log2 (5/6) = P(C0) = 2/6 P(C1) = 4/6 Entropy = – (2/6)log2 (4/6) = 120( ) [ ( | ) l og ( | ) ]ciEn tr opy t p i t p i t??? ? ??結(jié)點(diǎn) N 2 計(jì)數(shù) 類 = C 0 1 類 = C 1 5 結(jié)點(diǎn) N 3 計(jì)數(shù)類 = C 0 3 類 = C 1 3 練習(xí) 1 ?已知:數(shù)據(jù)見課本表 47( P122 題 2),采用熵作為結(jié)點(diǎn)的不純度度量。 ?問題: – 整個(gè)訓(xùn)練樣本集的不純度是多少? – 如果對(duì)數(shù)據(jù)按 車型 屬性進(jìn)行多路劃分,則 ?(車型 =運(yùn)動(dòng))的結(jié)點(diǎn)的不純度是多少? ?(車型 =豪華)的結(jié)點(diǎn)的不純度是多少? ?(車型 =家用)的結(jié)點(diǎn)的不純度是多少? 計(jì)算不純性方法 3:分類差錯(cuò)率 ? 節(jié)點(diǎn) t的分類差錯(cuò)率 : p(i|t)是給定結(jié)點(diǎn) t中屬于類 i的記錄所占比例,簡記為 pi ?結(jié)點(diǎn)分類誤差率指數(shù)的取值范圍: – 當(dāng)記錄均勻分布于各分類時(shí),將取得最大值 (1 1/nc) – 當(dāng)所有記錄都屬于同一分類時(shí),將取得最小值 (0) ( ) 1 m a x [ ( | ) ]iError t P i t??例:分別計(jì)算 3個(gè)子女結(jié)點(diǎn)的分類差錯(cuò)率 P(C0) = 0/6 = 0 P(C1) = 6/6 = 1 Error = 1 – max (0, 1) = 1 – 1 = 0 P(C0) = 1/6 P(C1) = 5/6 Error = 1 – max (1/6, 5/6) = 1 – 5/6 = 1/6 P(C0) = 2/6 P(C1) = 4/6 Error = 1 – max (2/6, 4/6) = 1 – 4/6 = 1/3 )|(max1)( tiPtErrori??結(jié)點(diǎn) N 1 計(jì)數(shù) 類 = C 0 0 類 = C 1 6 結(jié)點(diǎn) N 2 計(jì)數(shù) 類 = C 0 1 類 = C 1 5 結(jié)點(diǎn) N 3 計(jì)數(shù) 類 = C 0 3 類 = C 1 3 練習(xí) 3 ?已知:數(shù)據(jù)見課本表 47( P122 題 2),采用
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報(bào)告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1