freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

4分類和預(yù)測(cè)(1)決策樹(完整版)

  

【正文】 例如:在文字識(shí)別中,經(jīng)常統(tǒng)計(jì) 識(shí)別正確率 ,以此來(lái)表示識(shí)別系統(tǒng)的性能。 ? 常用的預(yù)處理操作包括: ? 數(shù)據(jù)清理 ? 相關(guān)分析 :數(shù)據(jù)中的有些屬性可能與當(dāng)前任務(wù)不相關(guān)或者是冗余的,則可以刪除這些屬性以加快學(xué)習(xí)過(guò)程,并使學(xué)習(xí)結(jié)果更精確。 ? 訓(xùn)練樣本:訓(xùn)練數(shù)據(jù)集中的單個(gè)數(shù)據(jù)及其類標(biāo)號(hào)。第四章 分類和預(yù)測(cè) 主講教師:魏宏喜 (博士,副教授 ) Email: 2 第四章 分類和預(yù)測(cè) ? 分類和預(yù)測(cè)的定義 ? 數(shù)據(jù)分類方法 ? 決策樹 ? 神經(jīng)網(wǎng)絡(luò) ? SVM ? 貝葉斯網(wǎng)絡(luò) ? 數(shù)據(jù)預(yù)測(cè)方法 ? 線性回歸 ? 非線性回歸 3 第四章 分類和預(yù)測(cè) ? 分類和預(yù)測(cè)的定義 ? 數(shù)據(jù)分類方法 ? 決策樹 ? 神經(jīng)網(wǎng)絡(luò) ? SVM ? 貝葉斯網(wǎng)絡(luò) ? 數(shù)據(jù)預(yù)測(cè)方法 ? 線性回歸 ? 非線性回歸 4 分類和預(yù)測(cè)的定義 ? 分類( Classification) ? 給定一個(gè)數(shù)據(jù)集 D={t1, t2, …, t n}和一個(gè)類別集合C={C1, C2, …, C m}, 數(shù)據(jù) 分類 就是通過(guò) 定義一個(gè)映射 f : D?C,為數(shù)據(jù)集 D中的每條數(shù)據(jù) ti分配 C中的一個(gè)類 Cj。 ? 從訓(xùn)練數(shù)據(jù)集 ―學(xué)習(xí) ‖相關(guān)知識(shí)來(lái)構(gòu)造分類模型。 ? 例如:主成分分析( PCA) ? 數(shù)據(jù)變換 15 分類過(guò)程的數(shù)據(jù)預(yù)處理 ? 在執(zhí)行分類過(guò)程之前,通過(guò)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,可以提高分類過(guò)程的 準(zhǔn)確性 、 有效性 和 可伸縮性 。 NTPAccu racym1jj???19 第四章 分類和預(yù)測(cè) ? 分類和預(yù)測(cè)的定義 ? 數(shù)據(jù)分類方法 ? 決策樹 ? 神經(jīng)網(wǎng)絡(luò) ? SVM ? 貝葉斯網(wǎng)絡(luò) ? 數(shù)據(jù)預(yù)測(cè)方法 ? 線性回歸 ? 非線性回歸 20 決策樹 ? 什么是決策樹? ? 由數(shù)據(jù)的 不同屬性 逐次劃分?jǐn)?shù)據(jù)集,直至得到的 數(shù)據(jù)子集 只包含同一類數(shù)據(jù)為止,這樣可形成一棵樹,稱為決策樹。 31 ID3算法 ? 給定數(shù)據(jù)集 X = {(xi, yi) | i=1, 2, …, total} 。 ? 對(duì)于子集 X1(age=youth),它的樣本數(shù)量為 n1=5,其中類標(biāo)號(hào)為 Yes的數(shù)量 n11=2,類標(biāo)號(hào)為 No的數(shù)量n12=3,則這兩類樣本在子集 X1中所占的比例分別為: p11=n11/n1=2/5= p12=n12/n1=3/5= ? 這樣,子集 X1的期望信息為: Info(n11,n12)=p11*log(p11)p12*log(p12) =*log()*log() 37 ID3算法 —— 示例( buy_puter) ? 其次,計(jì)算各屬性劃分?jǐn)?shù)據(jù)集時(shí)的信息增益: ? 先計(jì)算屬性 age的熵。 ?從 ID3算法構(gòu)建的決策樹中,很容易獲得相應(yīng)的決策規(guī)則。 46 ? , 也可以處理連續(xù)型描述屬性 。 其中:最佳分割點(diǎn)具有 最大信息增益比 。 51 —— 離散化示例 ? 將 ―buy_puter‖中的屬性 age的取值由 {youth, middle_aged, senior}改為具體年齡 {32, 25, 46, 56, 60, 52, 42, 36, 23, 51, 38, 43, 41, 65}, 法離散化的具體過(guò)程。 ? 例如:當(dāng)最佳分割點(diǎn)為 37時(shí),數(shù)據(jù)集中的樣本可以根據(jù) age取值分成兩類,一類是 ≤37,另一類是> 37。 ? (1) 對(duì)年齡序列由小到大排序,新的序列為 {23, 25, 32, 36, 38, 41, 42, 43, 46, 51, 52, 56, 60, 65}; ? (2) 對(duì)新的年齡序列生成分割點(diǎn):由于樣本數(shù)量為 14,因此可生成 13個(gè)分割點(diǎn)。 ? 對(duì)于連續(xù)值屬性 Ac, 假設(shè)在某個(gè)結(jié)點(diǎn)上的樣本數(shù)量為 total, 則 : ? (1) 將該結(jié)點(diǎn)上的所有樣本按照屬性的取值 由小到大 排序 , 得到排序結(jié)果 {A1c, A2c, ..., Atotalc}; 47 ? , 也可以處理連續(xù)型描述屬性 。 ? 信息增益更傾向于選擇取值種類較多的屬性進(jìn)行劃分,而不一定是 最優(yōu)屬性 進(jìn)行劃分。 ? 對(duì)于子集 X2(age=middle_age
點(diǎn)擊復(fù)制文檔內(nèi)容
數(shù)學(xué)相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1