freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

4分類和預(yù)測(1)決策樹-wenkub

2023-03-08 12:56:16 本頁面
 

【正文】 預(yù)處理,可以提高分類過程的 準(zhǔn)確性 、 有效性 和 可伸縮性 。 ? 訓(xùn)練樣本:訓(xùn)練數(shù)據(jù)集中的單個數(shù)據(jù)及其類標(biāo)號。 ? 構(gòu)造一個映射( 模型 )將申請者分為兩類: ? 安全 ? 有風(fēng)險 ? 預(yù)測 ? 銀行貸款員需要分析數(shù)據(jù),來預(yù)測貸給某個顧客多少錢是安全的。第四章 分類和預(yù)測 主講教師:魏宏喜 (博士,副教授 ) Email: 2 第四章 分類和預(yù)測 ? 分類和預(yù)測的定義 ? 數(shù)據(jù)分類方法 ? 決策樹 ? 神經(jīng)網(wǎng)絡(luò) ? SVM ? 貝葉斯網(wǎng)絡(luò) ? 數(shù)據(jù)預(yù)測方法 ? 線性回歸 ? 非線性回歸 3 第四章 分類和預(yù)測 ? 分類和預(yù)測的定義 ? 數(shù)據(jù)分類方法 ? 決策樹 ? 神經(jīng)網(wǎng)絡(luò) ? SVM ? 貝葉斯網(wǎng)絡(luò) ? 數(shù)據(jù)預(yù)測方法 ? 線性回歸 ? 非線性回歸 4 分類和預(yù)測的定義 ? 分類( Classification) ? 給定一個數(shù)據(jù)集 D={t1, t2, …, t n}和一個類別集合C={C1, C2, …, C m}, 數(shù)據(jù) 分類 就是通過 定義一個映射 f : D?C,為數(shù)據(jù)集 D中的每條數(shù)據(jù) ti分配 C中的一個類 Cj。 ? 構(gòu)造一個映射( 模型 )來預(yù)測一個連續(xù)值。 ? 從訓(xùn)練數(shù)據(jù)集 ―學(xué)習(xí) ‖相關(guān)知識來構(gòu)造分類模型。 ? 常用的預(yù)處理操作包括: ? 數(shù)據(jù)清理 ? 相關(guān)分析 ? 數(shù)據(jù)變換 13 分類過程的數(shù)據(jù)預(yù)處理 ? 在執(zhí)行分類過程之前,通過對數(shù)據(jù)進(jìn)行預(yù)處理,可以提高分類過程的 準(zhǔn)確性 、 有效性 和 可伸縮性 。 ? 例如:主成分分析( PCA) ? 數(shù)據(jù)變換 15 分類過程的數(shù)據(jù)預(yù)處理 ? 在執(zhí)行分類過程之前,通過對數(shù)據(jù)進(jìn)行預(yù)處理,可以提高分類過程的 準(zhǔn)確性 、 有效性 和 可伸縮性 。 ? 常用的預(yù)處理操作包括: ? 數(shù)據(jù)清理 ? 相關(guān)分析 ? 數(shù)據(jù)變換 在模式識別領(lǐng)域 特征提取與 特征選擇 17 分類的評價標(biāo)準(zhǔn) ? 假設(shè):給定測試集 Xtest={(xi, yi) | i=1, 2, … , N} ? N表示測試集中的樣本個數(shù); ? xi表示測試集中第 i個樣本; ? yi表示樣本 xi的類標(biāo)號 。 NTPAccu racym1jj???19 第四章 分類和預(yù)測 ? 分類和預(yù)測的定義 ? 數(shù)據(jù)分類方法 ? 決策樹 ? 神經(jīng)網(wǎng)絡(luò) ? SVM ? 貝葉斯網(wǎng)絡(luò) ? 數(shù)據(jù)預(yù)測方法 ? 線性回歸 ? 非線性回歸 20 決策樹 ? 什么是決策樹? ? 由數(shù)據(jù)的 不同屬性 逐次劃分?jǐn)?shù)據(jù)集,直至得到的 數(shù)據(jù)子集 只包含同一類數(shù)據(jù)為止,這樣可形成一棵樹,稱為決策樹。 如何從訓(xùn)練數(shù)據(jù)集生成 相應(yīng)決策樹,是本節(jié)所 關(guān)注的內(nèi)容。 31 ID3算法 ? 給定數(shù)據(jù)集 X = {(xi, yi) | i=1, 2, …, total} 。 ? ID3算法是通過選擇具有 最高信息增益 的屬性作為數(shù)據(jù)集的劃分,從而可創(chuàng)建決策樹中的一個結(jié)點(diǎn),根據(jù)該屬性的不同取值可形成該結(jié)點(diǎn)的不同分枝。 ? 對于子集 X1(age=youth),它的樣本數(shù)量為 n1=5,其中類標(biāo)號為 Yes的數(shù)量 n11=2,類標(biāo)號為 No的數(shù)量n12=3,則這兩類樣本在子集 X1中所占的比例分別為: p11=n11/n1=2/5= p12=n12/n1=3/5= ? 這樣,子集 X1的期望信息為: Info(n11,n12)=p11*log(p11)p12*log(p12) =*log()*log() 37 ID3算法 —— 示例( buy_puter) ? 其次,計(jì)算各屬性劃分?jǐn)?shù)據(jù)集時的信息增益: ? 先計(jì)算屬性 age的熵。 ? 對于子集 X3(age=senior),它的樣本數(shù)量為 n3=5,其中類標(biāo)號為 Yes的數(shù)量 n13=3,類標(biāo)號為 No的數(shù)量n23=2,則這兩類樣本在子集 X3中所占的比例分別為: p13=n13/n3=3/5= p23=n23/n3=2/5= ? 這樣,子集 X3的期望信息為: Info(n13,n23)=p13*log(p13)p23*log(p2
點(diǎn)擊復(fù)制文檔內(nèi)容
數(shù)學(xué)相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1