freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

分類挖掘之決策樹-展示頁

2025-02-02 05:05本頁面
  

【正文】 aluate splits for each attribute A Use best split found to partition S into S1 and S2。 Partition (S2)。信息量的大小可由所消除的不確定性大小來計量。 條件熵 H(X/Y)條件熵是一個確定值,表示收信者在收到 Y后,信源 X仍然存在的不確定度,也稱為后驗(yàn)熵。 信信息息論論的的基基本本概概念念 ??2023/5/4 ID3算法是借用信息論中的互信息尋找訓(xùn)練集具有最大信息量的屬性字段,建立決策樹的一個節(jié)點(diǎn),再根據(jù)該屬性字段的不同取值建立樹的分支 。 ID3算算法法2023/5/4? (1) 創(chuàng)建根結(jié)點(diǎn) N。(3) IF Tattributelist為空或 T中所剩的樣本數(shù)少于某給定值,則返回 N為葉結(jié)點(diǎn),標(biāo)記為 T中出現(xiàn)最多的類。(5) 結(jié)點(diǎn) N的分裂屬性為 Tattributelist中具有最高信息增益的屬性。ELSE在該結(jié)點(diǎn)上執(zhí)行 ID3Tree (T’ , T’attributelist) ,對它繼續(xù)進(jìn)行分裂 。 2023/5/4 用決策樹考察某顧客是否會購買 PC顧客數(shù)據(jù)表2023/5/4 類標(biāo)號屬性為購買 PC,它有兩個不同的值 (“是 ” 、 “ 否 ” ),即有兩個不同的類, m=2;設(shè) p對應(yīng) “ 是 ” , n對應(yīng) “ 否 ” ,則 p=9, n=5。 = 下面計算每個屬性的熵。年齡 =“=30”: p11=2, n11=3 I (p11, n11)=年齡 =“30~40”: p12=4, n12=0 I (p12, n12)=0年齡 =“40”: p13=3, n13=2 I (p13, n13)=如果樣本按年齡劃分,對一個給定的樣本分類所需的期望信息如下 = 因此,這種劃分的信息增益是:Gain(年齡 )= I(P, N) E(年齡 )=。創(chuàng)建一個根結(jié)點(diǎn),用年齡標(biāo)記,并對每個屬性值引出一個分支。因?yàn)?Gain(收入 )= Gain(學(xué)生 )= Gain(信用 )= 所以分支 “ 年齡 =‘=30’”結(jié)點(diǎn)的測試屬性為 “ 學(xué)生 ” ??紤]分支 “ 年齡 =‘40’”的結(jié)點(diǎn)??紤]分支 “ 學(xué)生 =‘否 ’” 的結(jié)點(diǎn),由于所有記錄屬于同一類別 “ 否 ” ,所以分支 “ 學(xué)生 =‘否 ’” 的結(jié)點(diǎn)為葉結(jié)點(diǎn)??紤]分支 “ 信用 =‘優(yōu) ’” 的結(jié)點(diǎn),由于所有記錄屬于同一類別 “ 否 ” ,所以分支 “ 信用 =‘否 ’” 的結(jié)點(diǎn)為葉結(jié)點(diǎn)。2023/5/4建立的決策樹:2023/5/42023/5/4()算法1993年由 Quinlan提出,采用信息增益比 (信息率 )來選擇屬性。用最常見值代替未知值規(guī)則存于二維數(shù)組中如: 視為 youth。 視為 senior.LOGO增益率、增益率Why??信息增益度量偏向于有許多輸出的測試,即它傾向于選擇具有大量值的屬性。對 PID的分裂將產(chǎn)生大量劃分(與樣本個數(shù)一樣多),每個分類只包含一個樣本,且每個劃分都是純的。LOGO 使用分裂信息 (split information)將信息增益規(guī)范化 。 增益率:選擇具有最大信息率的屬性作為分裂屬性 。?在實(shí)際通信之前(決策樹建立之前),輸出變量對信宿來講是完全隨機(jī)的,其平均不確定性為:?決策樹建立過程中
點(diǎn)擊復(fù)制文檔內(nèi)容
范文總結(jié)相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1