freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

決策樹算法介紹-資料下載頁

2025-08-05 03:50本頁面
  

【正文】 20”,形成謂詞“=20”和“20”,用它們劃分訓(xùn)練數(shù)據(jù)集,然后計算信息增益或增益比例。ID3是基于所有屬性值都已經(jīng)確定這一假設(shè)的。但是在實際應(yīng)用中,經(jīng)常會因為搜集樣本時有的樣本數(shù)據(jù)不完整,或者輸入數(shù)據(jù)是有人為的誤差等原因,一個數(shù)據(jù)集中會有某些樣本缺少一些屬性值。例如在表33中,有兩個樣本的“收入水平”缺失了(用“?”代替)。在用一個屬性對數(shù)據(jù)集進行劃分時,必須知道一個樣本屬于哪一類(以便于計算每類有多少個樣本,進而計算該屬性的信息增益),這是根據(jù)這個樣本的屬性值來決定的,但是由于屬性值缺失,那么該如何判斷這個樣本屬于哪一類呢?(當(dāng)然,樣本數(shù)量很大的時候可以這么做),也不會隨意地將它分配到某個類別中去。,這個樣本可以屬于每一個類,只是概率不同而已。例如,在表33的14個樣本中,“收入水平”有兩個缺失值,其他的12個樣本的分布如表34所示?!昂蠹糁Α保创龥Q策樹完全生長結(jié)束之后,再來修剪掉那些對分類精度貢獻不大的葉子節(jié)點。對于某個節(jié)點,計算該節(jié)點分裂之前的誤分類損失(由于錯誤地預(yù)測了樣本的類別而導(dǎo)致的損失)和分裂成子樹之后的誤分類損失,如果分裂后的誤分類損失沒有得到顯著降低,就可以考慮修剪掉這棵子樹。在計算分類精度之前,用戶可以自行定義各種誤分類損失的權(quán)重,例如“A類樣本被誤分類為B類導(dǎo)致的損失”比“B類樣本誤分類為A類導(dǎo)致的損失”要大得多,在這種情況下就可以通過設(shè)置誤分類損失的權(quán)重來加以區(qū)分。規(guī)則存儲于一個二維數(shù)組中,每一行代表一個規(guī)則。表的每一列代表樣本的一個屬性,列的值代表了屬性的不同取值。例如,0和1分別代表“小于等于閾值”和“大于閾值”。如果列值為1,則代表規(guī)則中不包含該屬性。分類是有監(jiān)督學(xué)習(xí),通過學(xué)習(xí)可以對未知的數(shù)據(jù)進行預(yù)測。在訓(xùn)練過程開始之前,將一部分數(shù)據(jù)保留下來,在訓(xùn)練之后,利用這部分數(shù)據(jù)對學(xué)習(xí)的結(jié)果進行驗證,這種模型評估方法稱為交叉驗證。如果將這個“學(xué)習(xí)驗證”的過程重復(fù)k次,就稱為k次迭代交叉驗證。首先將所有訓(xùn)練數(shù)據(jù)平均分成k份,每次使用其中一份作為測試樣本,其余的k1份數(shù)據(jù)作為學(xué)習(xí)樣本,然后選擇平均分類精度最高的樹作為最后的結(jié)果。通常,分類精度最高的樹并不是節(jié)點最多的樹。另外,交叉驗證還可以用于決策樹的修剪。k次迭代交叉驗證非常適合訓(xùn)練樣本書目比較少的情形,但由于要構(gòu)建k棵決策樹,因此,計算量非常大。 ,被廣泛應(yīng)用于許多數(shù)據(jù)挖掘軟件包中,如Clementine,但它的精確算法并沒有公開。,但規(guī)則生成不同。%,~240倍,并且生成的規(guī)則更加準(zhǔn)確。一些數(shù)據(jù)集上的測試結(jié)果表明。
點擊復(fù)制文檔內(nèi)容
黨政相關(guān)相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1