freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

決策樹算法介紹-資料下載頁(yè)

2025-08-05 03:50本頁(yè)面
  

【正文】 20”,形成謂詞“=20”和“20”,用它們劃分訓(xùn)練數(shù)據(jù)集,然后計(jì)算信息增益或增益比例。ID3是基于所有屬性值都已經(jīng)確定這一假設(shè)的。但是在實(shí)際應(yīng)用中,經(jīng)常會(huì)因?yàn)樗鸭瘶颖緯r(shí)有的樣本數(shù)據(jù)不完整,或者輸入數(shù)據(jù)是有人為的誤差等原因,一個(gè)數(shù)據(jù)集中會(huì)有某些樣本缺少一些屬性值。例如在表33中,有兩個(gè)樣本的“收入水平”缺失了(用“?”代替)。在用一個(gè)屬性對(duì)數(shù)據(jù)集進(jìn)行劃分時(shí),必須知道一個(gè)樣本屬于哪一類(以便于計(jì)算每類有多少個(gè)樣本,進(jìn)而計(jì)算該屬性的信息增益),這是根據(jù)這個(gè)樣本的屬性值來(lái)決定的,但是由于屬性值缺失,那么該如何判斷這個(gè)樣本屬于哪一類呢?(當(dāng)然,樣本數(shù)量很大的時(shí)候可以這么做),也不會(huì)隨意地將它分配到某個(gè)類別中去。,這個(gè)樣本可以屬于每一個(gè)類,只是概率不同而已。例如,在表33的14個(gè)樣本中,“收入水平”有兩個(gè)缺失值,其他的12個(gè)樣本的分布如表34所示?!昂蠹糁Α?,即待決策樹完全生長(zhǎng)結(jié)束之后,再來(lái)修剪掉那些對(duì)分類精度貢獻(xiàn)不大的葉子節(jié)點(diǎn)。對(duì)于某個(gè)節(jié)點(diǎn),計(jì)算該節(jié)點(diǎn)分裂之前的誤分類損失(由于錯(cuò)誤地預(yù)測(cè)了樣本的類別而導(dǎo)致的損失)和分裂成子樹之后的誤分類損失,如果分裂后的誤分類損失沒有得到顯著降低,就可以考慮修剪掉這棵子樹。在計(jì)算分類精度之前,用戶可以自行定義各種誤分類損失的權(quán)重,例如“A類樣本被誤分類為B類導(dǎo)致的損失”比“B類樣本誤分類為A類導(dǎo)致的損失”要大得多,在這種情況下就可以通過(guò)設(shè)置誤分類損失的權(quán)重來(lái)加以區(qū)分。規(guī)則存儲(chǔ)于一個(gè)二維數(shù)組中,每一行代表一個(gè)規(guī)則。表的每一列代表樣本的一個(gè)屬性,列的值代表了屬性的不同取值。例如,0和1分別代表“小于等于閾值”和“大于閾值”。如果列值為1,則代表規(guī)則中不包含該屬性。分類是有監(jiān)督學(xué)習(xí),通過(guò)學(xué)習(xí)可以對(duì)未知的數(shù)據(jù)進(jìn)行預(yù)測(cè)。在訓(xùn)練過(guò)程開始之前,將一部分?jǐn)?shù)據(jù)保留下來(lái),在訓(xùn)練之后,利用這部分?jǐn)?shù)據(jù)對(duì)學(xué)習(xí)的結(jié)果進(jìn)行驗(yàn)證,這種模型評(píng)估方法稱為交叉驗(yàn)證。如果將這個(gè)“學(xué)習(xí)驗(yàn)證”的過(guò)程重復(fù)k次,就稱為k次迭代交叉驗(yàn)證。首先將所有訓(xùn)練數(shù)據(jù)平均分成k份,每次使用其中一份作為測(cè)試樣本,其余的k1份數(shù)據(jù)作為學(xué)習(xí)樣本,然后選擇平均分類精度最高的樹作為最后的結(jié)果。通常,分類精度最高的樹并不是節(jié)點(diǎn)最多的樹。另外,交叉驗(yàn)證還可以用于決策樹的修剪。k次迭代交叉驗(yàn)證非常適合訓(xùn)練樣本書目比較少的情形,但由于要構(gòu)建k棵決策樹,因此,計(jì)算量非常大。 ,被廣泛應(yīng)用于許多數(shù)據(jù)挖掘軟件包中,如Clementine,但它的精確算法并沒有公開。,但規(guī)則生成不同。%,~240倍,并且生成的規(guī)則更加準(zhǔn)確。一些數(shù)據(jù)集上的測(cè)試結(jié)果表明。
點(diǎn)擊復(fù)制文檔內(nèi)容
黨政相關(guān)相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1