freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

決策樹算法介紹(參考版)

2024-08-16 03:50本頁面
  

【正文】 。 ,被廣泛應(yīng)用于許多數(shù)據(jù)挖掘軟件包中,如Clementine,但它的精確算法并沒有公開。另外,交叉驗(yàn)證還可以用于決策樹的修剪。首先將所有訓(xùn)練數(shù)據(jù)平均分成k份,每次使用其中一份作為測試樣本,其余的k1份數(shù)據(jù)作為學(xué)習(xí)樣本,然后選擇平均分類精度最高的樹作為最后的結(jié)果。在訓(xùn)練過程開始之前,將一部分?jǐn)?shù)據(jù)保留下來,在訓(xùn)練之后,利用這部分?jǐn)?shù)據(jù)對學(xué)習(xí)的結(jié)果進(jìn)行驗(yàn)證,這種模型評估方法稱為交叉驗(yàn)證。如果列值為1,則代表規(guī)則中不包含該屬性。表的每一列代表樣本的一個(gè)屬性,列的值代表了屬性的不同取值。對于某個(gè)節(jié)點(diǎn),計(jì)算該節(jié)點(diǎn)分裂之前的誤分類損失(由于錯(cuò)誤地預(yù)測了樣本的類別而導(dǎo)致的損失)和分裂成子樹之后的誤分類損失,如果分裂后的誤分類損失沒有得到顯著降低,就可以考慮修剪掉這棵子樹。例如,在表33的14個(gè)樣本中,“收入水平”有兩個(gè)缺失值,其他的12個(gè)樣本的分布如表34所示。在用一個(gè)屬性對數(shù)據(jù)集進(jìn)行劃分時(shí),必須知道一個(gè)樣本屬于哪一類(以便于計(jì)算每類有多少個(gè)樣本,進(jìn)而計(jì)算該屬性的信息增益),這是根據(jù)這個(gè)樣本的屬性值來決定的,但是由于屬性值缺失,那么該如何判斷這個(gè)樣本屬于哪一類呢?(當(dāng)然,樣本數(shù)量很大的時(shí)候可以這么做),也不會隨意地將它分配到某個(gè)類別中去。但是在實(shí)際應(yīng)用中,經(jīng)常會因?yàn)樗鸭瘶颖緯r(shí)有的樣本數(shù)據(jù)不完整,或者輸入數(shù)據(jù)是有人為的誤差等原因,一個(gè)數(shù)據(jù)集中會有某些樣本缺少一些屬性值。例如在表33所示的訓(xùn)練數(shù)據(jù)集中,如果要計(jì)算“年齡”屬性的信息增益,則首先將不同的屬性值排序{20,25,28,40,46,55,56,58,60,65,70},那么可能的閾值集合為{20,25,28,40,46,55,56,58,60,65},從中一一取出,并形成分裂謂詞,例如取出“20”,形成謂詞“=20”和“20”,用它們劃分訓(xùn)練數(shù)據(jù)集,然后計(jì)算信息增益或增益比例。算法采用另外一種方法來實(shí)現(xiàn)連續(xù)屬性的離散化。如果有連續(xù)屬性,則可以采用劃分區(qū)間的方法來離散化。因此,Quinlan提出使用增益比例來代替信息增益。如果以這樣的屬性作為分裂屬性,那么將產(chǎn)生非常多的分支,而且每一個(gè)分支產(chǎn)生的子集的熵均為0(因?yàn)樽蛹兄挥幸粋€(gè)樣本?。?。雖然這是一種有效地方法,但其具有明顯的傾向性,即它傾向于選擇具有大量不同取值的屬性,從而產(chǎn)生許多小而純的子集。主要包括:采用“增益比例”來選擇分裂屬性、對連續(xù)屬性的處理、對樣本屬性值缺失情況的處理、規(guī)則的產(chǎn)生、交叉驗(yàn)證等。正因?yàn)镮D3還存在著許多不足的地方,Quinlan對ID3算法進(jìn)行了改進(jìn)。因此目前流行的決策樹算法大多采用二叉樹模型
點(diǎn)擊復(fù)制文檔內(nèi)容
黨政相關(guān)相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1