freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

決策樹(shù)培訓(xùn)講義(ppt49頁(yè))(編輯修改稿)

2025-02-01 19:42 本頁(yè)面
 

【文章內(nèi)容簡(jiǎn)介】 M arr i ed 10 0 K No3 No S i n gl e 70K No4 Y es M arr i ed 12 0 K No5 No Di v orc ed 95K Y es6 No M arr i ed 60K No7 Y es Di v orc ed 22 0 K No8 No S i n gl e 85K Y es9 No M arr i ed 75K No10 No S i n gl e 90K Y es10Refund Yes No 假設(shè)選擇 MarSt為最優(yōu)分割屬性: 3. samples = { 2,3,5,6,8,9,10 } attribute_list = { MarSt, TaxInc } NO MarSt Single Married Divorced 4. samples = { 3,8,10 }, attribute_list = {TaxInc} 5. samples = { 5,7 }, attribute_list = {TaxInc} 6. samples = { 2,9 }, attribute_list = {TaxInc} 例子:算法過(guò)程 Ti d Refun d M ar italS t atu sT ax ableIne Chea t1 Y es S i n gl e 12 5 K No2 No M arr i ed 10 0 K No3 No S i n gl e 70K No4 Y es M arr i ed 12 0 K No5 No Di v orc ed 95K Y es6 No M arr i ed 60K No7 Y es Di v orc ed 22 0 K No8 No S i n gl e 85K Y es9 No M arr i ed 75K No10 No S i n gl e 90K Y es10Refund Yes No 選擇 TaxInc為最優(yōu)分割屬性: 4. samples = { 3,8,10 } attribute_list = { TaxInc } NO MarSt Single Married Divorced TaxInc 80K = 80K YES NO ? 問(wèn)題 1:分類(lèi)從 哪個(gè) 屬性開(kāi)始? ——選擇 分裂變量的標(biāo)準(zhǔn) ? 問(wèn)題 2:為什么 工資 以 80為界限? ——找到被選擇的變量的 分裂點(diǎn)的標(biāo)準(zhǔn) (連續(xù)變量情況) 分類(lèi)劃分的優(yōu)劣用 不純性度量 來(lái)分析。如果對(duì)于所有分支,劃分后選擇相同分支的所有實(shí)例都屬于相同的類(lèi),則這個(gè)劃分是純的。對(duì)于節(jié)點(diǎn) m,令 為到達(dá)節(jié)點(diǎn) m的訓(xùn)練實(shí)例數(shù), 個(gè)實(shí)例中 個(gè)屬于 類(lèi),而 。如果一個(gè)實(shí)例到節(jié)點(diǎn) m,則它屬于 類(lèi)的概率估計(jì)為: 節(jié)點(diǎn) m是純的,如果對(duì)于所有 i, 為 0或 1。當(dāng)?shù)竭_(dá)節(jié)點(diǎn) m的所有實(shí)例都不屬于 類(lèi)時(shí), 為 0,當(dāng)?shù)竭_(dá)節(jié)點(diǎn) m的所有實(shí)例都屬于 類(lèi)時(shí), 為 1。 一種度量不純性的可能函數(shù)是熵函數(shù) ( entropy)。 mNiNiC miim NN ??mimimiNNpmxCp ??),|(?imp ? Father of information theory ?證明熵與信息內(nèi)容的不確定程度有等價(jià)關(guān)系 ? 系統(tǒng)科學(xué)領(lǐng)域三大論之一 ? 信息熵 ? 熵 (entropy) ? 描述物質(zhì)系統(tǒng)狀態(tài) :該狀態(tài)可能出現(xiàn)的程度。 ? 平均信息量 若一個(gè)系統(tǒng)中存在多個(gè)事件 E1,E2,… En 每個(gè)事件出現(xiàn)的概率是 p1,p2,… pn 則這個(gè)系統(tǒng)的平均信息量是 ? 指的是系統(tǒng)的混亂的程度 ! (bits) ? 系統(tǒng)越無(wú)序、越混亂,熵就越大。 ? 構(gòu)造決策樹(shù),熵定義為無(wú)序性度量 。 ? 選擇一個(gè)屬性劃分?jǐn)?shù)據(jù),使得子女節(jié)點(diǎn)上數(shù)據(jù)的類(lèi)值(例中 “yes” 或 “no” )大部分都相同(低無(wú)序性)。 ? 如果一個(gè)節(jié)點(diǎn)上的數(shù)據(jù)類(lèi)值在可能的類(lèi)值上均勻分布,則稱(chēng)節(jié)點(diǎn)的熵(無(wú)序性)最大。 ? 如果一個(gè)節(jié)點(diǎn)上的數(shù)據(jù)的類(lèi)值對(duì)于所有數(shù)據(jù)都相同,則熵最小。 ? 通過(guò)分裂,得到盡可能純的節(jié)點(diǎn)。這相當(dāng)于降低系統(tǒng)的熵。 例子 ? 氣象數(shù)據(jù)集,都是標(biāo)稱(chēng)屬性 什么因素影響是否去 打網(wǎng)球? 溫度 的劃分 濕度 的劃分 有風(fēng) 的劃分 構(gòu)造樹(shù) ? 訓(xùn)練樣本的信息值 ? 第一棵樹(shù),屬性,各葉節(jié)點(diǎn)的信息值 ? 第一棵樹(shù),屬性,導(dǎo)致的信息增益 ? 依次,計(jì)算每棵樹(shù)導(dǎo)致的信息增益 ? 選擇獲得最大信息增益的屬性進(jìn)行劃分 ? 以此類(lèi)推,遞歸,繼續(xù)劃分 ? 當(dāng)所有葉節(jié)點(diǎn)都是純的,劃分過(guò)程終止 ? ( 1)訓(xùn)練樣本的信息值 (基于類(lèi)的比例) ? 訓(xùn)練樣本(用來(lái)創(chuàng)建樹(shù)的數(shù)據(jù)集)在包含 9個(gè) yes和 5個(gè) no的根節(jié)點(diǎn)上,對(duì)應(yīng)于信息值 info([9,5])= → 總的信息 ? ( 2) 第一棵樹(shù),屬性,各葉節(jié)點(diǎn)的信息值 ? 基于天氣 (outlook)的劃分,在葉節(jié)點(diǎn)的yes和 no類(lèi)的個(gè)數(shù)分別是 [2,3], [4,
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1