freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)分類決策樹ppt課件(參考版)

2025-05-03 18:13本頁(yè)面
  

【正文】 Date 65。C) 求數(shù)據(jù)集 Y的決策樹。Date 64數(shù)據(jù)集 YA B C 類15 1 A C120 3 B C225 2 A C130 4 A C135 2 B C225 4 A C115 2 B C220 3 B C2作業(yè) 2給出一個(gè)訓(xùn)練數(shù)據(jù)集 Y, 表示如下:A) 求出屬性 A的最優(yōu)閾值(根據(jù)最大增益)。IF age = ‘40’ AND credit_rating= ‘excellent’ THEN buys_puter= ‘no’ 生成決策規(guī)則決策樹Date 61〖 例 〗 對(duì)于 buys_puter的決策樹可提取以下分類規(guī)則:IF age= ‘=30’ AND student= ‘no’ THEN buys_puter= ‘noIF age= ‘=30’ AND student= ‘yes’ THEN buys_puter= ‘yes’Date 60為了使決策樹模型更易讀,可以提取由決策樹表示的分類規(guī)則,并以 IF- THEN的形式表示。出錯(cuò)率用與訓(xùn)練集數(shù)據(jù)獨(dú)立的測(cè)試數(shù)據(jù)校驗(yàn)。當(dāng)樹建好之后,對(duì)每個(gè)內(nèi)部結(jié)點(diǎn),算法通過每個(gè)枝條的出錯(cuò)率進(jìn)行加權(quán)平均,計(jì)算如果不剪枝該結(jié)點(diǎn)的錯(cuò)誤率。在構(gòu)建完樹之后做的決策,所以稱之為后剪枝。Date 59q 如果分區(qū)前后分類精度沒有顯著的不同,可用當(dāng)前的點(diǎn)作為葉。 子樹上升法:用一棵子樹中最常用的子樹來代替這棵子樹。 子樹替代法:用葉結(jié)點(diǎn)替代子樹。Date 57剪枝常常利用統(tǒng)計(jì)學(xué)方法,去掉最不可靠、可能是噪音的一些枝條。 |Ti|是達(dá)到葉結(jié)點(diǎn)的部分樣本和, E是 屬于除了指定類以外的類的樣本數(shù)量。else類別 = 類 1 ( ) . 再把這些子集按屬性 2和屬性 3的檢驗(yàn)進(jìn)一步分區(qū),最終得到的決策樹如下左。Else if 屬性 1 = B then類別 = 類 1 ( ) 。Date 55因此有:|T1| = 5 + 5/13|T2| = 3 + 3/13|T3| = 5 + 5/13Date 56If 屬性 1 = A then if 屬性 2=70 then 類別 = 類 1 ( ) 。作為單獨(dú)一組Date 54用屬性 1的檢驗(yàn) X1把集 T分區(qū)成子集后,丟失值的記錄被表示在 3個(gè)子集中。該值 Split_Info (X)對(duì) 修改后的標(biāo)準(zhǔn) Gain_ratio(X)的最終值有直接影響。q 除考慮到僅有的幾個(gè)有已知屬性值的樣本以外除考慮到僅有的幾個(gè)有已知屬性值的樣本以外q 用系數(shù)用系數(shù) F修正增益參數(shù)修正增益參數(shù)F=數(shù)據(jù)庫(kù)中一個(gè)給出的屬性值具有已知值的樣本數(shù)量數(shù)據(jù)庫(kù)中一個(gè)給出的屬性值具有已知值的樣本數(shù)量 /數(shù)據(jù)集中樣本數(shù)量總和數(shù)據(jù)集中樣本數(shù)量總和通過一些方法補(bǔ)充數(shù)據(jù)?Date 50新的增益標(biāo)準(zhǔn):Gain(X) = F*(info(T) – infox(T))同時(shí),同時(shí), 通過把具有未知值的樣本看作分區(qū)的一個(gè)附加組來修改 Split_Info (X)。3. 未知屬性值問題如 存在大量丟失數(shù)據(jù) ?Date 49按照第二種選擇,必須回答幾個(gè)問題:q 怎樣比較具有不同數(shù)目未知值的兩個(gè)樣本?q 具有未知值的訓(xùn)練樣本和檢驗(yàn)的具體值之間沒有聯(lián)系,它們不能被分配給任何子集,該如何處理這些樣本?q 在分類的檢驗(yàn)階段,如果檢驗(yàn)有丟失值的屬性時(shí),該怎樣處理丟失值?:有未知值的樣本是按照已知值的相對(duì)頻率算法中:有未知值的樣本是按照已知值的相對(duì)頻率隨機(jī)分布的。 解決丟失值問題有兩種選擇:q 拋棄數(shù)據(jù)庫(kù)中有丟失數(shù)據(jù)的樣本。新的增益標(biāo)準(zhǔn) 增益率:Gain_ratio(X) = Gain(X)/ Split_Info (X)新的增益標(biāo)準(zhǔn)表示分區(qū)所生成的有用信息的比例Date 47根據(jù)前面實(shí)例,求檢驗(yàn) X1的增益比例。else類別 = 類 1. 結(jié)果結(jié)果Date 46增益標(biāo)準(zhǔn)對(duì)緊湊型決策樹的構(gòu)造有很好的效果,但也存在一個(gè)嚴(yán)重缺陷:q 對(duì)具有多輸出的檢驗(yàn)有嚴(yán)重的偏差。Else if 屬性 1 = B then類別 = 類 1。If 屬性 1 = A then if 屬性 2=70 then 類別 = 類 1。Date 44對(duì)于剩下的子結(jié)點(diǎn) T3進(jìn)行分析:對(duì) T3的屬性進(jìn)行檢驗(yàn):選擇的最優(yōu)檢驗(yàn)為 x5對(duì)屬性 3的值進(jìn)行檢驗(yàn),樹的分枝是屬性 3=真和屬性 3=假。Date 42T1檢驗(yàn) X1:屬性 1=?屬性 2 屬性 3 類70 真 類 190 真 類 285 假 類 295 假 類 270 假 類 1屬性 2 屬性 3 類90 真 類 178 假 類 165 真 類 175 假 類 1屬性 2 屬性 3 類80 真 類 270 真 類 280 假 類 180 假 類 196 假 類 1T2 T3A B C葉結(jié)點(diǎn)Date 43對(duì)于剩下的子結(jié)點(diǎn) T T3進(jìn)行分析:對(duì) T1的屬性進(jìn)行檢驗(yàn):最優(yōu)檢驗(yàn)(具有最高的信息增益)有兩個(gè)選擇:屬性 2=70或?qū)傩?270,定義為 x4。Date 38對(duì)于前面例子中的數(shù)據(jù)庫(kù) T, 分析屬性 2分區(qū)的可能結(jié)果,分類后得出屬性 2的值的集合是:{65,70,75,78,80,85,90,95,96}按照 ,選擇每個(gè)區(qū)間的最小值作為閾值,即:{65,70,75,78,80,85,90,95}共 8個(gè)值,從中選取最優(yōu)的閾值。Date 372. 離散化 的方法把連續(xù)型屬性值 離散化 的具體方法是:1) 尋找該連續(xù)型屬性的最小值,并把它賦值給 MIN,   尋找該連續(xù)型屬性的最大值,并把它賦值給 MAX;2) 設(shè)置區(qū)間 [MIN, MAX] 中的 N個(gè)等分?jǐn)帱c(diǎn) Ai, 它們分別是                Ai = MIN + (( MAX – MIN) / N) * i               其中, i = 1 , 2 , ... , N3) 分別計(jì)算把 [MIN, Ai]和( Ai, MAX)( i = 1 ,2 , ... , N) 作為區(qū)間值時(shí)的 Gain值,并進(jìn)行比較。 子樹上升法:用一棵子樹中最常用的子樹來代替這棵子樹。 子樹替代法:用葉結(jié)點(diǎn)替代子樹。q 缺失數(shù)據(jù)的考慮:在構(gòu)
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1