freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)分類決策樹ppt課件-閱讀頁(yè)

2025-05-15 18:13本頁(yè)面
  

【正文】 決策樹進(jìn)行分枝。else 類別 = 類 2。else if 屬性 1 = C thenif 屬性 3 = 真 then類別 = 類 2。q 解決方法:根據(jù) info(S)的定義,指定一個(gè)附加的參數(shù): nSplit_Info (X)=- Σ i=1 ((|Ti| /|T|). log2(|Ti| /|T|))含義:q 通過(guò)把集 T分區(qū)成 n個(gè)子集 Ti而生成的潛在信息。q 計(jì)算 Split_Info (X1)Split_Info (X1)= 5/14 log2(5/14) 4/14 log2(4/14) 5/14 log2(5/14) =q 計(jì)算 Gain_ratio(X1)Gain_ratio(X1) = q 檢驗(yàn)過(guò)程,將采用最大增益率代替增益標(biāo)準(zhǔn)值Date 48在實(shí)際應(yīng)用過(guò)程中,大量的現(xiàn)實(shí)世界中的數(shù)據(jù)都不是以人的意愿來(lái)定的,可能某些字段上缺值( missing values); 可能數(shù)據(jù)不準(zhǔn)確含有噪聲或者是錯(cuò)誤的;可能是缺少必須的數(shù)據(jù)造成了數(shù)據(jù)的不完整。q 定義一個(gè)新的算法或改進(jìn)現(xiàn)有的算法來(lái)處理。隨機(jī)分布的。如果檢驗(yàn) x有 n個(gè)輸出, Split_Info (X)按照檢驗(yàn)把數(shù)據(jù)集分區(qū)成 n + 1個(gè)子集計(jì)算。Date 51有一個(gè)丟失值的簡(jiǎn)單平面數(shù)據(jù)庫(kù)數(shù)據(jù) 庫(kù) T:屬性 1 屬性 2 屬性 3 屬性 4A 70 真 類 1A 90 真 類 2A 85 假 類 2A 95 假 類 2A 70 假 類 1? 90 真 類 1B 78 假 類 1B 65 真 類 1B 75 假 類 1C 80 真 類 2C 70 真 類 2C 80 假 類 1C 80 假 類 1C 96 假 類 1Date 52屬性 1的增益計(jì)算考慮 13個(gè)數(shù)據(jù),丟失的樣本僅用來(lái)作修正,屬性 1中有 8個(gè)屬于類 1, 5個(gè)屬于類 2,因此分區(qū)前的熵為:Info (T)= 8/13 log2(8/13) 5/13 log2(5/13)=用屬性 1把 T分區(qū)成 3個(gè)子集( A、 B、 C) 后,得到的信息是:Info x1(T)= 5/13( 2/5 log2(2/5) 3/5 log2(3/5) )+ 3/13( 3/3 log2(3/3) 0/3 log2(0/3) )+ 5/13( 3/5 log2(3/5) 2/5 log2(2/5) )=用系數(shù) F進(jìn)行修正得:Gain(X1) = 13/14( – ) = 特 原來(lái)為 Date 53考慮未知值的影響:Split_Info (X1)= 5/13 log2(5/13) 3/13 log2(3/13) 5/13log2(5/13) 1/13 log2(1/13) =由 Gain_ratio(X) = Gain(X)/ Split_Info (X)計(jì)算,則:Gain_ratio(X) = 同時(shí),每個(gè)樣本都有一個(gè)相關(guān)的新參數(shù),即概率:當(dāng)一個(gè)值已知的樣本從 T分配給 Ti時(shí),它屬于 Ti的概率是 1,屬于其它所有子集的概率是 0;當(dāng)一個(gè)值是未知的,只能得出不穩(wěn)定的概率描述。T1:( 屬性 1=A)屬性2屬性3類 w70 真 類 1 190 真 類 2 185 假 類 2 195 假 類 2 170 假 類 1 190 真 類 1 5/13屬性 2屬性 3類 w90 真 類 1 3/1378 假 類 1 165 真 類 1 175 假 類 1 1屬性 2 屬性 3 類 w80 真 類 2 170 真 類 2 180 假 類 1 180 假 類 1 196 假 類 1 190 真 類 1 5/13T2:( 屬性 1=B) T3:( 屬性 1=C)在子集中的權(quán)值在 , |Ti|可以重新解釋為子集 Ti的所有權(quán)重 w的和,而不再是集 Ti中的元素?cái)?shù)。else 類別 = 類 2 ( ) 。else if 屬性 1 = C thenif 屬性 3 = 真 then類別 = 類 2 ( ) 。因最終分類的不明確性,每個(gè)決策都用到 |Ti|/E表示。其中 :達(dá)到葉結(jié)點(diǎn),其中( 5/13)個(gè)并不屬于分配給葉的類。q 提供兩種基本的剪枝策略:216。216。結(jié)果:最終生成一個(gè)更簡(jiǎn)單、更容易理解的樹結(jié)果:最終生成一個(gè)更簡(jiǎn)單、更容易理解的樹4. 修剪決策樹(剪枝)Date 58( 1)先剪枝( prepruning)在建樹的過(guò)程中,如滿足下列條件:q Information Gain或者某些有效統(tǒng)計(jì)量達(dá)到某個(gè)預(yù)先設(shè)定的閾值時(shí),結(jié)點(diǎn)不再繼續(xù)分裂,內(nèi)部結(jié)點(diǎn)成為一個(gè)葉結(jié)點(diǎn)。由于決策在分區(qū)前提前做出,因此該方法也叫預(yù)剪枝。 ( 2)后剪枝( pospruning)用所選的精度準(zhǔn)則回頭去除樹的一些點(diǎn)。當(dāng)建樹時(shí)的訓(xùn)練數(shù)據(jù)進(jìn)入決策樹并到達(dá)葉結(jié)點(diǎn)時(shí),訓(xùn)練數(shù)據(jù)的 class label與葉結(jié)點(diǎn)的 class label不同,這時(shí)稱為發(fā)生了分類錯(cuò)誤。如果裁減能夠降低錯(cuò)誤率,那么該結(jié)點(diǎn)的所有兒子就被剪掉,而該結(jié)點(diǎn)成為一片葉。最終形成一棵錯(cuò)誤率盡可能小的決策樹。具體方法是:從根結(jié)點(diǎn)到葉結(jié)點(diǎn)的每一條路徑創(chuàng)建一條分類規(guī)則,路徑上的每一個(gè) “屬性-值 ”對(duì)為規(guī)則的前件(即 IF部分)的一個(gè)合取項(xiàng),葉結(jié)點(diǎn)為規(guī)則的后件(即THEN部分)。IF age = ‘30…40 ’ THEN buys_puter= ‘yes’IF age = ‘40’AND credit _rating= ‘fair’ THEN buys_puter= ‘yes’Date 62 SQL Server 2022中的決策樹應(yīng)用 n 創(chuàng)建 Analysis Services 項(xiàng)目 n 創(chuàng)建數(shù)據(jù)源 n 創(chuàng)建數(shù)據(jù)源視圖 n 創(chuàng)建決策樹挖掘結(jié)構(gòu) n 設(shè)置決策樹挖掘結(jié)構(gòu)的相關(guān)參數(shù) n 建立決策樹挖掘模型 n 查看挖掘結(jié)果 Date 63數(shù)據(jù)集 X屬性 1 屬性 2 類T 1 C2T 2 C1F 1 C2F 2 C2作業(yè) 1給出一個(gè) 3維分類的樣本的數(shù)據(jù)集 X, 表示如下:用 。B) 求出屬性 B的最優(yōu)閾值(根據(jù)最大增益)。D) 從決策樹中導(dǎo)出決
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1