freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

決策樹培訓(xùn)講義(ppt49頁)-資料下載頁

2025-01-14 19:42本頁面
  

【正文】 i ed 12 0 K No5 No Di v orc ed 95K Y es6 No M arr i ed 60K No7 Y es Di v orc ed 22 0 K No8 No S i n gl e 85K Y es9 No M arr i ed 75K No10 No S i n gl e 90K Y es10? 選取 (連續(xù)值的 )哪個分界點? ? 貪婪算法! 1. 排序 60 70 75 85 90 95 100 120 125 220 若進行 “二分 ”,則可能有 9個分界點。 例子 : 60 70 75 85 90 95 100 120 125 220 60 70 75 85 90 95 100 120 125 220 分割成 TaxIn=80 和 TaxIn80 分割成 TaxIn= 和 TaxIn ? 實際上 , 這就是 “離散化 ”過程 連續(xù)值的處理 Ti d Refun d M ar italS t atu sT ax ableIne Chea t1 Y es S i n gl e 12 5 K No2 No M arr i ed 10 0 K No3 No S i n gl e 70K No4 Y es M arr i ed 12 0 K No5 No Di v orc ed 95K Y es6 No M arr i ed 60K No7 Y es Di v orc ed 22 0 K No8 No S i n gl e 85K Y es9 No M arr i ed 75K No10 No S i n gl e 90K Y es102. 對 每個 候選的分界點,分別計算熵 例子 : 測試以 80分界的情形 e ntr op y ( ) 0 bitsc he at ?37I nf o( T a xI n|80) 0 bit s10 10? ? ? ? ?(1). TaxIn=80 (2). TaxIn80 223 3 4 4e ntro py ( ) l og l og = 85 bit s7 7 7 7c he at ? ? ?(3). 加權(quán)平均 同理 , 測試以 95分界的情形 , Info(TaxIn|95)= bits 3. 比較取 每個 分界點的信息增益,選擇最大的一個 :有未知值的樣本是按照已知值的相對頻率隨機分布的。 ? 用系數(shù) F修正增益參數(shù) F=數(shù)據(jù)庫中一個給出的屬性值具有已知值的樣本數(shù)量 /數(shù)據(jù)集中樣本數(shù)量總和 未知屬性值問題 新的增益標準: Gain(X) = F*(info(T) – infox(T)) 同時, 通過把具有未知值的樣本看作分區(qū)的一個 附加組 來修改Split_Info (X)。 如果檢驗 x有 n個輸出, Split_Info (X)按照檢驗把數(shù)據(jù)集分區(qū)成 n + 1個子集計算。 屬性 1的增益計算考慮 13個數(shù)據(jù),丟失的樣本僅用來作修正,屬性 1中有 8個屬于類 1, 5個屬于類 2,因此分區(qū)前的熵為: Info (T)= 8/13 log2(8/13) 5/13 log2(5/13) = 用屬性 1把 T分區(qū)成 3個子集( A、 B、 C)后,得到的信息是: Info x1(T)= 5/13( 2/5 log2(2/5) 3/5 log2(3/5) ) + 3/13( 3/3 log2(3/3) 0/3 log2(0/3) ) + 5/13( 3/5 log2(3/5) 2/5 log2(2/5) ) = 用系數(shù) F進行修正得: Gain(X1) = 13/14( – ) = 考慮未知值的影響: Split_Info (X1)= 5/13 log2(5/13) 3/13 log2(3/13) 5/13log2(5/13) 1/13 log2(1/13) = 由 Gain_ratio(X) = Gain(X)/ Split_Info (X)計算,則: Gain_ratio(X) = 作為單獨一組 優(yōu)點 : (1) 速度快:計算量相對較小,且容易轉(zhuǎn)化成分類規(guī)則。只要沿著樹根向下一直走到葉,沿途的分裂條件就能夠唯一確定一條分類的謂詞。 (2) 準確性高:挖掘出的分類規(guī)則準確性高,便于理解,決策樹可以清晰的顯示哪些字段比較重要。 (3) 非參數(shù)學(xué)習(xí),不需要設(shè)置參數(shù)。 缺點: (1) 缺乏伸縮性:由于進行深度優(yōu)先搜索,所以算法受內(nèi)存大小限制,難于處理大訓(xùn)練集。一個例子:在 Irvine 機器學(xué)習(xí)知識庫中,最大可以允許的數(shù)據(jù)集僅僅為 700KB , 2023 條記錄。而現(xiàn)代的數(shù)據(jù)倉庫動輒存儲幾個 GBytes 的海量數(shù)據(jù)。用以前的方法是顯然不行的。 (2) 為了處理大數(shù)據(jù)集或連續(xù)量的種種改進算法(離散化、取樣)不僅增加了分類算法的額外開銷,而且降低了分類的準確性,對連續(xù)性的字段比較難預(yù)測,當(dāng)類別太多時,錯誤可能就會增加的比較快,對有時間順序的數(shù)據(jù),需要很多預(yù)處理的工作。
點擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1