freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

決策樹培訓(xùn)講義(ppt49頁)(參考版)

2025-01-16 19:42本頁面
  

【正文】 (2) 為了處理大數(shù)據(jù)集或連續(xù)量的種種改進(jìn)算法(離散化、取樣)不僅增加了分類算法的額外開銷,而且降低了分類的準(zhǔn)確性,對連續(xù)性的字段比較難預(yù)測,當(dāng)類別太多時,錯誤可能就會增加的比較快,對有時間順序的數(shù)據(jù),需要很多預(yù)處理的工作。而現(xiàn)代的數(shù)據(jù)倉庫動輒存儲幾個 GBytes 的海量數(shù)據(jù)。 缺點(diǎn): (1) 缺乏伸縮性:由于進(jìn)行深度優(yōu)先搜索,所以算法受內(nèi)存大小限制,難于處理大訓(xùn)練集。 (2) 準(zhǔn)確性高:挖掘出的分類規(guī)則準(zhǔn)確性高,便于理解,決策樹可以清晰的顯示哪些字段比較重要。 屬性 1的增益計(jì)算考慮 13個數(shù)據(jù),丟失的樣本僅用來作修正,屬性 1中有 8個屬于類 1, 5個屬于類 2,因此分區(qū)前的熵為: Info (T)= 8/13 log2(8/13) 5/13 log2(5/13) = 用屬性 1把 T分區(qū)成 3個子集( A、 B、 C)后,得到的信息是: Info x1(T)= 5/13( 2/5 log2(2/5) 3/5 log2(3/5) ) + 3/13( 3/3 log2(3/3) 0/3 log2(0/3) ) + 5/13( 3/5 log2(3/5) 2/5 log2(2/5) ) = 用系數(shù) F進(jìn)行修正得: Gain(X1) = 13/14( – ) = 考慮未知值的影響: Split_Info (X1)= 5/13 log2(5/13) 3/13 log2(3/13) 5/13log2(5/13) 1/13 log2(1/13) = 由 Gain_ratio(X) = Gain(X)/ Split_Info (X)計(jì)算,則: Gain_ratio(X) = 作為單獨(dú)一組 優(yōu)點(diǎn) : (1) 速度快:計(jì)算量相對較小,且容易轉(zhuǎn)化成分類規(guī)則。 ? 用系數(shù) F修正增益參數(shù) F=數(shù)據(jù)庫中一個給出的屬性值具有已知值的樣本數(shù)量 /數(shù)據(jù)集中樣本數(shù)量總和 未知屬性值問題 新的增益標(biāo)準(zhǔn): Gain(X) = F*(info(T) – infox(T)) 同時, 通過把具有未知值的樣本看作分區(qū)的一個 附加組 來修改Split_Info (X)。 連續(xù)值的處理 Ti d Refun d M ar italS t atu sT ax ableIne Chea t1 Y es S i n gl e 12 5 K No2 No M arr i ed 10 0 K No3 No S i n gl e 70K No4 Y es M arr i ed 12 0 K No5 No Di v orc ed 95K Y es6 No M arr i ed 60K No7 Y es Di v orc ed 22 0 K No8 No S i n gl e 85K Y es9 No M arr i ed 75K No10 No S i n gl e 90K Y es10? 選取 (連續(xù)值的 )哪個分界點(diǎn)? ? 貪婪算法! 1. 排序 60 70 75 85 90 95 100 120 125 220 若進(jìn)行 “二分 ”,則可能有 9個分界點(diǎn)。 首先將連續(xù)型屬性離散化 , 把連續(xù)型屬性的值分成不同的區(qū)間 , 依據(jù)是比較各個 分裂點(diǎn) Gian值的大小 。對product_ID的分裂結(jié)果? Infoproduct_ID(D)=0 Gain(product_ID)最大 有無實(shí)際意義? 標(biāo)識屬性被選為分裂屬性,但標(biāo)識屬性的分支對預(yù)測未知實(shí)例的類別并無任何幫助 ? : 使用 “分裂信息( split information) ”值將 gain規(guī)范化 表示屬性 A第 j個劃分的權(quán)重。 ? 當(dāng)數(shù)據(jù)不能進(jìn)一步劃分時,停止劃分過程。 ? ( 6)以此類推,遞歸,繼續(xù)劃分 ? 遞歸繼續(xù)選擇 ? 當(dāng)天氣為晴時,所達(dá)到的節(jié)點(diǎn)上的可 能的深一層的分支 ? 除天氣外,其他屬性產(chǎn)生的信息增益 分別為: gain(temperature)= gain(humidity)= gain(windy)= ? 繼續(xù)再選擇濕度 (humidity)作為劃分屬性 天氣,晴分支 純子節(jié)點(diǎn) ? ( 6)以此類推,遞歸,繼續(xù)劃分 ? 天氣,晴分支,氣溫, gain(temperature)=位 ? 天氣,晴分支,濕度, gain(humidity)= (純的子女節(jié)點(diǎn)) ? 天氣,晴分支,有風(fēng), gain(windy)= ? 天氣,雨分支,氣溫, gain(temperature)=位 ? 天氣,雨分支,濕度, gain(humidity)= ? 天氣,雨分支,有風(fēng), gain(windy)= (純的子女節(jié)點(diǎn)) 天氣 雨分支 有風(fēng) 純的子節(jié)點(diǎn) ( 7) 當(dāng)所有葉節(jié)點(diǎn)都是純的,劃分過程終止 ? 理想情況下,當(dāng)所有葉節(jié)點(diǎn)都是純的而使過程終止時,即當(dāng)它們包含的實(shí)例都具有相同類時該過程終止。 ? 根據(jù)
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1