freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

決策樹(詳細(xì)易懂,很多例子)(文件)

2025-02-05 02:50 上一頁面

下一頁面
 

【正文】 ty)= ? 天氣,雨分支,有風(fēng), gain(windy)= (純的子女節(jié)點(diǎn)) 天氣 雨分支 有風(fēng) 純的子節(jié)點(diǎn) ( 7) 當(dāng)所有葉節(jié)點(diǎn)都是純的,劃分過程終止 ? 理想情況下,當(dāng)所有葉節(jié)點(diǎn)都是純的而使過程終止時(shí),即當(dāng)它們包含的實(shí)例都具有相同類時(shí)該過程終止。對(duì)product_ID的分裂結(jié)果? Infoproduct_ID(D)=0 Gain(product_ID)最大 有無實(shí)際意義? 標(biāo)識(shí)屬性被選為分裂屬性,但標(biāo)識(shí)屬性的分支對(duì)預(yù)測(cè)未知實(shí)例的類別并無任何幫助 ? : 使用 “分裂信息( split information) ”值將 gain規(guī)范化 表示屬性 A第 j個(gè)劃分的權(quán)重。 連續(xù)值的處理 Ti d Re f un d M ar italS t atu sT ax ableIne Chea t1 Y es S i n gl e 12 5 K No2 No M arr i ed 10 0 K No3 No S i n gl e 70K No4 Y es M arr i ed 12 0 K No5 No Di v orc ed 95K Y es6 No M arr i ed 60K No7 Y es Di v orc ed 22 0 K No8 No S i n gl e 85K Y es9 No M arr i ed 75K No10 No S i n gl e 90K Y es10? 選取 (連續(xù)值的 )哪個(gè)分界點(diǎn)? ? 貪婪算法! 1. 排序 60 70 75 85 90 95 100 120 125 220 若進(jìn)行 “二分 ”,則可能有 9個(gè)分界點(diǎn)。 屬性 1的增益計(jì)算考慮 13個(gè)數(shù)據(jù),丟失的樣本僅用來作修正,屬性 1中有 8個(gè)屬于類 1, 5個(gè)屬于類 2,因此分區(qū)前的熵為: Info (T)= 8/13 log2(8/13) 5/13 log2(5/13) = 用屬性 1把 T分區(qū)成 3個(gè)子集( A、 B、 C)后,得到的信息是: Info x1(T)= 5/13( 2/5 log2(2/5) 3/5 log2(3/5) ) + 3/13( 3/3 log2(3/3) 0/3 log2(0/3) ) + 5/13( 3/5 log2(3/5) 2/5 log2(2/5) ) = 用系數(shù) F進(jìn)行修正得: Gain(X1) = 13/14( – ) = 考慮未知值的影響: Split_Info (X1)= 5/13 log2(5/13) 3/13 log2(3/13) 5/13log2(5/13) 1/13 log2(1/13) = 由 Gain_ratio(X) = Gain(X)/ Split_Info (X)計(jì)算,則: Gain_ratio(X) = 作為單獨(dú)一組 優(yōu)點(diǎn) : (1) 速度快:計(jì)算量相對(duì)較小,且容易轉(zhuǎn)化成分類規(guī)則。 缺點(diǎn): (1) 缺乏伸縮性:由于進(jìn)行深度優(yōu)先搜索,所以算法受內(nèi)存大小限制,難于處理大訓(xùn)練集。 (2) 為了處理大數(shù)據(jù)集或連續(xù)量的種種改進(jìn)算法(離散化、取樣)不僅增加了分類算法的額外開銷,而且降低了分類的準(zhǔn)確性,對(duì)連續(xù)性的字段比較難預(yù)測(cè),當(dāng)類別太多時(shí),錯(cuò)誤可能就會(huì)增加的比較快,對(duì)有時(shí)間順序的數(shù)據(jù),需要很多預(yù)處理的工作。而現(xiàn)代的數(shù)據(jù)倉庫動(dòng)輒存儲(chǔ)幾個(gè) GBytes 的海量數(shù)據(jù)。 (2) 準(zhǔn)確性高:挖掘出的分類規(guī)則準(zhǔn)確性高,便于理解,決策樹可以清晰的顯示哪些字段比較重要。 ? 用系數(shù) F修正增益參數(shù) F=數(shù)據(jù)庫中一個(gè)給出的屬性值具有已知值的樣本數(shù)量 /數(shù)據(jù)集中樣本數(shù)量總和 未知屬性值問題 新的增益標(biāo)準(zhǔn): Gain(X) = F*(info(T) – infox(T)) 同時(shí), 通過把具有未知值的樣本看作分區(qū)的一個(gè) 附加組 來修改Split_Info (X)。 首先將連續(xù)型屬性離散化 , 把連續(xù)型屬性的值分成不同的區(qū)間 , 依據(jù)是比較各個(gè) 分裂點(diǎn) Gian值的大小 。 ? 當(dāng)數(shù)據(jù)不能進(jìn)一步劃分時(shí),停止劃分過程。 ? 根據(jù)天氣的樹導(dǎo)致的信息增益為 :基于類比例原來信息需求 基于天氣屬性劃分之后得到的信息需求 gain(outlook)=info([9,5])info([2,3],[4,0],[3,2]) == ? ( 4)依次,計(jì)算每棵樹導(dǎo)致的信息增益 ? 為每個(gè)屬性計(jì)算信息增益 ? gain(outlook)= ? gain(temperature)= ? gain(humidity)= ? gain(windy)= ? ( 5)選擇獲得最大信息增益的屬性進(jìn)行劃分 ? 最大信息增益: gain(outlook)=位 ? 選擇天氣作為樹的根節(jié)點(diǎn)的劃分屬性,其中一個(gè)子女節(jié)點(diǎn)是最純的,并且這使它明顯優(yōu)于其他屬性。 ? 如果一個(gè)節(jié)點(diǎn)上的數(shù)據(jù)的類值對(duì)于所有數(shù)據(jù)都相同,則熵最小。 ? 平均信息量 若一個(gè)系統(tǒng)中存在多個(gè)事件 E1,E2,… En
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1