freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

決策樹(詳細易懂,很多例子)(文件)

2025-02-05 02:50 上一頁面

下一頁面
 

【正文】 ty)= ? 天氣,雨分支,有風, gain(windy)= (純的子女節(jié)點) 天氣 雨分支 有風 純的子節(jié)點 ( 7) 當所有葉節(jié)點都是純的,劃分過程終止 ? 理想情況下,當所有葉節(jié)點都是純的而使過程終止時,即當它們包含的實例都具有相同類時該過程終止。對product_ID的分裂結(jié)果? Infoproduct_ID(D)=0 Gain(product_ID)最大 有無實際意義? 標識屬性被選為分裂屬性,但標識屬性的分支對預(yù)測未知實例的類別并無任何幫助 ? : 使用 “分裂信息( split information) ”值將 gain規(guī)范化 表示屬性 A第 j個劃分的權(quán)重。 連續(xù)值的處理 Ti d Re f un d M ar italS t atu sT ax ableIne Chea t1 Y es S i n gl e 12 5 K No2 No M arr i ed 10 0 K No3 No S i n gl e 70K No4 Y es M arr i ed 12 0 K No5 No Di v orc ed 95K Y es6 No M arr i ed 60K No7 Y es Di v orc ed 22 0 K No8 No S i n gl e 85K Y es9 No M arr i ed 75K No10 No S i n gl e 90K Y es10? 選取 (連續(xù)值的 )哪個分界點? ? 貪婪算法! 1. 排序 60 70 75 85 90 95 100 120 125 220 若進行 “二分 ”,則可能有 9個分界點。 屬性 1的增益計算考慮 13個數(shù)據(jù),丟失的樣本僅用來作修正,屬性 1中有 8個屬于類 1, 5個屬于類 2,因此分區(qū)前的熵為: Info (T)= 8/13 log2(8/13) 5/13 log2(5/13) = 用屬性 1把 T分區(qū)成 3個子集( A、 B、 C)后,得到的信息是: Info x1(T)= 5/13( 2/5 log2(2/5) 3/5 log2(3/5) ) + 3/13( 3/3 log2(3/3) 0/3 log2(0/3) ) + 5/13( 3/5 log2(3/5) 2/5 log2(2/5) ) = 用系數(shù) F進行修正得: Gain(X1) = 13/14( – ) = 考慮未知值的影響: Split_Info (X1)= 5/13 log2(5/13) 3/13 log2(3/13) 5/13log2(5/13) 1/13 log2(1/13) = 由 Gain_ratio(X) = Gain(X)/ Split_Info (X)計算,則: Gain_ratio(X) = 作為單獨一組 優(yōu)點 : (1) 速度快:計算量相對較小,且容易轉(zhuǎn)化成分類規(guī)則。 缺點: (1) 缺乏伸縮性:由于進行深度優(yōu)先搜索,所以算法受內(nèi)存大小限制,難于處理大訓(xùn)練集。 (2) 為了處理大數(shù)據(jù)集或連續(xù)量的種種改進算法(離散化、取樣)不僅增加了分類算法的額外開銷,而且降低了分類的準確性,對連續(xù)性的字段比較難預(yù)測,當類別太多時,錯誤可能就會增加的比較快,對有時間順序的數(shù)據(jù),需要很多預(yù)處理的工作。而現(xiàn)代的數(shù)據(jù)倉庫動輒存儲幾個 GBytes 的海量數(shù)據(jù)。 (2) 準確性高:挖掘出的分類規(guī)則準確性高,便于理解,決策樹可以清晰的顯示哪些字段比較重要。 ? 用系數(shù) F修正增益參數(shù) F=數(shù)據(jù)庫中一個給出的屬性值具有已知值的樣本數(shù)量 /數(shù)據(jù)集中樣本數(shù)量總和 未知屬性值問題 新的增益標準: Gain(X) = F*(info(T) – infox(T)) 同時, 通過把具有未知值的樣本看作分區(qū)的一個 附加組 來修改Split_Info (X)。 首先將連續(xù)型屬性離散化 , 把連續(xù)型屬性的值分成不同的區(qū)間 , 依據(jù)是比較各個 分裂點 Gian值的大小 。 ? 當數(shù)據(jù)不能進一步劃分時,停止劃分過程。 ? 根據(jù)天氣的樹導(dǎo)致的信息增益為 :基于類比例原來信息需求 基于天氣屬性劃分之后得到的信息需求 gain(outlook)=info([9,5])info([2,3],[4,0],[3,2]) == ? ( 4)依次,計算每棵樹導(dǎo)致的信息增益 ? 為每個屬性計算信息增益 ? gain(outlook)= ? gain(temperature)= ? gain(humidity)= ? gain(windy)= ? ( 5)選擇獲得最大信息增益的屬性進行劃分 ? 最大信息增益: gain(outlook)=位 ? 選擇天氣作為樹的根節(jié)點的劃分屬性,其中一個子女節(jié)點是最純的,并且這使它明顯優(yōu)于其他屬性。 ? 如果一個節(jié)點上的數(shù)據(jù)的類值對于所有數(shù)據(jù)都相同,則熵最小。 ? 平均信息量 若一個系統(tǒng)中存在多個事件 E1,E2,… En
點擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1