freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

分類挖掘:決策樹(編輯修改稿)

2025-02-14 05:14 本頁(yè)面
 

【文章內(nèi)容簡(jiǎn)介】 ”的結(jié)點(diǎn)。因?yàn)?Gain (收入 )= Gain(學(xué)生 )= Gain(信用 )= 所以分支 “ 年齡 =‘40’”結(jié)點(diǎn)的測(cè)試屬性為 “ 信用 ” 。考慮分支 “ 學(xué)生 =‘否 ’” 的結(jié)點(diǎn),由于所有記錄屬于同一類別 “ 否 ” ,所以分支 “ 學(xué)生 =‘否 ’” 的結(jié)點(diǎn)為葉結(jié)點(diǎn)??紤]分支 “ 學(xué)生 =‘是 ’” 的結(jié)點(diǎn),由于所有記錄屬于同一類別 “ 是 ” ,所以分支 “ 學(xué)生 =‘是 ’” 的結(jié)點(diǎn)為葉結(jié)點(diǎn)??紤]分支 “ 信用 =‘優(yōu) ’” 的結(jié)點(diǎn),由于所有記錄屬于同一類別 “ 否 ” ,所以分支 “ 信用 =‘否 ’” 的結(jié)點(diǎn)為葉結(jié)點(diǎn)。考慮分支 “ 信用 =‘中 ’” 的結(jié)點(diǎn),由于所有記錄屬于同一類別 “ 是 ” ,所以分支 “ 信用 =‘是 ’” 的結(jié)點(diǎn)為葉結(jié)點(diǎn)。2023/5/4建立的決策樹:2023/5/42023/5/4()算法1993年由 Quinlan提出,采用信息增益比 (信息率 )來(lái)選擇屬性。克服偏向選擇取值較多屬性的缺點(diǎn)用閾值對(duì)屬性劃分,即把訓(xùn)練集中該屬性的所有值劃分到不同的區(qū)間中。用最常見值代替未知值規(guī)則存于二維數(shù)組中如: 視為 youth。 視為 middle_aged。 視為 senior.LOGO增益率、增益率Why??信息增益度量偏向于有許多輸出的測(cè)試,即它傾向于選擇具有大量值的屬性。舉個(gè)極端的例子:考慮充當(dāng)唯一標(biāo)識(shí)的屬性 PID。對(duì) PID的分裂將產(chǎn)生大量劃分(與樣本個(gè)數(shù)一樣多),每個(gè)分類只包含一個(gè)樣本,且每個(gè)劃分都是純的。對(duì)屬性 PID劃分得到的信息增益最大,顯然,這種劃分對(duì)分類沒有用處 。LOGO 使用分裂信息 (split information)將信息增益規(guī)范化 。該值表示數(shù)據(jù)集 按屬性 測(cè)試的 個(gè)劃分產(chǎn)生的信息。 增益率:選擇具有最大信息率的屬性作為分裂屬性 。增益率ine其他屬性的信息率可類似求出 。?在實(shí)際通信之前(決策樹建立之前),輸出變量對(duì)信宿來(lái)講是完全隨機(jī)的,其平均不確定性為:?決策樹建立過(guò)程中,隨著信宿接收到信息(輸入變量如 T1),則條件熵為:?信息增益:?T1作為最佳分組變量而非 T3將輸出變量(是否購(gòu)買)看作信源發(fā)出的信息 U輸入變量看作是信宿接收到的一系列信息 V類別值多的輸入變量比少的有更多的機(jī)會(huì)成為當(dāng)前最佳分組變量 :信息增益率信息增益率的數(shù)學(xué)定義為 :?數(shù)值型輸入變量?首先對(duì)它進(jìn)行分組處理,分組方法采用基于MDLP的熵分組方法 :數(shù)值型輸入變量? 把連續(xù)值屬性的值域分割為離散的區(qū)間集合。基于 MDLP的熵分組方法。( Minimun DescriptionLength Principle)信息增益大于編碼長(zhǎng)度合并連續(xù)值屬性合并連續(xù)值屬性2023/5/4選擇最佳分組變量時(shí),通常將帶有缺失值的樣本當(dāng)臨時(shí)剔除樣本看待,并進(jìn)行權(quán)數(shù)調(diào)整 :對(duì)缺失值問(wèn)題的處理計(jì)算輸出變量熵計(jì)算關(guān)于 T1的條件熵 計(jì)算經(jīng)權(quán)數(shù)調(diào)整的 T1信息增益 計(jì)算信息增益率 ?不繼續(xù)確定關(guān)于分組變量的最佳分割點(diǎn)?分類型輸入變量: K叉樹?數(shù)值型輸入變量: 2叉樹?Clementine: ChiMerge分箱法?在分組變量上取缺失值:?第 1個(gè)樣本被分配到各組中的權(quán)數(shù)分別為 5/13/1 5/13,之后各組的樣本數(shù)分別為 5+ 5/1 3+ 3/1 5+ 5/13 :最佳分割點(diǎn)?后修剪方法從葉結(jié)點(diǎn)向上逐層剪枝,關(guān)鍵是錯(cuò)誤率即誤差的估計(jì)問(wèn)題?通常應(yīng)在檢驗(yàn)樣本集上估計(jì)誤差并進(jìn)行剪枝?利用統(tǒng)計(jì)中置信度的思想直接在訓(xùn)練樣本集中估計(jì)誤差:當(dāng) ?為 , :剪枝?按照 “減少-誤差( reduceerror) ”法判斷是否剪枝:剪枝考慮是否可以剪掉最下層的 3個(gè)葉結(jié)點(diǎn)3個(gè)結(jié)點(diǎn)的錯(cuò)誤率:分別為: 、 、 ;加權(quán):計(jì)算父結(jié)點(diǎn) C的誤差估計(jì)為 。由于 ,因此可以剪掉 3個(gè)葉結(jié)點(diǎn)
點(diǎn)擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1