freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

ch10決策樹-在線瀏覽

2024-12-02 22:36本頁面
  

【正文】 詢 21 1 1( ) ( ) 1v v mj j i jjj j i jS S SG i ni A G i ni SS S S? ? ??? ??? ? ????? ? ? ???????? ? ?Gini不純度 ? 例子 2 2 2 2225 2 3 4 4 0( ) 1 114 5 5 14 4 45 3 21 14 5 5G i ni age? ? ? ?? ? ? ?? ? ? ? ? ? ? ?? ? ? ? ? ?? ? ? ?? ? ? ?? ? ? ? ? ? ? ?? ? ? ?? ? ? ?? ? ? ? ? ? ? ?? ? ? ?? ? ? ?????? ? ? ????????????????????? ? ? ? ?????? ? ? ?? ? ? ?????( ) ?G ini inc o m e ?( ) ?G ini stu d e n t ?( _ ) ?G in i c re d it ra tin g ?分支停止準(zhǔn)則 ? 如果決策樹持續(xù)生長,直到所有葉節(jié)點(diǎn)都達(dá)到最小不純度為止,那么一般將出現(xiàn)“ 過擬合 ” ? 極端情況:所有葉節(jié)點(diǎn)僅對應(yīng)一個(gè)訓(xùn)練樣本,這時(shí),決策樹退化為 查找表 ? 如果分支停止過早,則對訓(xùn)練樣本的擬合較差,導(dǎo)致分類性能較差 ? 常用分支停止準(zhǔn)則 ? 交叉驗(yàn)證 ? 預(yù)設(shè)一個(gè)不純度下降差的閾值 ? 監(jiān)測每個(gè)節(jié)點(diǎn)代表的樣本數(shù)目是否小于某個(gè)閾值 分支停止準(zhǔn)則 ? 最小化如下指標(biāo) ? 不純度下降的統(tǒng)計(jì)顯著分析 ? 如果一個(gè)劃分不能顯著降低不純度,則停止分支 正則項(xiàng) 剪枝 ? 剪枝 ( pruning) ? 用于消除過擬合 ? 預(yù)剪枝 ( prepruning)和 后剪枝 ( postpruning) ? 預(yù)剪枝 即前面提到的分支停止技術(shù),也就是在樹生長到一定條件時(shí)停止繼續(xù)劃分 ? 后剪枝 指 首先讓樹充分生長,直到葉節(jié)點(diǎn)具有最小不純度為止,然后對樹進(jìn)行剪枝 ? 可用交叉驗(yàn)證技術(shù)來確定剪掉哪些分支 ? 剪掉使不純度增長最小的分支 ? 一般來講,后剪枝性能較好,但需要更多計(jì)算量 葉節(jié)點(diǎn)的標(biāo)記 ? 如果葉節(jié)點(diǎn)對應(yīng)的樣本都來自同一類,則用該類別標(biāo)記該葉節(jié)點(diǎn) ? 一般情況下,葉節(jié)點(diǎn)都具有正的不純度,此時(shí)用占優(yōu)勢的樣本類別標(biāo)記該葉節(jié)點(diǎn) ID3 ? ID3: Interactive Dichotomizer3(交互式二分法第三版) ? 僅僅適用于 標(biāo)稱(無序)數(shù)據(jù) 如果涉及實(shí)值數(shù)據(jù),則需離散化,然后當(dāng)做標(biāo)稱數(shù)據(jù)處理 ? 每個(gè)劃分的 分支因子 等于查詢屬性的取值個(gè)數(shù) ? 采用 信息增益率 作為選擇查詢的依據(jù) ? 算法直到所有葉節(jié)點(diǎn)的 不純度最小 ,或者沒有可用于劃分的屬性時(shí)停止 ? 標(biāo)準(zhǔn)版中無 剪枝 步驟 ? : ID3算法的后繼和改進(jìn) ? 可以處理 實(shí)值數(shù)據(jù) ? 每個(gè)劃分的 分支因子 等于查詢屬性的取值個(gè)數(shù) ? 采用 信息增益率 作為選擇查詢的依據(jù) ? 首先讓樹充分生長,然后利用分支的 統(tǒng)計(jì)顯著性來實(shí)現(xiàn)剪枝 ? Ch 11. 聚類 無監(jiān)督學(xué)習(xí) ? 有監(jiān)督 ( supervised)學(xué)習(xí) ? 訓(xùn)練集中每個(gè)樣本都有一個(gè)類別標(biāo)記 ? 所有類別事先已知 ? 常用于:分類、回歸 ? 無監(jiān)督 ( unsupervised)學(xué)習(xí) ? 訓(xùn)練集中樣本的類別標(biāo)記未知 ? 給定一組樣本,發(fā)現(xiàn)其內(nèi)在性質(zhì),如類別和聚類 ? 常用于:聚類、概率密度估計(jì) 無監(jiān)督學(xué)習(xí)的動(dòng)機(jī) ? 收集并且標(biāo)記大量模式往往花費(fèi)巨大 ? 希望首先在一個(gè)較小的有標(biāo)記樣本集上訓(xùn)練一個(gè)粗略的分類器,然后讓這個(gè)分類器以非監(jiān)督的方式在一個(gè)較大的樣本集上運(yùn)行 ? 或者,用大量未標(biāo)記的樣本集來訓(xùn)練分類器,讓它自動(dòng)發(fā)現(xiàn)數(shù)據(jù)中的分組,然后用代價(jià)更高的辦法(如人工)來標(biāo)記這些分組 ? 在很多應(yīng)用中,模式的特征會(huì)隨時(shí)間而變化 ? 如果這種特征的變化能夠被某種運(yùn)行在無監(jiān)督方式下的分類器捕捉到,那么分類性能將得到大幅提高 無監(jiān)督學(xué)習(xí)的動(dòng)機(jī) ? 無監(jiān)督方法可以用來提取特征,或者預(yù)處理現(xiàn)存特征,從而為后續(xù)的模式識(shí)別問題做準(zhǔn)備 ? 例如: PCA降維 ? 在任何探索性的工作中,無監(jiān)督方法可以揭示觀測數(shù)據(jù)的一些內(nèi)部結(jié)構(gòu)和規(guī)律 ? 發(fā)現(xiàn)模式中內(nèi)在的聚類或分組可能為分類器設(shè)計(jì)提供依據(jù) 聚類 ? 聚類 ( clustering) ? 聚類是指將物理的或抽象的對象自然分組,使得每組由相似的對象構(gòu)成一類的過程 ? 因?yàn)橛?xùn)練集樣本并無類別標(biāo)記,所以聚類是 無監(jiān)督學(xué)習(xí)過程 ? 一個(gè) 聚類 ( clust
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1