freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘08分類和預(yù)測(編輯修改稿)

2025-06-14 03:06 本頁面
 

【文章內(nèi)容簡介】 劃分的方法 ? 理想情況,每個劃分都是“純”的,即落在給定劃分內(nèi)的元組都屬于相同的類 ? 屬性選擇度量又稱為分裂準則 ? 常用的屬性選擇度量 ? 信息增益 ? 增益率 ? Gini指標 信息增益 (1) ? S是一個 訓(xùn)練樣本 的集合,該樣本中每個集合的 類編號 已知。每個樣本為一個 元組 。有個屬性用來判定某個訓(xùn)練樣本的類編號 ? 假設(shè) S中有 m個類,總共 s個訓(xùn)練樣本,每個類Ci有 si個樣本 (i= 1,2,3...m),那么任意一個樣本屬于類 Ci的概率是 si / s,那么用來分類一個給定樣本的 期望信息 是: sssssssInf o imiim 2121 l og),...,( ????信息增益 (2) ? 一個有 v個值的屬性 A{a1,a2,...,av}可以將 S分成 v個子集 {S1,S2,...,Sv},其中 Sj包含 S中屬性 A上的值為 aj的樣本。假設(shè) Sj包含類 Ci的 sij個樣本。根據(jù) A的這種劃分的期望信息稱為 A的 熵 ? A上該劃分的獲得的信息增益定義為: ? 具有高信息增益的屬性,是給定集合中具有高區(qū)分度的屬性。所以可以通過計算 S中樣本的每個屬性的信息增益,來得到一個屬性的相關(guān)性的排序。 ),...,(...)( 111mjjvjmjj ssIsssAE ?????)(), .. .,()( 21 AEsssIAG a i n m ??age ine student credit_rating buys_puter youth high no fair no youth high no excellent no middle_aged high no fair yes senior medium no fair yes senior low yes fair yes senior low yes excellent no middle_aged low yes excellent yes youth medium no fair no youth low yes fair yes senior medium yes fair yes youth medium yes excellent yes middle_aged medium no excellent yes middle_aged high yes fair yes senior medium no excellent no 判定歸納樹算法示例 (1) ? 對于上述數(shù)據(jù),可以略過步驟 1, 2 ? 步驟 3,計算基于熵的度量 ——信息增益,作為樣本劃分的根據(jù) ? Gain(age)= ? Gain(ine)= ? Gain(student)= ? Gain(credit_rating)= ? 然后,對測試屬性每個已知的值,創(chuàng)建一個分支,并以此劃分樣本,得到第一次劃分 判定歸納樹算法示例 (2) 判定歸納樹算法示例 (3) age? overcast student? credit rating? no yes fair excellent youth senior no no yes yes yes Middle aged 防止分類中的過分適應(yīng) ? 產(chǎn)生的決策樹會出現(xiàn)過分適應(yīng)數(shù)據(jù)的問題 ? 由于數(shù)據(jù)中的噪聲和孤立點,許多分枝反應(yīng)的是訓(xùn)練數(shù)據(jù)中的異常 ? 對新樣本的判定很不精確 ? 防止過分適應(yīng)的兩種方法 ? 先剪枝:通過提前停止樹的構(gòu)造 ——如果在一個節(jié)點劃分樣本將導(dǎo)致低于預(yù)定義臨界值的分裂( . 使用信息增益度量) ? 選擇一個合
點擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1