freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

4分類和預(yù)測(cè)(1)決策樹-免費(fèi)閱讀

  

【正文】 ? (4) 根據(jù)最佳分割點(diǎn),離散化屬性的連續(xù)值。 49 —— 離散化示例 ? 將 ―buy_puter‖中的屬性 age的取值由 {youth, middle_aged, senior}改為具體年齡 {32, 25, 46, 56, 60, 52, 42, 36, 23, 51, 38, 43, 41, 65}, 法離散化的具體過(guò)程。 ? 當(dāng)處理離散型屬性時(shí) , ID3算法相同; ? 當(dāng)處理連續(xù)型屬性時(shí) , 性轉(zhuǎn)換成離散型屬性 。 43 ID3算法 ? ID3算法的 缺點(diǎn) : ? ID3算法在選擇根節(jié)點(diǎn)和內(nèi)部結(jié)點(diǎn)的屬性時(shí),使用信息增益作為評(píng)價(jià)標(biāo)準(zhǔn)。由于屬性 age有三個(gè)不同取值( youth, middle_aged, senior),因此可將數(shù)據(jù)集劃分成三個(gè)子集: X1, X2和 X3。 ? xi (i=1, 2, ..., total)用 d維特征向量 xi = (xi1, xi2, ..., xid)來(lái)表示, xi1, xi2, ..., xid分別對(duì)應(yīng) d個(gè)屬性 A1, A2, ..., Ad的具體取值; ? yi (i=1, 2, ..., total)表示樣本 xi的類標(biāo)號(hào),假設(shè)要研究的分類問(wèn)題有 m個(gè)類別,則 yi∈ {c1, c2, ..., cm}。 ? 結(jié)構(gòu)上類似于程序流程圖; ? 每個(gè)內(nèi)部結(jié)點(diǎn)表示在一個(gè)屬性上的 測(cè)試 ; ? 每個(gè)分枝代表一個(gè)測(cè)試的 輸出 ; ? 每個(gè)葉結(jié)點(diǎn)存放一個(gè) 類標(biāo)號(hào) 。 ? 常用的預(yù)處理操作包括: ? 數(shù)據(jù)清理 ? 相關(guān)分析 ? 數(shù)據(jù)變換 :數(shù)據(jù)可以通過(guò)規(guī)范化,將給定屬性的所有值按比例進(jìn)行縮放,使其落入一個(gè)較小的指定區(qū)間中。 ? 分類模型 可能會(huì)以 分類規(guī)則 、 決策樹 或 數(shù)學(xué)公式 等形式呈現(xiàn)出來(lái)。 ? 預(yù)測(cè)( Prediction) ? 它是一種分類的泛化,當(dāng)分類的類別是一個(gè)連續(xù)值時(shí)(可看成無(wú)限多類),就是 數(shù)據(jù)預(yù)測(cè) 。 7 分類和預(yù)測(cè)的定義 ? 第一步 —— 建立模型 ? 訓(xùn)練數(shù)據(jù)集:由若干數(shù)據(jù)(通常用 n維屬性向量表示)和它們相對(duì)應(yīng)的類標(biāo)號(hào)組成。 ? 相關(guān)分析 ? 數(shù)據(jù)變換 14 分類過(guò)程的數(shù)據(jù)預(yù)處理 ? 在執(zhí)行分類過(guò)程之前,通過(guò)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,可以提高分類過(guò)程的 準(zhǔn)確性 、 有效性 和 可伸縮性 。 18 分類的評(píng)價(jià)標(biāo)準(zhǔn) ? 精確度(正確率) :表示測(cè)試集中被正確分類的數(shù)據(jù)所占的比例。 ? 先剪枝方法 ? 后剪枝方法 30 ID3算法 ? 特點(diǎn):在選擇根結(jié)點(diǎn)和各個(gè)內(nèi)部結(jié)點(diǎn)的分枝屬性時(shí),采用 信息增益 作為度量標(biāo)準(zhǔn) ,因此每次都會(huì)選擇具有 最高信息增益 的屬性作為分枝屬性。 )(),...,()( 21 fmf AEnnnInfoAGain ??34 age ine student credit_rating buy_puter youth high no fair no youth high no excellent no middle_aged high no fair yes senior medium no fair yes senior low yes fair yes senior low yes excellent no middle_aged low yes excellent yes youth medium no fair no youth low yes fair yes senior medium yes fair yes youth medium yes excellent yes middle_aged medium no excellent yes middle_aged high yes fair yes senior medium no excellent no ID3算法 —— 示例( buy_puter) 35 ID3算法 —— 示例( buy_puter) ? 首先,計(jì)算數(shù)據(jù)集分類所需的期望信息: ? 在數(shù)據(jù)集中,給定的樣本數(shù)量為 14,類標(biāo)號(hào)為 Yes (表示購(gòu)買電腦 )的樣本數(shù)量為 n1=9,類標(biāo)號(hào)為 No (表示不購(gòu)買電腦 )的樣本數(shù)量為 n2=5,因此數(shù)據(jù)集中兩個(gè)類別的先驗(yàn)概率分別為: p(Yes)=n1/total=9/14 p(No)=n2/total=5/14 ? 對(duì)數(shù)據(jù)集分類所需的期望信息為: Info(n1,n2)=p(Yes)*log(p(Yes))p(N
點(diǎn)擊復(fù)制文檔內(nèi)容
數(shù)學(xué)相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1