freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

[理學(xué)]第6講分類和預(yù)測(cè)-文庫(kù)吧在線文庫(kù)

  

【正文】 excellent fair =30 40 yes 30..40 age credit_rating buys_puter =30 excellent no =30 excellent yes age credit_rating buys_puter =30 fair no =30 fair no =30 fair yes E(credit_rating) = 2/5*I(1, 1)+3/5*I(1,2) =2/5*(1/2*log2(1/2)1/2*log2(1/2)) + 3/5*(1/3*log2(1/3)2/3*log2(2/3)) =+= Gain(credit_rating) = I ( p, n) E (credit_rating) =I(3,2)0 = 2/5*(log2 (2/5)3/5*(log2 (3/5) =+ == 最終劃分結(jié)果 age? overcast student? credit rating? no yes fair excellent =30 40 no no yes yes yes 30..40 2 1 2 Gini Index (IBM IntelligentMiner) 如果數(shù)據(jù)集 T包含來(lái)自 n個(gè)類的例子 ,那么 gini index, gini(T) 被定義為 n gini (T ) = 1 ? ? p j j = 1 這里 pj 是 T中類 j的相對(duì)頻率 如果被劃分為大小分別為 N1 和 N2 的兩個(gè)子集 T1和 T2 數(shù)據(jù)集 T,那么劃分?jǐn)?shù)據(jù)包含來(lái)自 n個(gè)類的例子的 gini index gini(T) 被定義為 gini split (T ) = N N gini (T 1) + N N gini (T 2 ) 提供最小 ginisplit(T) 的屬性被選來(lái)劃分結(jié)點(diǎn)(需要為每個(gè)屬 性列舉所有可能的劃分點(diǎn)) 防止分類中的過(guò)分適應(yīng) ? 產(chǎn)生的判定樹(shù)會(huì)出現(xiàn)過(guò)分適應(yīng)數(shù)據(jù)的問(wèn)題 ? 由于數(shù)據(jù)中的噪聲和孤立點(diǎn),許多分枝反應(yīng)的是訓(xùn)練數(shù)據(jù)中的異常 ? 對(duì)新樣本的判定很不精確 ? 防止過(guò)分適應(yīng)的兩種方法 ? 先剪枝:通過(guò)提前停止樹(shù)的構(gòu)造 ——如果在一個(gè)節(jié)點(diǎn)劃分樣本將導(dǎo)致低于預(yù)定義臨界值的分裂( . 使用信息增益度量) ? 選擇一個(gè)合適的臨界值往往很困難 ? 后剪枝:由“完全生長(zhǎng)”的樹(shù)剪去分枝 ——對(duì)于樹(shù)中的每個(gè)非樹(shù)葉節(jié)點(diǎn),計(jì)算該節(jié)點(diǎn)上的子樹(shù)被剪枝可能出現(xiàn)的期望錯(cuò)誤率 ? 使用一個(gè)獨(dú)立的測(cè)試集來(lái)評(píng)估每顆樹(shù)的準(zhǔn)確率,就能得到具有 最小期望錯(cuò)誤率的判定樹(shù) 由判定樹(shù)提取分類規(guī)則 ? 可以提取判定樹(shù)表示的知識(shí),并以 IFTHEN形式的分類規(guī)則表示 ? 對(duì)從根到樹(shù)葉的每條路徑創(chuàng)建一個(gè)規(guī)則 ? 沿著給定路徑上的每個(gè)屬性 值對(duì)形成規(guī)則前件( IF部分)的一個(gè)合取項(xiàng) ? 葉節(jié)點(diǎn)包含類預(yù)測(cè),形成規(guī)則后件( THEN部分) ? IFTHEN規(guī)則易于理解,尤其樹(shù)很大時(shí) ? 示例: ? IF age = “=30” AND student = “no” THEN buys_puter = “no” ? IF age = “=30” AND student = “yes” THEN buys_puter = “yes” ? IF age = “31…40” THEN buys_puter = “yes” ? IF age = “40” AND credit_rating = “excellent” THEN buys_puter = “yes” ? IF age = “40” AND credit_rating = “fair” THEN buys_puter = “no” 集成數(shù)據(jù)倉(cāng)庫(kù)技術(shù)和判定樹(shù)歸納 ? 將判定樹(shù)歸納與多維數(shù)據(jù)立方體和 面向?qū)傩缘臍w納(AOI)相集成,可以進(jìn)行交互的多層挖掘 ? 數(shù)據(jù)立方體與判定樹(shù)歸納 ? 存放在概念分層中的知識(shí)可以用在不同的抽象層歸納判定樹(shù) ? 對(duì)導(dǎo)出的判定樹(shù),可以進(jìn)一步在屬性上進(jìn)行上卷或下鉆,以概化或特化樹(shù)節(jié)點(diǎn);使用戶將注意力集中于感興趣的樹(shù)區(qū)域 ? AOI與判定樹(shù)歸納 ? 利用屬性上的概念分層,以高層概念替換低層概念概化訓(xùn)練數(shù)據(jù) ? 應(yīng)當(dāng)概化到由領(lǐng)域?qū)<一蛴脩粼O(shè)定的某個(gè)中間值,防止概化過(guò)低或者是過(guò)分概化 ? 對(duì)判定樹(shù)中,由于遞歸劃分,使得某些數(shù)據(jù)子集太小而失去統(tǒng)計(jì)意義的情況,可以通過(guò)引入相應(yīng)的臨界值,控制子集的劃分 貝葉斯分類 ? 貝葉斯分類利用統(tǒng)計(jì)學(xué)中的貝葉斯定理,來(lái)預(yù)測(cè)類成員的概率,即給定一個(gè)樣本,計(jì)算該樣本屬于一個(gè)特定的類的 概率 。 ? 預(yù)測(cè)和分類的異同 ? 相同點(diǎn) ? 兩者都需要構(gòu)建模
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1