freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

決策樹基本概念教材(編輯修改稿)

2025-02-01 19:42 本頁面
 

【文章內(nèi)容簡介】 149(log149)5,9()( 22 ????? IDInfo16 計算連續(xù)值屬性的信息增益 ? 假設(shè) A是一個連續(xù)值屬性 ? 必須確定 A的 最佳分裂點 ? 首先將 A的值按遞增順序排序 ? 每對相鄰值的中點被看做可能的 分裂點 ? (ai+ai+1)/2 是 A的值 ai 和 ai+1 之間的中點 ? 對于 A的每個可能分裂點 , 計算 InfoA(D), 具有 最小期望信息需求 的點選做 A的分裂點 ? 分裂 : ? D1 是滿足 A ≤ splitpoint的元組集合 , 而 D2 是滿足 A splitpoint的元組集合 . 17 屬性選擇 : 增益率 () ? 信息增益度量傾向于選擇具有大量值的屬性 ? (ID3的后繼 ) 采用增益率來克服這個問題 (規(guī)范化信息增益 ) ? GainRatio(A) = Gain(A)/SplitInfo(A) ? Ex. ? gain_ratio(ine) = ? 具有最大增益率的屬性作為分裂屬性 18 基尼指數(shù) (CART) ? 如果一個數(shù)據(jù)集 D包含 n個類,則 D的基尼指數(shù)定義為 其中 pj 是 D中元組屬于類 j 的概率 , 并用 |Ci,D|/|D|估計 ? 如果數(shù)據(jù)集 D基于屬性 A 被劃分成兩個子集 D1 和 D2, 則基尼指數(shù)定義為 ? 不純度降低 : ? 對于 離散值屬性 , 選擇該屬性產(chǎn)生 最小基尼指數(shù)的子集作為它的分裂子集 ;對于 連續(xù)值屬性 ,選擇產(chǎn)生 最小基尼指數(shù)的點作為分裂點 ;產(chǎn)生 最小基尼指數(shù) (或最大不純度降低) 的屬性選為分裂屬性 ???? njp jDgini121)()(|| ||)(|| ||)( 2211 DginiDDDginiDDDgini A ??19 基尼指數(shù)的計算 ? 例如數(shù)據(jù)集 D 有 9 個 buys_puter = “yes”的元組和 5 個 “no”的元組 ? 假設(shè)按 ine屬性子集 {low, medium}將數(shù)據(jù)集劃分為 D1(10個元組 )和 D2(4個元組 ) Gini{low,high} 是 。 Gini{medium,high} 是 . 因此在 ine的子集 {low,medium}上劃分 , 因為 它的基尼指數(shù) 最小 )(144)(1410)( 21},{ DGiniDGiniDgini me d iu mlo win c o me ???????????????20 過分?jǐn)M合與樹剪枝 ? 過分?jǐn)M合 : 樹創(chuàng)建時,由于數(shù)據(jù)中的噪聲和離群點,會過分?jǐn)M合訓(xùn)練數(shù)據(jù) ? 有很多分枝,一些是由于噪聲和離群點導(dǎo)致的異常 ? 預(yù)測準(zhǔn)確率下降 ? 兩種方法來避免過分?jǐn)M合 ? 先剪枝 : 如果劃分一個結(jié)點后的元組低于預(yù)定義閾值,則提前停止樹的構(gòu)建 ? 選取一個適當(dāng)?shù)拈撝凳抢щy的 ? 后剪枝 : 由 “完全生長 ”的樹剪去子樹 ——用回溯方式去除樹的一些點 ? Use a set of data different from the training data to decide which is the “best pruned tree” 21 分類 : 基本概念 ? 分類 : 基本概念 ? 決策樹 ? 基于規(guī)則分類 ? 貝葉斯分類方法 ? 提高分類準(zhǔn)確率的技術(shù) ? 小結(jié) 22 使用 IFTHEN 規(guī)則分類 ? 以 IFTHEN 規(guī)則的形式表示學(xué)習(xí)得到的模型 R: IF age = youth AND student = yes THEN buys_puter = yes ? “IF” 部分稱為規(guī)則前件或前提 , “THEN” 部分稱為規(guī)則的結(jié)論 ? 在規(guī)則前件,條件由一個或多個用邏輯連接詞 AND連接的屬性測試組成;規(guī)則的結(jié)論包含一個類預(yù)測 ? 對于給定的元組,如果規(guī)則前件中的條件都成立,則規(guī)則 覆蓋 了該元組 ? 規(guī)則的評價 : 覆蓋率和準(zhǔn)確率 ? ncovers 表示規(guī)則 R覆蓋的元組數(shù) ? ncorrect 表示規(guī)則 R正確分類的元組數(shù) coverage(R) = ncovers /|D| /* D: 訓(xùn)練數(shù)據(jù)集 */ accuracy(R) = ncorrect / ncovers 23 使用 IFTHEN 規(guī)則分類 ? 如何使用基于規(guī)則的分類來預(yù)測給定元組 X的類標(biāo)號? ? 如果規(guī)則被 X滿足,則稱該規(guī)則被觸發(fā)。 例如, X=(age=youth, ine=medium, student=yes, credit_rating=fair) X滿足規(guī)則 R,觸發(fā)該規(guī)則。 ? 如果 R是唯一滿足的規(guī)則,則該規(guī)則激活,返回 X的類預(yù)測 ? 注意,觸發(fā)并不總意味激活,因為可能有多個規(guī)則被滿足 ? 如果多個規(guī)則被觸發(fā),則需要 解決沖突 ? 規(guī)模序 : 把最高優(yōu)先權(quán)賦予具有“最苛刻”要求的被觸發(fā)的規(guī)則 (即 , 具有最多屬性測試的 ) ? 規(guī)則序 : 預(yù)先確定規(guī)則的優(yōu)先次序。 ? 基于類的序 : 按類的普遍性降序排序 ? 基于規(guī)則的序 (決策表 ): 根據(jù)規(guī)則質(zhì)量的度量,規(guī)則被組織成一個優(yōu)先權(quán)列表。最先出現(xiàn)在決策表中的被觸發(fā)的規(guī)則具有最高優(yōu)先權(quán),因此激活它的類預(yù)測。 24 age? student? credit rating? =30 40 no yes yes yes 31..40 fair excellent yes no ? 例子 : 從 buys_puter 決策樹提取規(guī)則 R1: IF age = young AND student = no THEN buys_puter = no R2: IF age = young AND student = yes THEN buys_puter = yes R3: IF age = midage THEN buys_puter = yes R4: IF age = old AND credit_rating = excellent THEN buys_puter = no R5: IF age = old AND credit_rating = fair THEN buys_puter = yes 由決策樹提取規(guī)則 ? 與決策樹相比, IFTHEN規(guī)則可能更容易理解,尤其是當(dāng)決策樹非常大時
點擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1