freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

決策樹講義(參考版)

2025-01-15 19:48本頁面
  

【正文】 。而目前數(shù)據(jù)挖掘研究和應(yīng)用往往和大數(shù)據(jù)集合有關(guān)。 另外,通過對(duì)這些數(shù)據(jù)的分析,我也想告訴大家,數(shù)據(jù)是非常寶貴 的??梢猿趼酝扑愠雒磕晔盏? 的關(guān)于決策樹方面的論文約 80100篇 第 6章 決策樹 主要參考文獻(xiàn) 幾個(gè)數(shù)據(jù) 以上幾個(gè)關(guān)于決策樹的數(shù)據(jù)也許能夠表明,盡管決策樹非常古老, 但目前仍然有相當(dāng)部分的研究人員和研究項(xiàng)目和工程項(xiàng)目。 約 150篇 約 100篇 第 6章 決策樹 主要參考文獻(xiàn) 幾個(gè)數(shù)據(jù) 萬方數(shù)據(jù)庫中查詢涉及決策樹的期刊論文 時(shí)間跨度是 20232023; 查詢結(jié)果是 982篇 按照以下三個(gè)領(lǐng)域分類: 1 利用決策樹解決實(shí)際問題; 2 利用決策樹與其它數(shù)據(jù)挖 掘(機(jī)器學(xué)習(xí))結(jié)合改進(jìn); 3 有關(guān)決策樹的改進(jìn)方法。 決策樹研究 問題 關(guān)于過渡擬合 第 6章 決策樹 后修剪法(后剪枝法)例 A B 負(fù) C 正 正 負(fù) Y Y Y N N N 一棵通過 訓(xùn)練集合 學(xué)好的決策樹 決策樹研究 問題 關(guān)于過渡擬合 第 6章 決策樹 后修剪法(后剪枝法)例 A B 負(fù) C 正 正 負(fù) Y Y Y N N N 實(shí)例 A B C 類別 錯(cuò)分類 1 Y Y Y + 2 Y Y Y + 3 Y Y Y + 4 Y Y Y + 5 Y Y Y + 6 Y Y N * 7 Y Y N * 8 Y Y N * 9 Y N Y + 10 Y N Y + 11 Y N Y + 12 Y N Y + 13 Y N N + * 14 Y N N + * 15 Y N N 16 Y N N 17 Y N N 18 N N N 19 N Y N 20 N Y Y 對(duì)以上的決策樹通過右側(cè)的 驗(yàn)證集合進(jìn)行測試,發(fā)現(xiàn)其 有 5個(gè)錯(cuò)分類。 Occan法則(又稱 Occan剃刀 Occan Razor) :具有相同 泛化誤差的兩個(gè)模型,較簡單的模型比復(fù)雜的模型更可取。樹結(jié)構(gòu)越復(fù)雜,則 過渡擬合發(fā)生的可能性越大。 決策樹研究 問題 關(guān)于過渡擬合 第 6章 決策樹 解決過度擬合的手段: 1 及早停止樹增長; 2 后修剪法。決策樹作出這樣的判 斷是因?yàn)橹挥幸粋€(gè)訓(xùn)練樣例具有 這些特點(diǎn)(鷹,恒溫,不冬眠) 被劃分為非哺乳動(dòng)物。 決策樹研究 問題 關(guān)于過渡擬合 第 6章 決策樹 模型過渡擬合的潛在因素 名稱 體溫 胎生 4條腿 冬眠 哺乳動(dòng)物 蠑螈 冷血 N Y Y N 虹鳉 冷血 Y N N N 鷹 恒溫 N N N N 弱夜鷹 恒溫 N N Y N 鴨嘴獸 恒溫 Y Y Y Y 哺乳動(dòng)物分類的訓(xùn)練樣例 體溫 恒溫 冷血 冬眠 N Y N N 4條腿 Y N N Y 名稱 體溫 胎生 4條腿 冬眠 哺乳動(dòng)物 人 恒溫 Y N N Y 大象 恒溫 Y Y N Y 鴿子 恒溫 N N N N 哺乳動(dòng)物分類的訓(xùn)練樣例 按照訓(xùn)練模型。(訓(xùn)練誤差低,泛化誤差高,稱為過渡擬合) 決策樹研究 問題 關(guān)于過渡擬合 第 6章 決策樹 模型過渡擬合的潛在因素 ( 1)噪聲導(dǎo)致的過渡擬合; 錯(cuò)誤的類別值 /類標(biāo)簽,屬性值等 ( 2)缺乏代表性樣本所導(dǎo)致的過渡擬合 根據(jù)少量訓(xùn)練記錄作出的分類決策模型容易受過渡擬合的 影響。 一個(gè)好的分類模型必須具有低的訓(xùn)練誤差和泛化誤差。 通常應(yīng)該建立一個(gè)驗(yàn)證過程,在訓(xùn)練最終完成后用來檢測訓(xùn) 練結(jié)果的泛化能力。驗(yàn)證樣本用于測試 訓(xùn)練后的性能。 過度擬合:給定一個(gè)假設(shè)空間 H,一個(gè)假設(shè) h∈ H,如果存在其 它的假設(shè) h1 ∈ H ,使得在訓(xùn)練樣例上 h的錯(cuò)誤率比 h1小,但在整個(gè)實(shí) 例發(fā)布上 h1的錯(cuò)誤率比 h小,則稱假設(shè) h過度擬合訓(xùn)練數(shù)據(jù) 過度擬合產(chǎn)生的原因:噪聲,訓(xùn)練樣例太小等 決策樹研究 問題 關(guān)于過渡擬合 第 6章 決策樹 對(duì)學(xué)習(xí)算法是否成功的真正測試是看它對(duì)于訓(xùn)練中未見到的 數(shù)據(jù)的執(zhí)行性能。實(shí)際應(yīng)用中,當(dāng)數(shù)據(jù)中有噪聲或訓(xùn)練 樣例的數(shù)量太少以至于不能產(chǎn)生目標(biāo)函數(shù)的有代表性的采樣時(shí),該 策略可能會(huì)遇到困難。因此,決策樹優(yōu)化的目的就是要找到盡可能趨向于最優(yōu)的 決策樹。 主要內(nèi)容 決策樹基本概念 決策樹算法 決策樹研究問題 主要參考文獻(xiàn) 第 6章 決策樹 決策樹研究問題 理想的決策樹有三種: (1)葉子結(jié)點(diǎn)數(shù)最少; (2)葉子結(jié)點(diǎn)深度最?。? (3)葉子結(jié)點(diǎn)數(shù)最少且葉子結(jié)點(diǎn)深度最小。 表 2 轉(zhuǎn)化后的客戶信息表 年齡 學(xué)歷 職業(yè) 繳費(fèi)方式 開戶時(shí) 間 費(fèi)用變化 率 客戶流失 N3 W3 Z1 T1 H2 F1 NO N2 W2 Z2 T2 H2 F2 NO N1 W3 Z1 T3 H1 F2 YES N1 W3 Z1 T2 H1 F1 NO N1 W1 Z2 T2 H1 F1 NO N2 W2 Z3 T3 H1 F3 YES N3 W1 Z3 T1 H2 F1 NO 第 6章 決策樹 決策樹算法 ID3算法實(shí)際應(yīng)用 在電信行業(yè)應(yīng)用實(shí)例( 5) YES NO 年 齡 職 業(yè) YES 繳費(fèi)方式 YES YES NO YSES NO NO 在網(wǎng)時(shí)長 NO F1 F2 F3 N1 N2 N3 T1 T2 T3 Z1 Z2 Z3 H1 H2 費(fèi)用變化率 第 6章 決策樹 決策樹算法 ID3算法實(shí)際應(yīng)用 在電信行業(yè)應(yīng)用實(shí)例( 6) 在圖中, NO表示客戶不流失, YES表示客戶流失。 連續(xù)型屬性概化為區(qū)間值:表中年齡、費(fèi)用變化率和在網(wǎng)時(shí)間為 連續(xù)型數(shù)據(jù),由于建立決策樹時(shí),用離散型數(shù)據(jù)進(jìn)行處理速度最 快,因此對(duì)連續(xù)型數(shù)據(jù)進(jìn)行離散化處理,根據(jù)專家經(jīng)驗(yàn)和實(shí)際計(jì) 算信息增益,在“在網(wǎng)時(shí)長”屬性中,通過檢測每個(gè)劃分,得到在 閾值為 5年時(shí)信息增益最大,從而確定最好的劃分是在 5年處,則 這個(gè)屬性的范圍就變?yōu)椋?=5,5: H1,H2}。 表 1 客戶信息表 年齡 學(xué)歷 職業(yè) 繳費(fèi)方式 在網(wǎng)時(shí)長 費(fèi)用變化率 客戶流失 58 大學(xué) 公務(wù)員 托收 13 10% NO 47 高中 工人 營業(yè)廳繳費(fèi) 9 42% NO 26 研究生 公務(wù)員 充值卡 2 63% YES 28 大學(xué) 公務(wù)員 營業(yè)廳繳費(fèi) 5 % NO 32 初中 工人 營業(yè)廳繳費(fèi) 3 % NO 42 高中 無業(yè)人員 充值卡 2 100% YES 68 初中 無業(yè)人員 營業(yè)廳繳費(fèi) 9 % NO 第 6章 決策樹 決策樹算法 ID3算法實(shí)際應(yīng)用 在電信行業(yè)應(yīng)用實(shí)例( 4) 屬性概化:用屬性概化閾值控制技術(shù)沿屬性概念分層上卷或下鉆 進(jìn)行概化。 第 6章 決策樹 決策樹算法 ID3算法實(shí)際應(yīng)用 在電信行業(yè)應(yīng)用實(shí)例( 3) 屬性刪除:將有大量不同取值且無概化操作符的屬性或者可用其 它屬性來代替它的較高層概念的那些屬性刪除。 該公司經(jīng)過多年的電腦化管理,已有大量的客戶個(gè)人基本信息 (文中簡稱為客戶信息表 )。但往往不適合直接挖掘,需要做數(shù)據(jù)的預(yù)處理工作,一般 包括數(shù)據(jù)的選擇 (選擇相關(guān)的數(shù)據(jù) )、凈化 (消除冗余數(shù)據(jù) )、轉(zhuǎn)換、 歸約等。這種客戶是電信企業(yè)真正需要保住的客戶。 客戶流失可以相應(yīng)分為四種類型:其中非財(cái)務(wù)原因主動(dòng)流失 的客戶往往是高價(jià)值的客戶。三、 指客戶自然流失和被動(dòng)流失。 電信運(yùn)營商的客戶流失有三方面的含義:一是指客戶從一個(gè) 電信運(yùn)營商轉(zhuǎn)網(wǎng)到其他電信運(yùn)營商,這是流失分析的重點(diǎn)。此時(shí),每個(gè)葉子節(jié)點(diǎn)對(duì)應(yīng)的實(shí)例集中的實(shí)例屬于 同一類。 參考 Top 10 algorithms in data mining Knowledge Information System 2023 14:1–37 第 6章 決策樹 決策樹算法 ID3算法小結(jié) ID3算法是一種經(jīng)典的決策樹學(xué)習(xí)算法,由 Quinlan于 1979年 提出。 ( Binary Split)。然后信息增益的計(jì)算就可以采用和離散值 處理一樣的方法。實(shí)際應(yīng)用中 屬性是連續(xù)的或者離散的情況都比較常見。 原始表 決策樹算法 第 6章 決策樹 計(jì)數(shù) 年齡 收入 學(xué)生 信譽(yù) 歸類:買計(jì)算機(jī)? 64 青 高 否 良 不買 64 青 高 否 優(yōu) 不買 128 中 高 否 良 買 60 老 中 否 良 買 64 老 低 是 良 買 64 老 低 是 優(yōu) 不買 64 中 低 是 優(yōu) 買 128 青 中 否 良 不買 64 青 低 是 良 買 。 。 決策樹算法 第 6章 決策樹 計(jì)數(shù) 年齡 收入 學(xué)生 信譽(yù) 歸類:買計(jì)算機(jī)? 64 青 高 否 良 不買 64 青 高 否 優(yōu) 不買 128 中 高 否 良 買 60 老 中 否 良 買 64 老 低 是 良 買 64 老 低 是 優(yōu) 不買 64 中 低 是 優(yōu) 買 128 青 中 否 良 不買 64 青 低 是 良 買 132 老 中 是 良 買 64 青 中 是 優(yōu) 買 32 中 中 否 優(yōu) 買 32 中 高 是 良 買 63 老 中 否 優(yōu) 不買 1 老 中 否 優(yōu) 買 第 21步計(jì)算年齡的熵 年齡共分三個(gè)組: 青年、中年、老年 青年買與不買比例為 128/256 S1(買 )=128 S2(不買) = 256 S=S1+S2=384 P1=128/384 P2=256/384 I(S1,S2)=I(128,256) =P1Log2P1P2Log2P2 =(P1Log2P1+P2Log2P2) = 決策樹算法 第 6章 決策樹 計(jì)數(shù) 年齡 收入 學(xué)生 信譽(yù) 歸類:買計(jì)算機(jī)? 64 青 高 否 良 不買 64 青 高 否 優(yōu) 不買 128 中 高 否 良 買 60 老 中 否 良 買 64 老 低 是 良 買 64 老 低 是 優(yōu) 不買 64 中 低 是 優(yōu) 買 128 青 中 否 良 不買 64 青 低 是 良 買 132 老 中 是 良 買 64 青 中 是 優(yōu) 買 32 中 中 否 優(yōu) 買 32 中 高 是 良 買 63 老 中 否 優(yōu) 不買 1 老 中 否 優(yōu) 買 第 22步計(jì)算年齡的熵 年齡共分三個(gè)組: 青年、中年、老年 中年買與不買比例為 256/0 S1(買 )=256 S2(不買) = 0 S=S1+S2=256 P1=256/256 P2=0/256 I(S1,S2)
點(diǎn)擊復(fù)制文檔內(nèi)容
電大資料相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1