freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)分類-決策樹(參考版)

2025-03-11 11:30本頁(yè)面
  

【正文】 第 4講 數(shù)據(jù)分類 決策樹 目錄 ?基本概念 ?決策樹 ID3算法 ?決策樹 2 本周學(xué)習(xí)目標(biāo) 3 4 定義 ?數(shù)據(jù)分類 ? 是指把數(shù)據(jù)樣本映射到一個(gè)事先定義的類中的學(xué)習(xí)過(guò)程 ? 即給定一組輸入的屬性向量及其對(duì)應(yīng)的類,用基于歸納的學(xué)習(xí)算法得出分類 ? 分類問(wèn)題是數(shù)據(jù)挖掘領(lǐng)域中研究和應(yīng)用最為廣泛的技術(shù)之一,如何更精確、更有效地分類一直是人們追求的目標(biāo) ?數(shù)據(jù)分類的任務(wù) ? 通過(guò)學(xué)習(xí)得到一個(gè)目標(biāo)函數(shù) f,把每個(gè)屬性集 x映射到一個(gè)預(yù)先定義的類標(biāo)號(hào) y 5 分類的示例 ?兩類分類示例 ? 銀行業(yè):區(qū)分高端信用卡和低端信用卡 ? 醫(yī)療診斷:區(qū)分正常細(xì)胞和癌細(xì)胞 ? 互聯(lián)網(wǎng):區(qū)分正常郵件和垃圾郵件 ?多類分類示例 ? 油氣傳輸:區(qū)分行人走過(guò)、汽車碾過(guò)、鎬刨、電鉆等行為 ? 文字識(shí)別:區(qū)分不同的字符 (其中漢字識(shí)別是一個(gè)大類別問(wèn)題) ? 社會(huì)網(wǎng)絡(luò):區(qū)分中心用戶、活躍用戶、不活躍用戶、馬甲用戶等 6 示例數(shù)據(jù)集 ?數(shù)據(jù)集包含多個(gè)描述屬性和一個(gè)類別屬性 ?一般來(lái)說(shuō) ? 描述屬性:連續(xù)值或離散值 ? 類別屬性:只能是離散值 (目標(biāo)屬性連續(xù)對(duì)應(yīng)回歸問(wèn)題) 7 Age Salary Class 30 high c1 25 high c2 21 low c2 43 high c1 18 low c2 33 low c1 ...... ...... ...... 分類問(wèn)題的形式化描述 8 },{m,d,),(d),2,1(},2,1|),{(21212121miiididiiidiiiiiicccyxyAAAxxxxxxxtot alixtot aliyxX???????????個(gè)類別,則假設(shè)給定數(shù)據(jù)集包含的類標(biāo)號(hào)表示數(shù)據(jù)樣本的具體取值個(gè)描述屬性分別對(duì)應(yīng)表示維特征向量用其中數(shù)據(jù)樣本數(shù)據(jù)集分類的過(guò)程 9 獲取數(shù)據(jù) 預(yù)處理 分類決策 分類器設(shè)計(jì) 獲取數(shù)據(jù) ?數(shù)值型數(shù)據(jù) ? 病例中的各種化驗(yàn)數(shù)據(jù) ? 空氣質(zhì)量監(jiān)測(cè)數(shù)據(jù) ?描述性數(shù)據(jù) ? 人事部門檔案資料 ?圖片型數(shù)據(jù) ? 指紋、掌紋 ? 自然場(chǎng)景圖片 ?很多情況下,需要將上述數(shù)據(jù)統(tǒng)一轉(zhuǎn)換為數(shù)值型數(shù)據(jù)序列,即形成特征向量( 特征提取 ) 10 預(yù)處理 ?為了提高分類的準(zhǔn)確性和有效性,需要對(duì)分類所用的數(shù)據(jù)進(jìn)行預(yù)處理 ? 去除噪聲數(shù)據(jù) ? 對(duì)空缺值進(jìn)行處理 ? 數(shù)據(jù)降維( 特征選擇 ) ( PCA、 LDA) 11 分類器設(shè)計(jì) 1劃分?jǐn)?shù)據(jù)集 ?給定帶有類標(biāo)號(hào)的數(shù)據(jù)集,并且將數(shù)據(jù)集劃分為兩個(gè)部分 ? 訓(xùn)練集( training set) ? 測(cè)試集( testing set) ?劃分策略 ? 隨機(jī)抽取法 ? 2/1訓(xùn)練集 /測(cè)試集 8/1 ? 十交叉驗(yàn)證法( 10fold validation) ? 將數(shù)據(jù)集隨機(jī)地劃分為 10組 ? 之后執(zhí)行 10次循環(huán),在第 i次循環(huán)中,將第 i組數(shù)據(jù)樣本作為測(cè)試集,其余的 9組數(shù)據(jù)樣本作為訓(xùn)練集 12 分類器設(shè)計(jì) 2分類器構(gòu)造 ?利用訓(xùn)練集構(gòu)造分類器(分類模型) ?通過(guò)分析由屬性描述的每類樣本的數(shù)據(jù)信息,從中總結(jié)出分類的規(guī)律性,建立判別公式或判別規(guī)則 ?在分類器構(gòu)造過(guò)程中,由于提供了每個(gè)訓(xùn)練樣本的類標(biāo)號(hào),這一步也稱作監(jiān)督學(xué)習(xí)( supervised learning) 13 分類器設(shè)計(jì) 3分類器測(cè)試 ?利用測(cè)試集對(duì)分類器的分類性能進(jìn)行評(píng)估,具體方式是 ? 首先,利用分類器對(duì)測(cè)試集中的每一個(gè)樣本進(jìn)行分類 ? 其次,將分類得到的類標(biāo)號(hào)和測(cè)試集中數(shù)據(jù)樣本的原始類標(biāo)號(hào)進(jìn)行對(duì)比 ? 由上述過(guò)程得到分類器的分類性能( 如何評(píng)價(jià)? ) 14 分類決策 ?在構(gòu)造成功分類器之后(通過(guò)測(cè)試),則可以利用該分類器實(shí)際執(zhí)行分類 15 分類的評(píng)價(jià)準(zhǔn)則 約定和假設(shè) 16 jjjmiiiiiites tFPFNTPjcccyxyxNiyxX該類的樣本數(shù)量是其他類別被錯(cuò)誤分類為是被錯(cuò)誤分類的樣本數(shù)量是被正確分類的樣本數(shù)量個(gè)類別,設(shè)定:對(duì)于測(cè)試集的第個(gè)類別,則假設(shè)分類問(wèn)題含有的類標(biāo)號(hào);表示數(shù)據(jù)樣本本;表示測(cè)試集中的數(shù)據(jù)樣數(shù);表示測(cè)試集中的樣本個(gè)其中給定測(cè)試集},{mN},2,1|),{(21?????分類的評(píng)價(jià)準(zhǔn)則 指標(biāo) 1 ?精確度( accuracy) ? 是最常用的評(píng)價(jià)準(zhǔn)則 ? 代表測(cè)試集中被正確分類的數(shù)據(jù)樣本所占的比例 ? 反映了分類器對(duì)于數(shù)據(jù)集的整體分類性能 17 NTPAccur acymjj??? 1分類的評(píng)價(jià)準(zhǔn)則 指標(biāo) 2 ?查全率( recall) ? 第 j個(gè)類別的查全率(召回率)表示在本類樣本中,被正確分類的樣本占的比例 ? 代表該類別的 分類精度 18 jjjj FNTPTPRecall??分類的評(píng)價(jià)準(zhǔn)則 指標(biāo) 3 ?查準(zhǔn)率( precision) ? 第 j個(gè)類別的查準(zhǔn)率表示被分類為該類的樣本中,真正屬于該類的樣本所占的比例 ? 代表該類別的 分類純度 19 jjjj FPTPTPPrecisio n??分類的評(píng)價(jià)準(zhǔn)則 指標(biāo) 4 ? Fmeasure ? 可以比較合理地評(píng)價(jià)分類器對(duì)每一類樣本的分類性能 ? 它是查全率和查準(zhǔn)率的組合表達(dá)式 ? 其中參數(shù) β是可以
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1