freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)分類決策樹ppt課件(已修改)

2025-05-12 18:13 本頁面
 

【正文】 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù) 五邑大學(xué)信息學(xué)院五邑大學(xué)信息學(xué)院 何國輝何國輝 教授教授Date 1 第 5章 決策樹和決策規(guī)則 ? 引例 n 分類的定義n 分類是指把數(shù)據(jù)樣本映射到一個(gè)事先定義的類中的學(xué)習(xí)過程,即給定一組輸入的屬性向量及其對(duì)應(yīng)的類,用基于歸納的學(xué)習(xí)算法得出分類。Date 2Age Salary Class30 high c125 high c221 low c243 high c118 low c233 low c1… … …描述屬性 類別屬性分類問題使用的數(shù)據(jù)集格式:Date 3 引例n 分類問題使用的數(shù)據(jù)集格式n 描述屬性可以是連續(xù)型屬性,也可以是離散型屬性;而類別屬性必須是離散型屬性。 n 連續(xù)型屬性是指在某一個(gè)區(qū)間或者無窮區(qū)間內(nèi)該屬性的取值是連續(xù)的 ,例如屬性 “Age” n 離散型屬性是指該屬性的取值是不連續(xù)的 ,例如屬性 “Salary”和 “Class” Date 4 引例n 分類問題使用的數(shù)據(jù)集格式n 分類問題中使用的數(shù)據(jù)集可以表示為X={(xi,yi)|i=1,2,…,total}n xi=(xi1,xi2,…, xid) ,其中 xi1,xi2,…, xid分別對(duì)應(yīng) d個(gè)描述屬性 A1,A2,…,A d的具體取值n yi表示數(shù)據(jù)樣本 xi的類標(biāo)號(hào),假設(shè)給定數(shù)據(jù)集包含m個(gè)類別,則 yi∈ {c1,c2,…,c m},其中 c1,c2,…,c m是類別屬性 C的具體取值n 未知類標(biāo)號(hào)的數(shù)據(jù)樣本 x用 d維特征向量x=(x1,x2,…, xd)來表示Date 5 分類問題概述n 分類的過程n 分類的評(píng)價(jià)準(zhǔn)則Date 6 分類的過程獲取數(shù)據(jù)預(yù)處理分類器設(shè)計(jì) 分類決策Date 7 分類的過程n 獲取數(shù)據(jù)n 輸入數(shù)據(jù)、對(duì)數(shù)據(jù)進(jìn)行量化n 預(yù)處理n 去除噪聲數(shù)據(jù)、對(duì)空缺值進(jìn)行處理n 數(shù)據(jù)集成或者變換 n 分類器設(shè)計(jì)n 劃分?jǐn)?shù)據(jù)集、分類器構(gòu)造、分類器測試n 分類決策n 對(duì)未知類標(biāo)號(hào)的數(shù)據(jù)樣本進(jìn)行分類Date 8 分類的評(píng)價(jià)準(zhǔn)則n 給定測試集 Xtest={(xi,yi)|i=1,2,…,N}n N表示測試集中的樣本個(gè)數(shù)n xi表示測試集中的數(shù)據(jù)樣本n yi表示數(shù)據(jù)樣本 xi的類標(biāo)號(hào)n 對(duì)于測試集的第 j個(gè)類別,假設(shè)n 被正確分類的樣本數(shù)量為 TPjn 被錯(cuò)誤分類的樣本數(shù)量為 FNjn 其他類別被錯(cuò)誤分類為該類的樣本數(shù)據(jù)量為FPjDate 9 分類的評(píng)價(jià)準(zhǔn)則n 精確度:代表測試集中被正確分類的數(shù)據(jù)樣本所占的比例 Date 10 分類的評(píng)價(jià)準(zhǔn)則n 查全率:表示在本類樣本中被正確分類的樣本所占的比例 n 查準(zhǔn)率:表示被分類為該類的樣本中,真正屬于該類的樣本所占的比例 Date 11 分類的評(píng)價(jià)準(zhǔn)則n Fmeasure(加權(quán)調(diào)合平均數(shù) ):是查全率和查準(zhǔn)率的組合表達(dá)式 n β是可以調(diào)節(jié)的,通常取值為 1 Date 12 分類的評(píng)價(jià)準(zhǔn)則n 幾何均值 :是各個(gè)類別的查全率的平方根 Date 13 決策樹方法的起源是亨特( Hunt, 1966)的概念學(xué)習(xí)系統(tǒng) CLS方法,然后發(fā)展到由Quinlan研制 ID3方法,然后到著名的 , 。還有 CART算法和 Assistant算法也是比較有名的決策樹方法。 決策樹Date 14n 決策樹的優(yōu)點(diǎn):n 進(jìn)行分類器設(shè)計(jì)時(shí),決策樹分類方法所需時(shí)間相對(duì)較少n 決策樹的分類模型是樹狀結(jié)構(gòu),簡單直觀,比較符合人類的理解方式n 可以將決策樹中到達(dá)每個(gè)葉節(jié)點(diǎn)的路徑轉(zhuǎn)換為 IF—THEN 形式的分類規(guī)則,這種形式更有利于理解Date 151. 什么是決策樹q 決策樹( Decision Tree) 又稱為判定樹,是運(yùn)用于分類的一種樹結(jié)構(gòu)。其中的每個(gè)內(nèi)部結(jié)點(diǎn)(internal node) 代表對(duì)某個(gè)屬性的一次測試,每條邊代表一個(gè)測試結(jié)果,葉結(jié)點(diǎn)( leaf) 代表某個(gè)類( class) 或者類的分布( class distribution), 最上面的結(jié)點(diǎn)是根結(jié)點(diǎn)。q 決策樹提供了一種展示類似在什么條件下會(huì)得到什么值這類規(guī)則的方法。下例是為了解決這個(gè)問題而建立的一棵決策樹,從中可以看到?jīng)Q策樹的基本組成部分:決策結(jié)點(diǎn)、分支和葉結(jié)點(diǎn)。Date 16〖 例 〗 圖 52 給出了一個(gè)商業(yè)上使用的決策樹的例子。它表示了一個(gè)關(guān)心電子產(chǎn)品的用戶是否會(huì)購買 PC(buys_puter) 的知識(shí),用它可以預(yù)測某條記錄(某個(gè)人)的購買意向。 圖 52 buys_puter的決策樹 Date 17這棵決策樹對(duì)銷售記錄進(jìn)行分類,指出一個(gè)電子產(chǎn)品消費(fèi)者是否會(huì)購買一臺(tái)計(jì)算機(jī) “ buys_puter” 。 每個(gè)內(nèi)部結(jié)點(diǎn)(方形框)代表對(duì)某個(gè)屬性的一次檢測。每個(gè)葉結(jié)點(diǎn)(橢圓框)代表一個(gè)類:buys_puters=yes 或者 buys_puters=no在這個(gè)例子中,樣本向量為: ( age, student, credit_rating。 buys_puters)被決策數(shù)據(jù)的格式為 :( age, student, credit_rating)輸入新的被決策的記錄,可以預(yù)測該記錄隸屬于哪個(gè)類。Date 182. 使用決策樹進(jìn)行分類 構(gòu)造決策樹是采用自上而下的遞歸構(gòu)造方法。以多叉樹為例,如果一個(gè)訓(xùn)練數(shù)據(jù)集中的數(shù)據(jù)有幾種屬性值,則按照屬性的各種取值把這個(gè)訓(xùn)練數(shù)據(jù)集再劃分為對(duì)應(yīng)的幾個(gè)子集(分支),然后再依次遞歸處理各個(gè)子集。反之,則作為葉結(jié)點(diǎn)。 決策樹構(gòu)造的結(jié)果是一棵二叉或多叉樹,它的輸入是一組帶有類別標(biāo)記的訓(xùn)練數(shù)據(jù)。二叉樹的內(nèi)部結(jié)點(diǎn)(非葉結(jié)點(diǎn))一般表示為一個(gè)邏輯判斷,如形式為 (a = b)的邏輯判斷,其中 a 是屬性, b是該屬性的某個(gè)屬性值;樹的邊是邏輯判斷的分支結(jié)果。多叉樹( ID3) 的內(nèi)部結(jié)點(diǎn)是屬性,邊是該屬性的所有取值,有幾個(gè)屬性值,就有幾條邊。樹的葉結(jié)點(diǎn)都是類別標(biāo)記。Date 19使用決策樹進(jìn)行分類分為兩步:q 第 1步:利用訓(xùn)練集建立并精化一棵決策樹,建立決策樹模型。這個(gè)過程實(shí)際上是一個(gè)從數(shù)據(jù)中獲取知識(shí),進(jìn)行機(jī)器學(xué)習(xí)的過程。
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
公安備案圖鄂ICP備17016276號(hào)-1