【正文】
2020年 9月 16日星期三 Data Mining: Concepts and Techniques 1 第七章:分類和預(yù)測 什么是分類?什么是預(yù)測 關(guān)于分類和預(yù)測的一些問題 使用決策樹進(jìn)行分類 貝葉斯分類 (向后傳播分類)帶回饋的分類 基于關(guān)聯(lián)規(guī)則的分類 其他分類方法 預(yù)測 分類法的準(zhǔn)確性 總結(jié) 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 2 分類: – 預(yù)測種類字段 – 基于訓(xùn)練集形成一個模型,訓(xùn)練集中的類標(biāo)簽是已知的。使用該模型對新的數(shù)據(jù)進(jìn)行分類 預(yù)測 : – 對連續(xù)性字段進(jìn)行建模和預(yù)測。 典型應(yīng)用 – 信用評分 – Direct Marketing – 醫(yī)療診斷 – ………… 分類和預(yù)測 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 3 分類的兩個步驟 ? 模型創(chuàng)建 : 對一個類別已經(jīng)確定的數(shù)據(jù)創(chuàng)建模型 – 每一條記錄都屬于一個確定的類別,我們使用類標(biāo)簽屬性記錄類別。 – 用于創(chuàng)建模型的數(shù)據(jù)集叫 :訓(xùn)練集 – 模型可以用分類規(guī)則,決策樹,或者數(shù)學(xué)方程的形式來表達(dá)。 ? 模型使用 : 用創(chuàng)建的模型預(yù)測未來或者類別未知的記錄 – 估計(jì)模型的準(zhǔn)確率 ? 使用創(chuàng)建的模型在一個測試集上進(jìn)行預(yù)測,并將結(jié)果和實(shí)際值進(jìn)行比較。 ? 準(zhǔn)確率:正確被模型分類的測試樣本的百分比。 ? 測試集和訓(xùn)練集是獨(dú)立的。 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 4 分類過程:模型創(chuàng)建 訓(xùn)練集 N A M E RANK Y E A R S T E N U R E DM ik e A s s is t a n t P r o f 3 noM a r y A s s is t a n t P r o f 7 y e sB il l P r o f e s s o r 2 y e sJ im A s s o c ia t e P r o f 7 y e sD a v e A s s is t a n t P r o f 6 noA n n e A s s o c ia t e P r o f 3 no分類算法 IF rank = ‘professor’ OR years 6 THEN tenured = ‘yes’ 模型 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 5 分類過程 (2): 使用模型 模型 測試集 N A M E RANK Y E A R S T E N U R E DT o m A s s i s t a n t P r o f 2 noM e r l i s a A s s o c i a t e P r o f 7 noG e o r g e P r o f e s s o r 5 y e sJ o s e p h A s s i s t a n t P r o f 7 y e s未知數(shù)據(jù) (Jeff, Professor, 4) Tenured? 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 6 有監(jiān)督和無監(jiān)督學(xué)習(xí) ? 有監(jiān)督學(xué)習(xí) (分類 ) – 訓(xùn)練集是帶有類標(biāo)簽的 – 新的數(shù)據(jù)是基于訓(xùn)練集進(jìn)行分類的。 ? 無監(jiān)督學(xué)習(xí) (聚集 ) – 訓(xùn)練集是沒有類標(biāo)簽的。 – 提供一組屬性,然后尋找出訓(xùn)練集中存在類別或者聚集。 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 7 ? 數(shù)據(jù)清洗 – 對數(shù)據(jù)進(jìn)行預(yù)處理,消除噪音和丟失值。 ? 相關(guān)性分析 (屬性選擇 ) – 去掉不相關(guān)或者冗余的屬性 ? 數(shù)據(jù)轉(zhuǎn)換 – 泛化或者對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化 (1): 數(shù)據(jù)準(zhǔn)備 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 8 關(guān)于分類和預(yù)測的問題 (2): 評估、比較分類方法 ? 預(yù)測的準(zhǔn)確率 ? 速度 – 創(chuàng)建速度 – 使用速度 ? 強(qiáng)壯性 – 處理噪聲數(shù)據(jù)和缺失值數(shù)據(jù)的能力 ? 伸縮性 – 對大量數(shù)據(jù),對磁盤駐留數(shù)據(jù)的處理能力 ? 可解釋性 : – 對模型的可理解和解釋的程度。 ? 規(guī)則好壞的評價 – 決策樹的大小 – 分類規(guī)則的簡明性 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 9 ( 188頁) ? 決策樹 – 一個類似流程圖的樹狀結(jié)構(gòu) – 內(nèi)部節(jié)點(diǎn)上選用一個屬性進(jìn)行分割 – 每個分叉都是分割的一個部分 – 葉子節(jié)點(diǎn)表示一個分布 ? 決策樹生成算法分成兩個步驟 – 樹的生成 ? 開始,數(shù)據(jù)都在根節(jié)點(diǎn) ? 遞歸的進(jìn)行數(shù)據(jù)分片 – 樹的修剪 ? 去掉一些可能是噪音或者異常的數(shù)據(jù) ? 決策樹使用 : 對未知數(shù)據(jù)進(jìn)行分割 – 按照決策樹上采用的分割屬性逐層往下,直到一個葉子節(jié)點(diǎn) 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 10 訓(xùn)練集 a g e i n co me st u d e n t cre d i t _ ra t i n g b u ys_ co mp u t e r=3 0 h i g h no f a i r no=3 0 h i g h no e x ce l l e n t no3 0 …4 0 h i g h no f a i r ye s4 0 me d i u m no f a i r ye s4 0 l o w ye s f a i r ye s4 0 l o w ye s e x ce l l e n t no3 1 …4 0 l o w ye s e x ce l l e n t ye s=3 0 me d i u m no f a i r no=3 0 l o w ye s f a i r ye s4 0 me d i u m ye s f a i r ye s=3 0 me d i u m ye s e x ce l l e n t ye s3 1 …4 0 me d i u m no e x ce l l e n t ye s3 1 …4 0 h i g h ye s f a i r ye s4 0 me d i u m no e x ce l l e n t noID3算法 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 11 Output: A Decision Tree for “buys_puter” age? overcast student? credit rating? no yes fair excellent =30 40 no no yes yes yes 30..40 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 12 決策樹算法 ? 基本算法(貪心算法) – 自上而下分而治之的方法 – 開始時,所有的數(shù)據(jù)都在根節(jié)點(diǎn) – 屬性都是離散值字段 (如果是連續(xù)的,將其離散化 ) – 所有記錄用所選屬性遞歸的進(jìn)行分割 – 屬性的選擇是基于一個啟發(fā)式規(guī)則或者一個統(tǒng)計(jì)的度量 (如 , information gain) ? 停止分割的條件 – 一個節(jié)點(diǎn)上的數(shù)據(jù)都是屬于同一個類別 – 沒有屬性可以再用于對數(shù)據(jù)進(jìn)行分割 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 13 屬性選擇的統(tǒng)計(jì)度量 ? Information gain (ID3/) – 所有屬性假設(shè)都是離散值字段 – 經(jīng)過修改之后可以適用于連續(xù)值字段 ? Gini index (IBM Intelligent Miner) – 能夠適用于離散值和連續(xù)值字段 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 14 Information Gain (ID3/) 190頁 ? 選擇屬性的標(biāo)準(zhǔn):具有最高 Information Gain ? 假設(shè)有兩個類 , P 和 N – 假設(shè)集合 S中含有 p個類別 P的記錄 ,n個類別 N的記錄 – 決定任意一個記錄屬于類別 P或者 N所需要的 information. npnnpnnppnppnpI??????? 22 l o gl o g),(2020年 9月 16日星期三 Data Mining: Concepts and Techniques 15 Information Gain 在決策樹中的使用 ? 假設(shè)使用屬性 A將把集合 S分成 V份 {S1, S2 , …, Sv} – 如果 Si 中包含 pi 個類別為 P的記錄 , ni 個類別為 N,的記錄。那么熵就是 (entropy), ? 從而這個信息增益就是 ?? ??? ?1),()(i iiii npInpnpAE)(),()( AEnpIAG ai n ??2020年 9月 16日星期三 Data Mining: Concepts and Techniques 16 使用信息增益進(jìn)行屬性選擇 (例 ) ? Class P: buys_puter = ―yes‖ ? Class N: buys_puter = ―no‖ ? I(p, n) = I(9, 5) = ? Compute the entropy for age: Hence Similarly age p i n i I ( p i, n i)=3 0 2 3 0 .9 7 13 0 … 4 0 4 0 04 0 3 2 0 .9 7 1)2,3(I145)0,4(I144)3,2(I145)age(E????)_()()(???r a t i n gcr editG a i ns t u d entG a i ni n eG a i n)age(E)n,p(I)age(G a i n ???2020年 9月 16日星期三 Data Mining: Concepts and Techniques 17 Gini Index (IBM IntelligentMiner) ? 集合 T包含 N個類別的記錄,那么其 Gini指標(biāo)就