【正文】
_ ra t i n g b u ys_ co mp u t e r=3 0 h i g h no f a i r no=3 0 h i g h no e x ce l l e n t no3 0 …4 0 h i g h no f a i r ye s4 0 me d i u m no f a i r ye s4 0 l o w ye s f a i r ye s4 0 l o w ye s e x ce l l e n t no3 1 …4 0 l o w ye s e x ce l l e n t ye s=3 0 me d i u m no f a i r no=3 0 l o w ye s f a i r ye s4 0 me d i u m ye s f a i r ye s=3 0 me d i u m ye s e x ce l l e n t ye s3 1 …4 0 me d i u m no e x ce l l e n t ye s3 1 …4 0 h i g h ye s f a i r ye s4 0 me d i u m no e x ce l l e n t noID3算法 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 11 Output: A Decision Tree for “buys_puter” age? overcast student? credit rating? no yes fair excellent =30 40 no no yes yes yes 30..40 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 12 決策樹算法 ? 基本算法(貪心算法) – 自上而下分而治之的方法 – 開始時(shí),所有的數(shù)據(jù)都在根節(jié)點(diǎn) – 屬性都是離散值字段 (如果是連續(xù)的,將其離散化 ) – 所有記錄用所選屬性遞歸的進(jìn)行分割 – 屬性的選擇是基于一個(gè)啟發(fā)式規(guī)則或者一個(gè)統(tǒng)計(jì)的度量 (如 , information gain) ? 停止分割的條件 – 一個(gè)節(jié)點(diǎn)上的數(shù)據(jù)都是屬于同一個(gè)類別 – 沒有屬性可以再用于對數(shù)據(jù)進(jìn)行分割 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 13 屬性選擇的統(tǒng)計(jì)度量 ? Information gain (ID3/) – 所有屬性假設(shè)都是離散值字段 – 經(jīng)過修改之后可以適用于連續(xù)值字段 ? Gini index (IBM Intelligent Miner) – 能夠適用于離散值和連續(xù)值字段 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 14 Information Gain (ID3/) 190頁 ? 選擇屬性的標(biāo)準(zhǔn):具有最高 Information Gain ? 假設(shè)有兩個(gè)類 , P 和 N – 假設(shè)集合 S中含有 p個(gè)類別 P的記錄 ,n個(gè)類別 N的記錄 – 決定任意一個(gè)記錄屬于類別 P或者 N所需要的 information. npnnpnnppnppnpI??????? 22 l o gl o g),(2020年 9月 16日星期三 Data Mining: Concepts and Techniques 15 Information Gain 在決策樹中的使用 ? 假設(shè)使用屬性 A將把集合 S分成 V份 {S1, S2 , …, Sv} – 如果 Si 中包含 pi 個(gè)類別為 P的記錄 , ni 個(gè)類別為 N,的記錄。 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 7 ? 數(shù)據(jù)清洗 – 對數(shù)據(jù)進(jìn)行預(yù)處理,消除噪音和丟失值。 ? 無監(jiān)督學(xué)習(xí) (聚集 ) – 訓(xùn)練集是沒有類標(biāo)簽的。 ? 測試集和訓(xùn)練集是獨(dú)立的。 ? 模型使用 : 用創(chuàng)建的模型預(yù)測未來或者類別未知的記錄 – 估計(jì)模型的準(zhǔn)確率 ? 使用創(chuàng)建的模型在一個(gè)測試集上進(jìn)行預(yù)測,并將結(jié)果和實(shí)際值進(jìn)行比較。 典型應(yīng)用 – 信用評分 – Direct Marketing – 醫(yī)療診斷 – ………… 分類和預(yù)測 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 3 分類的兩個(gè)步驟 ? 模型創(chuàng)建 : 對一個(gè)類別已經(jīng)確定的數(shù)據(jù)創(chuàng)建模型 – 每一條記錄都屬于一個(gè)確定的類別,我們使用類標(biāo)簽屬性記錄類別。2020年 9月 16日星期三 Data Mining: Concepts and Techniques 1 第七章:分類和預(yù)測 什么是分類?什么是預(yù)測 關(guān)于分類和預(yù)測的一些問題 使用決策樹進(jìn)行分類 貝葉斯分類 (向后傳播分類)帶回饋的分類 基于關(guān)聯(lián)規(guī)則的分類 其他分類方法 預(yù)測 分類法的準(zhǔn)確性 總結(jié) 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 2 分類: – 預(yù)測種類字段 – 基于訓(xùn)練集形成一個(gè)模型,訓(xùn)練集中的類標(biāo)簽是已知的。使用該模型對新的數(shù)據(jù)進(jìn)行分類 預(yù)測 : – 對連續(xù)性字段進(jìn)行建模和預(yù)測。 – 用于創(chuàng)建模型的數(shù)據(jù)集叫 :訓(xùn)練集 – 模型可以用分類規(guī)則,決策樹,或者數(shù)學(xué)方程的形式來表達(dá)。 ? 準(zhǔn)確率:正確被模型分類的測試樣本的百分比。 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 4 分類過程:模型創(chuàng)建 訓(xùn)練集 N A M E RANK Y E A R S T E N U R E DM ik e A s s is t a n t P r o f 3 noM a r y A s s is t a n t P r o f 7 y e sB il l P r o f e s s o r 2 y e sJ im A s s o c ia t e P r o f 7 y e sD a v e A s s is t a n t P r o f 6 noA n n e A s s o c ia t e P r o f 3 no分類算法 IF rank = ‘professor’ OR years 6 THEN tenured = ‘yes’ 模型 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 5 分類過程 (2): 使用模型 模型 測試集 N A M E RANK Y E A R S T E N U R E DT o m A s s i s t a n t P r o f 2 noM e r l i s a A s s o c i a t e P r o f 7 noG e o r g e P r o f e s s o r 5 y e sJ o s e p h A s s i s t a n t P r o f 7 y e s未知數(shù)據(jù) (Jeff, Professor, 4) Tenured? 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 6 有監(jiān)督和無監(jiān)督學(xué)習(xí) ? 有監(jiān)督學(xué)習(xí) (分類 ) – 訓(xùn)練集是帶有類標(biāo)簽的 – 新的數(shù)據(jù)是基于訓(xùn)練集進(jìn)行分類的。 – 提供一組屬性,然后尋找出訓(xùn)練集中存在類別或者聚集。 ? 相關(guān)性分析 (屬性選擇 ) – 去掉不相關(guān)或者冗余的屬性 ? 數(shù)據(jù)轉(zhuǎn)換 – 泛化或者對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化 (1): 數(shù)據(jù)準(zhǔn)備 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 8 關(guān)于分類和預(yù)測的問題 (2): 評估、比較分類方法 ? 預(yù)測的準(zhǔn)確率 ? 速度 – 創(chuàng)建速度 – 使用速度 ? 強(qiáng)壯性 – 處理噪聲數(shù)據(jù)和缺失值數(shù)據(jù)的能力 ? 伸縮性 – 對大量數(shù)據(jù),對磁盤駐留數(shù)據(jù)的處理能力 ? 可解釋性 : – 對模型的可理解和解釋的程度。那么熵就是 (entropy), ? 從而這個(gè)信息增益就是 ?? ??? ?1),()(i iiii npInpnpAE)(),()( AEnpIAG ai n ??2020年 9月 16日星期三 Data Mining: Concepts and Techniques 16 使用信息增益進(jìn)行屬性選擇 (例 ) ? Class P: buys_puter = ―yes‖ ? Class N: buys_puter = ―no‖ ? I(p, n) = I(9, 5) = ? Compute the entropy for age: Hence Similarly age p i n i I ( p i, n i)=3 0 2 3 0 .9 7 13 0 … 4 0 4 0 04 0 3 2 0 .9 7 1)2,3(I145)0,4(I144)3,2(I145)age(E????)_()()(???r a t i n gcr editG a i ns t u d entG a i ni n eG a i n)age(E)n,p(I)age(G a i n ???2020年 9月 16日星期三 Data Mining: Concepts and Techniques 17 Gini Index (IBM IntelligentMiner) ? 集合 T包含 N個(gè)類別的記錄,那么其 Gini指標(biāo)就是 pj 類別 j出現(xiàn)的頻率 ? 如果集合 T分成兩部分 N1 and N2 。 X2檢驗(yàn) 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 19 從樹中生成分類規(guī)則 ? 用 IFTHEN 這種形式來表現(xiàn)規(guī)則 ? 每個(gè)葉子節(jié)點(diǎn)都創(chuàng)建一條規(guī)則 ? 每個(gè)分割都成為一個(gè)規(guī)則中的一個(gè)條件 ? 葉子節(jié)點(diǎn)中的類別就是 Then的內(nèi)容 ? 規(guī)則對于人來說更容易理解 ? 例子 IF age = ―=30‖ AND student = ―no‖ THEN buys_puter = ―no‖ IF age = ―=30‖ AND student = ―yes‖ THEN buys_puter = ―yes‖ IF age = ―31…40‖ THEN buys_puter = ―yes‖ IF age = ―