【正文】
Data Mining Tool - Decision Tree 福建省粒計(jì)算及其應(yīng)用重點(diǎn)實(shí)驗(yàn)室 趙紅 2023年 11月 提要 數(shù)據(jù)挖掘簡介 決策樹的用途 決策樹的建立( ID3) Weka J48源碼解析 2 1/31/2023 數(shù)據(jù)挖掘簡介 誰加何種類型的油? 3 姓名 年齡 收入 種族 信譽(yù) 電話 地址 加何種油 張三 23 4000 亞裔 良 2813220328 2714 Ave. M Supreme 李四 34 2800 白人 優(yōu) 7132397830 5606 Holly Cr Regular 王二 70 1900 西班牙 優(yōu) 2812423222 2023 Bell Blvd. Plus 趙五 18 900 非洲 良 2815500544 100 Main Street Supreme 劉蘭 34 2500 白人 優(yōu) 7132397430 606 Holly Ct Regular 楊俊 27 8900 亞裔 優(yōu) 2813557990 233 Rice Blvd. Plus 張毅 38 9500 亞裔 優(yōu) 2815560544 399 Sugar Rd. Regular …… 數(shù)據(jù)挖掘簡介 你能判定他 /她買計(jì)算機(jī)的可能性大不大嗎? 4 1/31/2023 姓名 年齡 收入 學(xué)生 信譽(yù) 電話 地址 郵編 買計(jì) 算機(jī) 張三 23 4000 是 良 2813220328 2714 Ave. M 77388 買 李四 34 2800 否 優(yōu) 7132397830 5606 Holly Cr 78766 買 王二 70 1900 否 優(yōu) 2812423222 2023 Bell Blvd. 70244 不買 趙五 18 900 是 良 2815500544 100 Main Street 70244 買 劉蘭 34 2500 否 優(yōu) 7132397430 606 Holly Ct 78566 買 楊俊 27 8900 否 優(yōu) 2813557990 233 Rice Blvd. 70388 不買 張毅 38 9500 否 優(yōu) 2815560544 399 Sugar Rd. 78244 買 …… 數(shù)據(jù)挖掘簡介 我們擁有什么 : Huge amount of data (GTE:1TB/day) 我們需要什么 : Information and knowledge 我們應(yīng)該怎么辦 : Data mining 5 1/31/2023 排名 挖掘主題 算法 得票數(shù) 發(fā)表時(shí)間 作者 陳述 人 1 分類 61 1993 Quinlan, Hiroshi Motoda 2 聚類 kMeans 60 1967 MacQueen, Joydeep Ghosh 3 統(tǒng)計(jì)學(xué)習(xí) SVM 58 1995 Vapnik, QiangYang 4 關(guān)聯(lián)分析 Apriori 52 1994 Rakesh Agrawal Christos Faloutsos 5 統(tǒng)計(jì)學(xué)習(xí) EM 48 2023 McLachlan, G Joydeep Ghosh 6 鏈接挖掘 PageRank 46 1998 Brin, S. Christos Faloutsos 7 集裝與推進(jìn) AdaBoost 45 1997 Freund, Y. ZhiHua Zhou 8 分類 kNN 45 1996 Hastie, T Vipin Kumar 9 分類 Na239。ve Bayes 45 2023 Hand, Qiang Yang 10 分類 CART 34 1984 Dan Steinberg 數(shù)據(jù)挖掘 10大算法 ICDM 2023 Panel (會(huì) 議 的 專題討論 )共有 145人選出了數(shù)據(jù)挖掘 10大算法。 建立分類模型的一般方法 A p p l y M o d el歸 納推 論L ea r n M o d el模 型Tid A t t ri b1 A t t ri b2 A t t ri b3 C l a s s 1 Y e s L a r g e 125K No 2 No M e d i u m 100K No 3 No S mal l 70K No 4 Y e s M e d i u m 120K No 5 No L a r g e 95K Y e s 6 No M e d i u m 60K No 7 Y e s L a r g e 220K No 8 No S mal l 85K Y e s 9 No M e d i u m 75K No 10 No S mal l 90K Y e s 10 Tid A t t ri b1 A t t ri b2 A t t ri b3 C l a s s 11 No S mal l 55K ? 12 Y e s M e d i u m 80K ? 13 Y e s L a r g e 110K ? 14 No S mal l 95K ? 15 No L a r g e 67K ? 10 測 試 集學(xué) 習(xí) 算 法訓(xùn) 練 集決策樹的用途 8 1/31/2023 計(jì) 數(shù) 年 齡 收 入 學(xué) 生 信 譽(yù) 歸類: 買計(jì)算機(jī)? 64 青 高 否 良 不買 64 青 高 否 優(yōu) 不買 128 中 高 否 良 買 60 老 中 否 良 買 64 老 低 是 良 買 64 老 低 是 優(yōu) 不買 64 中 低 是 優(yōu) 買 128 青 中 否 良 不買 64 青 低 是 良 買 132 老 中 是 良 買 64 青 中 是 優(yōu) 買 32 中 中 否 優(yōu) 買 32 中 高 是 良 買 63 老 中 否 優(yōu) 不買 1 老 中 否 優(yōu) 買 決策樹的用途 9 1/31/2023 誰在買計(jì)算機(jī)? 他 /她會(huì)買計(jì)算機(jī)嗎? 年齡? 學(xué)生? 信譽(yù)? 買 青 中 老 否 是 優(yōu) 良 不買 買 買 不買 計(jì) 數(shù) 年 齡 收 入 學(xué) 生 信 譽(yù) 歸類: 買計(jì)算機(jī)? 64 青 高 否 良 不買 64 青 高 否 優(yōu) 不買 128 中 高 否 良 買 60 老 中 否 良 買 64 老 低 是 良 買 64 老 低 是 優(yōu) 不買 64 中 低 是 優(yōu) 買 128 青 中 否 良 不買 64 青 低 是 良 買 132 老 中 是 良 買 64 青 中 是 優(yōu) 買 32 中 中 否 優(yōu) 買 32 中 高 是 良 買 63 老 中 否 優(yōu) 不買 1 老 中 否 優(yōu) 買 決策樹的用途 10 1/31/2023 一棵很糟糕的決策樹 收入? 學(xué)生? 青 中 否 是 高 低 中 信譽(yù)? 良 優(yōu) 年齡? 不買 買 買 不買 計(jì) 數(shù) 年 齡 收 入 學(xué) 生 信 譽(yù) 歸類: 買計(jì)算機(jī)? 64 青 高 否 良 不買 64 青 高 否 優(yōu) 不買 128 中 高 否 良 買 60 老 中 否 良 買 64 老 低 是 良 買 64 老 低 是 優(yōu) 不買 64 中 低 是 優(yōu) 買 128 青 中 否 良 不買 64 青 低 是 良 買 132 老 中 是 良 買 64 青 中 是 優(yōu) 買 32 中 中 否 優(yōu) 買 32 中 高 是 良 買 63 老 中 否 優(yōu) 不買 1 老 中 否 優(yōu) 買 決策樹的用途 什么是決策樹 A decision tree is a flowchartlike tree structure Each internal node denotes a test on an attribute Each branch represents an oute of the test Lea