正文內(nèi)容

數(shù)據(jù)挖掘分類和預測(已修改)

2025-08-31 12:12 本頁面

　

【正文】 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 1 第七章：分類和預測什么是分類？什么是預測關(guān)于分類和預測的一些問題使用決策樹進行分類貝葉斯分類（向后傳播分類）帶回饋的分類基于關(guān)聯(lián)規(guī)則的分類其他分類方法預測分類法的準確性總結(jié) 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 2 分類： – 預測種類字段 – 基于訓練集形成一個模型，訓練集中的類標簽是已知的。使用該模型對新的數(shù)據(jù)進行分類預測 : – 對連續(xù)性字段進行建模和預測。典型應用 – 信用評分 – Direct Marketing – 醫(yī)療診斷 – ………… 分類和預測 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 3 分類的兩個步驟 ? 模型創(chuàng)建 : 對一個類別已經(jīng)確定的數(shù)據(jù)創(chuàng)建模型 – 每一條記錄都屬于一個確定的類別，我們使用類標簽屬性記錄類別。 – 用于創(chuàng)建模型的數(shù)據(jù)集叫 :訓練集 – 模型可以用分類規(guī)則，決策樹，或者數(shù)學方程的形式來表達。 ? 模型使用 : 用創(chuàng)建的模型預測未來或者類別未知的記錄 – 估計模型的準確率 ? 使用創(chuàng)建的模型在一個測試集上進行預測，并將結(jié)果和實際值進行比較。 ? 準確率：正確被模型分類的測試樣本的百分比。 ? 測試集和訓練集是獨立的。 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 4 分類過程：模型創(chuàng)建訓練集 N A M E RANK Y E A R S T E N U R E DM ik e A s s is t a n t P r o f 3 noM a r y A s s is t a n t P r o f 7 y e sB il l P r o f e s s o r 2 y e sJ im A s s o c ia t e P r o f 7 y e sD a v e A s s is t a n t P r o f 6 noA n n e A s s o c ia t e P r o f 3 no分類算法 IF rank = ‘professor’ OR years 6 THEN tenured = ‘yes’ 模型 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 5 分類過程 (2): 使用模型模型測試集 N A M E RANK Y E A R S T E N U R E DT o m A s s i s t a n t P r o f 2 noM e r l i s a A s s o c i a t e P r o f 7 noG e o r g e P r o f e s s o r 5 y e sJ o s e p h A s s i s t a n t P r o f 7 y e s未知數(shù)據(jù) (Jeff, Professor, 4) Tenured? 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 6 有監(jiān)督和無監(jiān)督學習 ? 有監(jiān)督學習 (分類 ) – 訓練集是帶有類標簽的 – 新的數(shù)據(jù)是基于訓練集進行分類的。 ? 無監(jiān)督學習 (聚集 ) – 訓練集是沒有類標簽的。 – 提供一組屬性，然后尋找出訓練集中存在類別或者聚集。 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 7 ? 數(shù)據(jù)清洗 – 對數(shù)據(jù)進行預處理，消除噪音和丟失值。 ? 相關(guān)性分析 (屬性選擇 ) – 去掉不相關(guān)或者冗余的屬性 ? 數(shù)據(jù)轉(zhuǎn)換 – 泛化或者對數(shù)據(jù)進行標準化 (1): 數(shù)據(jù)準備 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 8 關(guān)于分類和預測的問題 (2): 評估、比較分類方法 ? 預測的準確率 ? 速度 – 創(chuàng)建速度 – 使用速度 ? 強壯性 – 處理噪聲數(shù)據(jù)和缺失值數(shù)據(jù)的能力 ? 伸縮性 – 對大量數(shù)據(jù)，對磁盤駐留數(shù)據(jù)的處理能力 ? 可解釋性 : – 對模型的可理解和解釋的程度。 ? 規(guī)則好壞的評價 – 決策樹的大小 – 分類規(guī)則的簡明性 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 9 （ 188頁） ? 決策樹 – 一個類似流程圖的樹狀結(jié)構(gòu) – 內(nèi)部節(jié)點上選用一個屬性進行分割 – 每個分叉都是分割的一個部分 – 葉子節(jié)點表示一個分布 ? 決策樹生成算法分成兩個步驟 – 樹的生成 ? 開始，數(shù)據(jù)都在根節(jié)點 ? 遞歸的進行數(shù)據(jù)分片 – 樹的修剪 ? 去掉一些可能是噪音或者異常的數(shù)據(jù) ? 決策樹使用 : 對未知數(shù)據(jù)進行分割 – 按照決策樹上采用的分割屬性逐層往下，直到一個葉子節(jié)點 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 10 訓練集 a g e i n co me st u d e n t cre d i t _ ra t i n g b u ys_ co mp u t e r=3 0 h i g h no f a i r no=3 0 h i g h no e x ce l l e n t no3 0 …4 0 h i g h no f a i r ye s4 0 me d i u m no f a i r ye s4 0 l o w ye s f a i r ye s4 0 l o w ye s e x ce l l e n t no3 1 …4 0 l o w ye s e x ce l l e n t ye s=3 0 me d i u m no f a i r no=3 0 l o w ye s f a i r ye s4 0 me d i u m ye s f a i r ye s=3 0 me d i u m ye s e x ce l l e n t ye s3 1 …4 0 me d i u m no e x ce l l e n t ye s3 1 …4 0 h i g h ye s f a i r ye s4 0 me d i u m no e x ce l l e n t noID3算法 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 11 Output: A Decision Tree for “buys_puter” age? overcast student? credit rating? no yes fair excellent =30 40 no no yes yes yes 30..40 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 12 決策樹算法 ? 基本算法（貪心算法） – 自上而下分而治之的方法 – 開始時，所有的數(shù)據(jù)都在根節(jié)點 – 屬性都是離散值字段 (如果是連續(xù)的，將其離散化 ) – 所有記錄用所選屬性遞歸的進行分割 – 屬性的選擇是基于一個啟發(fā)式規(guī)則或者一個統(tǒng)計的度量 (如 , information gain) ? 停止分割的條件 – 一個節(jié)點上的數(shù)據(jù)都是屬于同一個類別 – 沒有屬性可以再用于對數(shù)據(jù)進行分割 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 13 屬性選擇的統(tǒng)計度量 ? Information gain (ID3/) – 所有屬性假設都是離散值字段 – 經(jīng)過修改之后可以適用于連續(xù)值字段 ? Gini index (IBM Intelligent Miner) – 能夠適用于離散值和連續(xù)值字段 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 14 Information Gain (ID3/) 190頁 ? 選擇屬性的標準：具有最高 Information Gain ? 假設有兩個類 , P 和 N – 假設集合 S中含有 p個類別 P的記錄 ,n個類別 N的記錄 – 決定任意一個記錄屬于類別 P或者 N所需要的 information. npnnpnnppnppnpI??????? 22 l o gl o g),(2020年 9月 16日星期三 Data Mining: Concepts and Techniques 15 Information Gain 在決策樹中的使用 ? 假設使用屬性 A將把集合 S分成 V份 {S1, S2 , …, Sv} – 如果 Si 中包含 pi 個類別為 P的記錄 , ni 個類別為 N,的記錄。那么熵就是 (entropy), ? 從而這個信息增益就是 ?? ??? ?1),()(i iiii npInpnpAE)(),()( AEnpIAG ai n ??2020年 9月 16日星期三 Data Mining: Concepts and Techniques 16 使用信息增益進行屬性選擇 (例 ) ? Class P: buys_puter = ―yes‖ ? Class N: buys_puter = ―no‖ ? I(p, n) = I(9, 5) = ? Compute the entropy for age: Hence Similarly age p i n i I ( p i, n i)=3 0 2 3 0 .9 7 13 0 … 4 0 4 0 04 0 3 2 0 .9 7 1)2,3(I145)0,4(I144)3,2(I145)age(E????)_()()(???r a t i n gcr editG a i ns t u d entG a i ni n eG a i n)age(E)n,p(I)age(G a i n ???2020年 9月 16日星期三 Data Mining: Concepts and Techniques 17 Gini Index (IBM IntelligentMiner) ? 集合 T包含 N個類別的記錄，那么其 Gini指標就

點擊復制文檔內(nèi)容

研究報告相關(guān)推薦

數(shù)據(jù)挖掘概念與技術(shù)chapter6-分類classadvanced-資料下載頁

【總結(jié)】1Chapter6.分類:AdvancedMethods?貝葉斯信念網(wǎng)絡?后向傳播分類ClassificationbyBackpropagation?支持向量機SupportVectorMachines?ClassificationbyUsingFrequentPatterns?LazyLearners(or

2024-12-08 09:45

數(shù)據(jù)挖掘從大數(shù)據(jù)庫中挖掘關(guān)聯(lián)規(guī)則-資料下載頁

【總結(jié)】2020-11-6數(shù)據(jù)挖掘：概念和技術(shù)1數(shù)據(jù)挖掘:概念和技術(shù)—Chapter6—?張曉輝復旦大學（國際）數(shù)據(jù)庫研究中心2020-11-6數(shù)據(jù)挖掘：概念和技術(shù)2第6章：從大數(shù)據(jù)庫中挖掘關(guān)聯(lián)規(guī)則?關(guān)聯(lián)規(guī)則挖掘?從交易數(shù)據(jù)庫中挖掘一維的布爾形關(guān)聯(lián)規(guī)則?從交易數(shù)據(jù)庫中

2025-08-22 09:03

spssclementine和knime數(shù)據(jù)挖掘入門-資料下載頁

【總結(jié)】SPSSClementine是Spss公司收購ISL獲得的數(shù)據(jù)挖掘工具。在Gartner的客戶數(shù)據(jù)挖掘工具評估中，僅有兩家廠商被列為領(lǐng)導者：SAS和SPSS。SAS獲得了最高abilitytoexecute評分，代表著SAS在市場執(zhí)行、推廣、認知方面有最佳表現(xiàn)；而SPSS獲得了最高的pletenessofvision，表明SPSS在技術(shù)創(chuàng)新方

2025-08-11 14:16

數(shù)據(jù)挖掘入門ppt課件-資料下載頁

【總結(jié)】數(shù)據(jù)挖掘入門Date1

2025-05-12 08:50

序論數(shù)據(jù)挖掘ppt課件-資料下載頁

【總結(jié)】數(shù)據(jù)挖掘與知識發(fā)現(xiàn)主講教師：王玲教科書和參考書n教科書q數(shù)據(jù)挖掘：概念與技術(shù)，JiaweiHan和MichelineKamber著，機械工業(yè)出版社(2022)n參考書q數(shù)據(jù)挖掘原理,DavidHand,HeikkiMannila和PadhraicSmyth著，機械工業(yè)出版社(2022)qDataMining

2025-05-12 08:29

數(shù)據(jù)挖掘綜述ppt課件-資料下載頁

【總結(jié)】數(shù)據(jù)挖掘綜述北京師范大學數(shù)學學院1數(shù)據(jù)挖掘技術(shù)的由來n網(wǎng)絡技術(shù)的高度發(fā)展n數(shù)據(jù)爆炸但知識貧乏n支持數(shù)據(jù)挖掘技術(shù)的基礎(chǔ)n從商業(yè)數(shù)據(jù)到商業(yè)信息的進化數(shù)據(jù)爆炸但知識貧乏激增的數(shù)據(jù)背后隱藏著許多重要的信息，人們希望能夠?qū)ζ溥M行更高層次的分析，

2025-04-30 18:14

數(shù)據(jù)挖掘方法ppt課件-資料下載頁

【總結(jié)】第二章：管理與決策支持的數(shù)據(jù)挖掘方法教師：廖芹第二章管理與決策支持的數(shù)據(jù)挖掘方法概述主要方法：１、神經(jīng)網(wǎng)絡（感知機模型、BP、RBF、自組織模型）

2025-10-25 22:17

數(shù)據(jù)挖掘應用ppt課件-資料下載頁

【總結(jié)】數(shù)據(jù)挖掘應用CRM顧客生命周期壽命盈利獲取消費者保持消費者消費者分析和恢復收入支出壽命數(shù)據(jù)挖掘在CRM中的應用Customeridentification?CRMbeginswithcustomeridentification.Thisphaseinvolvestarge

2025-10-25 22:17

數(shù)據(jù)挖掘概述ppt課件-資料下載頁

【總結(jié)】講授：吳雄華第一章數(shù)據(jù)挖掘概述電話：13752460206Email：一、引例網(wǎng)站這種推薦并非漫無邊際，而是有一定技術(shù)依據(jù)的，這種技術(shù)就是數(shù)據(jù)挖掘技術(shù)（DM）。網(wǎng)站怎么知道讀者可能會對這些物品干興趣？這是因為網(wǎng)站采用了新的技術(shù)來了解顧客的潛在需求，比如：網(wǎng)站從顧客的購買清單中發(fā)現(xiàn)你買的書與張三買過的書有幾本是相同的，但是還有些書張三已經(jīng)

2025-05-12 08:33

數(shù)據(jù)挖掘ppt課件(2)-資料下載頁

【總結(jié)】第第13章章數(shù)據(jù)挖掘數(shù)據(jù)挖掘數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘的基本類型和算法智能決策與物聯(lián)網(wǎng)本章內(nèi)容數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘ü從大量數(shù)據(jù)中獲取潛在有用的并且可以被人們理解的模式的過程ü反復迭代的人機交互和處理過程，歷經(jīng)多個步驟，并且在一些步驟中需要由用戶提供決策數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘過程?數(shù)據(jù)預處理階段

2025-04-30 18:24

數(shù)據(jù)挖掘原理ppt課件-資料下載頁

【總結(jié)】數(shù)據(jù)挖掘原理WhatisDataMining??AccordingtotheGartnerGroup,Dataminingistheprocessofdiscoveringmeaningful

2025-10-25 22:15

數(shù)據(jù)挖掘技術(shù)ppt課件-資料下載頁

【總結(jié)】于金霞計算機科學與技術(shù)學院信息管理與信息系統(tǒng)專業(yè)課程第三講數(shù)據(jù)挖掘技術(shù)主要內(nèi)容?一、數(shù)據(jù)挖掘概述?二、數(shù)據(jù)預處理?三、數(shù)據(jù)挖掘算法－分類與預測?四、數(shù)據(jù)挖掘算法－聚類?五、數(shù)據(jù)挖掘算法－關(guān)聯(lián)分析?六、序列模式挖掘?七、數(shù)據(jù)挖掘軟件?八、數(shù)據(jù)挖掘應用一、數(shù)據(jù)

2025-01-17 17:45

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

數(shù)據(jù)挖掘分類和預測(已修改)

數(shù)據(jù)挖掘概念與技術(shù)chapter6-分類classadvanced-資料下載頁

數(shù)據(jù)挖掘從大數(shù)據(jù)庫中挖掘關(guān)聯(lián)規(guī)則-資料下載頁

spssclementine和knime數(shù)據(jù)挖掘入門-資料下載頁

數(shù)據(jù)挖掘入門ppt課件-資料下載頁

序論數(shù)據(jù)挖掘ppt課件-資料下載頁

數(shù)據(jù)挖掘綜述ppt課件-資料下載頁

數(shù)據(jù)挖掘方法ppt課件-資料下載頁

數(shù)據(jù)挖掘應用ppt課件-資料下載頁

數(shù)據(jù)挖掘概述ppt課件-資料下載頁

數(shù)據(jù)挖掘ppt課件(2)-資料下載頁

數(shù)據(jù)挖掘原理ppt課件-資料下載頁

數(shù)據(jù)挖掘技術(shù)ppt課件-資料下載頁

數(shù)據(jù)挖掘chappt課件-資料下載頁

金融數(shù)據(jù)挖掘ppt課件-資料下載頁

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘習題-資料下載頁

數(shù)據(jù)挖掘分類和預測-閱讀頁

數(shù)據(jù)挖掘分類和預測(文件)

數(shù)據(jù)挖掘分類和預測-全文預覽

數(shù)據(jù)挖掘分類和預測-預覽頁

數(shù)據(jù)挖掘分類和預測-免費閱讀