freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

數(shù)據(jù)挖掘7章分類和預測1-預覽頁

2025-10-01 09:03 上一頁面

下一頁面
 

【正文】 ? 信用評分 ? Direct Marketing ? 醫(yī)療診斷 ? ………… 分類和預測 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 4 分類的兩個步驟 ? 模型創(chuàng)建 : 對一個類別已經確定的模型創(chuàng)建模型 ? 沒一條記錄都屬于一個確定的類別,我們使用類標簽屬性記錄類別。使用該模型對新的數(shù)據(jù)進行分類 Prediction: ? 對連續(xù)性字段進行建模和預測。 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 5 分類過程:模型創(chuàng)建 訓練集 N A M E RANK Y E A R S T E N U R E DM ik e A s s is t a n t P r o f 3 noM a r y A s s is t a n t P r o f 7 y e sB il l P r o f e s s o r 2 y e sJ im A s s o c ia t e P r o f 7 y e sD a v e A s s is t a n t P r o f 6 noA n n e A s s o c ia t e P r o f 3 no分類算法 IF rank = ‘professor’ OR years 6 THEN tenured = ‘yes’ 模型 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 6 分類過程 (2): 使用模型 模型 測試集 N A M E RANK Y E A R S T E N U R E DT o m A s s i s t a n t P r o f 2 noM e r l i s a A s s o c i a t e P r o f 7 noG e o r g e P r o f e s s o r 5 y e sJ o s e p h A s s i s t a n t P r o f 7 y e s未知數(shù)據(jù) (Jeff, Professor, 4) Tenured? 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 7 有監(jiān)督和無監(jiān)督學習 ? 有監(jiān)督學習 (分類 ) ? 訓練集是帶有類標簽的 ? 新的數(shù)據(jù)是基于訓練集進行分類的。 ? 相關性分析 (屬性選擇 ) ? 去掉不相關或者冗余的屬性 ? 數(shù)據(jù)轉換 ? 泛化或者對數(shù)據(jù)進行標準化 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 10 關于分類和預測的問題 (2): 評估分類方法 ? 預測準確率 ? 速度 ? 創(chuàng)建速度 ? 使用速度 ? 強壯性 ? 處理噪音和丟失值 ? 伸縮性 ? 對磁盤駐留數(shù)據(jù)的處理能力 ? 可解釋性 : ? 對模型的可理解程度。 X2檢驗 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 22 從樹中生成分類規(guī)則 ? 用 IFTHEN 這種形式來表現(xiàn)規(guī)則 ? 每個葉子節(jié)點都創(chuàng)建一條規(guī)則 ? 每個分割都成為一個規(guī)則中的一個條件 ? 葉子節(jié)點中的類別就是 Then的內容 ? 規(guī)則對于人來說更容易理解 ? 例子 IF age = “=30” AND student = “no” THEN buys_puter = “no” IF age = “=30” AND student = “yes” THEN buys_puter = “yes” IF age = “31…40” THEN buys_puter = “yes” IF age = “40” AND credit_rating = “excellent” THEN buys_puter = “yes” IF age = “=30” AND credit_rating = “fair” THEN buys_puter = “no” 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 23 在分類中避免過度適應 (Overfit) ? 在訓練集中生成的會可能會 Overfit ? 太多的分支 , 有些可能是對異常例外的反映 ? 在進行預測的時候準確率比較差 ? 兩種 ? 預修剪 : ? 難點:選擇一個域值比較困難 ? 后修建 : 先生成完整的樹,然后進行修剪 ? 使用另外一個的一個測試集來決定哪個樹最好 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 24 決定最終樹大小的方法 ? 使用部分數(shù)據(jù): ? 使用全部數(shù)據(jù): ? 使用一個統(tǒng)計測試 (., chisquare) 來估計保留或者修剪掉一個分支的影響 ? 使用最小描述長度 (MDL) 原則 : ? 當樹的 Coding最小的時候最佳。 Ganti) ? builds an AVClist (attribute, value, class label) 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 28 SLIQ算法介紹 ? 總攬: 預排序、廣度優(yōu)先、種類字段快速分割、 MDL修剪方法 ? 預排序: 減少對數(shù)值字段進行排序消耗的時間 ? 屬性列表( attribute list): ? 屬性值 ? 索引 ? 類列表( class list): ? 類標簽 ? 指向樹中的節(jié)點 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 29 Sliq分類算法 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 30 Sliq分類算法 ? 進行節(jié)點的分割: 廣度優(yōu)先 ? 對當前樹中所有葉子節(jié)點分割的計算都是在同一遍中完成的。即可以任取其中一種狀態(tài)編碼為 1或者 0 對于對稱的二員變量,采用 簡單匹配系數(shù) 來評價兩個對象之間的相異度 dcba cb jid ??? ??),(2020年 10月 5日星期一 Data Mining: Concepts and Techniques 53 二元變量 ? 非對稱的 如果變量的兩個狀態(tài)不是同樣重要的,則稱該變量是不對稱的。 p mpjid ??),(2020年 10月 5日星期一 Data Mining: Concepts and Techniques 56 序數(shù)型變量 ? 一個序數(shù)型變量可以是離散的也可以是連續(xù)的 ? 離散的序數(shù)型變量類似于標稱變量,除了它的 M個狀態(tài)是以有意義的序列排序的,比如職稱 ? 連續(xù)的序數(shù)型變量類似于區(qū)間標度變量,但是它沒有單位,值的相對順序是必要的,而其實際大小并不重要
點擊復制文檔內容
研究報告相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1