freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

數(shù)據(jù)挖掘7章分類和預測1-文庫吧在線文庫

2025-10-16 09:03上一頁面

下一頁面
  

【正文】 ? 能夠轉換成容易理解的分類規(guī)則 ? 能夠使用 SQL語句查詢數(shù)據(jù)庫 ? 分類的準確率也不差 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 27 Scalable Decision Tree Induction 數(shù)據(jù)挖掘中提出的方法 ? SLIQ (EDBT’96 — Mehta et al.) ? SPRINT (VLDB’96 — J. Shafer et al.) ? PUBLIC (VLDB’98 — Rastogi amp。 ? 提供一組屬性,然后尋找出訓練集中存在類別或者聚集。2020年 10月 5日星期一 Data Mining: Concepts and Techniques 1 分類和預測( 1) 主講人:蔡偉杰 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 2 第七章:分類和預測 ? 什么是分類?什么是預測 ? 關于分類和預測的一些問題 ? 使用決策樹進行分類 ? 貝葉斯分類 ? 帶回饋的分類 ? 基于關聯(lián)規(guī)則的分類 ? 其他分類方法 ? 預測 ? 分類的準確率 ? 總結 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 3 ? 分類 ? 預測種類字段 ? 基于訓練集形成一個模型,訓練集中的類標簽是已知的。 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 8 分類和預測 ? 什么是分類?什么是預測 ? 關于分類和預測的一些問題 ? 使用決策樹進行分類 ? 貝葉斯分類 ? 帶回饋的分類 ? 基于關聯(lián)規(guī)則的分類 ? 其他分類方法 ? 預測 ? 分類的準確率 ? 總結 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 9 關于分類和預測的一些問題 (1): 數(shù)據(jù)準備 ? 數(shù)據(jù)清洗 ? 對數(shù)據(jù)進行預處理,消除噪音和丟失值。 Shim) ? RainForest (VLDB’98 — Gehrke, Ramakrishnan amp。有兩種計算相異度的方法: ? 方法 1: 簡單匹配方法 ? M是匹配的數(shù)目 , p是全部變量的數(shù)目 ? 方法 2: 使用二元變量 ? 為每一個狀態(tài)創(chuàng)建一個新的二元變量,可以用非對稱的二元變量來編碼標稱變量。 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 57 序數(shù)型變量 ? 相異度的計算 與區(qū)間標度變量的計算方法相類似 ? 將 xif 用它對應的秩代替 ? 將每個變量的值域映射到 [, ]上,使得每個變量都有相同的權重。 ? 引進的數(shù)據(jù)結構:類分布表 ? 數(shù)值字段:類標簽、頻率 ? 種類字段:屬性值、類標簽、頻率 ? 對數(shù)值字段進行分割計算: 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 31 Sliq分類算法 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 32 Sliq分類算法 ? 對種類字段進行分割: ? 通過對數(shù)據(jù)的掃描生成類分布表 ? 尋找分割集合 ? 如果不同字段的值少于預定值,進行完全搜索 ? 如果不同字段的值大于預定值,使用貪心算法 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 33 Sliq分類算法 ? 樹的修剪: 采用了 MDL策略 ? Cost(M,D)=cost(D|M)+cost(M) ? 整個算法包括兩個部分: ? 編碼方法 ? 不同子樹的比較方法 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 34 基于數(shù)據(jù)立方體的決策樹 ? Integration of generalization with decisiontree induction (Kamber et al’97). ? 在最低概念層上進行分類 ? 例如 , precise temperature, humidity, outlook, etc. ? 低的層次,分散的類別,過多的葉子節(jié)點 ? 模型解釋的問題 . ? 基于 Cube的多層分類 ? 在多個層次上進行相關性分析 . ? 在多個層次上進行 Information Gain的計算 . 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 35 結果顯示 (一 ) 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 36 結 果 顯 示 (二 ) 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 37 Any Question? 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 38 Chapter 8. 聚類分析 ? 什么是聚類分析 ? ? 聚類分析中的數(shù)據(jù)類型 ? 主要聚類分析方法分類 ? 劃分方法( Partitioning Methods) ? 分層方法 ? 基于密度的方法 ? 基于表格的方法 ? 基于模型( ModelBased) 的聚類方法 ? 異常分析 ? 總結 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 40 聚類的常規(guī)應用 ? 模式識別 ? 空間數(shù)據(jù)分析 ? 在 GIS中,通過聚類發(fā)現(xiàn)特征空間來建立主題索引; ? 在空間數(shù)據(jù)挖掘中,檢測并解釋空間中的簇; ? 圖象處理 ? 經(jīng)濟學 (尤其是市場研究方面 ) ? WWW ? 文檔分類 ? 分析 WEB日志數(shù)據(jù)來發(fā)現(xiàn)相似的訪問模式 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 41 應用聚類分析的例子 ? 市場銷售 : 幫助市場人員發(fā)現(xiàn)客戶中的不同群體,然后用這些知識來開展一個目標明確的市場計劃; ? 土地使用 : 在一個陸地觀察數(shù)據(jù)庫中標識那些土地使用相似的地區(qū); ? 保險 : 對購買了汽車保險的客戶,標識那些有較高平均賠償成本的客戶; ? 城市規(guī)劃 : 根據(jù)類型、價格、地理位置等來劃分不同類型的住宅; ? 地震研究 : 根據(jù)地質斷層的特點把已觀察到的地震中心分成不同的類; 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 42 什么是一個好的聚類方法 ?
點擊復制文檔內容
研究報告相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1