freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘7章分類和預測1(編輯修改稿)

2024-10-06 09:03 本頁面
 

【文章內(nèi)容簡介】 生成的會可能會 Overfit ? 太多的分支 , 有些可能是對異常例外的反映 ? 在進行預測的時候準確率比較差 ? 兩種 ? 預修剪 : ? 難點:選擇一個域值比較困難 ? 后修建 : 先生成完整的樹,然后進行修剪 ? 使用另外一個的一個測試集來決定哪個樹最好 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 24 決定最終樹大小的方法 ? 使用部分數(shù)據(jù): ? 使用全部數(shù)據(jù): ? 使用一個統(tǒng)計測試 (., chisquare) 來估計保留或者修剪掉一個分支的影響 ? 使用最小描述長度 (MDL) 原則 : ? 當樹的 Coding最小的時候最佳。 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 25 對基本決策樹的提高 ? 加入對連續(xù)字段的支持 ? 采用 A=V的形式 ? 處理空值 ? 用最常見的值代替 ? 每個可能的值都給一個概率 ? 屬性構造 ? 在現(xiàn)有屬性上創(chuàng)建新的屬性 ,主要是針對一些稀疏屬性 ? 從而降低 fragmentation, repetition, and replication 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 26 在大型數(shù)據(jù)庫中進行分類 ? 分類 —在統(tǒng)計和機器學習中有廣泛的研究 ? 伸縮性 : 對幾百萬記錄和幾百個屬性進行訓練的時候,能夠達到一定的速度。 ? 在數(shù)據(jù)挖掘中為什么使用決策樹 ? ? 相對比較快的學習速度 (和其它學習方法比較來說 ) ? 能夠轉換成容易理解的分類規(guī)則 ? 能夠使用 SQL語句查詢數(shù)據(jù)庫 ? 分類的準確率也不差 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 27 Scalable Decision Tree Induction 數(shù)據(jù)挖掘中提出的方法 ? SLIQ (EDBT’96 — Mehta et al.) ? SPRINT (VLDB’96 — J. Shafer et al.) ? PUBLIC (VLDB’98 — Rastogi amp。 Shim) ? RainForest (VLDB’98 — Gehrke, Ramakrishnan amp。 Ganti) ? builds an AVClist (attribute, value, class label) 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 28 SLIQ算法介紹 ? 總攬: 預排序、廣度優(yōu)先、種類字段快速分割、 MDL修剪方法 ? 預排序: 減少對數(shù)值字段進行排序消耗的時間 ? 屬性列表( attribute list): ? 屬性值 ? 索引 ? 類列表( class list): ? 類標簽 ? 指向樹中的節(jié)點 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 29 Sliq分類算法 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 30 Sliq分類算法 ? 進行節(jié)點的分割: 廣度優(yōu)先 ? 對當前樹中所有葉子節(jié)點分割的計算都是在同一遍中完成的。 ? 引進的數(shù)據(jù)結構:類分布表 ? 數(shù)值字段:類標簽、頻率 ? 種類字段:屬性值、類標簽、頻率 ? 對數(shù)值字段進行分割計算: 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 31 Sliq分類算法 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 32 Sliq分類算法 ? 對種類字段進行分割: ? 通過對數(shù)據(jù)的掃描生成類分布表 ? 尋找分割集合 ? 如果不同字段的值少于預定值,進行完全搜索 ? 如果不同字段的值大于預定值,使用貪心算法 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 33 Sliq分類算法 ? 樹的修剪: 采用了 MDL策略 ? Cost(M,D)=cost(D|M)+cost(M) ? 整個算法包括兩個部分: ? 編碼方法 ? 不同子樹的比較方法 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 34 基于數(shù)據(jù)立方體的決策樹 ? Integration of generalization with decisiontree induction (Kamber et al’97). ? 在最低概念層上進行分類 ? 例如 , precise temperature, humidity, outlook, etc. ? 低的層次,分散的類別,過多的葉子節(jié)點 ? 模型解釋的問題 . ? 基于 Cube的多層分類 ? 在多個層次上進行相關性分析 . ? 在多個層次上進行 Information Gain的計算 . 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 35 結果顯示 (一 ) 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 36 結 果 顯 示 (二 ) 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 37 Any Question? 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 38 Chapter 8. 聚類分析 ? 什么是聚類分析 ? ? 聚類分析中的數(shù)據(jù)類型 ? 主要聚類分析方法分類 ? 劃分方法( Partitioning Methods) ? 分層方法 ? 基于密度的方法 ? 基于表格的方法 ? 基于模型( ModelBased) 的聚類方法 ? 異常分析 ? 總結 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 40 聚類的常規(guī)應用 ? 模式識別 ? 空間數(shù)據(jù)分析 ? 在 GIS中,通過聚類發(fā)現(xiàn)特征空間來建立主題索引; ? 在空間數(shù)據(jù)挖掘中,檢測并解釋空間中的簇; ? 圖象處理 ? 經(jīng)濟學 (尤其是市場研究方面 ) ? WWW ? 文檔分類 ? 分析 WEB日志數(shù)據(jù)來發(fā)現(xiàn)相似的訪問模式 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 41 應用聚類分析的例子 ? 市場銷售 :
點擊復制文檔內(nèi)容
研究報告相關推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1