freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘7章分類和預(yù)測1-免費(fèi)閱讀

2025-10-01 09:03 上一頁面

下一頁面
  

【正文】 p mpjid ??),(2020年 10月 5日星期一 Data Mining: Concepts and Techniques 56 序數(shù)型變量 ? 一個序數(shù)型變量可以是離散的也可以是連續(xù)的 ? 離散的序數(shù)型變量類似于標(biāo)稱變量,除了它的 M個狀態(tài)是以有意義的序列排序的,比如職稱 ? 連續(xù)的序數(shù)型變量類似于區(qū)間標(biāo)度變量,但是它沒有單位,值的相對順序是必要的,而其實際大小并不重要。 Ganti) ? builds an AVClist (attribute, value, class label) 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 28 SLIQ算法介紹 ? 總攬: 預(yù)排序、廣度優(yōu)先、種類字段快速分割、 MDL修剪方法 ? 預(yù)排序: 減少對數(shù)值字段進(jìn)行排序消耗的時間 ? 屬性列表( attribute list): ? 屬性值 ? 索引 ? 類列表( class list): ? 類標(biāo)簽 ? 指向樹中的節(jié)點(diǎn) 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 29 Sliq分類算法 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 30 Sliq分類算法 ? 進(jìn)行節(jié)點(diǎn)的分割: 廣度優(yōu)先 ? 對當(dāng)前樹中所有葉子節(jié)點(diǎn)分割的計算都是在同一遍中完成的。 ? 相關(guān)性分析 (屬性選擇 ) ? 去掉不相關(guān)或者冗余的屬性 ? 數(shù)據(jù)轉(zhuǎn)換 ? 泛化或者對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 10 關(guān)于分類和預(yù)測的問題 (2): 評估分類方法 ? 預(yù)測準(zhǔn)確率 ? 速度 ? 創(chuàng)建速度 ? 使用速度 ? 強(qiáng)壯性 ? 處理噪音和丟失值 ? 伸縮性 ? 對磁盤駐留數(shù)據(jù)的處理能力 ? 可解釋性 : ? 對模型的可理解程度。使用該模型對新的數(shù)據(jù)進(jìn)行分類 Prediction: ? 對連續(xù)性字段進(jìn)行建模和預(yù)測。 ? 無監(jiān)督學(xué)習(xí) (聚集 ) ? 訓(xùn)練集是沒有類標(biāo)簽的。 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 25 對基本決策樹的提高 ? 加入對連續(xù)字段的支持 ? 采用 A=V的形式 ? 處理空值 ? 用最常見的值代替 ? 每個可能的值都給一個概率 ? 屬性構(gòu)造 ? 在現(xiàn)有屬性上創(chuàng)建新的屬性 ,主要是針對一些稀疏屬性 ? 從而降低 fragmentation, repetition, and replication 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 26 在大型數(shù)據(jù)庫中進(jìn)行分類 ? 分類 —在統(tǒng)計和機(jī)器學(xué)習(xí)中有廣泛的研究 ? 伸縮性 : 對幾百萬記錄和幾百個屬性進(jìn)行訓(xùn)練的時候,能夠達(dá)到一定的速度。 根據(jù)慣例,將比較重要通常也是出現(xiàn)概率比較小的狀態(tài)編碼為 1,將另一中狀態(tài)編碼為 0。 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 59 混合類型的變量 ? 一個數(shù)據(jù)庫可能包含了所有這 6中類型的變量 用以下公式計算對象 i, j之間的相異度 . 其中, p為對象中的變量個數(shù) 如果 xif或 xjf 缺失(即對象 i或?qū)ο?j沒有變量 f的值),或者 xif = xjf =0, 且變量 f是不對稱的二元變量,則指示項 δij(f)=0; 否則δij(f)=1 )(1)()(1),(fijpffijfijpf djid???????2020年 10月 5日星期一 Data Mining: Concepts and Techniques 60 混合類型的變量 ? f 是二元變量或標(biāo)稱變量 : if xif = xjf dij(f) = 0, else dij(f) = 1 ? f 是區(qū)間標(biāo)度變量 : dij(f) = | xifxjf |/maxhxhfminhxhf 其中 h遍取變量 f的所有非空缺對象 ? f 是序數(shù)型或比例標(biāo)度型 ? 計算秩 rif ? 計算 zif并將其作為區(qū)間標(biāo)度變量值對待 11???fifMrz if2020年 10月 5日星期一 Data Mining: Concepts and Techniques 61 Chapter 8. Cluster Analysis ? 什么是聚類分析 ? ? 聚類分析中的數(shù)據(jù)類型 ? 主要聚類分析方法分類 ? 劃分方法( Partitioning Methods) ? 分層方法 ? 基于密度的方法 ? 基于表格的方法 ? 基于模型( ModelBased) 的聚類方法 ? 異常分析 ? 總結(jié) 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 62 Major Clustering Approaches ? Partitioning algorithms: Construct various partitions and then evaluate them by some criterion ? Hierarchy algorithms: Create a hierarchical deposition of the set of data (or objects) using some criterion ? Densitybased: based on connectivity and density functions ? Gridbased: based on a multiplelevel granularity structure ? Modelbased: A model is hypothesized for each of the clusters and the idea is to find the best fit of that model to each other 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 63 Thank you !!! 。 當(dāng) q = 1時 , d 稱為 曼哈坦距離 ( Manhattan distance) q qppqq jxixjxixjxixjid )||. . .|||(|),( 2211 ???????||.. .||||),( 2211 pp jxixjxixjxixjid ???????2020年 10月 5日星期一 Data Mining: Concepts and Techniques 50 Similarity and Dissimilarity
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1