【導(dǎo)讀】為什么要進(jìn)行數(shù)據(jù)挖掘?現(xiàn)實(shí)世界的數(shù)據(jù)是臟的。.,Age=“42”Birthday=“03/07/1997”。為什么數(shù)據(jù)預(yù)處理重要?數(shù)據(jù)樣本是數(shù)據(jù)挖掘過程的基本組成部分。每個樣本都用幾個特征來描述,每個特征有不。數(shù)值型包括實(shí)型變量和整型變量。分類型變量的兩個值可以平等或不平等。原則上可以轉(zhuǎn)化成一個二進(jìn)制的數(shù)值型變量,這種數(shù)值型變量有兩個值:0或1;連續(xù)型變量也認(rèn)為是定量型或是量度型,是指在一定區(qū)間內(nèi)可以任意取值的變量。量,例如:星期、月和年中的日期。其次,也導(dǎo)致在均值和總量估計(jì)中對方差的低估。隨機(jī)填補(bǔ)法是采用某種概率抽樣的方式,從。補(bǔ)值的分布與真值分布更為接近。入選順序依次進(jìn)行。排序?qū)傩灾低耆嗤挠^察單位稱為匹配,缺失值。多例相匹配,可取第一例或隨機(jī)取其一。