【導(dǎo)讀】的各種質(zhì)量問(wèn)題.例如,數(shù)據(jù)缺失、異常點(diǎn)的出現(xiàn)等,都會(huì)為數(shù)據(jù)的挖掘帶來(lái)困難.型,所使用的數(shù)據(jù)質(zhì)量是項(xiàng)目成功的關(guān)鍵.我們探討數(shù)據(jù)的準(zhǔn)備.格式上進(jìn)行一些選擇.件或文本文件,行記錄或觀察樣本,量.ASCII文件有兩種基本的長(zhǎng)度記錄格式,每個(gè)樣本都用幾個(gè)特征來(lái)描述,每個(gè)特征有不。數(shù)值型包括實(shí)型變量和整型變量。其值有順序關(guān)系和距離關(guān)系。分類型變量的兩個(gè)值可以相等或不等。原則上可以轉(zhuǎn)化成一個(gè)二進(jìn)制的數(shù)值型變量,這種數(shù)值型變量有N個(gè)值。黑色、藍(lán)色、綠色、褐色。示“F”或女性.中等、較好、很好.間隔數(shù)據(jù)是有相對(duì)重要性,沒(méi)有0點(diǎn)的數(shù)。值數(shù)據(jù).對(duì)它而言,加、減是有意義的操作.產(chǎn)品之間的差距.的數(shù)據(jù),適用于所有基本的算術(shù)運(yùn)算,銷售額、余款、差額等都是連續(xù)數(shù)據(jù).使用動(dòng)態(tài)數(shù)據(jù),則需要進(jìn)行特殊的考慮和預(yù)處理.這方面的內(nèi)容將在后面介紹.如何平滑數(shù)據(jù)去除噪聲的方法.處理還是很重要的.的這些數(shù)據(jù)被分配到一些“桶”或箱中.第五章中詳細(xì)討論.