【導(dǎo)讀】的各種質(zhì)量問題.例如,數(shù)據(jù)缺失、異常點的出現(xiàn)等,都會為數(shù)據(jù)的挖掘帶來困難.型,所使用的數(shù)據(jù)質(zhì)量是項目成功的關(guān)鍵.我們探討數(shù)據(jù)的準(zhǔn)備.格式上進(jìn)行一些選擇.件或文本文件,行記錄或觀察樣本,量.ASCII文件有兩種基本的長度記錄格式,每個樣本都用幾個特征來描述,每個特征有不。數(shù)值型包括實型變量和整型變量。其值有順序關(guān)系和距離關(guān)系。分類型變量的兩個值可以相等或不等。原則上可以轉(zhuǎn)化成一個二進(jìn)制的數(shù)值型變量,這種數(shù)值型變量有N個值。黑色、藍(lán)色、綠色、褐色。示“F”或女性.中等、較好、很好.間隔數(shù)據(jù)是有相對重要性,沒有0點的數(shù)。值數(shù)據(jù).對它而言,加、減是有意義的操作.產(chǎn)品之間的差距.的數(shù)據(jù),適用于所有基本的算術(shù)運算,銷售額、余款、差額等都是連續(xù)數(shù)據(jù).使用動態(tài)數(shù)據(jù),則需要進(jìn)行特殊的考慮和預(yù)處理.這方面的內(nèi)容將在后面介紹.如何平滑數(shù)據(jù)去除噪聲的方法.處理還是很重要的.的這些數(shù)據(jù)被分配到一些“桶”或箱中.第五章中詳細(xì)討論.