freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

廈門大學(xué)數(shù)據(jù)挖掘數(shù)據(jù)準(zhǔn)備-免費閱讀

2025-09-20 20:49 上一頁面

下一頁面
  

【正文】 同樣, Xn+1/Xn揭示了變化的百分比,有時用這個比值也能得到更好的預(yù)測效果 四、時間相關(guān)數(shù)據(jù) 2020/9/15 53 對數(shù)據(jù)集的特征進(jìn)行總結(jié)的一種方法是取平均,得出 “ 移動平均數(shù) ” ( MA),計算公式為 其中 m為移動次數(shù) ?????imijjXmmiMA11),(2020/9/15 54 對數(shù)據(jù)集的特征進(jìn)行總結(jié)的另一種方法是指數(shù)移動平均( EMA),計算公式為: 其中 是介于 0到 1的值 )1,1()1(),( ??????? miE M ApXpmiE M A i)1,(iE M AX i ?p2020/9/15 55 這類數(shù)據(jù)中有一種非常重要的數(shù)據(jù)叫做 幸存數(shù)據(jù),它是關(guān)于一個特定時間發(fā)生需要多長時間的數(shù)據(jù)。幾乎每一個點都比其他樣本點更接近某一個邊界。 )m i n()m a x()m i n(iiiii XXXXX????2020/9/15 42 標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化 標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化的格式是 其中: 是均值; 是標(biāo)準(zhǔn)差 SXXX ii???X S2020/9/15 43 二、高維度問題 ? 大多數(shù)數(shù)據(jù)挖掘問題的出現(xiàn)是因為有大量的樣本具有不同類型的特征。 數(shù)據(jù)預(yù)處理 一、噪聲數(shù)據(jù)的處理 噪聲 (noise)是一個被測變量中的隨機誤差或偏差 .下面我們將要討論給定一個數(shù)值型屬性,要如何平滑數(shù)據(jù)去除噪聲的方法 . 一個數(shù)值型的特征 y可能包括許多不同的值,這些數(shù)據(jù)之間的小小差異也許并不重要,但是卻有可能影響到挖掘方法的性能甚至最終結(jié)果 .實際上我們也可以把這些數(shù)據(jù)之間的差異看成是同一數(shù)值的隨機變差,因此有時對這些數(shù)據(jù)進(jìn)行平整處理還是很重要的 . 2020/9/15 18 2020/9/15 19 有些情況下的平整算法比較復(fù)雜,這將在以后的章節(jié)詳細(xì)討論 .減少不同的數(shù)值數(shù)目意味著同時減少了數(shù)據(jù)空間的維度,這對數(shù)據(jù)挖掘的方法十分有利 .這樣的平整方法可用于將連續(xù)型特征分解成一系列離散二元 “ 真假 ” 值的特征 . 2020/9/15 20 2. Bin方法 . Bin方法也就是分箱方法,是通過利用相應(yīng)被平滑數(shù)據(jù)點的 “ 鄰居 ” (即周圍的值 ),對一組排序數(shù)據(jù)進(jìn)行平滑 .排序成的這些數(shù)據(jù)被分配到一些 “ 桶 ” 或箱中 .由于 Bin方法考察的是相鄰的值, 因此它進(jìn)行局部平滑 . 2020/9/15 21 下面給出了一些 Bin的方法技術(shù) 2020/9/15 22 2020/9/15 23 2020/9/15 24 . 通過聚類分析可以檢測到異常數(shù)據(jù),也就是孤立點 .聚類將相似或相鄰近的數(shù)據(jù)聚合到一起形成了各個聚類集合 .直觀地看,落在聚類集合之外的值就被認(rèn)為是孤立點 .孤立點之值作為噪聲處理,將其刪除,試用 “ 聚類 ”中心值代替 .有關(guān)聚類分析的思想和方法將在第五章中詳細(xì)討論 . 2020/9/15 25 .
點擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1