freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

廈門大學(xué)數(shù)據(jù)挖掘數(shù)據(jù)準(zhǔn)備-資料下載頁

2025-08-11 20:49本頁面

【導(dǎo)讀】的各種質(zhì)量問題.例如,數(shù)據(jù)缺失、異常點的出現(xiàn)等,都會為數(shù)據(jù)的挖掘帶來困難.型,所使用的數(shù)據(jù)質(zhì)量是項目成功的關(guān)鍵.我們探討數(shù)據(jù)的準(zhǔn)備.格式上進(jìn)行一些選擇.件或文本文件,行記錄或觀察樣本,量.ASCII文件有兩種基本的長度記錄格式,每個樣本都用幾個特征來描述,每個特征有不。數(shù)值型包括實型變量和整型變量。其值有順序關(guān)系和距離關(guān)系。分類型變量的兩個值可以相等或不等。原則上可以轉(zhuǎn)化成一個二進(jìn)制的數(shù)值型變量,這種數(shù)值型變量有N個值。黑色、藍(lán)色、綠色、褐色。示“F”或女性.中等、較好、很好.間隔數(shù)據(jù)是有相對重要性,沒有0點的數(shù)。值數(shù)據(jù).對它而言,加、減是有意義的操作.產(chǎn)品之間的差距.的數(shù)據(jù),適用于所有基本的算術(shù)運算,銷售額、余款、差額等都是連續(xù)數(shù)據(jù).使用動態(tài)數(shù)據(jù),則需要進(jìn)行特殊的考慮和預(yù)處理.這方面的內(nèi)容將在后面介紹.如何平滑數(shù)據(jù)去除噪聲的方法.處理還是很重要的.的這些數(shù)據(jù)被分配到一些“桶”或箱中.第五章中詳細(xì)討論.

  

【正文】 對于一個 10000個點的 10維空間期望距離為 這里要注意 :到邊界的距離最大的點是在分布的中心處,所有維數(shù)最大距離的規(guī)范值是 dnndD /1)/1(21),( ?0 0 0 )1 0 0 0 0,2( ?D)10000,10( ?D2020/9/15 47 幾乎每一個點都是異常點 隨著空間維數(shù)的增大,預(yù)測點到分類點中心的距離也在增大。 注意: 在處理高維空間的有限樣本時,“ 高維禍根 ” 會帶來嚴(yán)重的后果。 從 1和 2中可以看到 對高維度樣本進(jìn)行局部評估的難度 ; 3和 4說明 對一個給定的點做預(yù)測響應(yīng)的困難。 . 2020/9/15 48 2020/9/15 49 2020/9/15 50 三、差值和比率 設(shè)數(shù)值型變量 的數(shù)值為 , 其差值轉(zhuǎn)換為 ;比率轉(zhuǎn)換為 。 X niXi ,.. .,2,1?ii XX ??1 ii XX /1?2020/9/15 51 應(yīng)該注意: 有時是對于樣本的不同屬性進(jìn)行轉(zhuǎn)換。例如:在很多的醫(yī)學(xué)數(shù)據(jù)集中,一個病人有兩個屬性特征,身高和體重,應(yīng)用表明用一個新的叫做身體素質(zhì)指標(biāo) —— 體重和身高加權(quán)比,來反映診斷結(jié)果會更好。 2020/9/15 52 設(shè)一個時間序列為: Xt t= 1,2,…,n 在應(yīng)用數(shù)據(jù)挖掘技術(shù)之前,必須對原始數(shù)據(jù)進(jìn)行預(yù)處理,總結(jié)它的特征,多數(shù)情況下,預(yù)測 Xn+1Xn的差比預(yù)測 Xn+1的絕對值作為輸出效果要好。同樣, Xn+1/Xn揭示了變化的百分比,有時用這個比值也能得到更好的預(yù)測效果 四、時間相關(guān)數(shù)據(jù) 2020/9/15 53 對數(shù)據(jù)集的特征進(jìn)行總結(jié)的一種方法是取平均,得出 “ 移動平均數(shù) ” ( MA),計算公式為 其中 m為移動次數(shù) ?????imijjXmmiMA11),(2020/9/15 54 對數(shù)據(jù)集的特征進(jìn)行總結(jié)的另一種方法是指數(shù)移動平均( EMA),計算公式為: 其中 是介于 0到 1的值 )1,1()1(),( ??????? miE M ApXpmiE M A i)1,(iE M AX i ?p2020/9/15 55 這類數(shù)據(jù)中有一種非常重要的數(shù)據(jù)叫做 幸存數(shù)據(jù),它是關(guān)于一個特定時間發(fā)生需要多長時間的數(shù)據(jù)。 例如:在很多醫(yī)學(xué)應(yīng)用中,特定時間是病人的死亡,所有我們分析病人的幸存時間;在工業(yè)應(yīng)用中,特定時間常常是機器中的一個部件出現(xiàn)事故。 幸存數(shù)據(jù)有兩個區(qū)別于其他數(shù)據(jù)挖掘數(shù)據(jù)的 重要特征: 第一個特征叫做審查。 在很多研究中,直到研究期末時間事件都沒有發(fā)生(審查觀測) 第二個特征是輸入值與時間有關(guān)。 2020/9/15 56 2020/9/15 57 2020/9/15 58 本 章 結(jié) 束
點擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1