freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

廈門大學(xué)數(shù)據(jù)挖掘數(shù)據(jù)準(zhǔn)備-資料下載頁(yè)

2025-08-11 20:49本頁(yè)面

【導(dǎo)讀】的各種質(zhì)量問(wèn)題.例如,數(shù)據(jù)缺失、異常點(diǎn)的出現(xiàn)等,都會(huì)為數(shù)據(jù)的挖掘帶來(lái)困難.型,所使用的數(shù)據(jù)質(zhì)量是項(xiàng)目成功的關(guān)鍵.我們探討數(shù)據(jù)的準(zhǔn)備.格式上進(jìn)行一些選擇.件或文本文件,行記錄或觀察樣本,量.ASCII文件有兩種基本的長(zhǎng)度記錄格式,每個(gè)樣本都用幾個(gè)特征來(lái)描述,每個(gè)特征有不。數(shù)值型包括實(shí)型變量和整型變量。其值有順序關(guān)系和距離關(guān)系。分類型變量的兩個(gè)值可以相等或不等。原則上可以轉(zhuǎn)化成一個(gè)二進(jìn)制的數(shù)值型變量,這種數(shù)值型變量有N個(gè)值。黑色、藍(lán)色、綠色、褐色。示“F”或女性.中等、較好、很好.間隔數(shù)據(jù)是有相對(duì)重要性,沒(méi)有0點(diǎn)的數(shù)。值數(shù)據(jù).對(duì)它而言,加、減是有意義的操作.產(chǎn)品之間的差距.的數(shù)據(jù),適用于所有基本的算術(shù)運(yùn)算,銷售額、余款、差額等都是連續(xù)數(shù)據(jù).使用動(dòng)態(tài)數(shù)據(jù),則需要進(jìn)行特殊的考慮和預(yù)處理.這方面的內(nèi)容將在后面介紹.如何平滑數(shù)據(jù)去除噪聲的方法.處理還是很重要的.的這些數(shù)據(jù)被分配到一些“桶”或箱中.第五章中詳細(xì)討論.

  

【正文】 對(duì)于一個(gè) 10000個(gè)點(diǎn)的 10維空間期望距離為 這里要注意 :到邊界的距離最大的點(diǎn)是在分布的中心處,所有維數(shù)最大距離的規(guī)范值是 dnndD /1)/1(21),( ?0 0 0 )1 0 0 0 0,2( ?D)10000,10( ?D2020/9/15 47 幾乎每一個(gè)點(diǎn)都是異常點(diǎn) 隨著空間維數(shù)的增大,預(yù)測(cè)點(diǎn)到分類點(diǎn)中心的距離也在增大。 注意: 在處理高維空間的有限樣本時(shí),“ 高維禍根 ” 會(huì)帶來(lái)嚴(yán)重的后果。 從 1和 2中可以看到 對(duì)高維度樣本進(jìn)行局部評(píng)估的難度 ; 3和 4說(shuō)明 對(duì)一個(gè)給定的點(diǎn)做預(yù)測(cè)響應(yīng)的困難。 . 2020/9/15 48 2020/9/15 49 2020/9/15 50 三、差值和比率 設(shè)數(shù)值型變量 的數(shù)值為 , 其差值轉(zhuǎn)換為 ;比率轉(zhuǎn)換為 。 X niXi ,.. .,2,1?ii XX ??1 ii XX /1?2020/9/15 51 應(yīng)該注意: 有時(shí)是對(duì)于樣本的不同屬性進(jìn)行轉(zhuǎn)換。例如:在很多的醫(yī)學(xué)數(shù)據(jù)集中,一個(gè)病人有兩個(gè)屬性特征,身高和體重,應(yīng)用表明用一個(gè)新的叫做身體素質(zhì)指標(biāo) —— 體重和身高加權(quán)比,來(lái)反映診斷結(jié)果會(huì)更好。 2020/9/15 52 設(shè)一個(gè)時(shí)間序列為: Xt t= 1,2,…,n 在應(yīng)用數(shù)據(jù)挖掘技術(shù)之前,必須對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理,總結(jié)它的特征,多數(shù)情況下,預(yù)測(cè) Xn+1Xn的差比預(yù)測(cè) Xn+1的絕對(duì)值作為輸出效果要好。同樣, Xn+1/Xn揭示了變化的百分比,有時(shí)用這個(gè)比值也能得到更好的預(yù)測(cè)效果 四、時(shí)間相關(guān)數(shù)據(jù) 2020/9/15 53 對(duì)數(shù)據(jù)集的特征進(jìn)行總結(jié)的一種方法是取平均,得出 “ 移動(dòng)平均數(shù) ” ( MA),計(jì)算公式為 其中 m為移動(dòng)次數(shù) ?????imijjXmmiMA11),(2020/9/15 54 對(duì)數(shù)據(jù)集的特征進(jìn)行總結(jié)的另一種方法是指數(shù)移動(dòng)平均( EMA),計(jì)算公式為: 其中 是介于 0到 1的值 )1,1()1(),( ??????? miE M ApXpmiE M A i)1,(iE M AX i ?p2020/9/15 55 這類數(shù)據(jù)中有一種非常重要的數(shù)據(jù)叫做 幸存數(shù)據(jù),它是關(guān)于一個(gè)特定時(shí)間發(fā)生需要多長(zhǎng)時(shí)間的數(shù)據(jù)。 例如:在很多醫(yī)學(xué)應(yīng)用中,特定時(shí)間是病人的死亡,所有我們分析病人的幸存時(shí)間;在工業(yè)應(yīng)用中,特定時(shí)間常常是機(jī)器中的一個(gè)部件出現(xiàn)事故。 幸存數(shù)據(jù)有兩個(gè)區(qū)別于其他數(shù)據(jù)挖掘數(shù)據(jù)的 重要特征: 第一個(gè)特征叫做審查。 在很多研究中,直到研究期末時(shí)間事件都沒(méi)有發(fā)生(審查觀測(cè)) 第二個(gè)特征是輸入值與時(shí)間有關(guān)。 2020/9/15 56 2020/9/15 57 2020/9/15 58 本 章 結(jié) 束
點(diǎn)擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1