freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

第3章-數(shù)據(jù)預(yù)處理-在線瀏覽

2024-09-26 00:43本頁(yè)面
  

【正文】 數(shù)據(jù)中的所有矛盾乊處 , 如字段的 ? 同名異義; ? 異名同義; ? 單位丌統(tǒng)一; ? 字長(zhǎng)丌一致等。 28 數(shù)據(jù)存在的問題 數(shù)據(jù)集成 – 整合丌同數(shù)據(jù)源中的元數(shù)據(jù); – 進(jìn)行實(shí)體識(shí)別:匹配來自丌同數(shù)據(jù)源的現(xiàn)實(shí)世界的實(shí)體; ? 如:如何確信一個(gè)數(shù)據(jù)庫(kù)中的 brand_name和另一個(gè)數(shù)據(jù)庫(kù)中的 product_name是同一實(shí)體。 集成的過程中涉及的實(shí)體識(shí)別: 29 數(shù)據(jù)存在的問題 數(shù)據(jù)集成 – 同一屬性值丌同的數(shù)據(jù)庫(kù)中會(huì)有丌同的字段名; – 一個(gè)屬性可以由另外一個(gè)表導(dǎo)出,如:一個(gè)顧客數(shù)據(jù)表中的平均月收入屬性,可以根據(jù)月收入屬性計(jì)算出來。 表 體重不血壓表 1 2 3 4 5 6 7 8 9 10 11 12 體重 68 48 56 60 83 56 62 59 77 58 75 64 血壓 95 98 87 96 110 155 135 128 113 168 120 115 ????,?? = ??????? ??????? ????=1?????????? = ? 表 體重 和 血壓的均值和標(biāo)準(zhǔn)差值 均值 標(biāo)準(zhǔn)差 體重 血壓 33 數(shù)據(jù)存在的問題 數(shù)據(jù)集成 – 數(shù)值屬性:采用相關(guān)系數(shù)和協(xié)斱差進(jìn)行相關(guān)性分析 ?????? ??,?? = ?? ?? ??? ?? ??? = (???? ??? )(???? ??? ) ????=1?? 2. 協(xié)斱差: 34 數(shù)據(jù)存在的問題 數(shù)據(jù)集成 – 協(xié)斱差 實(shí)例 例:使用表 ,求血壓是否會(huì)隨著體重一起變化。 計(jì)算期望值 68 48 56 60 83 56 62 +59 77 58 75 64( ) = =63 .8312EX ? ? ? ? ? ? ? ? ? ?9 5 9 8 8 7 9 6 1 1 0 1 5 5 1 3 5 1 2 8 1 1 3 1 6 8 1 2 0 1 1 5( ) = = 1 1 8 . 3 312EY ? ? ? ? ? ? ? ? ? ? ?,( , ) = 0 . 1 1 2 1 0 . 1 4 2 4 . 7 4 = 2 8 . 1 0X Y X YC o v X Y r ??? ? ? ? ? ?35 數(shù)據(jù)存在的問題 數(shù)據(jù)集成 – 標(biāo)稱屬性:使用卡斱檢驗(yàn)進(jìn)行相關(guān)性分析 ??2 = (?????? ???????)2??????????=1????=1 ?????? = ??????????(?? = ????)??????????(?? = ????)?? 卡斱檢驗(yàn): 36 數(shù)據(jù)存在的問題 數(shù)據(jù)集成 – 標(biāo)稱屬性:使用卡斱檢驗(yàn)進(jìn)行相關(guān)性分析 X Y x1 x2 … xi … xn sum y1 O11 O12 … O1i … O1n O1. y2 O21 O22 … O2i … O2n O2. … … … … … … … … yj Oj1 Oj2 … Oji … Ojn Oj. … … … … … … … … yr Or1 Or2 … Ori … Orn Or. sum … … m 表 列聯(lián)表 37 數(shù)據(jù)存在的問題 數(shù)據(jù)集成 – 標(biāo)稱屬性:使用卡斱檢驗(yàn)進(jìn)行相關(guān)性分析 獨(dú)立性檢驗(yàn)的步驟如下: ( 1)統(tǒng)計(jì)假設(shè): H0:屬性 X和屬性 Y乊間是獨(dú)立的 ( H1:屬性 X和屬性 Y乊間 是相關(guān)的) ( 2)期望頻數(shù) 的計(jì)算,計(jì)算公式如式所 示。分析某一年齡段男性患某種疾病不從事工農(nóng)業(yè)是否有影響。 患病情況 從業(yè)情況 患病 不患病 合計(jì) 工業(yè) 386() 895() 1281 農(nóng)業(yè) 65() 322() 387 合計(jì) 451 1217 1668 表 四斱格 列聯(lián)表(期望頻數(shù)) 42 數(shù)據(jù)存在的問題 數(shù)據(jù)集成 – 卡斱檢驗(yàn)實(shí)例:二分類情況 ( 3)自由度的確定: df=( 21) *( 21) =1 ( 4)卡斱統(tǒng)計(jì)量的計(jì)算 患病情況 從業(yè)情況 患病 不患病 合計(jì) 工業(yè) 386() 895() 1281 農(nóng)業(yè) 65() 322() 387 合計(jì) 451 1217 1668 表 四斱格 列聯(lián)表(期望頻數(shù)) ??2 = (386?) +(895?) +(65?) +(322?) = 43 數(shù)據(jù)存在的問題 數(shù)據(jù)集成 – 卡斱檢驗(yàn)實(shí)例:二分類情況 ( 5)統(tǒng)計(jì)判斷 顯著水平 α 自由度 1 2 3 表 卡斱檢驗(yàn)臨界值表(部分) ,因此拒絕假設(shè) H0,說明某一年齡段男性患某種疾病與從事工種是相關(guān)的 44 數(shù)據(jù)存在的問題 數(shù)據(jù)集成 – 卡斱檢驗(yàn)實(shí)例:二分類情況 兩個(gè)獨(dú)立樣本比較可以分以下 3種情況: 的期望頻數(shù) ??????≥5并且總 樣本量 m≥40,用 Pearson卡方進(jìn)行檢驗(yàn)。 ??2 = (|?????? ???????|?)2??????????=1????=1 ??????< 1或 m< 40,則用精確概率檢驗(yàn)。 ? 歸約得到的數(shù)據(jù)比原數(shù)據(jù)小得多,但可以產(chǎn)生相同或幾乎相同的分析結(jié)果。 ? 屬性 子集選擇:檢測(cè)幵刪除丌相關(guān)、弱相關(guān)或冗余的屬性。 49 數(shù)據(jù)存在的問題 數(shù)據(jù) 歸 約 ? 數(shù)量 歸約: ? 通過直斱圖、聚類和數(shù)據(jù)立斱體聚集等非參數(shù)斱法,使用替代的、較小的數(shù)據(jù)表示形式替換原 數(shù)據(jù)。 ? 數(shù)據(jù)立斱體是一類多維矩陣,可以使用戶從多個(gè)角度探索和分析數(shù)據(jù)集,它的數(shù)據(jù)是已經(jīng)處理過的,幵且聚合成了立斱形式。 使用 等寬直斱圖 表示數(shù)據(jù), 如 圖所 示。 051015207999 99119 119139 139159 159179等寬直方圖 圖 32 等寬直方圖 51 數(shù)據(jù)存在的問題 數(shù)據(jù) 歸 約 ? 數(shù)量歸約 聚類: ? 將原數(shù)據(jù)集劃分成多個(gè)群或聚類。 ? 相似 :通常用空間距離度量。
點(diǎn)擊復(fù)制文檔內(nèi)容
職業(yè)教育相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1