freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘概念與技術(shù)chapter2-數(shù)據(jù)預(yù)處理-展示頁

2024-10-28 19:44本頁面
  

【正文】 ‖ ? 例 , 重復(fù)記錄間的差異 3 數(shù)據(jù)為什么臟 ? ? 不完全數(shù)據(jù)源于 ? 數(shù)據(jù)收集時(shí)未包含 ? 數(shù)據(jù)收集和數(shù)據(jù)分析時(shí)的不同考慮 . ? 人 /硬件 /軟件問題 ? 噪音數(shù)據(jù)源于 ? 收集 ? 錄入 ? 變換 ? 不一致數(shù)據(jù)源于 ? 不同的數(shù)據(jù)源 ? 違反函數(shù)依賴 4 為什么數(shù)據(jù)預(yù)處理是重要的 ? ? 沒有高質(zhì)量的數(shù)據(jù) , 就沒有高質(zhì)量的數(shù)據(jù)挖掘結(jié)果 ! ? 高質(zhì)量的決策必然依賴高質(zhì)量的數(shù)據(jù) ?例如 , 重復(fù)或遺漏的數(shù)據(jù)可能導(dǎo)致不正確或誤導(dǎo)的統(tǒng)計(jì) . ? 數(shù)據(jù)倉庫需要高質(zhì)量數(shù)據(jù)的一致集成 5 數(shù)據(jù)質(zhì)量:一個(gè)多維視角 ? 一種廣泛接受的多角度 : ? 正確性 (Accuracy) ? 完全性 (Completeness) ? 一致性 (Consistency) ? 合時(shí) (Timeliness): timely update? ? 可信性 (Believability) ? 可解釋性 (Interpretability) ? 可存取性 (Accessibility) 6 數(shù)據(jù)預(yù)處理的主要任務(wù) ? 數(shù)據(jù)清理 ? 填充缺失值 , 識(shí)別 /去除離群點(diǎn) , 光滑噪音 , 并糾正數(shù)據(jù)中的不一致 ? 數(shù)據(jù)集成 ? 多個(gè)數(shù)據(jù)庫 , 數(shù)據(jù)立方體 , 或文件的集成 ? 數(shù)據(jù)變換 ? 規(guī)范化和聚集 ? 數(shù)據(jù)歸約 ? 得到數(shù)據(jù)的歸約表示 , 它小得多 , 但產(chǎn)生相同或類似的分析結(jié)果:維度規(guī)約、數(shù)值規(guī)約、數(shù)據(jù)壓縮 ? 數(shù)據(jù)離散化和概念分層 7 數(shù)據(jù)預(yù)處理的形式 8 第 2章 : 數(shù)據(jù)預(yù)處理 ? 為什么預(yù)處理數(shù)據(jù) ? ? 數(shù)據(jù)清理 ? 數(shù)據(jù)集成 ? 數(shù)據(jù)歸約 ? 離散化和概念分層產(chǎn)生 ? 小結(jié) 9 數(shù)據(jù)清理 Data Cleaning ? 現(xiàn)實(shí)世界 de數(shù)據(jù)是臟:很多潛在的不正確的數(shù)據(jù),比如,儀器故障,人為或計(jì)算機(jī)錯(cuò)誤,許多傳輸錯(cuò)誤 ? inplete:缺少屬性值 , 缺少某些有趣的屬性 , 或僅包含聚集數(shù)據(jù) ? ., 職業(yè) =― ‖ (missing data) ? noisy:包含錯(cuò)誤或孤立點(diǎn) ? ., Salary=―?10‖ (an error) ? inconsistent:編碼或名字存在差異 , ., ? Age=―42‖, Birthday=―03/07/2021‖ ? 以前的等級(jí) ―1, 2, 3‖, 現(xiàn)在等級(jí) ―A, B, C‖ ? 重復(fù)記錄間的差異 ? 有意的 (.,變相丟失的數(shù)據(jù) ) ? Jan. 1 as everyone’s birthday? 10 如何處理缺失數(shù)據(jù) ? ? 忽略元組 : 缺少類別標(biāo)簽時(shí)常用 (假定涉及分類 —不是很有效,當(dāng)每個(gè)屬性的缺失百分比變化大時(shí) ? 手工填寫缺失數(shù)據(jù) : 乏味 +費(fèi)時(shí) +不可行 ? ? 自動(dòng)填充 ? 一個(gè)全局常量 : ., ―unknown‖, a new class?! ? 使用屬性均值 ? 與目標(biāo)元組同一類的所有樣本的屬性均值 : 更巧妙 ? 最可能的值 : 基于推理的方法,如 貝葉斯公式或決策樹 11 噪音數(shù)據(jù) Noisy Data ? Noise: 被測(cè)量的變量的隨機(jī)誤差或方差 ? 不正確的屬性值可能由于 ? 錯(cuò)誤的數(shù)據(jù)收集工具 ? 數(shù)據(jù)錄入問題 data entry problems ? 數(shù)據(jù)傳輸問題 data transmission problems ? 技術(shù)限制 technology limitation ? 不一致的命名慣例 inconsistency in naming convention ? 其他需要數(shù)據(jù)清理的問題 ? 重復(fù)記錄 duplicate records ? 數(shù)據(jù)不完整 inplete data ? 不一致的數(shù)據(jù) inconsistent data 12 如何處理噪音數(shù)據(jù) ? ? 分箱 Binning method: ? 排序數(shù)據(jù),分布到等頻 /等寬的箱 /桶中 ? 箱均值光滑、箱中位數(shù)光滑、箱邊界光滑 , etc. ? 聚類 Clustering ? 檢測(cè)和去除 離群點(diǎn) /孤立點(diǎn) outliers ? 計(jì)算機(jī)和人工檢查相結(jié)合 ? 人工檢查可疑值 (., deal with possible outliers) ? 回歸 Regression ? 回歸函數(shù)擬合數(shù)據(jù) 13 分箱:簡(jiǎn)單的離散化方法 ? 等寬度 Equalwidth (distance) 剖分 : ? 分成大小相等的 n個(gè)區(qū)間 : 均勻網(wǎng)格 uniform grid ? 若 A和 B是 屬性的最低和最高取值 , 區(qū)間寬度為 : W = (B –A)/N. ? 孤立點(diǎn)可能占據(jù)重要影響 may dominate presentation ? 傾斜的數(shù)據(jù)處理不好 . ? 等頻剖分 (frequency) /等深 equidepth : ? 分成 n個(gè)區(qū)間 , 每一個(gè)含近似相同數(shù)目的樣本 ? Good data scaling ? 類別屬性可能會(huì)非常棘手 . 14 Binning Methods for Data Smoothing * Sorted data for price (in dollars): 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34 * Partition into (equidepth) bins: Bin 1: 4, 8, 9, 15 Bin 2: 21, 21, 24, 25 Bin 3: 26, 28, 29, 34 * Smoothing by bin means: Bin 1: 9, 9, 9, 9 Bin 2: 23, 23, 23, 23 Bin 3: 29, 29, 29, 29 * Smoothing by bin boundaries: Bin 1: 4, 4, 4, 15 Bin 2: 21, 21, 25, 25 Bin 3: 26, 26, 26, 34 15 聚類分析 16 Regression x y y = x + 1 X1 Y1 Y1’ 17 數(shù)據(jù)清理作為一個(gè)過程 ? 數(shù)據(jù)偏差檢測(cè) Data discrepancy detection ? 使用元數(shù)據(jù) (數(shù)據(jù)性質(zhì)的知識(shí) )(.,領(lǐng)域 , 長(zhǎng)度范圍 ,從屬 , 分布 ) ? 檢查字段過載 field overloading ? 檢查唯一性規(guī)則 , 連續(xù)性規(guī)則 ,空值規(guī)則 ? 使用商業(yè)工具 ? 數(shù)據(jù)清洗 Data scrubbing: 使用簡(jiǎn)單的領(lǐng)域知識(shí) (., 郵編 , 拼寫檢查 ) 檢查并糾正錯(cuò)誤 ? 數(shù)據(jù)審計(jì) Data auditing: 通過分析數(shù)據(jù)發(fā)現(xiàn)規(guī)則和聯(lián)系發(fā)現(xiàn)違規(guī)者 (孤立點(diǎn) ) ? 數(shù)據(jù)遷移和集成 ? 數(shù)據(jù)遷移工具 Data migration tools:允許指定轉(zhuǎn)換 ? 提取 /變換 /裝入工具 ETL (Extraction/Transformation/Loading) tools: 允許用戶通過圖形用戶界面指定變換 ? 整合兩個(gè)過程 ? 兩個(gè)過程迭代和交互執(zhí)行 (., Potter’s Wheels) 18 第 2章 : 數(shù)據(jù)預(yù)處理 ? 為什么預(yù)處理數(shù)據(jù) ? ? 數(shù)據(jù)清理
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1