freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)預(yù)處理ppt課件-wenkub

2023-05-14 02:09:48 本頁面
 

【正文】 么要預(yù)處理數(shù)據(jù) ? 描述性數(shù)據(jù)匯總 ? 數(shù)據(jù)清理 ? 數(shù)據(jù)集成和變換 ? 數(shù)據(jù)歸約 ? 數(shù)據(jù)離散化和概念分層產(chǎn)生 2 3 數(shù)據(jù)預(yù)處理的原因 ? 正確性( Correctness) ? 一致性( Consistency) ? 完整性( Completeness) ? 可靠性( Reliability) 數(shù)據(jù)質(zhì)量的含義 現(xiàn)實(shí)世界的數(shù)據(jù) ? 不完整的 ? 缺少屬性值或某些感興趣的屬性,或僅包含聚集數(shù)據(jù)。 ? 高質(zhì)量的決策必然依賴于高質(zhì)量的數(shù)據(jù),因此數(shù)據(jù)預(yù)處理是知識發(fā)現(xiàn)過程的重要步驟。 ? 動機(jī):更好的理解數(shù)據(jù)。 ? mean()、中列數(shù) ? 整體度量 ? 必須對整個數(shù)據(jù)集計(jì)算的度量。近似值計(jì)算如下: ? 設(shè) N個數(shù)值排序,若 N為奇數(shù),中位數(shù)是有序集的中間值;若 N為偶數(shù),中位數(shù)是中間兩個值的平均值。 ? 數(shù)據(jù)清理的任務(wù): ? 填充缺失的值,光滑噪聲并識別離群點(diǎn),糾正數(shù)據(jù)中的不一致。 ? 聚類: 將類似的值聚集為簇。 ?劃分:等頻、等寬 ?光滑:用箱均值、用箱中位數(shù)、用箱邊界(去替換箱中的每個數(shù)據(jù)) 噪聲數(shù)據(jù) 分箱法光滑數(shù)據(jù) ? Sorted data for price (in dollars): 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34 * Partition into equalfrequency (equidepth) bins: Bin 1: 4, 8, 9, 15 Bin 2: 21, 21, 24, 25 Bin 3: 26, 28, 29, 34 * Smoothing by bin means: Bin 1: 9, 9, 9, 9 Bin 2: 23, 23, 23, 23 Bin 3: 29, 29, 29, 29 * Smoothing by bin boundaries: Bin 1: 4, 4, 4, 15 Bin 2: 21, 21, 25, 25 Bin 3: 26, 26, 26, 34 ?回歸: 用一個函數(shù)(回歸函數(shù))擬合數(shù)據(jù)來光滑數(shù)據(jù)。 ? 源數(shù)據(jù)可能包括多個數(shù)據(jù)庫,數(shù)據(jù)立方體或一般文件。 ? 聚集 Aggregation : 對數(shù)據(jù)進(jìn)行匯總或聚集。 ? 屬性構(gòu)造(特征構(gòu)造): 由給定的屬性構(gòu)造新的屬性并添加到屬性集中,以幫助挖掘過程。 規(guī)范化 … ? 2) zscore規(guī)范化(零均值規(guī)范化):屬性 A的值基于 A的平均值和標(biāo)準(zhǔn)差規(guī)范化。 ? 對歸約后的數(shù)據(jù)集挖掘?qū)⒏行?,并產(chǎn)生相同(或幾乎相同)的結(jié)果。 屬性子集選擇 ? 通過刪除
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1