freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)第6章數(shù)據(jù)預(yù)處理技術(shù)-文庫吧資料

2025-05-23 00:05本頁面
  

【正文】 數(shù)以百計(jì)的屬性,其中大部分屬性與挖掘任務(wù)不相關(guān)或冗余。每個較高層抽象將進(jìn)一步減少結(jié)果數(shù)據(jù)的規(guī)模。最高層抽象的立方體稱為頂點(diǎn)方體 (apex cuboid)?;痉襟w應(yīng)當(dāng)對應(yīng)于感興趣的個體實(shí)體。 數(shù)據(jù)立方體聚集的基礎(chǔ)是概念分層,用于處理數(shù)據(jù)立方體中的數(shù)據(jù)。例如收集的數(shù)據(jù)是某公司過去幾年間每個季度的銷售數(shù)據(jù),而感興趣的數(shù)據(jù)是年銷售數(shù)據(jù),可以通過對數(shù)據(jù)聚集匯總得到年總銷售額。每個單元存放一個聚集值,對應(yīng)于多維空間的一個數(shù)據(jù)點(diǎn),每個屬性可能存在概念分層,允許在多個抽象層進(jìn)行數(shù)據(jù)分析。 下面介紹幾種常見的數(shù)據(jù)歸約技術(shù)。 有些數(shù)據(jù)屬性對發(fā)現(xiàn)任務(wù)是沒有影響的,這些屬性的加入會大大影響挖掘效率,甚至還可能導(dǎo)致挖掘結(jié)果的偏差。 ( 5)屬性構(gòu)造 屬性構(gòu)造 (或特征構(gòu)造 ): 屬性構(gòu)造是由給定的屬性構(gòu)造和添加新的屬性,幫助提高準(zhǔn)確率和對高維數(shù)據(jù)結(jié)構(gòu)的理解。 規(guī)范化將原來的數(shù)據(jù)改變,特別是上面的后兩種方法。 A的最大絕對值為975。 ? 其中, j是使得 Max(|v’|)1的最小整數(shù)。小數(shù)點(diǎn)的移動位數(shù)依賴于 A的最大絕對值。 假定屬性平均家庭月總收入的均值和標(biāo)準(zhǔn)差分別為 9000元和 2400元,值 12600元使用 zscore規(guī)范化轉(zhuǎn)換為: ?? 900012600 ??3)小數(shù)定標(biāo)規(guī)范化。 ??其中,和 σA分別為屬性 A的均值和標(biāo)準(zhǔn)差。 2) zscore規(guī)范化 (零均值規(guī)范化 )。 最小 最大規(guī)范化對原始數(shù)據(jù)進(jìn)行線性變換,保持原始數(shù)據(jù)值之間的聯(lián)系。最小 最大規(guī)范化通過計(jì)算 AAAAAA mne wmne wMne wmMmvv _)__(39。 1)最小 最大規(guī)范化。 ( 4)規(guī)范化 規(guī)范化: 如果描述樣本或記錄的變量單位不統(tǒng)一,數(shù)值差別比較大,就需要把數(shù)據(jù)歸一化、指數(shù)化或標(biāo)準(zhǔn)化,把不同的屬性進(jìn)行比例縮放,使它們的值落在大致相同的范圍內(nèi),如 ~ ~ 。例如,分類的屬性,如街道,可以泛化為較高層的概念,如城市或國家。聚集產(chǎn)生較小的數(shù)據(jù)集,使得分析的數(shù)據(jù)更穩(wěn)定,但也應(yīng)注意可能會丟失有趣的細(xì)節(jié)。例如,可以聚集日銷售數(shù)據(jù),計(jì)算月和年銷售量。箱中的每一個值被最近的邊界替換。 2)按箱中值平滑:箱中的每一個值,按箱中的中值替換。在圖 ,學(xué)生的數(shù)學(xué)成績(已排序)被劃分存入到等深的深度為 3的箱中,然后采用下面的方法之一平滑。分箱是通過分析鄰近的值平滑存儲數(shù)據(jù)的值,可處理連續(xù)型和分類型變量,以得到更少的變量取值種類以便于分析。這種技術(shù)包括分箱、回歸和聚類等。 數(shù)據(jù)變換主要涉及如下方法:光滑、聚集 、數(shù)據(jù)泛化、規(guī)范化 。連續(xù)屬性離散化也是決策樹等分類分析常用的預(yù)處理。 數(shù)據(jù)變換把數(shù)據(jù)轉(zhuǎn)換成適應(yīng)于挖掘的形式。例如,重量屬性可能在一個系統(tǒng)中以公制單位存放,而在另一個系統(tǒng)中以英制單位存放。例如,對于現(xiàn)實(shí)世界的同一實(shí)體,來自不同數(shù)據(jù)源的屬性值可能不同。這意味每一個屬性都阻止另一個屬性的出現(xiàn)。如果結(jié)果值等于 0,則 a和 b是獨(dú)立的, 不存在相關(guān)。如果 rab大于 0,則 a和 b是正相關(guān)的,該值越大,相關(guān)性越強(qiáng) (即每個屬性蘊(yùn)涵另一個的可能性越大 )。給定兩個屬性,這種分析可以根據(jù)可用的數(shù)據(jù)度量(兩個屬性之間的相關(guān)系數(shù))估計(jì)一個屬性能在多大程度上蘊(yùn)涵另一個屬性。屬性或維命名的不一致也可能導(dǎo)致結(jié)果數(shù)據(jù)集中的冗余。 冗余是在數(shù)據(jù)集成時另一個需要考慮的重要問題。例如,判斷一個數(shù)據(jù)庫中的customer_id與另一個數(shù)據(jù)庫中的 cust_number是否是相同的屬性。 在數(shù)據(jù)集成時,首先需要考慮的是模式集成和對象匹配問題。 數(shù)據(jù)集成 數(shù)據(jù)集成主要是將多文件或多數(shù)據(jù)庫運(yùn)行環(huán)境中的異構(gòu)數(shù)據(jù)進(jìn)行合并處理,解決語義的模型性問題。 隨著我們對數(shù)據(jù)的了解增加,重要的是要不斷更新元數(shù)據(jù)以反映這種知識。但這些工具只支持有限的變換,因此,我們常??赡苓x擇為數(shù)據(jù)清理過程的這一步編寫定制的程序。 也就是說,一旦發(fā)現(xiàn)偏差,通常我們需要定義并使用 (一系列 )變換來糾正它們。但大部分錯誤需要數(shù)據(jù)變換。可以使用其他外部材料人工地加以更正某些數(shù)據(jù)不一致。而字段過載(field overloading)是另一類錯誤源??疾烀總€屬性的定義域和數(shù)據(jù)類型、每個屬性可接受的值、值的長度范圍;考察是否所有的值都落在期望的值域內(nèi)、屬性之間是否存在已知的依賴;把握數(shù)據(jù)趨勢和識別異常,比如遠(yuǎn)離給定屬性均值超過兩個標(biāo)準(zhǔn)差的值可能標(biāo)記為潛在的離群點(diǎn)。 發(fā)現(xiàn)噪聲、離群點(diǎn)和需要考察的不尋常的值時,可以使用已有的關(guān)于數(shù)據(jù)性質(zhì)的知識。通過人與計(jì)算機(jī)的結(jié)合,相比單純手動檢查整個數(shù)據(jù)庫可以提高效率。 ( 4)人工檢測。可以通過聚類檢測離群點(diǎn),將類似的值組織成群或“簇”。多元線性回歸是線性回歸的擴(kuò)展,其中涉及的屬性多于兩個,并且數(shù)據(jù)擬合到一個多維曲面。可以用一個函數(shù) (如回歸函數(shù) )擬合數(shù)據(jù)來光滑數(shù)據(jù)。箱也可以是等寬的,每個箱值的區(qū)間范闈是個常量。由于分箱方法考察近鄰的值,因此進(jìn)行局部光滑。分箱方法通過考察數(shù)據(jù)的“近鄰” (即周圍的值 )來光滑有序數(shù)據(jù)的值。給定一個數(shù)值屬性,如 price,我們怎樣才能“光滑”數(shù)據(jù),去掉噪聲 ?我們看看下面的數(shù)據(jù)光滑技術(shù)。在估計(jì)家庭月總收入的缺失值時,通過考慮其他屬性的值,有更大的機(jī)會保持家庭月總收入和其他屬性之間的聯(lián)系。 方法 3~ 6使數(shù)據(jù)偏置,填入的值可能不正確。例如,利用數(shù)據(jù)集中其他客戶顧客的屬性,可以構(gòu)造一棵決策樹來預(yù)測家庭月總收入的缺失值。 ( 6)使用最可能的值填充缺失值。 ( 5)用同類樣本的屬性均值填充缺失值。 ( 4)用屬性的均值填充缺失值。將缺失的屬性值用同一個常數(shù) (如“ Unknown”或 ∞)替換。此方法很費(fèi)時,特別是當(dāng)數(shù)據(jù)集很大、缺少很多值時,該方法可能不具有實(shí)際的可操作性。當(dāng)每個屬性缺少值的百分比變化很大時,它的性能特別差。當(dāng)缺少類標(biāo)號時通常這樣做 (假定挖掘任務(wù)涉及分類 )。填充丟失的值,可以用下面的方法。 數(shù)據(jù)清理 填充缺失值 很多的數(shù)據(jù)都有缺失值。 數(shù)據(jù)清洗可以分為有監(jiān)督和無監(jiān)督兩類。 ( 4)離散化技術(shù)減少給定連續(xù)屬性值的個數(shù)。 ( 3)對信息系統(tǒng)中與決策屬性沒有關(guān)聯(lián)或者關(guān)聯(lián)度不大的屬性進(jìn)行約簡。通常使用屬性子集選擇方法,包括逐步向前選擇法、逐步向后刪除法、判定樹歸納法等。 數(shù)據(jù)歸約技術(shù)及其主要
點(diǎn)擊復(fù)制文檔內(nèi)容
醫(yī)療健康相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1