freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)第6章數(shù)據(jù)預(yù)處理技術(shù)(存儲版)

2025-06-24 00:05上一頁面

下一頁面
  

【正文】 行數(shù)據(jù)分析。最高層抽象的立方體稱為頂點(diǎn)方體 (apex cuboid)。 ( 2)逐步向后刪除。在每個節(jié)點(diǎn),算法選擇“最好”的屬性,將數(shù)據(jù)劃分成類。 1. 小波變換 小波變換可以用于多維數(shù)據(jù),如數(shù)據(jù)立方體。原數(shù)據(jù)可以投影到該較小的集合中。 ( 3)對主成分按“重要性”或強(qiáng)度降序排列。與小波變換相比, PCA能夠更好地處理稀疏數(shù)據(jù),而小波變換更適合高維數(shù)據(jù)。系數(shù)可以用最小二乘方法求解,它最小化分離數(shù)據(jù)的實際直線與直線估計之間的誤差。 ( 2)等頻 (或等深 )。對于近似稀疏和稠密數(shù)據(jù)、高傾斜和均勻的數(shù)據(jù),直方圖是高度有效的。質(zhì)心距離是簇質(zhì)量的另一種度量,定義為由簇質(zhì)心 (表示“平均對象”,或簇空間中的平均點(diǎn) )到每個簇對象的平均距離。特別是當(dāng)數(shù)據(jù)傾斜時,這可以幫助確保樣本的代表性。對于歸約數(shù)據(jù)集的逐步求精,只需要簡單地增加樣本大小即可。 這有助于通常需要的多種挖掘任務(wù)的數(shù)據(jù)挖掘結(jié)果的一致表示。分箱并不使用類信息,因此是一種非監(jiān)督的離散化技術(shù)。 ( 3)基于熵的離散化 熵 (entropy)是最常用的離散化度量之一。因此,如果兩個鄰近的區(qū)間具有非常類似的類分布,則這兩個區(qū)間可以合并。遵循自頂向下的劃分策略或自底向上的合并策略,聚類可以用來產(chǎn)生 A的概念分層,其中每個簇形成概念分層的一個節(jié)點(diǎn)。在大型數(shù)據(jù)庫中,通過顯式的值枚舉定義整個概念分層是不現(xiàn)實的。在考察了所產(chǎn)生的分層之后,如果必要,局部層次交換或調(diào)整可以由用戶或?qū)<襾碜?。為了提高挖掘結(jié)果的質(zhì)量就需要進(jìn)行數(shù)據(jù)預(yù)處理工作。 。 小結(jié) 本章主要介紹了數(shù)據(jù)預(yù)處理的相關(guān)概念和主要技術(shù)。一個屬性的不同值個數(shù)越少,它在所產(chǎn)生的概念分層結(jié)構(gòu)中所處的層次越高。用戶或?qū)<以谀J郊壨ㄟ^說明屬性的偏序或全序,可以很容易地定義概念分層。 ( 5)聚類分析 聚類分析是一種流行的數(shù)據(jù)離散化方法。這種方法是監(jiān)督的,它使用類信息。最小區(qū)間長度設(shè)定每層每個劃分的最小寬度,或每層每個劃分中值的最少數(shù)目。通過使用等寬或等頻分箱,然后用箱均值或中位數(shù)替換箱中的每個值,可以將屬性值離散化,就像分別用箱的均值或箱的中位數(shù)光滑一樣。通過收集較高層的概念 (如青年、中年或老年 )并用它們替換較低層的概念 (如年齡的數(shù)值 ),概念分層可以用來歸約數(shù)據(jù)。在指定的誤差范圍內(nèi),可以確定 (使用中心極限定理 )估計一個給定的函數(shù)所需的樣本大小。也可以利用其他攜帶更豐富語義信息的聚類標(biāo)準(zhǔn)。通常,相似性基于距離函數(shù),用對象在空間中的“接近”程度定義。桶的邊界是具有 β1個最大差的對,其中 β是用戶指定的桶數(shù)。 確定桶和屬性值的劃分規(guī)則,包括如下: ( 1)等寬。在數(shù)據(jù)挖掘中, x和 y是數(shù)值數(shù)據(jù)庫屬性。多于 2維的多維數(shù)據(jù)可以通過將問題歸約為 2維問題來處理。這些向量稱為主成分。這樣,原來的數(shù)據(jù)投影到一個小得多的空間,導(dǎo)致維度歸約。 維度歸約 維度歸約使用數(shù)據(jù)編碼或變換,以便得到原數(shù)據(jù)的歸約或“壓縮”表示。決策樹算法最初是用于分類的。該過程由空屬性集作為歸約集開始,確定原屬性集中最好的屬性,并將它添加到歸約集中?;痉襟w應(yīng)當(dāng)對應(yīng)于感興趣的個體實體。 下面介紹幾種常見的數(shù)據(jù)歸約技術(shù)。 A的最大絕對值為975。 ??其中,和 σA分別為屬性 A的均值和標(biāo)準(zhǔn)差。 1)最小 最大規(guī)范化。例如,可以聚集日銷售數(shù)據(jù),計算月和年銷售量。分箱是通過分析鄰近的值平滑存儲數(shù)據(jù)的值,可處理連續(xù)型和分類型變量,以得到更少的變量取值種類以便于分析。 數(shù)據(jù)變換把數(shù)據(jù)轉(zhuǎn)換成適應(yīng)于挖掘的形式。如果結(jié)果值等于 0,則 a和 b是獨(dú)立的, 不存在相關(guān)。 冗余是在數(shù)據(jù)集成時另一個需要考慮的重要問題。 隨著我們對數(shù)據(jù)的了解增加,重要的是要不斷更新元數(shù)據(jù)以反映這種知識。可以使用其他外部材料人工地加以更正某些數(shù)據(jù)不一致。通過人與計算機(jī)的結(jié)合,相比單純手動檢查整個數(shù)據(jù)庫可以提高效率??梢杂靡粋€函數(shù) (如回歸函數(shù) )擬合數(shù)據(jù)來光滑數(shù)據(jù)。給定一個數(shù)值屬性,如 price,我們怎樣才能“光滑”數(shù)據(jù),去掉噪聲 ?我們看看下面的數(shù)據(jù)光滑技術(shù)。 ( 6)使用最可能的值填充缺失值。此方法很費(fèi)時,特別是當(dāng)數(shù)據(jù)集很大、缺少很多值時,該方法可能不具有實際的可操作性。 數(shù)據(jù)清理 填充缺失值 很多的數(shù)據(jù)都有缺失值。通常使用屬性子集選擇方法,包括逐步向前選擇法、逐步向后刪除法、判定樹歸納法等。 數(shù)據(jù)預(yù)處理的研究現(xiàn)狀 數(shù)據(jù)清洗研究內(nèi)容主要涉及以下幾方面: ( 1)對數(shù)據(jù)集進(jìn)行檢測。 數(shù)據(jù)集成 (data integration)就是將來至多個數(shù)據(jù)源的數(shù)據(jù)合并到一起,形成一致的數(shù)據(jù)存儲,如將不同數(shù)據(jù)庫中的數(shù)據(jù)集成入一個數(shù)據(jù)倉庫中存儲。不正確的數(shù)據(jù)也可能是由命名約定或所用的數(shù)據(jù)代碼不一致,或輸入字段 (如時間 )的格式不一致而導(dǎo)致的。 數(shù)據(jù)預(yù)處理概述 數(shù)據(jù)預(yù)處理的必要性 現(xiàn)實世界采集到的大量的各種各樣的數(shù)據(jù)是不符合挖掘算法進(jìn)行知識獲取研究所要求的規(guī)范和標(biāo)準(zhǔn)的。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù) 第 6章 數(shù)據(jù)預(yù)處理技術(shù) 主講人:孫水華 副教授 信息科學(xué)與工程學(xué)院 目 錄 ? 數(shù)據(jù)預(yù)處理概述 ? 數(shù)據(jù)清理 ? 數(shù)據(jù)集成 ? 數(shù)據(jù)變換 ? 數(shù)據(jù)歸約 ? 小 結(jié) 數(shù)據(jù)預(yù)處理 (data preprocessing)是指在對數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘主要的處理以前,先對原始數(shù)據(jù)進(jìn)行必要的清洗、集成、轉(zhuǎn)換、離散和歸約等等一系列的處理工作,以達(dá)到挖掘算法進(jìn)行知識獲取研究所要求的最低規(guī)范和標(biāo)準(zhǔn)。根據(jù)“垃圾進(jìn),垃圾出”原理,這些低質(zhì)量的數(shù)據(jù)進(jìn)入系統(tǒng)將會導(dǎo)致昂貴的操作費(fèi)用和系統(tǒng)漫長的響應(yīng)時間,并且對從數(shù)據(jù)集中抽取的模式的正確性和導(dǎo)出規(guī)則的準(zhǔn)確性產(chǎn)生巨大的影響,更嚴(yán)重的是會使得決策支持系統(tǒng)產(chǎn)生錯誤的分析結(jié)果,誤導(dǎo)決策。比如收集數(shù)據(jù)的設(shè)備可能出故障;人或計算機(jī)的錯誤可能在數(shù)據(jù)輸入時出現(xiàn);數(shù)據(jù)傳輸中也可能出現(xiàn)錯誤。 數(shù)據(jù)預(yù)處理的基本方法 數(shù)據(jù)清理 數(shù)據(jù)集成 數(shù)據(jù)變換 數(shù)據(jù)歸納 2,32,100,59,48 , 屬性 屬性 圖 數(shù)據(jù)預(yù)處理的典型形式 數(shù)據(jù)清理 (data cleaning)處理例程通常包括:填補(bǔ)遺漏的數(shù)據(jù)值、平滑有噪聲數(shù)據(jù)、識別或除去異常值
點(diǎn)擊復(fù)制文檔內(nèi)容
醫(yī)療健康相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1