freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)第6章數(shù)據(jù)預(yù)處理技術(shù)-資料下載頁(yè)

2025-05-15 00:05本頁(yè)面
  

【正文】 于數(shù)據(jù)的大小。其他數(shù)據(jù)歸約技術(shù)至少需要完全掃描 D。對(duì)于固定的樣本大小,抽樣的復(fù)雜度僅隨數(shù)據(jù)的維數(shù) n線性地增加;而其他技術(shù),如使用直方圖,復(fù)雜度隨 n指數(shù)增長(zhǎng)。 用于數(shù)據(jù)歸約時(shí),抽樣最常用來(lái)估計(jì)聚集查詢的回答。在指定的誤差范圍內(nèi),可以確定 (使用中心極限定理 )估計(jì)一個(gè)給定的函數(shù)所需的樣本大小。樣本的大小 s相對(duì)于 N可能非常小。對(duì)于歸約數(shù)據(jù)集的逐步求精,只需要簡(jiǎn)單地增加樣本大小即可。 數(shù)據(jù)離散化與概念分層 通過(guò)將屬性值域劃分為區(qū)間,數(shù)據(jù)離散化技術(shù)可以用來(lái)減少給定連續(xù)屬性值的個(gè)數(shù)。區(qū)間的標(biāo)記可以替代實(shí)際的數(shù)據(jù)值。用少數(shù)區(qū)間標(biāo)記替換連續(xù)屬性的數(shù)值,從而減少和簡(jiǎn)化了原來(lái)的數(shù)據(jù)。這導(dǎo)致挖掘結(jié)果的簡(jiǎn)潔、易于使用的、知識(shí)層面的表示。 對(duì)于給定的數(shù)值屬性,概念分層定義了該屬性的一個(gè)離散化。通過(guò)收集較高層的概念 (如青年、中年或老年 )并用它們替換較低層的概念 (如年齡的數(shù)值 ),概念分層可以用來(lái)歸約數(shù)據(jù)。通過(guò)這種數(shù)據(jù)泛化,盡管細(xì)節(jié)丟失了,但是泛化后的數(shù)據(jù)更有意義、更容易解釋。 這有助于通常需要的多種挖掘任務(wù)的數(shù)據(jù)挖掘結(jié)果的一致表示。此外,與對(duì)大型未泛化的數(shù)據(jù)集挖掘相比,對(duì)歸約的數(shù)據(jù)進(jìn)行挖掘所需的 I/O操作更少,并且更有效。正因?yàn)槿绱?,離散化技術(shù)和概念分層作為預(yù)處理步驟,在數(shù)據(jù)挖掘之前而不是在挖掘過(guò)程進(jìn)行。 1.?dāng)?shù)值數(shù)據(jù)的離散化和概念分層產(chǎn)生 數(shù)值屬性的概念分層可以根據(jù)數(shù)據(jù)離散化自動(dòng)構(gòu)造。通常,每種方法都假定待離散化的值已經(jīng)按遞增序排序。 ( 1)分箱 分箱是一種基于箱的指定個(gè)數(shù)自項(xiàng)向下的分裂技術(shù)。通過(guò)使用等寬或等頻分箱,然后用箱均值或中位數(shù)替換箱中的每個(gè)值,可以將屬性值離散化,就像分別用箱的均值或箱的中位數(shù)光滑一樣。這些技術(shù)可以遞歸地作用于結(jié)果劃分,產(chǎn)生概念分層。分箱并不使用類信息,因此是一種非監(jiān)督的離散化技術(shù)。它對(duì)用戶指定的箱個(gè)數(shù)很敏感,也容易受離群點(diǎn)的影響。 ( 2)直方圖分析 像分箱一樣,直方圖分析也是一種非監(jiān)督離散化技術(shù),因?yàn)樗膊皇褂妙愋畔?。使用等頻直方圖,理想地分割值使得每個(gè)劃分包括相同個(gè)數(shù)的數(shù)據(jù)元組。直方圖分析算法可以遞歸地用于每個(gè)劃分,自動(dòng)地產(chǎn)生多級(jí)概念分層,直到達(dá)到預(yù)先設(shè)定的概念層數(shù)過(guò)程終止。也可以對(duì)每一層使用最小區(qū)間長(zhǎng)度來(lái)控制遞歸過(guò)程。最小區(qū)間長(zhǎng)度設(shè)定每層每個(gè)劃分的最小寬度,或每層每個(gè)劃分中值的最少數(shù)目。直方圖也可以根據(jù)數(shù)據(jù)分布的聚類分析進(jìn)行劃分。 ( 3)基于熵的離散化 熵 (entropy)是最常用的離散化度量之一。基于熵的離散化是一種監(jiān)督的、自頂向下的分裂技術(shù)。它在計(jì)算和確定分裂點(diǎn)(劃分屬性區(qū)間的數(shù)據(jù)值 )時(shí)利用類分布信息。對(duì)離散數(shù)值屬性A,選擇 A的具有最小熵的值作為分裂點(diǎn),并遞歸地劃分結(jié)果區(qū)間,得到分層離散化。這種離散化形成 A的概念分層。 ( 4)基于 x2分析的區(qū)間合并 采用自底向上的策略,遞歸地找出最佳鄰近區(qū)間,然后合并它們,形成較大的區(qū)間。這種方法是監(jiān)督的,它使用類信息。其基本思想是,對(duì)于精確的離散化,相對(duì)類頻率在一個(gè)區(qū)間內(nèi)應(yīng)當(dāng)相當(dāng)一致。因此,如果兩個(gè)鄰近的區(qū)間具有非常類似的類分布,則這兩個(gè)區(qū)間可以合并。否則,它們應(yīng)當(dāng)保持分開(kāi)。 初始,將數(shù)值屬性 A的每個(gè)不同值看作一個(gè)區(qū)間。對(duì)每對(duì)相鄰區(qū)間進(jìn)行 x2檢驗(yàn)。具有最小 x2值的相鄰區(qū)間合并在一起,因?yàn)榈?x2值表明它們具有相似的類分布。該合并過(guò)程遞歸地進(jìn)行,直到滿足預(yù)先定義的終止標(biāo)準(zhǔn)。 ( 5)聚類分析 聚類分析是一種流行的數(shù)據(jù)離散化方法。將屬性 A的值劃分成簇或組,聚類考慮 A的分布以及數(shù)據(jù)點(diǎn)的鄰近性,可以產(chǎn)生高質(zhì)量的離散化結(jié)果。遵循自頂向下的劃分策略或自底向上的合并策略,聚類可以用來(lái)產(chǎn)生 A的概念分層,其中每個(gè)簇形成概念分層的一個(gè)節(jié)點(diǎn)。在前者,每一個(gè)初始簇或劃分可以進(jìn)一步分解成若干子簇,形成較低的概念層。在后者,通過(guò)反復(fù)地對(duì)鄰近簇進(jìn)行分組,形成較高的概念層。 ( 6)根據(jù)直觀劃分離散化 345規(guī)則可以用來(lái)將數(shù)值數(shù)據(jù)分割成相對(duì)一致、看上去自然的區(qū)間。一般該規(guī)則根據(jù)最高有效位的取值范圍,遞歸逐層地將給定的數(shù)據(jù)區(qū)域劃分為 4或 5個(gè)相對(duì)等寬的區(qū)間。 2.分類數(shù)據(jù)的概念分層產(chǎn)生 ( 1)由用戶或?qū)<以谀J郊?jí)顯式地說(shuō)明屬性的偏序 通常,分類屬性或維的概念分層涉及一組屬性。用戶或?qū)<以谀J郊?jí)通過(guò)說(shuō)明屬性的偏序或全序,可以很容易地定義概念分層。 ( 2)通過(guò)顯式數(shù)據(jù)分組說(shuō)明分層結(jié)構(gòu)的一部分 這基本上是人工地定義概念分層結(jié)構(gòu)的一部分。在大型數(shù)據(jù)庫(kù)中,通過(guò)顯式的值枚舉定義整個(gè)概念分層是不現(xiàn)實(shí)的。然而,對(duì)于一小部分中間層數(shù)據(jù),我們可以很容易地顯式說(shuō)明分組。 ( 3)說(shuō)明屬性集但不說(shuō)明它們的偏序 用戶可以說(shuō)明一個(gè)屬性集形成概念分層,但并不顯式說(shuō)明它們的偏序。然后,系統(tǒng)可以嘗試自動(dòng)地產(chǎn)生屬性的序,構(gòu)造有意義的概念分層。可以根據(jù)給定屬性集中每個(gè)屬性不同值的個(gè)數(shù)自動(dòng)地產(chǎn)生概念分層。具有最多不同值的屬性放在分層結(jié)構(gòu)的最低層。一個(gè)屬性的不同值個(gè)數(shù)越少,它在所產(chǎn)生的概念分層結(jié)構(gòu)中所處的層次越高。在許多情況下,這種啟發(fā)式規(guī)則都很頂用。在考察了所產(chǎn)生的分層之后,如果必要,局部層次交換或調(diào)整可以由用戶或?qū)<襾?lái)做。 ( 4)只說(shuō)明部分屬性集 在定義分層時(shí),有時(shí)用戶可能不小心,或者對(duì)于分層結(jié)構(gòu)中應(yīng)當(dāng)包含什么只有很模糊的想法。結(jié)果,用戶可能在分層結(jié)構(gòu)說(shuō)明中只包含了相關(guān)屬性的一小部分。為了處理這種部分說(shuō)明的分層結(jié)構(gòu),重要的是在數(shù)據(jù)庫(kù)模式中嵌入數(shù)據(jù)語(yǔ)義,使得語(yǔ)義密切相關(guān)的屬性能夠捆在一起。用這種辦法,一個(gè)屬性的說(shuō)明可能觸發(fā)整個(gè)語(yǔ)義密切相關(guān)的屬性組“拖進(jìn)”,形成一個(gè)完整的分層結(jié)構(gòu)。然而必要時(shí),用戶應(yīng)當(dāng)可以選擇忽略這一特性。 小結(jié) 本章主要介紹了數(shù)據(jù)預(yù)處理的相關(guān)概念和主要技術(shù)。 現(xiàn)實(shí)世界的數(shù)據(jù)往往存在噪聲、丟失數(shù)據(jù)和不一致數(shù)據(jù)等問(wèn)題。為了提高挖掘結(jié)果的質(zhì)量就需要進(jìn)行數(shù)據(jù)預(yù)處理工作。數(shù)據(jù)預(yù)處理 (data preprocessing)是指在對(duì)數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘主要的處理以前,先對(duì)原始數(shù)據(jù)進(jìn)行必要的清洗、集成、轉(zhuǎn)換、離散和歸約等等一系列的處理工作,以達(dá)到挖掘算法進(jìn)行知識(shí)獲取研究所要求的最低規(guī)范和標(biāo)準(zhǔn)。 人們已經(jīng)積累了大量的數(shù)據(jù)預(yù)處理技術(shù)。如何恰當(dāng)選擇和應(yīng)用這些技術(shù)得到更有效的數(shù)據(jù),是一個(gè)值得探討的問(wèn)題。 下課了。 休息一會(huì)兒。
點(diǎn)擊復(fù)制文檔內(nèi)容
醫(yī)療健康相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1