freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)第6章數(shù)據(jù)預(yù)處理技術(shù)(完整版)

  

【正文】 是 65,該箱中的每一個(gè)值被箱中的平均值 65替換。 屬性規(guī)范化會(huì)減少挖掘過(guò)程所用的時(shí)間,而且規(guī)范化可以有效地避免較大取值的屬性對(duì)數(shù)據(jù)挖掘的過(guò)度影響。 數(shù)據(jù)集成的第三個(gè)重要問(wèn)題是數(shù)據(jù)值沖突的檢測(cè)與處理。 有些冗余可以被相關(guān)分析檢測(cè)到。該部分主要涉及數(shù)據(jù)的選擇、數(shù)據(jù)的沖突問(wèn)題以及不一致數(shù)據(jù)的處理問(wèn)題。 數(shù)據(jù)清理過(guò)程 第二步是糾正偏差。這種知識(shí)或“關(guān)于數(shù)據(jù)的數(shù)據(jù)”稱(chēng)作元數(shù)據(jù)。 ( 3)聚類(lèi)。有序值分布到一些“桶”或箱中。 ( 7)用最鄰近方法填充缺失值。但這種方法因?yàn)榇罅康牟捎猛粋€(gè)屬性值可能會(huì)誤導(dǎo)挖掘程序得出有偏差甚至錯(cuò)誤的結(jié)論,因此要小心使用。 ( 1)忽略元組。通過(guò)屬性約簡(jiǎn)算法之后可以得到關(guān)鍵屬性,減少冗余屬性,從而減少得到?jīng)Q策結(jié)果所需要的時(shí)間。 ( 2)對(duì)數(shù)據(jù)集中重復(fù)的對(duì)象進(jìn)行消除,也就是對(duì)重復(fù)記錄的清理。這一點(diǎn)對(duì)那些基于距離的挖掘算法尤為重要。原始數(shù)據(jù)是從各個(gè)實(shí)際應(yīng)用系統(tǒng)中獲取的,由于各應(yīng)用系統(tǒng)的數(shù)據(jù)缺乏統(tǒng)一標(biāo)準(zhǔn)的定義,數(shù)據(jù)結(jié)構(gòu)也有較大的差異,因此各系統(tǒng)間的數(shù)據(jù)存在較大的不一致性,往往不能直接拿來(lái)使用。這是由于系統(tǒng)設(shè)計(jì)時(shí)存在的缺陷或者使用過(guò)程中一些人為因素所造成的,如有些數(shù)據(jù)缺失只是因?yàn)檩斎霑r(shí)認(rèn)為是不重要的;相關(guān)數(shù)據(jù)沒(méi)有記錄可能是由于理解錯(cuò)誤,或者因?yàn)樵O(shè)備故障;與其他記錄不一致的數(shù)據(jù)可能已經(jīng)刪除;歷史記錄或修改的數(shù)據(jù)可能被忽略等等。這就需要進(jìn)行數(shù)據(jù)預(yù)處理,從而提高數(shù)據(jù)質(zhì)量,進(jìn)而提高挖掘結(jié)果的質(zhì)量。 現(xiàn)在人們已經(jīng)積累了大量的數(shù)據(jù)預(yù)處理技術(shù)。 ( 2)含噪聲。同時(shí)來(lái)自不同的應(yīng)用系統(tǒng)中的數(shù)據(jù)由于合并而普遍存在數(shù)據(jù)的重復(fù)和信息的冗余現(xiàn)象。包括平滑處理、聚集處理、數(shù)據(jù)泛化處理、規(guī)格化、屬性構(gòu)造。對(duì)重復(fù)數(shù)據(jù)的處理在數(shù)據(jù)倉(cāng)庫(kù)環(huán)境下特別重要,因?yàn)樵诰哂卸鄠€(gè)數(shù)據(jù)源的時(shí)候可能會(huì)產(chǎn)生大量的重復(fù)記錄。 ( 4)離散化技術(shù)減少給定連續(xù)屬性值的個(gè)數(shù)。當(dāng)缺少類(lèi)標(biāo)號(hào)時(shí)通常這樣做 (假定挖掘任務(wù)涉及分類(lèi) )。 ( 4)用屬性的均值填充缺失值。 方法 3~ 6使數(shù)據(jù)偏置,填入的值可能不正確。由于分箱方法考察近鄰的值,因此進(jìn)行局部光滑。可以通過(guò)聚類(lèi)檢測(cè)離群點(diǎn),將類(lèi)似的值組織成群或“簇”??疾烀總€(gè)屬性的定義域和數(shù)據(jù)類(lèi)型、每個(gè)屬性可接受的值、值的長(zhǎng)度范圍;考察是否所有的值都落在期望的值域內(nèi)、屬性之間是否存在已知的依賴(lài);把握數(shù)據(jù)趨勢(shì)和識(shí)別異常,比如遠(yuǎn)離給定屬性均值超過(guò)兩個(gè)標(biāo)準(zhǔn)差的值可能標(biāo)記為潛在的離群點(diǎn)。 也就是說(shuō),一旦發(fā)現(xiàn)偏差,通常我們需要定義并使用 (一系列 )變換來(lái)糾正它們。 在數(shù)據(jù)集成時(shí),首先需要考慮的是模式集成和對(duì)象匹配問(wèn)題。給定兩個(gè)屬性,這種分析可以根據(jù)可用的數(shù)據(jù)度量(兩個(gè)屬性之間的相關(guān)系數(shù))估計(jì)一個(gè)屬性能在多大程度上蘊(yùn)涵另一個(gè)屬性。例如,對(duì)于現(xiàn)實(shí)世界的同一實(shí)體,來(lái)自不同數(shù)據(jù)源的屬性值可能不同。 數(shù)據(jù)變換主要涉及如下方法:光滑、聚集 、數(shù)據(jù)泛化、規(guī)范化 。 2)按箱中值平滑:箱中的每一個(gè)值,按箱中的中值替換。例如,分類(lèi)的屬性,如街道,可以泛化為較高層的概念,如城市或國(guó)家。 最小 最大規(guī)范化對(duì)原始數(shù)據(jù)進(jìn)行線(xiàn)性變換,保持原始數(shù)據(jù)值之間的聯(lián)系。小數(shù)點(diǎn)的移動(dòng)位數(shù)依賴(lài)于 A的最大絕對(duì)值。 ( 5)屬性構(gòu)造 屬性構(gòu)造 (或特征構(gòu)造 ): 屬性構(gòu)造是由給定的屬性構(gòu)造和添加新的屬性,幫助提高準(zhǔn)確率和對(duì)高維數(shù)據(jù)結(jié)構(gòu)的理解。例如收集的數(shù)據(jù)是某公司過(guò)去幾年間每個(gè)季度的銷(xiāo)售數(shù)據(jù),而感興趣的數(shù)據(jù)是年銷(xiāo)售數(shù)據(jù),可以通過(guò)對(duì)數(shù)據(jù)聚集匯總得到年總銷(xiāo)售額。每個(gè)較高層抽象將進(jìn)一步減少結(jié)果數(shù)據(jù)的規(guī)模。在每一步,刪除尚在屬性集中最差的屬性。不出現(xiàn)在樹(shù)中的所有屬性假定是不相關(guān)的。計(jì)算復(fù)雜性關(guān)于立方體中單元的個(gè)數(shù)是線(xiàn)性的?;具^(guò)程如下: ( 1)對(duì)輸入數(shù)據(jù)規(guī)范化,使得每個(gè)屬性都落入相同的區(qū)間。也就是說(shuō),對(duì)坐標(biāo)軸進(jìn)行排序,使得第一個(gè)坐標(biāo)軸顯示數(shù)據(jù)的最大方差,第二個(gè)顯示次大方差,如此下去。幾種常用數(shù)值歸約技術(shù)如下: 1.回歸和對(duì)數(shù)線(xiàn)性模型 回歸和對(duì)數(shù)線(xiàn)性模型可以用來(lái)近似給定的數(shù)據(jù)。 2.直方圖 直方圖使用分箱來(lái)近似數(shù)據(jù)分布。 ( 3) V最優(yōu)。但有效性尚需進(jìn)一步研究。 最常用的抽樣方法有 4種: (假定大型數(shù)據(jù)集 D包含 N個(gè)元組 ) ( 1) s個(gè)樣本無(wú)放回簡(jiǎn)單隨機(jī)抽樣 (SRSWOR)。因此,抽樣的復(fù)雜度子線(xiàn)性 (sublinear)于數(shù)據(jù)的大小。區(qū)間的標(biāo)記可以替代實(shí)際的數(shù)據(jù)值。正因?yàn)槿绱?,離散化技術(shù)和概念分層作為預(yù)處理步驟,在數(shù)據(jù)挖掘之前而不是在挖掘過(guò)程進(jìn)行。 ( 2)直方圖分析 像分箱一樣,直方圖分析也是一種非監(jiān)督離散化技術(shù),因?yàn)樗膊皇褂妙?lèi)信息。它在計(jì)算和確定分裂點(diǎn)(劃分屬性區(qū)間的數(shù)據(jù)值 )時(shí)利用類(lèi)分布信息。 初始,將數(shù)值屬性 A的每個(gè)不同值看作一個(gè)區(qū)間。在后者,通過(guò)反復(fù)地對(duì)鄰近簇進(jìn)行分組,形成較高的概念層。 ( 3)說(shuō)明屬性集但不說(shuō)明它們的偏序 用戶(hù)可以說(shuō)明一個(gè)屬性集形成概念分層,但并不顯式說(shuō)明它們的偏序。結(jié)果,用戶(hù)可能在分層結(jié)構(gòu)說(shuō)明中只包含了相關(guān)屬性的一小部分。 人們已經(jīng)積累了大量的數(shù)據(jù)預(yù)處理技術(shù)。 下課了。用這種辦法,一個(gè)屬性的說(shuō)明可能觸發(fā)整個(gè)語(yǔ)義密切相關(guān)的屬性組“拖進(jìn)”,形成一個(gè)完整的分層結(jié)構(gòu)??梢愿鶕?jù)給定屬性集中每個(gè)屬性不同值的個(gè)數(shù)自動(dòng)地產(chǎn)生概念分層。一般該規(guī)則根據(jù)最高有效位的取值范圍,遞歸逐層地將給定的數(shù)據(jù)區(qū)域劃分為 4或 5個(gè)相對(duì)等寬的區(qū)間。具有最小 x2值的相鄰區(qū)間合并在一起,因?yàn)榈?x2值表明它們具有相似的類(lèi)分布。這種離散化形成 A的概念分層。直方圖分析算法可以遞歸地用于每個(gè)劃分,自動(dòng)地產(chǎn)生多級(jí)概念分層,直到達(dá)到預(yù)先設(shè)定的概念層數(shù)過(guò)程終止。通常,每種方法都假定待離散化的值已經(jīng)按遞增序排序。這導(dǎo)致挖掘結(jié)果的簡(jiǎn)潔、易于使用的、知識(shí)層面的表示。對(duì)于固定的樣本大小,抽樣的復(fù)雜度僅隨數(shù)據(jù)的維數(shù) n線(xiàn)性地增加;而其他技術(shù),如使用直方圖,復(fù)雜度隨 n指數(shù)增長(zhǎng)。 ( 3)聚類(lèi)抽樣:如果 D中的元組分組放入 M個(gè)互不相交的“簇”,則可以得到 s個(gè)簇的簡(jiǎn)單隨機(jī)抽樣 (SRS),其中 sM。 3.聚類(lèi) 聚類(lèi)技術(shù)將數(shù)據(jù)元組視為對(duì)象。直方圖的方差是每個(gè)桶代表的原來(lái)值的加權(quán)和,其中權(quán)等于桶中值的個(gè)數(shù)。如果每個(gè)桶只代表單個(gè)屬性值/頻率對(duì),則稱(chēng)為單桶。例如,可以用以下公式,將隨機(jī)變量 y(稱(chēng)作響應(yīng)變量 )
點(diǎn)擊復(fù)制文檔內(nèi)容
醫(yī)療健康相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1