freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)第6章數(shù)據(jù)預(yù)處理技術(shù)-在線瀏覽

2025-07-18 00:05本頁面
  

【正文】 具有信用度相同的貸款客戶的家庭月總收入替換家庭月總收入中的缺失值。可以用回歸、使用貝葉斯形式化的基于推理的工具或決策樹歸納確定。 ( 7)用最鄰近方法填充缺失值。然而,方法6是流行的策略,與其他方法相比,它使用已有數(shù)據(jù)的大部分信息來預(yù)測缺失值。 光滑噪聲數(shù)據(jù) 噪聲 (noise)是被測量的變量的隨機(jī)誤差或方差。 ( 1)分箱 (binning)。有序值分布到一些“桶”或箱中。一般來說,寬度越大光滑效果越大。 ( 2)回歸。線性回歸涉及找出擬合兩個(gè)屬性 (或變量 )的“最佳”線,使得一個(gè)屬性可以用來預(yù)測另一個(gè)。 ( 3)聚類。直觀地,落在簇集合之外的值視為離群點(diǎn)。人工檢測是由專業(yè)人員識別孤立點(diǎn)。 把數(shù)據(jù)清理作為一個(gè)過程,該過程包括下列兩個(gè)步驟: 第一步是偏差檢測 (discrepancy detection)。這種知識或“關(guān)于數(shù)據(jù)的數(shù)據(jù)”稱作元數(shù)據(jù)。另一種錯(cuò)誤是源編碼使用的不一致問題和數(shù)據(jù)表示的不一致問題(如日期“ 2021/ 09/ 25”和“ 25/ 09/ 2021”)。 考察數(shù)據(jù)還要遵循唯一性規(guī)則、連續(xù)性規(guī)則和空值規(guī)則。如數(shù)據(jù)輸入時(shí)的錯(cuò)誤可以使用紙上的記錄加以更正。 數(shù)據(jù)清理過程 第二步是糾正偏差。商業(yè)工具可以支持?jǐn)?shù)據(jù)變換步驟。 偏差檢測和糾正偏差這兩步過程迭代執(zhí)行。這有助于加快對相同數(shù)據(jù)存儲的未來版本的數(shù)據(jù)清理速度。該部分主要涉及數(shù)據(jù)的選擇、數(shù)據(jù)的沖突問題以及不一致數(shù)據(jù)的處理問題。來自多個(gè)信息源的現(xiàn)實(shí)世界的等價(jià)實(shí)體的匹配涉及實(shí)體識別問題。每個(gè)屬性的元數(shù)據(jù)可以用來幫助避免模式集成的錯(cuò)誤,元數(shù)據(jù)還可以用來幫助變換數(shù)據(jù)。一個(gè)屬性可能是冗余的,如果它能由另一個(gè)或另一組屬性“導(dǎo)出”。 有些冗余可以被相關(guān)分析檢測到。對于數(shù)值屬性 a和 b,之間的相關(guān)系數(shù) rAB為 baniiiab nbbaar??)1())((1?????? 其中, n是數(shù)據(jù)集的樣本個(gè)數(shù), ai和 bi分別是元組 i中 a和 b的值,和分別是 a和 b的均值, σA和 σB分別是 a和 b的標(biāo)準(zhǔn)差,即 1)(12?????naaniia?1)(12?????nbbniib? 1rab≤+l。因此,一個(gè)較高的 rab值表明 a(或 b)可以作為冗余而被去掉。如果結(jié)果值小于 0,則 a和 b是負(fù)相關(guān)的,一個(gè)值隨另一個(gè)的減少而增加。 數(shù)據(jù)集成的第三個(gè)重要問題是數(shù)據(jù)值沖突的檢測與處理。這可能是因?yàn)楸硎?、比例或編碼不同。對于連鎖旅館,不同城市的房價(jià)不僅可能涉及不同的貨幣,而且可能涉及不同的服務(wù) (如免費(fèi)早餐 )和稅。通過對某些屬性按比例進(jìn)行縮放,使屬性取值落在較小的區(qū)間,例如數(shù)值型屬性可以規(guī)范化到 [0, 1]區(qū)間,這種變換對聚類、神經(jīng)網(wǎng)絡(luò)等算法都是必要的。 屬性規(guī)范化會減少挖掘過程所用的時(shí)間,而且規(guī)范化可以有效地避免較大取值的屬性對數(shù)據(jù)挖掘的過度影響。 數(shù)據(jù)變換 ( 1)光滑 光滑: 去掉數(shù)據(jù)中的噪聲?;貧w和聚類技術(shù)在后面介始,這里簡要介紹一下分箱技術(shù)。數(shù)據(jù)被分布到箱中,分箱的方法是進(jìn)行局部的平滑,也可以作為一種離散化技術(shù)使用。 1)按箱平均值平滑分箱:箱中每一個(gè)值都按箱中的平均值替換,例如箱 1中的值 6 6 69的平均值是 65,該箱中的每一個(gè)值被箱中的平均值 65替換。 3)按箱邊界平滑:箱中的最大和最小值被視為箱邊界。 ( 2)聚集 聚集: 對數(shù)據(jù)進(jìn)行匯總或聚集。通常,這一步用來為多粒度數(shù)據(jù)分析構(gòu)造數(shù)據(jù)立方體。 ( 3)數(shù)據(jù)泛化 數(shù)據(jù)泛化: 使用概念分層,用高層概念替換低層或“原始”數(shù)據(jù)。類似地,數(shù)值屬性如年齡,可以映射到較高層概念如青年、中年和老年。 有許多數(shù)據(jù)規(guī)范化的方法,常用的有三種:最小 最大規(guī)范化、 zscore規(guī)范化和按小數(shù)定標(biāo)規(guī)范化。假定 mA和 MA分別為屬性 A的最小值和最大值。 ?????將 A的值 v映射到區(qū)間 [new_mA,new_MA]中的 v’。如果今后的輸入落在 A的原始數(shù)據(jù)值域之外,該方法將面臨“越界”錯(cuò)誤。把屬性 A的值 v基于A的均值和標(biāo)準(zhǔn)差規(guī)范化為 v’,通過下列公式計(jì)算: AAvv ?/)(39。當(dāng)屬性 A的實(shí)際最大和最小值未知,或離群點(diǎn)左右了最大 最小規(guī)范化時(shí),該方法是有用的。通過移動(dòng)屬性 A的小數(shù)點(diǎn)位置進(jìn)行規(guī)范化。 A的值 v規(guī)范化為 v’,由下式計(jì)算: jvv1039。 例如,假定 A的取值是 975~ 923。使用小數(shù)定標(biāo)規(guī)范化,用 1 000(即 j=3)除每個(gè)值,這樣, 975規(guī)范化為 ,而 923被規(guī)范化為 。有必要保留規(guī)范化參數(shù) (如均值和標(biāo)準(zhǔn)差,如果使用 zscore規(guī)范化 ),以便將來的數(shù)據(jù)可以用一致的方式規(guī)范化??梢詷?gòu)造新的屬性并添加到屬性集中,以幫助挖掘過程。數(shù)據(jù)簡化是在對發(fā)現(xiàn)任務(wù)和數(shù)據(jù)本身內(nèi)容理解的基礎(chǔ)上,尋找依賴于發(fā)現(xiàn)目標(biāo)的表達(dá)數(shù)據(jù)的有用特征,以縮減數(shù)據(jù)模型,從而在盡可能保持?jǐn)?shù)據(jù)原貌的前提下最大限度地精簡數(shù)據(jù)量。 數(shù)據(jù)歸約 數(shù)據(jù)立方體聚集 數(shù)據(jù)立方體存儲多維聚集信息。數(shù)據(jù)立方體提供對預(yù)計(jì)算的匯總數(shù)據(jù)進(jìn)行快速訪問,因此,適合聯(lián)機(jī)數(shù)據(jù)分析處理和數(shù)據(jù)挖掘。數(shù)據(jù)立方體聚集為在線分析處理的上鉆、下鉆等操作提供了可以快速訪問的匯總數(shù)據(jù)。在概念分層的最低抽象層創(chuàng)建的立方體稱為基本方體 (base cuboid)。即最低層應(yīng)當(dāng)是對應(yīng)于分析可用的或有用的數(shù)據(jù)。對不同抽象層創(chuàng)建的數(shù)據(jù)立方體稱為方體 (cuboid),因此數(shù)據(jù)立方體可以看作方體的格 (lattice of cuboids)。當(dāng)回答數(shù)據(jù)挖掘查詢時(shí),應(yīng)當(dāng)使用與給定任務(wù)相關(guān)的最小可用方體。 屬性子集選擇的基本啟發(fā)式方法包括以下幾種: ( 1)逐步向前選擇。在其后的每一次迭代步,將剩下的原屬性集中最好的屬性添加到該集合中。該過程由整個(gè)屬性集開始。 ( 3)向前選擇和向后刪除的結(jié)合。 ( 4)決策樹歸納。決策樹歸納構(gòu)造一個(gè)類似于流程圖的結(jié)構(gòu),其中每個(gè)內(nèi)部 (非樹葉 )節(jié)點(diǎn)表示一個(gè)屬性的測試,每個(gè)分枝對應(yīng)于測試的一個(gè)輸出;每個(gè)外部 (樹葉 )節(jié)點(diǎn)
點(diǎn)擊復(fù)制文檔內(nèi)容
醫(yī)療健康相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1