freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

數(shù)據(jù)倉庫第七章(編輯修改稿)

2025-03-27 09:06 本頁面
 

【文章內容簡介】 分情況下,由于主關系層不同值的個數(shù)很少,可以將主關系編碼,作為 m_維數(shù)組,其中 m 是 P 中的屬性數(shù),而每個維包含對應的概化屬性值。數(shù)組的每個元素存放對應的計數(shù)和其他聚集值。概化元組的插入通過對應的數(shù)組元素上的度量聚集進行。 基于屬性歸納方法的挖掘結果可以有多種輸出表示形式。 地點 商品 銷售額 (百萬 ) 個數(shù)累計 (千 ) 亞洲 電視 15 300 歐洲 電視 12 250 北美 電視 28 450 亞洲 電腦 120 1000 歐洲 電腦 150 1200 北美 電腦 200 1800 表格表示 描述 地點 或 商品 電視 電腦 電視 +電腦 銷售額 累計 銷售額 累計 銷售額 累計 亞洲 15 300 120 1000 135 1300 歐洲 12 250 150 1200 162 1450 北美 28 450 200 1800 228 2250 所有地區(qū) 45 1000 470 4000 525 5000 組合表表示 描述 050100150200250電視 電腦 電視+ 電腦歐洲亞洲北美棒圖表示 描述 第七章 概念描述 概念描述基本知識 數(shù)據(jù)概化與基于匯總的特征化 解析特征化 — 屬性相關分析 挖掘概念比較 — 區(qū)分不同的類 解析特征化 — 屬性相關分析 在挖掘定性概念描述知識過程中,DW和 OLAP工具中的多維數(shù)據(jù)分析有兩個局限:一是無法處理復雜對象,二是缺乏自動概化過程。 (續(xù)) 通常,用戶告訴數(shù)據(jù)挖掘系統(tǒng)每個維應當概化到多高層次并不困難,但確定數(shù)據(jù)集的定性描述應包含哪些屬性是一件困難的事。我們引進一些方法進行屬性(或維)相關分析,以過濾掉統(tǒng)計上不相關或弱相關的屬性,而保留與挖掘任務最相關的屬性。 (續(xù)) ? 包含屬性(維)相關分析的 類特征化 稱為 解析特征化 ; ? 包含屬性(維)相關分析的 類比較 稱為解析比較 。 直觀上,若一個屬性的取值可以幫助有效地區(qū)分不同類別的數(shù)據(jù)集,則這個屬性就被認為是與相應類別數(shù)據(jù)集密切相關的。 (續(xù)) ?例: 一輛汽車的顏色不太可能用于區(qū)分貴賤汽車(類別),但汽車的型號、品牌、制造商、款式和氣缸數(shù)可能是更相關的屬性。 此外,即使在同一個維內,對于區(qū)分一個類與其他類,在不同的概念層也可能有很不相同的能力。 (續(xù)) ?例: 在出生日維中,生日和生月都不太可能與雇員的工資相關;而只有年齡區(qū)間可能與雇員的工資高度相關。 這意味著相關分析應當在多層次進行,并且只有那些最相關的維層次應當包含在分析中。 (續(xù)) 屬性的相關性要根據(jù)屬性區(qū)分一個類與其他類的能力來評估。在挖掘 概念比較 時, 目標類 和 對比類 要明顯地在挖掘查詢中給出。前面在挖掘 概念特征 時,只有一個被特征化的類,即沒有說明對比類。哪些對比類應當用于相關分析并非是明顯的。在這種情況下,除特征化的數(shù)據(jù)集外, DB中可比較的數(shù)據(jù)集都作為對比類。 ? 屬性相關分析的基本思想: 計算某種度量,用于量化屬性與給定類或概念的相關性。這些度量包括:信息增益, Gini索引,不確定性和相關系數(shù)。 (續(xù)) 下面介紹一種方法,它將信息增益分析技術和基于多維數(shù)據(jù)分析的方法集成在一起。該方法刪除信息量較少的屬性,收集信息較多的屬性,用于概念描述分析。 這里以 ID3決策樹歸納學習方法為例進行 介紹。 (續(xù)) 設 S 是訓練樣本的集合,其中每個樣本的 類標號 已知,共有 m個不同類別 ,則 S 包含 si個 Ci類樣本, i=1, … , m。任意一個樣本屬于類 Ci的概率為 si/s,其中 s是集合 S 所有樣本總數(shù)。一個決策樹可用于對數(shù)據(jù)對象進行分類 ,因此決策樹可以看成是 Ci的一個信息源 ,為產生相應信息需要的信息熵為: (續(xù)) () 若屬性 A的取值為 {a1, a2, … , av}, 且該屬性用作決策樹的一個結點時,可將S 劃分為子集 {S1, S2, … , Sv }。 其中Sj 包含屬性 A取同一值 aj的數(shù)據(jù)行; Sj包含類 Ci的 sij個樣本。 ? ?sssssssI imiim 2121 log, ????? (續(xù)) 根據(jù)屬性 A的取值對當前數(shù)據(jù)集劃分所獲得的信息就稱為屬性 A的熵。它的計算公式如下: () A上該劃分得到的信息增益定義為 : Gain(A)=I(s1,s2,…,s m) E(A) () ? ?mjjjvimjjj sssIssssAE ,)(,2,1121 ???????? (續(xù))
點擊復制文檔內容
法律信息相關推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1