freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)倉庫第七章(參考版)

2025-03-11 09:06本頁面
  

【正文】 演講完畢,謝謝觀看! 。 2. 概念比較描述的表示 (續(xù) ) 一個確定目標類的比較描述的 量化區(qū)分規(guī)則 記作: X, target_class(X) condition(X) [d:d_weight] ? ? 2. 概念比較描述的表示 (續(xù) ) ?例 5: 根據(jù)前表中的概化元組和計數(shù)分布,一個對研究生的 量化區(qū)分規(guī)則 可表示如下: X, 學生類 (X) =“研究生” 專業(yè) (X)=“科學” ∧ 年齡區(qū)間 (X)= “ 2125” ∧ GPA(X)=“良” [d: 30%] ? ? 2. 概念比較描述的表示 (續(xù) ) ?注:一個對比規(guī)則提供了一個充分條件,但它不是一個必要條件。 即是:如果 一個學生專業(yè)是科學,年齡在 21和 25之間,GPA為良,則根據(jù)給定的數(shù)據(jù),他是研究生的概率為 30%, 是本科生的概率為70%。 高 d權(quán) 的目標類表明被概化元組代表的 概念主要從目標類導出 ;而 低 d權(quán)表明 概念主要從對比類導出 。形式上, qa關(guān)于 Cj的 d權(quán) 定義為: ? ? ? ???? ???miJJa Cqcou ntCqcou ntweigh td a1 2. 概念比較描述的表示 (續(xù) ) 其中, m是目標類和對比類的總數(shù), Cj在 {C1,…,C m}中 ,而 count(qa∈ Cj)是類Cj中被 qa覆蓋的元組數(shù)。 注意, qa也可能覆蓋 對比類 的某些元組,因為我們處理的是 比較描述 。 設(shè) qa是一個概化元組, Cj是目標類。 2. 概念比較描述的表示 (續(xù) ) 比較描述中的 目標類 和 對比類 的區(qū)分特性,可以用 量化區(qū)分規(guī)則 量化地描述。除邏輯規(guī)則外,其他形式與概念 特征化 所用形式相同。例如, % 的研究生選擇“科學”專業(yè),年齡在 26— 30 之間, GPA為良,而只有 % 的本科生具有這種性質(zhì)。 ?(4)最后, 結(jié)果概念對比描述 以表、圖或規(guī)則的形式表示。如 姓名 ,性別 , 出生地 , 居住地 和 電話 ,只留下與挖掘任務(wù)密切相關(guān)的屬性供后面的分析使用。 ?(1)根據(jù)挖掘任務(wù),產(chǎn)生兩條 DB查詢命令,分別用于從 DB中獲取 初始目標數(shù)據(jù)集 (研究生)和 初始對比數(shù)據(jù)集 (本科生)。 ?概念 比較的一般過程如下: ( 1)數(shù)據(jù)收集 ( 2)屬性相關(guān)分析 ( 3)同步概化 ( 4)挖掘結(jié)果表示 (續(xù)) ?例 3: 在大學數(shù)據(jù)庫中挖掘研究生與本科生概念對比描述知識。但目標類和對比類必須是可比較的,即它們具有相似的維或?qū)傩浴? ?( 4) 最后利用前述算法對 初始目標類工作關(guān)系 進行基于屬性的歸納,并獲得研究生目標類的概念描述。 屬性 性別 ()和 出生國 () 的信息增益小于該閾值,因此被認為是弱相關(guān)的,它們同時從 目標類 和 對比類 中被刪除。設(shè): C1對應(yīng)于研究生類,有 120個樣本; C2對應(yīng)于本科生類,有 130個樣本。 ?( 2) 用保守的屬性概化閾值進行基于屬性的歸納,通過屬性刪除和屬性概化進行預(yù)相關(guān)分析(分析過程如 例 1)。執(zhí)行步驟為: ?( 1) 收集 目標類數(shù)據(jù) ,它由研究生的集合組成。 ?(4)使用 AOI產(chǎn)生概念描述 :使用一組不太保守的屬性概化閾值進行 AOI。根據(jù)計算的屬性與數(shù)據(jù)挖掘任務(wù)的相關(guān)性,對屬性排序,然后刪除不相關(guān)和弱相關(guān)屬性。使用保守AOI得到的關(guān)系稱作 候選關(guān)系 。 (續(xù)) 概念描述 的屬性相關(guān)分析,執(zhí)行步驟如下: ?(1)數(shù)據(jù)收集: 通過查詢處理,收集目標類和對比類的數(shù)據(jù)。 ? ?sssssssI imiim 2121 log, ????? (續(xù)) 根據(jù)屬性 A的取值對當前數(shù)據(jù)集劃分所獲得的信息就稱為屬性 A的熵。一個決策樹可用于對數(shù)據(jù)對象進行分類 ,因此決策樹可以看成是 Ci的一個信息源 ,為產(chǎn)生相應(yīng)信息需要的信息熵為: (續(xù)) () 若屬性 A的取值為 {a1, a2, … , av}, 且該屬性用作決策樹的一個結(jié)點時,可將S 劃分為子集 {S1, S2, … , Sv }。 (續(xù)) 設(shè) S 是訓練樣本的集合,其中每個樣本的 類標號 已知,共有 m個不同類別 ,則 S 包含 si個 Ci類樣本, i=1, … , m。該方法刪除信息量較少的屬性,收集信息較多的屬性,用于概念描述分析。這些度量包括:信息增益, Gini索引,不確定性和相關(guān)系數(shù)。在這種情況下,除特征化的數(shù)據(jù)集外, DB中可比較的數(shù)據(jù)集都作為對比類。前面在挖掘 概念特征 時,只有一個被特征化的類,即沒有說明對比類。 (續(xù)) 屬性的相關(guān)性要根據(jù)屬性區(qū)分一個類與其他類的能力來評估。 (續(xù)) ?例: 在出生日維中,生日和生月都不太可能與雇員的工資相關(guān);而只有年齡區(qū)間可能與雇員的工資高度相關(guān)。
點擊復制文檔內(nèi)容
法律信息相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1