freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)倉庫第七章(完整版)

2025-04-02 09:06上一頁面

下一頁面
  

【正文】 將它們概化到較高的抽象層。在這些屬性中,用戶或許只考慮了城市屬性。這自然就減少了概化后數(shù)據(jù)集的大小,所獲結(jié)果以圖表、規(guī)則等多種不同形式提供給用戶。 第七章 概念描述 概念描述基本知識(shí) 數(shù)據(jù)概化與基于匯總的特征化 解析特征化 — 屬性相關(guān)分析 挖掘概念比較 — 區(qū)分不同的類 數(shù)據(jù)概化與基于匯總的 特征化 數(shù)據(jù)概化是一個(gè)分析過程,它將 DB中與任務(wù)相關(guān)的大數(shù)據(jù)集從較低的概念層抽象到較高的概念層。給定存放在 DB中的大量數(shù)據(jù),能夠以簡潔的形式在更一般的抽象層描述數(shù)據(jù)是很有用的。這種描述可提供 某類數(shù)據(jù)的概貌 以及 與其他數(shù)據(jù)類的區(qū)別 。 概念描述基本知識(shí)(續(xù)) 概念描述的組成: ?特征化 :提供了一個(gè)有關(guān)數(shù)據(jù)整體的簡潔清晰描述。 ?概念描述是自動(dòng)處理數(shù)據(jù)挖掘過程。 基本思想: 首先使用 RDB查詢收集任務(wù)相關(guān)的數(shù)據(jù);然后通過考察任務(wù)相關(guān)數(shù)據(jù)中每個(gè)屬性的不同值的個(gè)數(shù),進(jìn)行概化。 對用戶而言,指定挖掘的屬性可能比較困難。 (續(xù)) ?屬性刪除 基于如下規(guī)則: 若一個(gè)屬性有許多不同數(shù)值,且 (a)該屬性無法進(jìn)行概化操作 (如:沒有定義相應(yīng)的概念分層),或 (b)它的更高層次概念是用其他屬性描述的 ,則該屬性應(yīng)當(dāng)從數(shù)據(jù)集中刪除。 因此 在基于屬性歸納時(shí), 掌握概化平衡 非常重要。 ? 2)性別: 由于性別只有兩個(gè)不同值,該屬性保留,并不對其進(jìn)行概化。 (續(xù)) ? 5)出生日期: 假定存在概念分層,可以將出生日期概化到年齡,而年齡概化到年齡分類,并且年齡分類的區(qū)間數(shù)小于對應(yīng)的屬性概化閾值,則應(yīng)當(dāng)對出生日期進(jìn)行概化。最終結(jié)果如下表: 性別 專業(yè) 出生國 年齡區(qū)間 出生城市 GPA 累計(jì) 男 科學(xué) 中國 20— 25 合肥 良好 16 女 工程 中國 25— 30 上海 優(yōu)秀 22 對初始關(guān)系的數(shù)據(jù)進(jìn)行基于屬性歸納得到的廣義關(guān)系: ? 算法: 基于屬性的歸納 ? 輸入 : (1)關(guān)系 DB; (2)數(shù)據(jù)挖掘命令 DMQuery; (3)屬性表 a_list; (4)屬性 ai上的概念分層或概化操作符的集合 Gen(a); (5)每個(gè)屬性 ai概化 閾值 a_gen_thresh(a) (續(xù) ) ? 輸出: 主概化關(guān)系 P(包含基于 a_list屬性集的一個(gè)定性概念描述) ? 方法: (1)W←get_task_relevant_data(DMQuery , DB); //工作關(guān)系 W存放任務(wù)相關(guān)的數(shù)據(jù) (2)prepare_for_generalization(W)//該步實(shí)現(xiàn)如下 : (續(xù) ) (a)掃描 W,收集每個(gè) ai屬性取不同值的個(gè)數(shù)。 基于屬性歸納方法的挖掘結(jié)果可以有多種輸出表示形式。 (續(xù)) ?例: 在出生日維中,生日和生月都不太可能與雇員的工資相關(guān);而只有年齡區(qū)間可能與雇員的工資高度相關(guān)。這些度量包括:信息增益, Gini索引,不確定性和相關(guān)系數(shù)。 ? ?sssssssI imiim 2121 log, ????? (續(xù)) 根據(jù)屬性 A的取值對當(dāng)前數(shù)據(jù)集劃分所獲得的信息就稱為屬性 A的熵。 ?(4)使用 AOI產(chǎn)生概念描述 :使用一組不太保守的屬性概化閾值進(jìn)行 AOI。 屬性 性別 ()和 出生國 () 的信息增益小于該閾值,因此被認(rèn)為是弱相關(guān)的,它們同時(shí)從 目標(biāo)類 和 對比類 中被刪除。 ?(1)根據(jù)挖掘任務(wù),產(chǎn)生兩條 DB查詢命令,分別用于從 DB中獲取 初始目標(biāo)數(shù)據(jù)集 (研究生)和 初始對比數(shù)據(jù)集 (本科生)。除邏輯規(guī)則外,其他形式與概念 特征化 所用形式相同。形式上, qa關(guān)于 Cj的 d權(quán) 定義為: ? ? ? ???? ???miJJa Cqcou ntCqcou ntweigh td a1 2. 概念比較描述的表示 (續(xù) ) 其中, m是目標(biāo)類和對比類的總數(shù), Cj在 {C1,…,C m}中 ,而 count(qa∈ Cj)是類Cj中被 qa覆蓋的元組數(shù)。 演講完畢,謝謝觀看! 。 高 d權(quán) 的目標(biāo)類表明被概化元組代表的 概念主要從目標(biāo)類導(dǎo)出 ;而 低 d權(quán)表明 概念主要從對比類導(dǎo)出 。 2. 概念比較描述的表示 (續(xù) ) 比較描述中的 目標(biāo)類 和 對比類 的區(qū)分特性,可以用 量化區(qū)分規(guī)則 量化地描述。如 姓名 ,性別 , 出生地 , 居住地 和 電話 ,只留下與挖掘任務(wù)密切相關(guān)的屬性供后面的分析使用。 ?( 4) 最后利用前述算法對 初始目標(biāo)類工作關(guān)系 進(jìn)行基于屬性的歸納,并獲得研究生目標(biāo)類的概念描述。執(zhí)行步驟為: ?( 1) 收集 目標(biāo)類數(shù)據(jù) ,它由研究生的集合組成。 (續(xù)) 概念描述 的屬性相關(guān)分析,執(zhí)行步驟如下: ?(1)數(shù)據(jù)收集: 通過查詢處理,收集目標(biāo)類和對比類的數(shù)據(jù)。該方法刪除信息量較少的屬性,收集信息較多的屬性,用于概念描述分析。 (續(xù)) 屬性的相關(guān)性要根據(jù)屬性區(qū)分一個(gè)類與其他類的能力來評估。 (
點(diǎn)擊復(fù)制文檔內(nèi)容
法律信息相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1