freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

數據倉庫第七章(完整版)

2025-04-02 09:06上一頁面

下一頁面
  

【正文】 將它們概化到較高的抽象層。在這些屬性中,用戶或許只考慮了城市屬性。這自然就減少了概化后數據集的大小,所獲結果以圖表、規(guī)則等多種不同形式提供給用戶。 第七章 概念描述 概念描述基本知識 數據概化與基于匯總的特征化 解析特征化 — 屬性相關分析 挖掘概念比較 — 區(qū)分不同的類 數據概化與基于匯總的 特征化 數據概化是一個分析過程,它將 DB中與任務相關的大數據集從較低的概念層抽象到較高的概念層。給定存放在 DB中的大量數據,能夠以簡潔的形式在更一般的抽象層描述數據是很有用的。這種描述可提供 某類數據的概貌 以及 與其他數據類的區(qū)別 。 概念描述基本知識(續(xù)) 概念描述的組成: ?特征化 :提供了一個有關數據整體的簡潔清晰描述。 ?概念描述是自動處理數據挖掘過程。 基本思想: 首先使用 RDB查詢收集任務相關的數據;然后通過考察任務相關數據中每個屬性的不同值的個數,進行概化。 對用戶而言,指定挖掘的屬性可能比較困難。 (續(xù)) ?屬性刪除 基于如下規(guī)則: 若一個屬性有許多不同數值,且 (a)該屬性無法進行概化操作 (如:沒有定義相應的概念分層),或 (b)它的更高層次概念是用其他屬性描述的 ,則該屬性應當從數據集中刪除。 因此 在基于屬性歸納時, 掌握概化平衡 非常重要。 ? 2)性別: 由于性別只有兩個不同值,該屬性保留,并不對其進行概化。 (續(xù)) ? 5)出生日期: 假定存在概念分層,可以將出生日期概化到年齡,而年齡概化到年齡分類,并且年齡分類的區(qū)間數小于對應的屬性概化閾值,則應當對出生日期進行概化。最終結果如下表: 性別 專業(yè) 出生國 年齡區(qū)間 出生城市 GPA 累計 男 科學 中國 20— 25 合肥 良好 16 女 工程 中國 25— 30 上海 優(yōu)秀 22 對初始關系的數據進行基于屬性歸納得到的廣義關系: ? 算法: 基于屬性的歸納 ? 輸入 : (1)關系 DB; (2)數據挖掘命令 DMQuery; (3)屬性表 a_list; (4)屬性 ai上的概念分層或概化操作符的集合 Gen(a); (5)每個屬性 ai概化 閾值 a_gen_thresh(a) (續(xù) ) ? 輸出: 主概化關系 P(包含基于 a_list屬性集的一個定性概念描述) ? 方法: (1)W←get_task_relevant_data(DMQuery , DB); //工作關系 W存放任務相關的數據 (2)prepare_for_generalization(W)//該步實現如下 : (續(xù) ) (a)掃描 W,收集每個 ai屬性取不同值的個數。 基于屬性歸納方法的挖掘結果可以有多種輸出表示形式。 (續(xù)) ?例: 在出生日維中,生日和生月都不太可能與雇員的工資相關;而只有年齡區(qū)間可能與雇員的工資高度相關。這些度量包括:信息增益, Gini索引,不確定性和相關系數。 ? ?sssssssI imiim 2121 log, ????? (續(xù)) 根據屬性 A的取值對當前數據集劃分所獲得的信息就稱為屬性 A的熵。 ?(4)使用 AOI產生概念描述 :使用一組不太保守的屬性概化閾值進行 AOI。 屬性 性別 ()和 出生國 () 的信息增益小于該閾值,因此被認為是弱相關的,它們同時從 目標類 和 對比類 中被刪除。 ?(1)根據挖掘任務,產生兩條 DB查詢命令,分別用于從 DB中獲取 初始目標數據集 (研究生)和 初始對比數據集 (本科生)。除邏輯規(guī)則外,其他形式與概念 特征化 所用形式相同。形式上, qa關于 Cj的 d權 定義為: ? ? ? ???? ???miJJa Cqcou ntCqcou ntweigh td a1 2. 概念比較描述的表示 (續(xù) ) 其中, m是目標類和對比類的總數, Cj在 {C1,…,C m}中 ,而 count(qa∈ Cj)是類Cj中被 qa覆蓋的元組數。 演講完畢,謝謝觀看! 。 高 d權 的目標類表明被概化元組代表的 概念主要從目標類導出 ;而 低 d權表明 概念主要從對比類導出 。 2. 概念比較描述的表示 (續(xù) ) 比較描述中的 目標類 和 對比類 的區(qū)分特性,可以用 量化區(qū)分規(guī)則 量化地描述。如 姓名 ,性別 , 出生地 , 居住地 和 電話 ,只留下與挖掘任務密切相關的屬性供后面的分析使用。 ?( 4) 最后利用前述算法對 初始目標類工作關系 進行基于屬性的歸納,并獲得研究生目標類的概念描述。執(zhí)行步驟為: ?( 1) 收集 目標類數據 ,它由研究生的集合組成。 (續(xù)) 概念描述 的屬性相關分析,執(zhí)行步驟如下: ?(1)數據收集: 通過查詢處理,收集目標類和對比類的數據。該方法刪除信息量較少的屬性,收集信息較多的屬性,用于概念描述分析。 (續(xù)) 屬性的相關性要根據屬性區(qū)分一個類與其他類的能力來評估。 (
點擊復制文檔內容
法律信息相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1