freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)倉(cāng)庫(kù)第七章-wenkub

2023-03-28 09:06:41 本頁(yè)面
 

【正文】 一步可用下面兩種方法有效實(shí)現(xiàn): (a)對(duì)每個(gè)概化元組,通過(guò)二分檢索將它插入主關(guān)系 P中。 (續(xù)) 概化過(guò)程會(huì)產(chǎn)生一系列內(nèi)容相同的數(shù)據(jù)行,相同內(nèi)容的數(shù)據(jù)行被合并成一個(gè),并累計(jì)它們的計(jì)數(shù)值。因此,號(hào)碼和街道應(yīng)當(dāng)刪除,將居住地概化到居住城市。但如果假定國(guó)家的取值個(gè)數(shù)小于概化閾值,則出生地應(yīng)當(dāng)概化到出生國(guó)家。則通過(guò)對(duì)屬性概化和屬性概化控制,專(zhuān)業(yè)屬性被概化到指定的概念(如:科學(xué),工程,商學(xué))。 (續(xù)) 例 1(續(xù)): 對(duì)前面得到的 初始工作關(guān)系的每個(gè)屬性,概化過(guò)程如下: ? 1)姓名: 由于姓名存在大量不同值,并且其上沒(méi)有定義概念分層,該屬性被刪除。 (續(xù)) (2)概化關(guān)系閾值控制 為概化關(guān)系設(shè)置一個(gè)閾值(通常取值范圍為 10到 30)。 若屬性概化沒(méi)有達(dá)到“足夠高的層次”,則“亞概化”也同樣可能使得到的規(guī)則變得失去意義。這就提出一個(gè)問(wèn)題:多大才算“屬性具有大量不同值”? (續(xù)) 這取決于屬性或應(yīng)用,有的用戶(hù)愿意讓屬性留在較低的抽象層,而另一些用戶(hù)愿意將它們概化到較高的抽象層。 姓名 性別 專(zhuān)業(yè) 出生地 出生日 居住地 電話(huà) GPA 王東海 男 CS 合肥市 合肥市金寨 路 65號(hào) 05513665678 李哲 男 CS 合肥市 合肥市蕪湖 路 186號(hào) 05513656012 汪燕 女 PH 上海市 上海市高安 路 1250號(hào) 02162381960 初始工作關(guān)系:任務(wù)相關(guān)數(shù)據(jù)的集合 (續(xù)) 對(duì)已經(jīng)準(zhǔn)備好的數(shù)據(jù),如何進(jìn)行基于屬性歸納? ?AOI方法的第二步: 進(jìn)行數(shù)據(jù)概化操作,可用兩種方法之一進(jìn)行: 屬性刪除 , 屬性概化 。在這些屬性中,用戶(hù)或許只考慮了城市屬性。 (續(xù)) 由于數(shù)據(jù)挖掘查詢(xún)通常只涉及 DB的一部分,選擇相關(guān)的數(shù)據(jù)集不僅使得挖掘更有效,而且與在整個(gè) DB挖掘相比,能產(chǎn)生更有意義的規(guī)則。這自然就減少了概化后數(shù)據(jù)集的大小,所獲結(jié)果以圖表、規(guī)則等多種不同形式提供給用戶(hù)。如:描述中應(yīng)作用哪些維?概化過(guò)程應(yīng)進(jìn)行到哪個(gè)抽象層次上?這些問(wèn)題均是由用戶(hù)負(fù)責(zé)提供答案的。 第七章 概念描述 概念描述基本知識(shí) 數(shù)據(jù)概化與基于匯總的特征化 解析特征化 — 屬性相關(guān)分析 挖掘概念比較 — 區(qū)分不同的類(lèi) 數(shù)據(jù)概化與基于匯總的 特征化 數(shù)據(jù)概化是一個(gè)分析過(guò)程,它將 DB中與任務(wù)相關(guān)的大數(shù)據(jù)集從較低的概念層抽象到較高的概念層。 概念描述基本知識(shí)(續(xù)) 大型數(shù)據(jù)庫(kù)的概念描述和數(shù)據(jù)倉(cāng)庫(kù)的 OLAP有何差別? ?概念描述可處理復(fù)雜的數(shù)據(jù)類(lèi)型和聚集。給定存放在 DB中的大量數(shù)據(jù),能夠以簡(jiǎn)潔的形式在更一般的抽象層描述數(shù)據(jù)是很有用的。 概念描述: 是描述式數(shù)據(jù)挖掘最基本形式,它以簡(jiǎn)潔匯總的形式描述給定數(shù)據(jù)集,提供數(shù)據(jù)的有趣的一般特性。這種描述可提供 某類(lèi)數(shù)據(jù)的概貌 以及 與其他數(shù)據(jù)類(lèi)的區(qū)別 。此外,用戶(hù)希望方便靈活地以不同的粒度和從不同的角度描述數(shù)據(jù)集。 概念描述基本知識(shí)(續(xù)) 概念描述的組成: ?特征化 :提供了一個(gè)有關(guān)數(shù)據(jù)整體的簡(jiǎn)潔清晰描述。允許數(shù)據(jù)集在多個(gè)抽象層概化,便于考察數(shù)據(jù)的一般行為。 ?概念描述是自動(dòng)處理數(shù)據(jù)挖掘過(guò)程。對(duì)大量數(shù)據(jù)進(jìn)行有效靈活的概化方法主要有兩種: ?數(shù)據(jù)立方體方法 ?基于屬性的歸納方法 利用 數(shù)據(jù)立方體方法 進(jìn)行數(shù)據(jù)概化,被分析的數(shù)據(jù)存放在一個(gè)多維數(shù)據(jù)庫(kù)中,通過(guò)對(duì)多維數(shù)據(jù)立方進(jìn)行上卷或下鉆操作,可完成數(shù)據(jù)概化和數(shù)據(jù)細(xì)化工作。 基本思想: 首先使用 RDB查詢(xún)收集任務(wù)相關(guān)的數(shù)據(jù);然后通過(guò)考察任務(wù)相關(guān)數(shù)據(jù)中每個(gè)屬性的不同值的個(gè)數(shù),進(jìn)行概化。 (續(xù)) ?例 1: 從一個(gè)大學(xué)數(shù)據(jù)庫(kù)的學(xué)生數(shù)據(jù)中挖掘出研究生的一般特征。 對(duì)用戶(hù)而言,指定挖掘的屬性可能比較困難。為了對(duì)出生地進(jìn)行概化處理,就必須將出生地概化所涉及到的其它屬性包含進(jìn)來(lái)。 (續(xù)) ?屬性刪除 基于如下規(guī)則: 若一個(gè)屬性有許多不同數(shù)值,且 (a)該屬性無(wú)法進(jìn)行概化操作 (如:沒(méi)有定義相應(yīng)的概念分層),或 (b)它的更高層次概念是用其他屬性描述的 ,則該屬性應(yīng)當(dāng)從數(shù)據(jù)集中刪除。控制將屬性概化到多高的抽象層通常是相當(dāng)主觀(guān)的。 因此 在基于屬性歸納時(shí), 掌握概化平衡 非常重要。如果概化關(guān)系中不同元組的個(gè)數(shù)超過(guò)該閾值,則應(yīng)當(dāng)進(jìn)一步概化;否則,不再進(jìn)一步概化。 ? 2)性別: 由于性別只有兩個(gè)不同值,該屬性保留,并不對(duì)其進(jìn)行概化。 (續(xù)) ? 4)出生地: 該屬性有大量不同值,因此應(yīng)當(dāng)概化它。 (續(xù)) ? 5)出生日期: 假定存在概念分層,可以將出生日期概化到年齡,而年齡概化到年齡分類(lèi),并且年齡分類(lèi)的區(qū)間數(shù)小于對(duì)應(yīng)的屬性概化閾值,則應(yīng)當(dāng)對(duì)出生日期進(jìn)行概化。這樣可包含較少的不同值。最終結(jié)果如下表: 性別 專(zhuān)業(yè) 出生國(guó) 年齡區(qū)間 出生城市 GPA 累計(jì) 男 科學(xué) 中國(guó) 20— 25 合肥 良好 16 女 工程 中國(guó) 25— 30 上海 優(yōu)秀 22 對(duì)初始關(guān)系的數(shù)據(jù)進(jìn)行基于屬性歸納得到的廣義關(guān)系: ? 算法: 基于屬性的歸納 ? 輸入 : (1)關(guān)系 D
點(diǎn)擊復(fù)制文檔內(nèi)容
法律信息相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1