【正文】
概化 ? 將大量的相關(guān)數(shù)據(jù)從一個(gè)較低的概念層次抽象、轉(zhuǎn)化到一個(gè)比較高的層次 ? 方法 : ? OLAP方法: ? 面向?qū)傩缘臍w納 2020/10/5 7 OLAP方法 ? 在數(shù)據(jù)立方體上進(jìn)行計(jì)算和存儲(chǔ)結(jié)果 ? 優(yōu)點(diǎn) ? 效率高 ? 能夠計(jì)算多種匯總 ? 如: count,average,sum,min,max ? 還可以使用 rolldown和 rollup操作 ? 限制 ? 只能處理非數(shù)值化數(shù)據(jù)和數(shù)值數(shù)據(jù)的簡(jiǎn)單匯總。 ? 只能分析,不能自動(dòng)的選擇哪些字段和相應(yīng)的概念層次 2020/10/5 8 面向?qū)傩缘臍w納 ? KDD Workshop(89)中提出 ? 不限制于種類字段和特定的匯總方法 ? 方法介紹: ? 使用 SQL等收集相關(guān)數(shù)據(jù) ? 通過數(shù)據(jù)屬性值刪除和屬性值概化來實(shí)現(xiàn)概化 ? 聚集通過合并相等的廣義元組,并累計(jì)他們對(duì)應(yīng)的計(jì)數(shù)值進(jìn)行 ? 和使用者之間交互式的呈現(xiàn)方式 . 2020/10/5 9 基本方法 ? 數(shù)據(jù)聚焦 :選擇和當(dāng)前分析相關(guān)的數(shù)據(jù),包括維。 ? 屬性概化 :如果某個(gè)屬性包含大量不同值,同時(shí)在該屬性上有概化操作符,則運(yùn)用該操作符進(jìn)行概化。 ? PrimeGen:根據(jù)上一步的計(jì)算結(jié)果,對(duì)屬性概化到相應(yīng)的層次,計(jì)算匯總值,得到主概化關(guān)系。 ? 交叉表 : ? 二維交叉表 ? 可視化方法 : ? Pie charts, bar charts, curves, cubes, and other visual forms. ? 量化特征規(guī)則 : (上表與 136頁例 ) .%]47:[)(_%]53:[)(_ )( tf o r ei g nxr e g i o nb i r t htC a n a d axr e g i o nb i r t h m a l exg e n d e r ??? ??2020/10/5 14 表達(dá)方式 概化關(guān)系 (133頁例 ) 2020/10/5 15 表達(dá)方式 —交叉表 (133頁例 ) 2020/10/5 16 使用 Cube技術(shù)進(jìn)行實(shí)現(xiàn) ? 對(duì)給定的數(shù)據(jù)動(dòng)態(tài)創(chuàng)建數(shù)據(jù)立方體: ? 便于有效的下鉆操作 ? 可能增加響應(yīng)時(shí)間 ? 解決方法:實(shí)現(xiàn)存儲(chǔ)一些較高層次的統(tǒng)計(jì)信息。 ? 將兩個(gè)類別的數(shù)據(jù)概化到相同的層次。 ? 對(duì)于每個(gè)元組展現(xiàn)其描述和兩個(gè)衡量標(biāo)準(zhǔn) : ?support distribution within single class ?parison distribution between classes ? 將差異很大的元組特別顯示出來 ? 相關(guān)性分析 : ? 發(fā)現(xiàn)最能體現(xiàn)類別之間差異的屬性 . 2020/10/5 30 例子:分析性比較 (133頁例 ) ? Task ? 使用區(qū)別規(guī)則來分析本科生和研究生 ? DMQL query use Big_University_DB mine parison as “grad_vs_undergrad_students” in relevance to name, gender, major, birth_place, birth_date, residence, phone, gpa for “graduate_students” where status in “graduate” versus “undergraduate_students” where status in “undergraduate” analyze count% from student 2020/10/5 31 例子:分析性比較 (2) ? 條件: ? attributes name, gender, major, birth_place, birth_date, residence, phone and gpa ? Gen(ai) = concept hierarchies on attributes ai ? Ui = attribute analytical thresholds for attributes ai ? Ti = attribute generalization thresholds for attributes ai ? R = attribute relevance threshold 2020/10/5 32 例子:分析性比較 (3) ? 1. 數(shù)據(jù)收集 ? 目標(biāo)類和比較類 ? 2. 屬性相關(guān)性分析 ? remove attributes name, gender, major, phone ? 3. 同步概化 ? controlled by userspecified dimension thresholds ? prime target and contrasting class(es) relations/cuboids 2020/10/5 33 例子:分析性比較 (4) B i rt h _ c o u n t r y A g e _ r a n g e G p a C o u n t %C a n a d a 2 0 2 5 G o o d 5 . 5 3 %C a n a d a 2 5 3 0 G o o d 2 . 3 2 %C a n a d a O v e r _ 3 0 V e r y _ g o o d 5 . 8 6 %… … … …O t h e r O v e r _ 3 0 Ex ce l l e n t 4 . 6 8 %Prime generalized relation for the target class: Graduate students B i rt h _ c o u n t r y A g e _ r a n g e G p a C o u n t %C a n a d a 1 5 2 0 F ai r 5 . 5 3 %C a n a d a 1 5 2 0 G o o d 4 . 5 3 %… … … …C a n a d a 2 5 3 0 G o o d 5 . 0 2 %… … … …O t h e r O v e r _ 3 0 Ex ce l l e n t 0 . 6 8 %Prime generalized relation for the contrasting class: Undergraduate students 2020/10/5 34 例子:分析性比較 (5) ? 4. 在目標(biāo)和比較類別上, Drill down, roll up and other OLAP operations, 確定概化層次 . ? 5. 展現(xiàn)方式 ? generalized relations, crosstabs, bar charts, pie charts, or rules ? 比較性的度量,以體現(xiàn)目標(biāo)類和比較類之間的差別 ? . count% 2020/10/5 35 量化區(qū)分規(guī)則 ? Cj = 目標(biāo)類 ? qa = 概化元組 ? 也覆蓋比較類別的元組 ? dweight ? 范圍 : [0, 1] ? 量化區(qū)別規(guī)則 ??????miiaja)Cc ou nt ( q)Cc ou nt ( qw e i ghtd1d_ w e i gh t ]:[dX)c on dit i on (s s ( X )t ar ge t _c l aX, ??2020/10/5 36 例子 : 量化區(qū)別規(guī)則 ? 量化區(qū)別規(guī)則 (135頁例 ) ? where 90/(90+120) = 30% S t a t u s B i r t h _ c o u n t r y A g e _ r a n g e G p a C o u n tG r a d u a t e C a n a d a 2 5 3 0 G o o d 90U n d e r g r a d u a t e C a n a d a 2 5 3 0 G o o d 2 1 0Count distribution between graduate and undergraduate students for a generalized tuple %]30:[)(3025)(_)(_)(_,dg o o dXgpaXr a n g eageC a n a d aXc o u n tr yb ir thXs tu d e n tg r a d u a teX????????2020/10/5 37 類別描述 ? 量化特征規(guī)則 ? 必要 ? 量化區(qū)別規(guī)則 ? 充分 ? 量化描述規(guī)則 ? 必要和充分 ]w:d,w:[t...]w:d,w:[t nn111 ??????( X )c o n d it io n( X )c o n d it io ns s ( X )ta r g e t _ c l aX,nd_ w e i gh t ]:[dX)c on dit i on (s s ( X )t ar ge t _c l aX, ??t _w e i gh t ]:[tX)c on di t i on (s s ( X )t ar ge t _c l aX, ??2020/10/5 38 例子 : 量化描述規(guī)則 (136頁例 ) ? 對(duì)于目標(biāo)類 Europe的量化描述規(guī)則 (137頁例 ) Lo ca ti o n/ i tem TV Co m puter Bo th_ i tem s Co unt t wt d wt Co unt t wt d wt Co unt t wt d wt Eur o pe 80 25% 40% 240 75% 30% 320 100% 32% N_ Am 120 1 7 .6 5 % 60% 560 8 2 .3 5 % 70% 680 100% 68% Bo th_ reg i o ns 200 20% 100% 800 80% 100% 1000 100% 100% Crosstab showing associated tweight, dweight values and total number (in thousands) of TVs and puters sold at AllElectronics in 1998 3 0 % ]:d7 5 % ,:[t)c o m p u te r ( i te m ( X )4 0 % ]:d2 5 % ,:[t)T V ( i te m ( X )E u r o p e ( X )X,?????2020/10/5 39 特征化和比較 ? 什么是概念描述 ? ? 數(shù)據(jù)概化和基于匯總的特征化 ? 分析特征化 : 分析屬性之間的關(guān)聯(lián)性 ? 挖掘類比較 :獲取不同類之間的不同處 ? 在大型數(shù)據(jù)庫中挖掘描述統(tǒng)計(jì)度量 ? 討論 ? 總結(jié) 2020/10/5 40 挖掘數(shù)據(jù)散布特征 ? 動(dòng)機(jī) ? 更好的了解數(shù)據(jù) : 集中趨勢(shì) , 差別 和 分布 ? 數(shù)據(jù)散布特征 ? median, max, min, quantiles, outliers, variance, 等 . 2020/10/5 41 衡量中心趨勢(shì) ? 平均值 ? 帶權(quán)平均 ? 中位數(shù) : 一個(gè)整體度量 ? 如果是奇數(shù),則為中間數(shù),偶數(shù)則為中間兩數(shù)的平均 ? 用插值的方法進(jìn)行估計(jì) ? 模 ? 出現(xiàn)次數(shù)最多的值 ? Unimodal, bimodal