【正文】
V Co m puter Bo th_ i tem s Co unt t wt d wt Co unt t wt d wt Co unt t wt d wt Eur o pe 80 25% 40% 240 75% 30% 320 100% 32% N_ Am 120 1 7 .6 5 % 60% 560 8 2 .3 5 % 70% 680 100% 68% Bo th_ reg i o ns 200 20% 100% 800 80% 100% 1000 100% 100% Crosstab showing associated tweight, dweight values and total number (in thousands) of TVs and puters sold at AllElectronics in 1998 3 0 % ]:d7 5 % ,:[t)c o m p u te r ( i te m ( X )4 0 % ]:d2 5 % ,:[t)T V ( i te m ( X )E u r o p e ( X )X,?????特征化和比較 ? 什么是概念描述 ? ? 數(shù)據(jù)概化和基于匯總的特征化 ? 分析特征化 : 分析屬性之間的關(guān)聯(lián)性 ? 挖掘類(lèi)比較 :獲取不同類(lèi)之間的不同處 ? 在大型數(shù)據(jù)庫(kù)中挖掘描述統(tǒng)計(jì)度量 ? 討論 ? 總結(jié) 挖掘數(shù)據(jù)散布特征 ? 動(dòng)機(jī) ? 更好的了解數(shù)據(jù) : 集中趨勢(shì) , 差別 和 分布 ? 數(shù)據(jù)散布特征 ? median, max, min, quantiles, outliers, variance, 等 . 衡量中心趨勢(shì) ? 平均值 ? 帶權(quán)平均 ? 中位數(shù) : 一個(gè)整體度量 ? 如果是奇數(shù),則為中間數(shù),偶數(shù)則為中間兩數(shù)的平均 ? 用插值的方法進(jìn)行估計(jì) ? 模 ? 出現(xiàn)次數(shù)最多的值 ? Unimodal, bimodal, trimodal ? Empirical formula: ??? niixnx11?????niiniiiwxwx11cf lfnLm e di anm e d i a n))(2/(1 ????)(3 m e di a nm e anm odem e an ????衡量離散趨勢(shì) ? 四分位數(shù) , 異常 和 盒圖 ? 四分位數(shù) : Q1 (25th percentile), Q3 (75th percentile) ? 中間四分位區(qū)間 : IQR = Q3 – Q1 ? 五數(shù)概括 : min, Q1, M, Q3, max ? 盒圖 : ends of the box are the quartiles, median is marked, whiskers, and plot outlier individually ? 異常 : usually, a value higher/lower than x IQR ? 方差和標(biāo)準(zhǔn)差 ? Variance s2: (algebraic, scalable putation) ? Standard deviation s is the square root of variance s2 ? ?? ? ?? ?????? ni ni iini i xnxnxxns 1 1 221 22 ])(1[11)(11 盒圖分析 ? 五數(shù)概括 : Minimum, Q1, M, Q3, Maximum ? 盒圖 ? 數(shù)據(jù)用盒子的形式表現(xiàn) ? 盒子的兩端分別是兩個(gè)分位數(shù), ., the height of the box is IRQ ? 中位數(shù)用一條線(xiàn)來(lái)表示。 ? 屬性概化 :如果某個(gè)屬性包含大量不同值,同時(shí)在該屬性上有概化操作符,則運(yùn)用該操作符進(jìn)行概化。 and = and = and = ``Canada and = 100 with noise threshold = display as table 其它數(shù)據(jù)挖掘語(yǔ)言 ? 關(guān)聯(lián)規(guī)則語(yǔ)言 ? MSQL (Imielinski amp。挖掘原語(yǔ),語(yǔ)言和體系結(jié)構(gòu) ? 數(shù)據(jù)挖掘原語(yǔ) ? 數(shù)據(jù)挖掘語(yǔ)言 ? 數(shù)據(jù)挖掘系統(tǒng)體系結(jié)構(gòu) ? 總結(jié) 數(shù)據(jù)挖掘原語(yǔ)劃分 ? 挖掘相關(guān)的數(shù)據(jù) ? 挖掘的知識(shí)類(lèi)型 ? 背景知識(shí) ? 模式的興趣度量 ? 結(jié)果的表示與可視化 任務(wù)相關(guān)數(shù)據(jù) ? 數(shù)據(jù)庫(kù)(或數(shù)據(jù)倉(cāng)庫(kù))名稱(chēng) ? 例如: AllElectronics_db ? 數(shù)據(jù)庫(kù)表(或數(shù)據(jù)倉(cāng)庫(kù)的立方體) ? 例如:表 item,customer,purchase,items_sold ? 數(shù)據(jù)選擇條件 ? 例如:選取本年度加拿大地區(qū)購(gòu)買(mǎi)商品的數(shù)據(jù) ? 選取條件可能在概念上層次高于 DB/DW的數(shù)據(jù) ? 如: ” type=home entertainment”, DB/DW中數(shù)據(jù) {tv,cd player,vcr} ? 有關(guān)的屬性(或維) ? 例如: item表的 name,price屬性 。 Virmani’99) ? MineRule (Meo Psaila and Ceri’96) ? Query flocks 基于 Datalog 語(yǔ)法 (Tsur et al’98) ? OLEDB for DM (Microsoft’2020) ? 和 OLE DB, OLE DB for OLAP一起致力于 DB,DW,DM的標(biāo)準(zhǔn)化 ? 到 2020年 3月止,已經(jīng)完成了 predictive modeling( classification amp。 ? 屬性閾值控制 : typical 28, specified/default. ? 概化關(guān)系閾值控制 : 控制最終關(guān)系的大小 基本算法 ? InitialRel: 得到相關(guān)數(shù)據(jù),形成初始關(guān)系表 ? PreGen: 通過(guò)統(tǒng)計(jì)不同屬性的含有的不同值的個(gè)數(shù)決定是丟棄該屬性還是對(duì)其進(jìn)行匯總。 ? 延長(zhǎng)線(xiàn) : 從盒子延長(zhǎng)到最大和最小值 A Boxplot A boxplot 數(shù)據(jù)分布的可視化:盒圖分析 在大型數(shù)據(jù)庫(kù)中挖掘統(tǒng)計(jì)信息 ? 方差 ? 標(biāo)準(zhǔn)差 : 方差的平方根 ? 衡量分散程度 ? 當(dāng)且僅當(dāng)所有值一樣的時(shí)候?yàn)?0。 ? 概念描述:只有正樣本。 ? 結(jié)果的表示 :概化關(guān)系、交叉表、 3D立方體 示例 ? DMQL: use Big_University_DB mine characteristics as “Science_Students” in relevance to name, gender, major, birth_place, birth_date, residence, phone, gpa from student where status in “graduate” ? 相應(yīng)的 SQL: Select name, gender, major, birth_place, birth_date, residence, phone, gpa from student where status in {“Msc”, “MBA”, “PhD” } 類(lèi)特征化:示例 N am e G en d er M ajo r B irt h P la ce B irt h _d ate R esid e n ce P h on e G P AJimW o od m an M C S V an cou ve r, B C ,C an ad a 81 2 76 35 1 1 M a in S t. ,R ich m on d68 7 45 9 8 3. 6 7S cot tL ach an ce M C S M on tr e al, Q u e,C an ad a28 7 7 5 34 5 1 st A v e. ,R ich m on d25 3 91 0 6 3. 7 0L au r a L ee… F…P h ys ics…Se a t t le , W A , U SA…25 8 7 0…1 2 5 A ust in A v e .,B ur na by…42 0 52 3 2…3. 8 3…R e m o v e d R e t a ine d Sc i,E ng ,B usC ou n tr y A ge ran ge C ity R em oved E xc l,V G , . .G e n d e r M a j o r B i r t h _ r e g i o n A g e _ r a n g e R e s i d e n c e G P A C o u n t M S c i e n c e C a n a d a 2 0 2 5 R i c h mo n d V e r y g o o d 1 6 F S c i e n c e F o