【正文】
對比類的主泛化關(guān)系 : 本科生 類比較描述的量化判別規(guī)則表示( 1) ? 類比較描述中的目標(biāo)類和對比類的區(qū)分特性也可以用量化規(guī)則來表示,即量化判別規(guī)則 ? 量化判別規(guī)則使用 dweight作為興趣度度量 ( ? qa-概化元組 ? Cj-目標(biāo)類 ? qa的 dweight是初始目標(biāo)類工作關(guān)系中被 qa覆蓋的元組數(shù) 與 初始目標(biāo)類和對比類工作關(guān)系中被 qa覆蓋的總元組數(shù)的比 ??????miiaja)Cc o u n t ( q)Cc o u n t ( qw e i g h td1類比較描述的量化判別規(guī)則表示( 2) ? 目標(biāo)類中較高的 dweight表明概化元組所代表的概念主要來自于目標(biāo)類 ? 較低的 dweight值則表明該概念主要來自于對比類 St a t u s B i r t h _ c o u n t r y A g e _ r a n g e G p a C o u n tG r a d u a t e C a n a d a 2 5 3 0 G o o d 90U n d e r g r a d u a t e C a n a d a 2 5 3 0 G o o d 2 1 0對給定的 status=“Graduate”, Birth_coutry=“Canada”, Age_range=“2530”, Gpa=“Good” 概化元組,其 dweight=90/(90+210)=30% (什么意思? ) 類比較描述的量化判別規(guī)則表示( 3) ? 使用類比較描述的量化判別規(guī)則表示可以更好的描述上述的情況,其形式為: ? 比如,剛才的挖掘結(jié)果可以使用量化判別規(guī)則表達(dá)如下: ? 請注意該區(qū)分規(guī)則表達(dá)的是充分條件,即 X滿足條件,則 X為研究生的概率為 30% (特征化量化規(guī)則表達(dá)的是什么條件? ) ] :[ )()(_a r g , w e i g h tddXc o n d i t i o nXc l a s settX ???%]30:[)(3025)(_)(_)(_,dgoodXgpaXr an geageCa na daXc ou nt r ybi r t hXs t ud e ntgr ad ua t eX????????類描述:特征化和比較的表示 ? 類特征化和類比較是形成類描述的兩個(gè)方面,我們可以通過綜合類特征化規(guī)則和類區(qū)分規(guī)則來形成類描述規(guī)則。 ? 本科生 VS. 研究生 ; student VS. address ? 很多應(yīng)用于類特征化的技巧(處理單個(gè)類的多層數(shù)據(jù)的匯總和特征化)可以應(yīng)用于類比較,比如屬性泛化 ? 屬性泛化必須在所有比較類上同步進(jìn)行,將屬性泛化到同一抽象層后進(jìn)行比較。也就是說,目標(biāo)類的所有元組必須滿足該條件。 2. 數(shù)據(jù)挖掘查詢 DMQuery。 ? 受數(shù)據(jù)類型和度量類型的約束比較少 ? 面向?qū)傩詺w納的基本思想: ? 使用關(guān)系數(shù)據(jù)庫查詢收集任務(wù)相關(guān)的數(shù)據(jù) ? 通過考察任務(wù)相關(guān)數(shù)據(jù)中每個(gè)屬性的不同值的個(gè)數(shù)進(jìn)行泛化,方法是屬性刪除或者是屬性泛化 ? 通過合并相等的,泛化的廣義元組,并累計(jì)他們對應(yīng)的計(jì)數(shù)值進(jìn)行聚集操作 ? 通過與用戶交互,將廣義關(guān)系以圖表或規(guī)則等形式,提交給用戶 數(shù)據(jù)聚焦 ( 1) ? 目的是獲得跟任務(wù)相關(guān)的數(shù)據(jù)集,包括屬性或維,在DMQL中他們由 in relevance to子句表示。比如: ? COMPUTE CUBE Sales_Iceberg AS ? SELECT month, city, cust_grp, COUNT(*) ? FROM Sales_Info ? CUBE BY month, city, cust_grp ? HAVING COUNT(*) = min_sup 閉立方體 (1) ? 冰山方體的計(jì)算通過冰山條件(例: HAVING COUNT(*) = min_sup)來減輕計(jì)算數(shù)據(jù)立方體中不重要的聚集單元的負(fù)擔(dān),然而仍有大量不感興趣的單元需要計(jì)算 ? 比如:最小支持度為 10,假定 100維的數(shù)據(jù)立方體有兩個(gè)基本方體: {(a1,a2,a3,…,a 100):10, (a1,a2,b3,…,b 100):10},假設(shè)冰山條件為最小支持度10 ? 則需計(jì)算和存儲的單元仍是海量: 21016個(gè) ? 如: (a1,a2,a3,…,a 99,*):10, (a1,*,a3,…,a 100):10 閉立方體 (2) ? 閉單元 ? 一個(gè)單元 c是閉單元,如果單元 c不存在一個(gè)跟 c有著相同度量值的后代 d ? 例如:上述例子中,任何一個(gè) (a1,a2,a3,*,*,…,* ):10,都和他的后代有相同度量值 ? 閉立方體:一個(gè)僅有閉單元組成的數(shù)據(jù)立方體 ? 例如: (a1,a2,*,*,…,* ):20 (a1,a2,a3,…, a 100):10 (a1,a2,b3,…, b 100):10 立方體外殼 ? 部分物化的另外一種策略:僅預(yù)計(jì)算涉及少數(shù)維的方體(比如 3到 5維),這些立方體形成對應(yīng)數(shù)據(jù)立方體的外殼 ? 利用外殼對其他的維組合查詢進(jìn)行快速計(jì)算 ? 仍將導(dǎo)致大量方體( n很大時(shí)),類似的我們可以利用方體的興趣度,選擇只預(yù)計(jì)算立方體外殼的部分 立方體計(jì)算的一般策略 (1) ? 一般,有兩種基本結(jié)構(gòu)用于存儲方體 ? 關(guān)系 OLAP( ROLAP) ? 底層使用關(guān)系模型存儲數(shù)據(jù) ? 多維 OLAP( MOLAP) ? 底層使用多維數(shù)組存儲數(shù)據(jù) ? 無論使用哪種存儲方法,都可以使用以下立方體計(jì)算的一般優(yōu)化技術(shù) ? 優(yōu)化技術(shù) 1:排序、散列和分組 ? 將排序、散列 (hashing)和分組操作應(yīng)用于維的屬性,以便對相關(guān)元組重新排序和聚類 立方體計(jì)算的一般策略 (2) ? 優(yōu)化技術(shù) 2:同時(shí)聚集和緩存中間結(jié)果 ? 由先前計(jì)算的較低層聚集來計(jì)算較高層聚集,而非從基本方體開始計(jì)算,減少 I/O ? 優(yōu)化方法 3:當(dāng)存在多個(gè)子女時(shí),由最小的子女聚集 ? 例如,