freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘05數(shù)據(jù)立方體(文件)

2025-06-02 03:06 上一頁面

下一頁面
 

【正文】 對比類的主泛化關(guān)系 : 本科生 類比較描述的量化判別規(guī)則表示( 1) ? 類比較描述中的目標類和對比類的區(qū)分特性也可以用量化規(guī)則來表示,即量化判別規(guī)則 ? 量化判別規(guī)則使用 dweight作為興趣度度量 ( ? qa-概化元組 ? Cj-目標類 ? qa的 dweight是初始目標類工作關(guān)系中被 qa覆蓋的元組數(shù) 與 初始目標類和對比類工作關(guān)系中被 qa覆蓋的總元組數(shù)的比 ??????miiaja)Cc o u n t ( q)Cc o u n t ( qw e i g h td1類比較描述的量化判別規(guī)則表示( 2) ? 目標類中較高的 dweight表明概化元組所代表的概念主要來自于目標類 ? 較低的 dweight值則表明該概念主要來自于對比類 St a t u s B i r t h _ c o u n t r y A g e _ r a n g e G p a C o u n tG r a d u a t e C a n a d a 2 5 3 0 G o o d 90U n d e r g r a d u a t e C a n a d a 2 5 3 0 G o o d 2 1 0對給定的 status=“Graduate”, Birth_coutry=“Canada”, Age_range=“2530”, Gpa=“Good” 概化元組,其 dweight=90/(90+210)=30% (什么意思? ) 類比較描述的量化判別規(guī)則表示( 3) ? 使用類比較描述的量化判別規(guī)則表示可以更好的描述上述的情況,其形式為: ? 比如,剛才的挖掘結(jié)果可以使用量化判別規(guī)則表達如下: ? 請注意該區(qū)分規(guī)則表達的是充分條件,即 X滿足條件,則 X為研究生的概率為 30% (特征化量化規(guī)則表達的是什么條件? ) ] :[ )()(_a r g , w e i g h tddXc o n d i t i o nXc l a s settX ???%]30:[)(3025)(_)(_)(_,dgoodXgpaXr an geageCa na daXc ou nt r ybi r t hXs t ud e ntgr ad ua t eX????????類描述:特征化和比較的表示 ? 類特征化和類比較是形成類描述的兩個方面,我們可以通過綜合類特征化規(guī)則和類區(qū)分規(guī)則來形成類描述規(guī)則。 ? 本科生 VS. 研究生 ; student VS. address ? 很多應(yīng)用于類特征化的技巧(處理單個類的多層數(shù)據(jù)的匯總和特征化)可以應(yīng)用于類比較,比如屬性泛化 ? 屬性泛化必須在所有比較類上同步進行,將屬性泛化到同一抽象層后進行比較。也就是說,目標類的所有元組必須滿足該條件。 2. 數(shù)據(jù)挖掘查詢 DMQuery。 ? 受數(shù)據(jù)類型和度量類型的約束比較少 ? 面向?qū)傩詺w納的基本思想: ? 使用關(guān)系數(shù)據(jù)庫查詢收集任務(wù)相關(guān)的數(shù)據(jù) ? 通過考察任務(wù)相關(guān)數(shù)據(jù)中每個屬性的不同值的個數(shù)進行泛化,方法是屬性刪除或者是屬性泛化 ? 通過合并相等的,泛化的廣義元組,并累計他們對應(yīng)的計數(shù)值進行聚集操作 ? 通過與用戶交互,將廣義關(guān)系以圖表或規(guī)則等形式,提交給用戶 數(shù)據(jù)聚焦 ( 1) ? 目的是獲得跟任務(wù)相關(guān)的數(shù)據(jù)集,包括屬性或維,在DMQL中他們由 in relevance to子句表示。比如: ? COMPUTE CUBE Sales_Iceberg AS ? SELECT month, city, cust_grp, COUNT(*) ? FROM Sales_Info ? CUBE BY month, city, cust_grp ? HAVING COUNT(*) = min_sup 閉立方體 (1) ? 冰山方體的計算通過冰山條件(例: HAVING COUNT(*) = min_sup)來減輕計算數(shù)據(jù)立方體中不重要的聚集單元的負擔(dān),然而仍有大量不感興趣的單元需要計算 ? 比如:最小支持度為 10,假定 100維的數(shù)據(jù)立方體有兩個基本方體: {(a1,a2,a3,…,a 100):10, (a1,a2,b3,…,b 100):10},假設(shè)冰山條件為最小支持度10 ? 則需計算和存儲的單元仍是海量: 21016個 ? 如: (a1,a2,a3,…,a 99,*):10, (a1,*,a3,…,a 100):10 閉立方體 (2) ? 閉單元 ? 一個單元 c是閉單元,如果單元 c不存在一個跟 c有著相同度量值的后代 d ? 例如:上述例子中,任何一個 (a1,a2,a3,*,*,…,* ):10,都和他的后代有相同度量值 ? 閉立方體:一個僅有閉單元組成的數(shù)據(jù)立方體 ? 例如: (a1,a2,*,*,…,* ):20 (a1,a2,a3,…, a 100):10 (a1,a2,b3,…, b 100):10 立方體外殼 ? 部分物化的另外一種策略:僅預(yù)計算涉及少數(shù)維的方體(比如 3到 5維),這些立方體形成對應(yīng)數(shù)據(jù)立方體的外殼 ? 利用外殼對其他的維組合查詢進行快速計算 ? 仍將導(dǎo)致大量方體( n很大時),類似的我們可以利用方體的興趣度,選擇只預(yù)計算立方體外殼的部分 立方體計算的一般策略 (1) ? 一般,有兩種基本結(jié)構(gòu)用于存儲方體 ? 關(guān)系 OLAP( ROLAP) ? 底層使用關(guān)系模型存儲數(shù)據(jù) ? 多維 OLAP( MOLAP) ? 底層使用多維數(shù)組存儲數(shù)據(jù) ? 無論使用哪種存儲方法,都可以使用以下立方體計算的一般優(yōu)化技術(shù) ? 優(yōu)化技術(shù) 1:排序、散列和分組 ? 將排序、散列 (hashing)和分組操作應(yīng)用于維的屬性,以便對相關(guān)元組重新排序和聚類 立方體計算的一般策略 (2) ? 優(yōu)化技術(shù) 2:同時聚集和緩存中間結(jié)果 ? 由先前計算的較低層聚集來計算較高層聚集,而非從基本方體開始計算,減少 I/O ? 優(yōu)化方法 3:當(dāng)存在多個子女時,由最小的子女聚集 ? 例如,
點擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1