【正文】
―am‖的條件模式庫(kù) : (fc:3) {} f:3 c:3 am條件 FPtree ―cm‖的條件模式 : (f:3) {} f:3 cm條件 FPtree ―cam‖條件模式庫(kù) : (f:3) {} f:3 cam條件 FPtree 2021116 數(shù)據(jù)挖掘:概念和技術(shù) 28 特例 : FPtree 中的 唯一 前綴路徑 ? 假定一個(gè) (條件 ) FPtree T 又一個(gè)共享唯一前綴路徑 P ? 挖掘可分解為如下兩個(gè)步驟 ? 用一個(gè)節(jié)點(diǎn)代替此前綴路徑 P ? 分別計(jì)算這兩個(gè)部分的結(jié)果 ? a2:n2 a3:n3 a1:n1 {} b1:m1 C1:k1 C2:k2 C3:k3 b1:m1 C1:k1 C2:k2 C3:k3 r1 + a2:n2 a3:n3 a1:n1 {} r1 = 2021116 數(shù)據(jù)挖掘:概念和技術(shù) 29 頻繁集增長(zhǎng)的原理 ? 模式增長(zhǎng)的特征 ? 令 ? 為 DB的一個(gè)頻繁集, B 為 ? 的條件模式庫(kù), ? 是 B中的一個(gè)項(xiàng),要使 ? ? ? 是 DB中的頻繁集,當(dāng)且僅當(dāng) ? 是 B 的頻繁項(xiàng) . ? ―abcdef ‖ 是頻繁集 ,當(dāng)且僅當(dāng) ? ―abcde ‖ 是頻繁集 , 且 ? ―f ‖ 在包含 “ abcde ‖的事務(wù)中是頻繁的。 2021116 數(shù)據(jù)挖掘:概念和技術(shù) 30 為什么 頻繁集增長(zhǎng) 速度快? ? 我們的性能研究顯示 ? FPgrowth 比 Apriori快一個(gè)數(shù)量級(jí) , 同樣也比 treeprojection 快。 ? 原因 ? 不生成候選集,不用候選測(cè)試。 ? 使用緊縮的數(shù)據(jù)結(jié)構(gòu) ? 避免重復(fù)數(shù)據(jù)庫(kù)掃描 ? 基本操作是計(jì)數(shù)和建立 FPtree 樹(shù) 2021116 數(shù)據(jù)挖掘:概念和技術(shù) 31 FPgrowth vs. Apriori: 相對(duì)于支持度的擴(kuò)展性 01020304050607080901000 0 . 5 1 1 . 5 2 2 . 5 3S u p p o r t t h r e s h o l d ( % )Run time(sec.)D 1 F P g r o w t h r u n t i m eD 1 A p r i o r i r u n t i m eData set T25I20D10K 2021116 數(shù)據(jù)挖掘:概念和技術(shù) 32 FPgrowth vs. TreeProjection:相對(duì)于支持度的擴(kuò)展性 0204060801001201400 0 . 5 1 1 . 5 2S u p p o r t t h r e s h o l d ( % )Runtime (sec.)D 2 F P g r o w t hD 2 T r e e P r o j e c t i o nData set T25I20D100K 2021116 數(shù)據(jù)挖掘:概念和技術(shù) 33 關(guān)聯(lián)規(guī)則結(jié)果顯示 (Table Form ) 2021116 數(shù)據(jù)挖掘:概念和技術(shù) 34 關(guān)聯(lián)規(guī)則可視化 Using Plane Graph 2021116 數(shù)據(jù)挖掘:概念和技術(shù) 35 關(guān)聯(lián)規(guī)則可視化 Using Rule Graph 2021116 數(shù)據(jù)挖掘:概念和技術(shù) 36 冰山查詢 ? 冰山查詢 : 在一個(gè)或多個(gè)屬性上做聚合,只有當(dāng)聚合的值高于指定的值時(shí)才做計(jì)算 ? 舉例: select , , sum() from purchase P group by , having sum() = 10 ? 用 Apriori提高 執(zhí)行 冰山查詢的效率 ? 先計(jì)算低維 ? 只有當(dāng) 所有的 低維都滿足預(yù)制時(shí)才計(jì)算高維