【正文】
? 使用緊縮的數(shù)據(jù)結(jié)構(gòu) ? 避免重復(fù)數(shù)據(jù)庫掃描 ? 基本操作是計數(shù)和建立 FPtree 樹 2021116 數(shù)據(jù)挖掘:概念和技術(shù) 31 FPgrowth vs. Apriori: 相對于支持度的擴展性 01020304050607080901000 0 . 5 1 1 . 5 2 2 . 5 3S u p p o r t t h r e s h o l d ( % )Run time(sec.)D 1 F P g r o w t h r u n t i m eD 1 A p r i o r i r u n t i m eData set T25I20D10K 2021116 數(shù)據(jù)挖掘:概念和技術(shù) 32 FPgrowth vs. TreeProjection:相對于支持度的擴展性 0204060801001201400 0 . 5 1 1 . 5 2S u p p o r t t h r e s h o l d ( % )Runtime (sec.)D 2 F P g r o w t hD 2 T r e e P r o j e c t i o nData set T25I20D100K 2021116 數(shù)據(jù)挖掘:概念和技術(shù) 33 關(guān)聯(lián)規(guī)則結(jié)果顯示 (Table Form ) 2021116 數(shù)據(jù)挖掘:概念和技術(shù) 34 關(guān)聯(lián)規(guī)則可視化 Using Plane Graph 2021116 數(shù)據(jù)挖掘:概念和技術(shù) 35 關(guān)聯(lián)規(guī)則可視化 Using Rule Graph 2021116 數(shù)據(jù)挖掘:概念和技術(shù) 36 冰山查詢 ? 冰山查詢 : 在一個或多個屬性上做聚合,只有當(dāng)聚合的值高于指定的值時才做計算 ? 舉例: select , , sum() from purchase P group by , having sum() = 10 ? 用 Apriori提高 執(zhí)行 冰山查詢的效率 ? 先計算低維 ? 只有當(dāng) 所有的 低維都滿足預(yù)制時才計算高維 。 2021116 數(shù)據(jù)挖掘:概念和技術(shù) 30 為什么 頻繁集增長 速度快? ? 我們的性能研究顯示 ? FPgrowth 比 Apriori快一個數(shù)量級 , 同樣也比 treeprojection 快。 2021116 數(shù)據(jù)挖掘:概念和技術(shù) 16 Apriori 夠快了嗎 ? — 性能瓶頸 ? Apriori算法的核心 : ? 用頻繁的 (k – 1)項集生成 候選 的頻繁 k項集 ? 用數(shù)據(jù)庫掃描和模式匹配計算候選集的支持度 ? Apriori 的瓶頸 : 候選集生成 ? 巨大的候選集 : ? 104 個頻繁 1項集要生成 107 個候選 2項集 ? 要找尺寸為 100的頻繁模式,如 {a1, a2, …, a100}, 你必須先產(chǎn)生 2100 ? 1030 個候選集 ? 多次掃描數(shù)據(jù)庫 : ? 如果最長的模式是 n的話,則需要 (n +1 ) 次數(shù)據(jù)庫掃描 2021116 數(shù)據(jù)挖掘:概念和技術(shù) 17 挖掘頻繁集 不用生成候選集 ? 用 FrequentPattern tree (FPtree) 結(jié)構(gòu)壓縮數(shù)據(jù)庫 , ? 高度濃縮,同時對頻繁集的挖掘又完備的 ? 避免代價較高的數(shù)據(jù)庫掃描 ? 開發(fā)一種高效的基于 FPtree的頻繁集挖掘算法 ? 采用分而治之的方法學(xué):分解數(shù)據(jù)挖掘任務(wù)為小任務(wù) ? 避免生成關(guān)聯(lián)規(guī)則 : 只使用部分數(shù)據(jù)庫 ! 2021116 數(shù)據(jù)挖掘:概念和技術(shù) 18 用交易數(shù)據(jù)庫建立 FPtree {} f:4 c:1 b:1 p:1 b:1 c:3 a:3 b:1 m:2 p:2 m:1 頭表 Item frequenc