【文章內容簡介】
挖掘,即單維、單層、布爾關聯(lián)規(guī)則的挖掘。 ? 交易號 項集 T r a n s a ct i o n I D I t e m s B o u g h t2022 A , B , C1000 A , C4000 A , D5000 B , E , FF r e q u e n t I te m s e t S u p p o r t{ A } 75%{ B } 50%{ C} 50%{ A ,C} 50%最小支持度 50% 最小置信度 50% ? 對規(guī)則 A ? C, 其支持度 =50% ? 置信度 %)(s up/)(s up)(/)()|( )( ??????? Apo r tCApo r tAPCAPACPCAc on f i de nc e)( )(s up CAPCApo r t ???Apriori算法 (1) ? Apriori算法是挖掘布爾關聯(lián)規(guī)則頻繁項集的算法 ? Apriori算法利用的是 Apriori性質: 頻繁項集的所有非空子集也必須是頻繁的。 ? 模式不可能比 A更頻繁的出現(xiàn) ? Apriori算法是反單調的,即一個集合如果不能通過測試,則該集合的所有超集也不能通過相同的測試。 ? Apriori性質通過減少搜索空間,來提高頻繁項集逐層產生的效率 BA?Apriori算法 (2) ? Apriori算法利用頻繁項集性質的先驗知識( prior knowledge),通過逐層搜索的迭代方法,即將 k項集用于探察 (k+1)項集,來窮盡數(shù)據集中的所有頻繁項集。 ? 先找到頻繁 1項集集合 L1,然后用 L1找到頻繁 2項集集合 L2,接著用 L2找 L3,直到找不到頻繁 k項集,找每個 Lk需要一次數(shù)據庫掃描。 Apriori算法步驟 ? Apriori算法由 連接 和 剪枝 兩個步驟組成。 ? 連接 : 為了找 Lk,通過 Lk1與自己連接產生候選 k項集的集合,該 候選 k項集 記為 Ck。 ? Lk1中的兩個元素 L1和 L2可以執(zhí)行連接操作 的條件是 ? Ck是 Lk的超集,即它的成員可能不是頻繁的,但是所有頻繁的 k項集都在 Ck中(為什么?)。因此可以通過掃描數(shù)