freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

[理學]數(shù)據(jù)挖掘第三節(jié)——關(guān)聯(lián)規(guī)則挖掘-展示頁

2024-12-17 00:53本頁面
  

【正文】 tomer buys diaper Customer buys both Customer buys beer For rule A ? C: support = support({A}?{C}) = 50% confidence = support({A}?{C})/support({A}) = % Min. support 50% Min. confidence 50% Transactionid Items bought 10 A, B, C 20 A, C 30 A, D 40 B, E, F Frequent pattern Support {A} 75% {B} 50% {C} 50% {A, C} 50% ? 關(guān)聯(lián)規(guī)則就是 支持度 和 信任度 分別滿足用戶給定閾值的規(guī)則。 ― 較易 規(guī)則度量:支持度與可信度 ? 查找所有的規(guī)則 X amp。 因此 , 可以把關(guān)聯(lián)規(guī)則挖掘劃分為以下兩個子問題: ? 根據(jù)最小支持度找出事務集 D中的所有頻繁項集 。 通過設置最小支持度和最小置信度可以了解某些數(shù)據(jù)之間的關(guān)聯(lián)程度 。 即: support(X?Y) = min_sup confidence(X?Y) = min_conf 的關(guān)聯(lián)規(guī)則稱為強規(guī)則;否則稱為弱規(guī)則 。 關(guān)聯(lián)規(guī)則 X?Y對事務集合 D的置信度 ( confidence) 定義為 D中包含有 X的事務數(shù)與同時包含 Y的百分比 。 理解:關(guān)聯(lián)分析中的三個重要的概念 舉例: 10000個人購買了產(chǎn)品,其中購買 A產(chǎn)品的人是 1000個,購買 B產(chǎn)品的人是 2022個, AB同時購買的人是 800個。 〖 例 1〗 購買計算機與購買財務管理軟件的關(guān)聯(lián)規(guī)則可表示為: puter financial_management_software [support=2%,confidence=60%] support為支持度 , confidence為置信度 。 ? 經(jīng)典的關(guān)聯(lián)規(guī)則挖掘算法: Apriori算法和 FPgrowth算法 關(guān)聯(lián)規(guī)則挖掘 1. 購物籃分析-引發(fā)關(guān)聯(lián)規(guī)則挖掘的例子 ? 問題: “ 什么商品組或集合顧客多半會在一次購物中同時購買 ? ” ? 購物籃分析:設全域為商店出售的商品的集合 ( 即項目全集 ) , 一次購物購買 ( 即事務 ) 的商品為項目全集的子集 ,通過對購物籃清單的分析 , 得到反映商品頻繁關(guān)聯(lián)或同時購買的購買模式 。 關(guān)聯(lián)規(guī)則簡介 ? 關(guān)聯(lián)規(guī)則 (Association Rule Mining)挖掘是數(shù)據(jù)挖掘中最活躍的研究方法之一 ? 最早是由 ? 其目的是為了發(fā)現(xiàn)超市交易數(shù)據(jù)庫中不同商品之間的關(guān)聯(lián)關(guān)系 。 ? 典型的關(guān)聯(lián)規(guī)則發(fā)現(xiàn)問題是對超市中的貨籃數(shù)據(jù)( Market Basket)進行分析。這個發(fā)硯為商家?guī)砹舜罅康睦麧?,但是如何從浩如煙海卻又雜亂無章的數(shù)據(jù)中,發(fā)現(xiàn)啤酒和尿布銷售之間的聯(lián)系呢?這又給了我們什么樣的啟示呢? 購物籃分析 “ 啤酒和尿布 ” 的故事是營銷屆的神話,“ 啤酒 ” 和 “ 尿布 ” 兩個看上去沒有關(guān)系的商品擺放在一起進行銷售、并獲得了很好的銷售收益,這種現(xiàn)象就是賣場中商品之間的關(guān)聯(lián)性,研究 “ 啤酒與尿布 ” 關(guān)聯(lián)的方法就是購物籃分析,購物籃分析是沃爾瑪秘而不宣的獨門武器,購物籃分析可以幫助我們在門店的銷售過程中找到具有 關(guān)聯(lián)關(guān)系 的商品,并以此獲得銷售收益的增長! D={牛肉,雞肉,牛奶,奶酪,靴子,衣服, ?..} ? t1: 牛肉、雞肉、牛奶 ? t2: 牛肉、奶酪 ? t3: 奶酪、靴子 ? t4: 牛肉、雞肉、奶酪 ? t5: 牛肉、雞肉、衣服、奶酪、牛奶 ? t6: 雞肉、衣服、牛奶 ? t7: 雞肉、牛奶、衣服 ? .............. ? 如何從客戶購物籃中找出具有關(guān)聯(lián)關(guān)系的商品組合呢? ? 關(guān)聯(lián)規(guī)則反映一個事物與其他事物之間的相互依存性和關(guān)聯(lián)性。這可不是一個笑話,而是一直被商家所津津樂道的發(fā)生在美國沃爾瑪 連鎖超市 的真實案例。關(guān)聯(lián)關(guān)系 一個來自沃爾瑪超市的真實案例,尿布與啤酒這兩種 風馬牛不相及 的商品居然擺在一起。但這一奇怪的舉措居然使尿布和啤酒的稍量大幅增加了。原來,美國的婦女通常在家照顧孩子,所以她們經(jīng)常會囑咐丈夫在下班回家的路上為孩子買尿布,而丈夫在買尿布的同時又會順手購買自己愛喝的啤酒。如果兩個或者多個事物之間存在一定的關(guān)聯(lián)關(guān)系,那么,其中一個事物就能夠通過其他事物預測到。通過發(fā)現(xiàn)顧客放入貨籃中的不同商品之間的關(guān)系來分析顧客的購買習慣。 ? 一個典型的關(guān)聯(lián)規(guī)則的例子是: 70%購買了牛奶的顧客將傾向于同時購買面包 。 這些模式可用關(guān)聯(lián)規(guī)則描述 。 該規(guī)則表示:在所分析的全部事務中 , 有 2% 的事務同時購買計算機和財務管理軟件;在購買計算機的顧客中 60% 也購買了財務管理軟件 。 支持度 指的是關(guān)聯(lián)的產(chǎn)品(假定 A產(chǎn)品和 B產(chǎn)品關(guān)聯(lián))同時購 買的人數(shù)占總?cè)藬?shù)的比例,即 800/10000=8%,有 8%的用戶 同時購買了 A和 B兩個產(chǎn)品; 可信度 指的是在購買了一個產(chǎn)品之后購買另外一個產(chǎn)品的可能 性,如購買了 A產(chǎn)品之后購買 B產(chǎn)品的可信度 =800/1000=80% 支持度 可信度 〖 定義 4- 2〗 關(guān)聯(lián)規(guī)則 X?Y對事物集 D的支持度( support) 定義為 D中包含有事務 X和 Y的百分比 。 即: l support(X?Y)= (包含 X和 Y的事務數(shù) /事務總數(shù) ) 100% l confidence(X?Y)= (包含 X和 Y的事務數(shù) /包含 X的事務數(shù) ) 100% 〖 定義 4- 3〗 置信度和支持度均大于給定閾值 ( 即最小置信度閾值和最小支持度閾值 ) 。 數(shù)據(jù)挖掘主要就是對強規(guī)則的挖掘 。 強規(guī)則 X?Y對應的項集 ( X∪Y ) 必定是頻繁集 。 ― 核心 ? 根據(jù)頻繁項集和最小置信度產(chǎn)生關(guān)聯(lián)規(guī)則 。 Y ? Z 具有最小支持度和可信度 ? 支持度 , s, 一次交易中包含 {X 、 Y 、 Z}的可能性 ? 可信度 , c, 包含 {X 、 Y}的交易中也包含 Z的條件概率 交易 ID 購買的商品2022 A ,B ,C1000 A ,C4000 A ,D5000 B設最小支持度為 50%, 最小可信度為 50%, 則可得到 ? A ? C (50%, %) ? C ? A (50%, 100%) A B D C AB AC AD BC BD CD 216。 ? 發(fā)現(xiàn)關(guān)聯(lián)規(guī)則需要經(jīng)歷如下兩個步驟: ? 找出所有頻繁項集。 以商場超市的市場數(shù)據(jù)庫為例 , 形式化地描述關(guān)聯(lián)規(guī)則 。 其中每一個事務 T都是項的集合 , 且有 T?I。 ? 設 X為一個由項目構(gòu)成的集合 , 稱為項集 , 當且僅當 X?T時我們說事務 T包含 X。 ? 如果項集的支持度超過用戶給定的最小支持度閾值 , 就稱該項集是頻繁項集 ( 或大項集 ) 。 ? 如果事務數(shù)據(jù)庫 DB中有 s%的事務包含 X?Y,則稱關(guān)聯(lián)規(guī)則 X?Y的支持度為 s%。 2. 關(guān)聯(lián)規(guī)則 關(guān)聯(lián) ( Associations) 分析的目的是為了挖掘隱藏在數(shù)據(jù)間的相互關(guān)系 , 即對于給定的一組項目和一個記錄集, 通過對記錄集的分析 , 得出項目集中的項目之間的相關(guān)性 。 一個簡單事務數(shù)據(jù)庫模型 數(shù)據(jù)庫 DB: TID 項 001 ACD 002 BCE 003 ABCE 004 BE 表 41 3. 關(guān)聯(lián)規(guī)則挖掘 關(guān)聯(lián)規(guī)則挖掘: 給定一組 Item和記錄集合 , 挖掘出 Item間的相關(guān)性 , 使其置信度和支持度分別大于用戶給定的最小置信度和最小支持度 。 ? 布爾型關(guān)聯(lián)規(guī)則:如果規(guī)則考慮的關(guān)聯(lián)是項 “ 在 ” 或“ 不在 ” , 則關(guān)聯(lián)規(guī)則是布爾型的 。 ? 量化型關(guān)聯(lián)規(guī)則:如果描述的是量化的項或?qū)傩灾g的關(guān)聯(lián) , 則該規(guī)則是量化型的關(guān)聯(lián)規(guī)則 。 例如: 性別 =“女 ” =職業(yè) =“秘書 ” , 是 布爾型關(guān)聯(lián)規(guī)則; 性別 =“女 ” =avg( 月收入 ) =2300, 涉及的收入是數(shù)值類型 , 所以是一個 量化型關(guān)聯(lián)規(guī)則 。 ? 單層的關(guān)聯(lián)規(guī)則: 所有的變量都不涉及不同抽象層次的項或?qū)傩?。 ? 多層的關(guān)聯(lián)規(guī)則: 變量涉及不同抽象層次的項或?qū)傩?。 ( 3) 基于規(guī)則中涉
點擊復制文檔內(nèi)容
教學課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1