freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

[理學]數(shù)據(jù)挖掘第三節(jié)——關(guān)聯(lián)規(guī)則挖掘(已修改)

2024-12-20 00:53 本頁面
 

【正文】 關(guān)聯(lián)關(guān)系 一個來自沃爾瑪超市的真實案例,尿布與啤酒這兩種 風馬牛不相及 的商品居然擺在一起。但這一奇怪的舉措居然使尿布和啤酒的稍量大幅增加了。這可不是一個笑話,而是一直被商家所津津樂道的發(fā)生在美國沃爾瑪 連鎖超市 的真實案例。原來,美國的婦女通常在家照顧孩子,所以她們經(jīng)常會囑咐丈夫在下班回家的路上為孩子買尿布,而丈夫在買尿布的同時又會順手購買自己愛喝的啤酒。這個發(fā)硯為商家?guī)砹舜罅康睦麧?,但是如何從浩如煙海卻又雜亂無章的數(shù)據(jù)中,發(fā)現(xiàn)啤酒和尿布銷售之間的聯(lián)系呢?這又給了我們什么樣的啟示呢? 購物籃分析 “ 啤酒和尿布 ” 的故事是營銷屆的神話,“ 啤酒 ” 和 “ 尿布 ” 兩個看上去沒有關(guān)系的商品擺放在一起進行銷售、并獲得了很好的銷售收益,這種現(xiàn)象就是賣場中商品之間的關(guān)聯(lián)性,研究 “ 啤酒與尿布 ” 關(guān)聯(lián)的方法就是購物籃分析,購物籃分析是沃爾瑪秘而不宣的獨門武器,購物籃分析可以幫助我們在門店的銷售過程中找到具有 關(guān)聯(lián)關(guān)系 的商品,并以此獲得銷售收益的增長! D={牛肉,雞肉,牛奶,奶酪,靴子,衣服, ?..} ? t1: 牛肉、雞肉、牛奶 ? t2: 牛肉、奶酪 ? t3: 奶酪、靴子 ? t4: 牛肉、雞肉、奶酪 ? t5: 牛肉、雞肉、衣服、奶酪、牛奶 ? t6: 雞肉、衣服、牛奶 ? t7: 雞肉、牛奶、衣服 ? .............. ? 如何從客戶購物籃中找出具有關(guān)聯(lián)關(guān)系的商品組合呢? ? 關(guān)聯(lián)規(guī)則反映一個事物與其他事物之間的相互依存性和關(guān)聯(lián)性。如果兩個或者多個事物之間存在一定的關(guān)聯(lián)關(guān)系,那么,其中一個事物就能夠通過其他事物預(yù)測到。 ? 典型的關(guān)聯(lián)規(guī)則發(fā)現(xiàn)問題是對超市中的貨籃數(shù)據(jù)( Market Basket)進行分析。通過發(fā)現(xiàn)顧客放入貨籃中的不同商品之間的關(guān)系來分析顧客的購買習慣。 關(guān)聯(lián)規(guī)則簡介 ? 關(guān)聯(lián)規(guī)則 (Association Rule Mining)挖掘是數(shù)據(jù)挖掘中最活躍的研究方法之一 ? 最早是由 ? 其目的是為了發(fā)現(xiàn)超市交易數(shù)據(jù)庫中不同商品之間的關(guān)聯(lián)關(guān)系 。 ? 一個典型的關(guān)聯(lián)規(guī)則的例子是: 70%購買了牛奶的顧客將傾向于同時購買面包 。 ? 經(jīng)典的關(guān)聯(lián)規(guī)則挖掘算法: Apriori算法和 FPgrowth算法 關(guān)聯(lián)規(guī)則挖掘 1. 購物籃分析-引發(fā)關(guān)聯(lián)規(guī)則挖掘的例子 ? 問題: “ 什么商品組或集合顧客多半會在一次購物中同時購買 ? ” ? 購物籃分析:設(shè)全域為商店出售的商品的集合 ( 即項目全集 ) , 一次購物購買 ( 即事務(wù) ) 的商品為項目全集的子集 ,通過對購物籃清單的分析 , 得到反映商品頻繁關(guān)聯(lián)或同時購買的購買模式 。 這些模式可用關(guān)聯(lián)規(guī)則描述 。 〖 例 1〗 購買計算機與購買財務(wù)管理軟件的關(guān)聯(lián)規(guī)則可表示為: puter financial_management_software [support=2%,confidence=60%] support為支持度 , confidence為置信度 。 該規(guī)則表示:在所分析的全部事務(wù)中 , 有 2% 的事務(wù)同時購買計算機和財務(wù)管理軟件;在購買計算機的顧客中 60% 也購買了財務(wù)管理軟件 。 理解:關(guān)聯(lián)分析中的三個重要的概念 舉例: 10000個人購買了產(chǎn)品,其中購買 A產(chǎn)品的人是 1000個,購買 B產(chǎn)品的人是 2022個, AB同時購買的人是 800個。 支持度 指的是關(guān)聯(lián)的產(chǎn)品(假定 A產(chǎn)品和 B產(chǎn)品關(guān)聯(lián))同時購 買的人數(shù)占總?cè)藬?shù)的比例,即 800/10000=8%,有 8%的用戶 同時購買了 A和 B兩個產(chǎn)品; 可信度 指的是在購買了一個產(chǎn)品之后購買另外一個產(chǎn)品的可能 性,如購買了 A產(chǎn)品之后購買 B產(chǎn)品的可信度 =800/1000=80% 支持度 可信度 〖 定義 4- 2〗 關(guān)聯(lián)規(guī)則 X?Y對事物集 D的支持度( support) 定義為 D中包含有事務(wù) X和 Y的百分比 。 關(guān)聯(lián)規(guī)則 X?Y對事務(wù)集合 D的置信度 ( confidence) 定義為 D中包含有 X的事務(wù)數(shù)與同時包含 Y的百分比 。 即: l support(X?Y)= (包含 X和 Y的事務(wù)數(shù) /事務(wù)總數(shù) ) 100% l confidence(X?Y)= (包含 X和 Y的事務(wù)數(shù) /包含 X的事務(wù)數(shù) ) 100% 〖 定義 4- 3〗 置信度和支持度均大于給定閾值 ( 即最小置信度閾值和最小支持度閾值 ) 。 即: support(X?Y) = min_sup confidence(X?Y) = min_conf 的關(guān)聯(lián)規(guī)則稱為強規(guī)則;否則稱為弱規(guī)則 。 數(shù)據(jù)挖掘主要就是對強規(guī)則的挖掘 。 通過設(shè)置最小支持度和最小置信度可以了解某些數(shù)據(jù)之間的關(guān)聯(lián)程度 。 強規(guī)則 X?Y對應(yīng)的項集 ( X∪Y ) 必定是頻繁集 。 因此 , 可以把關(guān)聯(lián)規(guī)則挖掘劃分為以下兩個子問題: ? 根據(jù)最小支持度找出事務(wù)集 D中的所有頻繁項集 。 ― 核心 ? 根據(jù)頻繁項集和最小置信度產(chǎn)生關(guān)聯(lián)規(guī)則 。 ― 較易 規(guī)則度量:支持度與可信度 ? 查找所有的規(guī)則 X amp。 Y ? Z 具有最小支持度和可信度 ? 支持度 , s, 一次交易中包含 {X 、 Y 、 Z}的可能性 ? 可信度 , c, 包含 {X 、 Y}的交易中也包含 Z的條件概率 交易 ID 購買的商品2022 A ,B ,C1000 A ,C4000 A ,D5000 B設(shè)最小支持度為 50%, 最小可信度為 50%, 則可得到 ? A ? C (50%, %) ? C ? A (50%, 100%) A B D C AB AC AD BC BD CD 216。 ABC ABD BCD ACD ABCD Transactionid Items bought 10 A, B,C 20 A, C 30 A, D, B 40 B, E, F, c Let min_support = 50%, min_conf = 50%: Customer buys diaper Customer buys both Customer buys beer For rule A ? C: support = support({A}?{C}) = 50% confidence = support({A}?{C})/support({A}) = % Min. support 50% Min. confidence 50% Transactionid Items bought 10 A, B, C 20 A, C 30 A, D 40 B, E, F Frequent pattern Support {A} 75% {B} 50% {C} 50% {A, C} 50% ? 關(guān)聯(lián)規(guī)則就是 支持度 和 信任度 分別滿足用戶給定閾值的規(guī)則。 ? 發(fā)現(xiàn)關(guān)聯(lián)規(guī)則需要經(jīng)歷如下兩個步驟: ? 找出所有頻繁項集。 ? 由頻繁項集生成滿足最小信任度閾值的規(guī)則 。 以商場超市的市場數(shù)據(jù)庫為例 , 形式化地描述關(guān)聯(lián)規(guī)則 。 〖 定義 4- 1〗 ? 設(shè) I={i1, i2, … ,im}是項的集合 , 表示各種商品的集合; D= {t1, t2, … ,tn}為交易集 , 表示每筆交易的集合 ( 是全體事務(wù)的集合 ) 。 其中每一個事務(wù) T都是項的集合 , 且有 T?I。 每個事務(wù)都有一個相關(guān)的唯一標識符和它對應(yīng) , 也就是事務(wù)標識符或 TID。 ? 設(shè) X為一個由項目構(gòu)成的集合 , 稱為項集 , 當且僅當 X?T時我們說事務(wù) T包含 X。 ? 項集 X在在事務(wù)數(shù)據(jù)庫 DB中出現(xiàn)的次數(shù)占總事務(wù)的百分比叫做項集的支持度 。 ? 如果項集的支持度超過用戶給定的最小支持度閾值 , 就稱該項集是頻繁項集 ( 或大項集 ) 。 ? 關(guān)聯(lián)規(guī)則是形如 X?Y的蘊含式,其中 X?I, Y?I且X?Y=?,則 X稱為規(guī)則的條件, Y稱為規(guī)則的結(jié)果。 ? 如果事務(wù)數(shù)據(jù)庫 DB中有 s%的事務(wù)包含 X?Y,則稱關(guān)聯(lián)規(guī)則 X?Y的支持度為 s%。支持度是一個概率值。 2. 關(guān)聯(lián)規(guī)則 關(guān)聯(lián) ( Associations) 分析的目的是為了挖掘隱藏在數(shù)據(jù)間的相互關(guān)系 , 即對于給定的一組項目和一個記錄集, 通過對記錄集的分析 , 得出項目集中的項目之間的相關(guān)性 。 項目
點擊復(fù)制文檔內(nèi)容
教學課件相關(guān)推薦
文庫吧 www.dybbs8.com
公安備案圖鄂ICP備17016276號-1