freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

數(shù)據(jù)挖掘5章概念描述:特征化與比較-在線瀏覽

2024-11-03 09:04本頁面
  

【正文】 , trimodal ? Empirical formula: ??? niixnx11?????niiniiiwxwx11cf lfnLm e di anm e d i a n))(2/(1 ????)(3 m e di a nm e anm odem e an ????2020/10/5 42 衡量離散趨勢 ? 四分位數(shù) , 異常 和 盒圖 ? 四分位數(shù) : Q1 (25th percentile), Q3 (75th percentile) ? 中間四分位區(qū)間 : IQR = Q3 – Q1 ? 五數(shù)概括 : min, Q1, M, Q3, max ? 盒圖 : ends of the box are the quartiles, median is marked, whiskers, and plot outlier individually ? 異常 : usually, a value higher/lower than x IQR ? 方差和標準差 ? Variance s2: (algebraic, scalable putation) ? Standard deviation s is the square root of variance s2 ? ?? ? ?? ?????? ni ni iini i xnxnxxns 1 1 221 22 ])(1[11)(112020/10/5 43 盒圖分析 ? 五數(shù)概括 : Minimum, Q1, M, Q3, Maximum ? 盒圖 ? 數(shù)據(jù)用盒子的形式表現(xiàn) ? 盒子的兩端分別是兩個分位數(shù), ., the height of the box is IRQ ? 中位數(shù)用一條線來表示。 ? 方差和標準差都是代數(shù)的 ? ? ?????? ?????? ? ???22122 111)(11iini ixnxnxxns2020/10/5 47 直方圖(頻率直方圖) ? 圖形化表示類描述的基本統(tǒng)計信息 ? 頻率直方圖 2020/10/5 48 分位數(shù)圖 2020/10/5 49 分位數(shù) 分位數(shù) () 圖 2020/10/5 50 散布圖 2020/10/5 51 Loess 曲線 2020/10/5 52 圖形化的表示基本統(tǒng)計描述 ? 直方圖 : ? 盒圖 : ? 分位數(shù)圖 : each value xi is paired with fi indicating that approximately 100 fi % of data are ? xi ? 分位數(shù) 分位數(shù)圖 (qq) : graphs the quantiles of one univariant distribution against the corresponding quantiles of another ? 散布圖 : each pair of values is a pair of coordinates and plotted as points in the plane ? Loess (local regression) 曲線 : add a smooth curve to a scatter plot to provide better perception of the pattern of dependence 2020/10/5 53 特征化和比較 ? 什么是概念描述 ? ? 數(shù)據(jù)概化和基于匯總的特征化 ? 分析特征化 : 分析屬性之間的關聯(lián)性 ? 挖掘類比較 :獲取不同類之間的不同處 ? 在大型數(shù)據(jù)庫中挖掘描述統(tǒng)計度量 ? 討論 ? 總結 2020/10/5 54 面向屬性的歸納 vs. 示例學習方法 ? 原理和基本假設的不同 ? 機器學習:正負樣本。 ? 訓練樣本集的大小 ? 機器學習:訓練樣本集小 ? 概念描述:訓練樣本集大。 ? 應用: ? 購物籃分析 、 交叉銷售、產品目錄設計 、 賠本銷售分析( lossleader analysis) 、 聚集、分類等。 Y ? Z 具有最小支持度和可信度 ? 支持度 , s, 一次交易中包含{X 、 Y 、 Z}的 可能性 ? 置信度 , c, 包含 {X 、 Y}的交易中也包含 Z的 條件概率 交易 ID 購買的商品2020 A ,B ,C1000 A ,C4000 A ,D5000 B ,E ,F設最小支持度為 50%, 最小可信度為 50%, 則可得到 ? A ? C (50%, %) ? C ? A (50%, 100%) 買尿布的客戶 二者都買的客戶 買啤酒的客戶 2020/10/5 60 數(shù)據(jù)挖掘:概念和技術 60關聯(lián)規(guī)則挖掘:路線圖 ? 布爾 vs. 定量 關聯(lián) (基于規(guī)則中所處理數(shù)據(jù)的值類型 ) ? buys(x, ―SQLServer‖) ^ buys(x, ―DMBook‖) ???buys(x, ―DBMiner‖) [%, 60%] ? age(x, ―30..39‖) ^ ine(x, ―42..48K‖) ???buys(x, ―PC‖) [1%, 75%] ? 單維 vs. 多維 關聯(lián) (基于規(guī)則中涉及的數(shù)據(jù)維 )(例子同上 ) ? 單層 vs. 多層 分析 (基于規(guī)則集所涉及的抽象層 ) ? 那個品種牌子的啤酒與那個牌子的尿布有關系 ? ? 各種擴展 ? 相關性、因果分析 ?關聯(lián)并不一定意味著相關或因果 ? 最大模式和閉合項集 2020/10/5 61 數(shù)據(jù)挖掘:概念和技術 61第 6章:從大數(shù)據(jù)庫中挖掘關聯(lián)規(guī)則 ? 關聯(lián)規(guī)則挖掘 ? ? ? ? ? ? 2020/10/5 62 數(shù)據(jù)挖掘:概念和技術 62關聯(lián)規(guī)則挖掘 —一個例子 對于 A ? C: support = support({A 、 C}) = 50% confidence = support({A 、 C})/support({A}) = % Apriori的基本思想 : 頻繁項集的任何子集也一定是頻繁的 交易 ID 購買商品2020 A ,B ,C1000 A ,C4000 A ,D5000 B ,E ,F頻繁項集 支持度{ A } 75%{ B } 50%{ C} 50%{ A ,C} 50%最小值尺度 50% 最小可信度 50% 2020/10/5 63 數(shù)據(jù)挖掘:概念和技術 63關鍵步驟:挖掘頻繁集 ? 頻繁集 :是指滿足最小支持度的項目集合 ? 頻繁集的子集也一定是頻繁的 ? 如 , 如果 {AB} 是頻繁集,則 {A} {B} 也一定是頻繁集 ? 從 1到 k( k頻繁集)遞歸查找頻繁集 ? 用得到的頻繁集生成關聯(lián)規(guī)則 2020/10/5 64 數(shù)據(jù)挖掘:概念和技術 64Apriori算法 ? 連接 : 用 Lk1自連接得到候選 k項集 Ck ? 修剪 : 一個 k項集,如果他的一個 k1項集(他的子集 )不是頻繁的,那他本身也不可能是頻繁的。 for (k = 2。 k++) do begin Ck = candidates generated from Lk1。 2020/10/5 65 數(shù)據(jù)挖掘:概念和技術 65Apriori算法 — 例子 T ID Ite m s100 1 3 4200 2 3 5300 1 2 3 5400 2 5數(shù)據(jù)庫 D ite m s e t s u p .{ 1 } 2{ 2 } 3{ 3 } 3{ 4 } 1{ 5 } 3i te m s e t s u p .{ 1 } 2{ 2 } 3{ 3 } 3{ 5 } 3掃描 D C1 L1 item set{1 2}{1 3}{1 5}{2 3}{2 5}{3 5}ite m s et s up{ 1 2} 1{ 1 3} 2{ 1 5} 1{ 2 3} 2{ 2 5} 3{ 3 5} 2ite m s e t s u p{ 1 3 } 2{ 2 3 } 2{ 2 5 } 3{ 3 5 } 2L2 C2 C2 掃描 D C3 L3 item set{2 3 5}掃描 D ite m s e t s u p{ 2 3 5 } 22020/10/5 66 數(shù)據(jù)挖掘:概念和技術 66如何生成候選集 ? 假定 Lk1 中的項按順序排列 ? 第一步 : 自連接 Lk1 insert into Ck select , , …, k1, from Lk1 p, Lk1 q where =, …, k2=, ? 第二步 : 修剪 For all itemsets c in Ck do For all (k1)subsets s of c do if (s is not in Lk1) then delete c from Ck 2020/10/5 67 數(shù)據(jù)挖掘:概念和技術 67? 計算支持度為什么會成為一個問題 ? ? 候選集的個數(shù)非常巨大 ? 一筆交易可能包含多個候選集 2020/10/5 68 數(shù)據(jù)挖掘:概念和技術 68生成候選集的例子 ? L3={abc, abd, acd, ace, bcd} ? 自連接 : L3*L3 ? abc 和 abd 得到 abcd ? acd 和 ace 得到 acde ? 修剪 : ? ade 不在 L3中,刪除 acde ? C4={abcd} 2020/10/5 69 數(shù)據(jù)挖掘:概念和技術 69提高 Apriori效率的方法 Hash的項集計數(shù) : 若 k項集在 hashtree的路徑上的一個計數(shù)值低于閾值,那他本身也不可能是頻繁的。 : 一個項集要想在整個數(shù)據(jù)庫中是頻繁的,那么他至少在數(shù)據(jù)庫的一個分割上是頻繁的。 (157頁圖 67) : 使用小的支持度 +完整性驗證方法。 ? : 在添加一個新的候選集之前,先估計一下是不是他的所有子集都是頻繁的。 2020/10/5 74 數(shù)據(jù)挖掘:概念和技術 74步驟 1: 建立 FPtree ( 159頁圖 68) ? 從 FPtree的頭表開始 ? 按照每個頻繁項的連接遍歷 FPtree ? 列出能夠到達此項的所有前綴路徑,得到條件模式庫 步驟 2:建立條件 FPtree進行挖掘( 159頁圖 69) ? 對每個模式庫 ? 計算庫中每個項的支持度 ? 用模式庫中的頻繁項建立 FPtree 2020/10/5 75 數(shù)據(jù)挖掘:概念和技術 75為什么 頻繁集增長 速度快? ? 性能研究顯示 ? FPgrowth 比 Apriori快一個數(shù)量級 , 同樣也比 treeprojection 快。 ? 使用緊縮的數(shù)據(jù)結構 ? 避免重復數(shù)據(jù)庫掃描 ? 基本操作是計數(shù)和建立 FPtree 樹 2020/10/5 76 數(shù)據(jù)挖掘:概念和技術 76FPgrowth vs. Apriori: 相對于支持度的擴展性 01020304050607080901000 0 . 5 1 1 . 5 2 2 . 5 3S u p p o r t t h r e s h o l d ( % )Run time(sec.)D 1 F P g r o w t h r u n t i m eD 1 A p r i o r i r u n t i m eD
點擊復制文檔內容
環(huán)評公示相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1