freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘5章概念描述:特征化與比較-文庫吧在線文庫

2025-10-16 09:04上一頁面

下一頁面
  

【正文】 nxxns 1 1 221 22 ])(1[11)(112020/10/5 43 盒圖分析 ? 五數(shù)概括 : Minimum, Q1, M, Q3, Maximum ? 盒圖 ? 數(shù)據(jù)用盒子的形式表現(xiàn) ? 盒子的兩端分別是兩個(gè)分位數(shù), ., the height of the box is IRQ ? 中位數(shù)用一條線來表示。 Y ? Z 具有最小支持度和可信度 ? 支持度 , s, 一次交易中包含{X 、 Y 、 Z}的 可能性 ? 置信度 , c, 包含 {X 、 Y}的交易中也包含 Z的 條件概率 交易 ID 購買的商品2020 A ,B ,C1000 A ,C4000 A ,D5000 B ,E ,F設(shè)最小支持度為 50%, 最小可信度為 50%, 則可得到 ? A ? C (50%, %) ? C ? A (50%, 100%) 買尿布的客戶 二者都買的客戶 買啤酒的客戶 2020/10/5 60 數(shù)據(jù)挖掘:概念和技術(shù) 60關(guān)聯(lián)規(guī)則挖掘:路線圖 ? 布爾 vs. 定量 關(guān)聯(lián) (基于規(guī)則中所處理數(shù)據(jù)的值類型 ) ? buys(x, ―SQLServer‖) ^ buys(x, ―DMBook‖) ???buys(x, ―DBMiner‖) [%, 60%] ? age(x, ―30..39‖) ^ ine(x, ―42..48K‖) ???buys(x, ―PC‖) [1%, 75%] ? 單維 vs. 多維 關(guān)聯(lián) (基于規(guī)則中涉及的數(shù)據(jù)維 )(例子同上 ) ? 單層 vs. 多層 分析 (基于規(guī)則集所涉及的抽象層 ) ? 那個(gè)品種牌子的啤酒與那個(gè)牌子的尿布有關(guān)系 ? ? 各種擴(kuò)展 ? 相關(guān)性、因果分析 ?關(guān)聯(lián)并不一定意味著相關(guān)或因果 ? 最大模式和閉合項(xiàng)集 2020/10/5 61 數(shù)據(jù)挖掘:概念和技術(shù) 61第 6章:從大數(shù)據(jù)庫中挖掘關(guān)聯(lián)規(guī)則 ? 關(guān)聯(lián)規(guī)則挖掘 ? ? ? ? ? ? 2020/10/5 62 數(shù)據(jù)挖掘:概念和技術(shù) 62關(guān)聯(lián)規(guī)則挖掘 —一個(gè)例子 對(duì)于 A ? C: support = support({A 、 C}) = 50% confidence = support({A 、 C})/support({A}) = % Apriori的基本思想 : 頻繁項(xiàng)集的任何子集也一定是頻繁的 交易 ID 購買商品2020 A ,B ,C1000 A ,C4000 A ,D5000 B ,E ,F頻繁項(xiàng)集 支持度{ A } 75%{ B } 50%{ C} 50%{ A ,C} 50%最小值尺度 50% 最小可信度 50% 2020/10/5 63 數(shù)據(jù)挖掘:概念和技術(shù) 63關(guān)鍵步驟:挖掘頻繁集 ? 頻繁集 :是指滿足最小支持度的項(xiàng)目集合 ? 頻繁集的子集也一定是頻繁的 ? 如 , 如果 {AB} 是頻繁集,則 {A} {B} 也一定是頻繁集 ? 從 1到 k( k頻繁集)遞歸查找頻繁集 ? 用得到的頻繁集生成關(guān)聯(lián)規(guī)則 2020/10/5 64 數(shù)據(jù)挖掘:概念和技術(shù) 64Apriori算法 ? 連接 : 用 Lk1自連接得到候選 k項(xiàng)集 Ck ? 修剪 : 一個(gè) k項(xiàng)集,如果他的一個(gè) k1項(xiàng)集(他的子集 )不是頻繁的,那他本身也不可能是頻繁的。 : 一個(gè)項(xiàng)集要想在整個(gè)數(shù)據(jù)庫中是頻繁的,那么他至少在數(shù)據(jù)庫的一個(gè)分割上是頻繁的。 ? 使用緊縮的數(shù)據(jù)結(jié)構(gòu) ? 避免重復(fù)數(shù)據(jù)庫掃描 ? 基本操作是計(jì)數(shù)和建立 FPtree 樹 2020/10/5 76 數(shù)據(jù)挖掘:概念和技術(shù) 76FPgrowth vs. Apriori: 相對(duì)于支持度的擴(kuò)展性 01020304050607080901000 0 . 5 1 1 . 5 2 2 . 5 3S u p p o r t t h r e s h o l d ( % )Run time(sec.)D 1 F P g r o w t h r u n t i m eD 1 A p r i o r i r u n t i m eData set T25I20D10K 2020/10/5 77 數(shù)據(jù)挖掘:概念和技術(shù) 77FPgrowth vs. TreeProjection:相對(duì)于支持度的擴(kuò)展性 0204060801001201400 0 . 5 1 1 . 5 2S u p p o r t t h r e s h o l d ( % )Runtime (sec.)D 2 F P g r o w t hD 2 T r e e P r o j e c t i o nData set T25I20D100K 2020/10/5 78 數(shù)據(jù)挖掘:概念和技術(shù) 78關(guān)聯(lián)規(guī)則結(jié)果顯示 (Table Form ) 2020/10/5 79 數(shù)據(jù)挖掘:概念和技術(shù) 79關(guān)聯(lián)規(guī)則可視化 Using Plane Graph 2020/10/5 80 數(shù)據(jù)挖掘:概念和技術(shù) 80關(guān)聯(lián)規(guī)則可視化 Using Rule Graph 2020/10/5 81 數(shù)據(jù)挖掘:概念和技術(shù) 81第 6章:從大數(shù)據(jù)庫中挖掘關(guān)聯(lián)規(guī)則 ? 關(guān)聯(lián)規(guī)則挖掘 ? ? ? ? ? ? 2020/10/5 82 數(shù)據(jù)挖掘:概念和技術(shù) 82多層關(guān)聯(lián)規(guī)則 ? 項(xiàng)通常具有層次 ? 底層的項(xiàng)通常支持度也低 ? 某些特定層的規(guī)則可能更有意義 ? 交易數(shù)據(jù)庫可以按照維或?qū)泳幋a ? 可以進(jìn)行共享的多維挖掘 食品 面包 牛奶 脫脂奶 光明 統(tǒng)一 酸奶 白 黃 T I D I t e m sT1 { 1 1 1 , 1 2 1 , 2 1 1 , 2 2 1 }T2 { 1 1 1 , 2 1 1 , 2 2 2 , 3 2 3 }T3 { 1 1 2 , 1 2 2 , 2 2 1 , 4 1 1 }T4 { 1 1 1 , 1 2 1 }T5 { 1 1 1 , 1 2 2 , 2 1 1 , 2 2 1 , 4 1 3 }2020/10/5 83 數(shù)據(jù)挖掘:概念和技術(shù) 83挖掘多層關(guān)聯(lián)規(guī)則 ? 自上而下,深度優(yōu)先的方法: ? 先找高層的“強(qiáng)”規(guī)則: 牛奶 174。 2. 帶數(shù)量的關(guān)聯(lián)規(guī)則 ? 根據(jù)數(shù)據(jù)的分布,動(dòng)態(tài)的把數(shù)值屬性離散化到不同的“箱” 。min()=500 (7)with support threshold=1% (8)with confidence threshold=50% Lives(C,_,”Pudong”)^Sales(C,”Census_CD”,_)^Sales(C,”MS/Office”,_)=Sales(C,”MS/SQLSever”,_) [%,65%] 2020/10/5 102 數(shù)據(jù)挖掘:概念和技術(shù) 102 約束的分類 ? 單調(diào)性約束 (monotone constraint) ? 反單調(diào)性約束 (antimonotone constraint) ? 可轉(zhuǎn)變的約束 (convertibale constraint) ? 簡潔性約束 (succinct constraint) ? 不可轉(zhuǎn)變的約束 (nonconvertibale constraint) 2020/10/5 103 數(shù)據(jù)挖掘:概念和技術(shù) 103約束的有關(guān)概念 ? 項(xiàng)目集: I={i1,i2,……,im}, ? 交易: T=tid,It ? 模式 S是項(xiàng)目集的子集, S={ij1,ij2,…,i jk} ? 模式 S包含與 T,T=tid,It,iff S=It。=1999 amp。 ? 例子 ? 奶制品 ? 白面包 [support = 8%, confidence = 70%] ? 酸奶 ? 白面包 [support = 2%, confidence = 72%] ? 酸奶占 奶制品 25% ? 我們稱第一個(gè)規(guī)則是第二個(gè)規(guī)則的祖先 ? 參考規(guī)則的祖先,如果他的支持度與我們“預(yù)期”的支持度近似的話,我們就說這條規(guī)則是冗余的。 ? : 在添加一個(gè)新的候選集之前,先估計(jì)一下是不是他的所有子集都是頻繁的。 k++) do begin Ck = candidates generated from Lk1。 ? 訓(xùn)練樣本集的大小 ? 機(jī)器學(xué)習(xí):訓(xùn)練樣本集小 ? 概念描述:訓(xùn)練樣本集大。 ? 交叉表 : ? 二維交叉表 ? 可視化方法 : ? Pie charts, bar charts, curves, cubes, and other visual forms. ? 量化特征規(guī)則 : (上表與 136頁例 ) .%]47:[)(_%]53:[)(_ )( tf o r ei g nxr e g i o nb i r t htC a n a d axr e g i o nb i r t h m a l exg e n d e r ??? ??2020/10/5 14 表達(dá)方式 概化關(guān)系 (133頁例 ) 2020/10/5 15 表達(dá)方式 —交叉表 (133頁例 ) 2020/10/5 16 使用 Cube技術(shù)進(jìn)行實(shí)現(xiàn) ? 對(duì)給定的數(shù)據(jù)動(dòng)態(tài)創(chuàng)建數(shù)據(jù)立方體: ? 便于有效的下鉆操作 ? 可能增加響應(yīng)時(shí)間 ? 解決方法:實(shí)現(xiàn)存儲(chǔ)一些較高層次的統(tǒng)計(jì)信息。2020/10/5 1 概念描述 2020/10/5 2 特征化和比較 ? 什么是概念描述 ? ? 數(shù)據(jù)概化和基于匯總的特征化 ? 解析特征化 : 分析屬性之間的關(guān)聯(lián)性 ? 挖掘類比較 :獲取不同類之間的不同處 ? 在大型數(shù)據(jù)庫中挖掘描述統(tǒng)計(jì)度量 ? 討論 ? 總結(jié) 2020/10/5 3 什么是概念描述 ? ? 描述性 vs. 預(yù)測性 數(shù)據(jù)挖掘 ? 描述性數(shù)據(jù)挖掘 : ? 預(yù)測性數(shù)據(jù)挖掘 : ? 概念描述 : ? 特征化 :對(duì)所選擇的數(shù)據(jù)集給出一個(gè)簡單明了的描述,匯總 ? 比較 :提供對(duì)于兩個(gè)或多個(gè)數(shù)據(jù)集進(jìn)行比較的描述 2020/10/5 4 概念描述和 OLAP區(qū)別 ? 概念描述 : ? 能夠處理復(fù)雜的數(shù)據(jù)類型和各種匯總方法 ? 更加自動(dòng)化 ? OLAP: ? 只能限制于少量的維度和數(shù)據(jù)類型 ? 用戶控制的流程 2020/10/5 5 特征化和比較 ? 什么是概念描述 ? ? 數(shù)據(jù)概化和基于匯總的特征化 ? 分析特征化 : 分析屬性之間的關(guān)聯(lián)性 ? 挖掘類比較 :獲取不同類之間的不同處 ? 在大型數(shù)據(jù)庫中挖掘描述統(tǒng)計(jì)度量 ? 討論 ? 總結(jié) 2020/10/5 6 數(shù)據(jù)概化和基于匯總的特征化 ? 數(shù)據(jù)概化 ? 將大量的相關(guān)數(shù)據(jù)從一個(gè)較低的概念層次抽象、轉(zhuǎn)化到一個(gè)比較高的層次 ? 方法 : ? OLAP方法: ? 面向?qū)傩缘臍w納 2020/10/5 7 OLAP方法 ? 在數(shù)據(jù)立方體上進(jìn)行計(jì)算和存儲(chǔ)結(jié)果 ? 優(yōu)點(diǎn) ? 效率高 ? 能夠計(jì)算多種匯總 ? 如: count,average,sum,min,max ? 還可以使用 rolldown和 rollup操作 ? 限制 ? 只能處理非數(shù)值化數(shù)據(jù)和數(shù)值數(shù)據(jù)的簡單匯總。 ? 使用預(yù)定義的數(shù)據(jù)立方體: ? 預(yù)先構(gòu)建數(shù)據(jù)立方體 ? Cube計(jì)算的花費(fèi)和額外的存儲(chǔ)空間 2020/10/5 17
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1