freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

[互聯(lián)網(wǎng)]數(shù)據(jù)挖掘偶然看到比較好的-閱讀頁

2025-01-13 12:08本頁面
  

【正文】 right by Song Zhihuan 工業(yè)控制技術(shù)研究所 關(guān)聯(lián)規(guī)則:基本概念 ? 給定 : (1)交易數(shù)據(jù)庫 (2)每筆交易是:一個(gè)項(xiàng)目列表 (消費(fèi)者一次購買活動(dòng)中購買的商品 ) ? 查找 : 所有 描述一個(gè)項(xiàng)目集合與其他項(xiàng)目集合相關(guān)性的規(guī)則 ? ., 98% of people who purchase tires and auto accessories also get automotive services done ? 應(yīng)用 ? * ? 護(hù)理用品 (商店應(yīng)該怎樣提高護(hù)理用品的銷售? ) ? 家用電器 ? * (其他商品的庫存有什么影響 ?) ? 在產(chǎn)品直銷中使用 附加郵寄 ? Detecting ―pingpong‖ing of patients, faulty ―collisions‖ 169。 Y ? Z 具有最小支持度和可信度 ?支持度 , s, 一次交易中包含 {X 、 Y 、 Z}的可能性 ?可信度 , c, 包含 {X 、 Y}的交易中也包含 Z的條件概率 交易 ID 購買的商品2022 A ,B ,C1000 A ,C4000 A ,D5000 B ,E ,F設(shè)最小支持度為 50%, 最小可信度為 50%, 則可得到 ? A ? C (50%, %) ? C ? A (50%, 100%) 買尿布的客戶 二者都買的客戶 買啤酒的客戶 169。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 關(guān)聯(lián)規(guī)則挖掘 —一個(gè)例子 對(duì)于 A ? C: support = support({A 、 C}) = 50% confidence = support({A 、 C})/support({A}) = % Apriori的基本思想 : 頻繁項(xiàng)集的任何子集也一定是頻繁的 交易 ID 購買商品2022 A ,B ,C1000 A ,C4000 A ,D5000 B ,E ,F頻繁項(xiàng)集 支持度{ A } 75%{ B } 50%{ C} 50%{ A ,C} 50%最小值尺度 50% 最小可信度 50% 169。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 多層關(guān)聯(lián)規(guī)則 ? 項(xiàng)通常具有層次 ? 底層的項(xiàng)通常支持度也低 ? 某些特定層的規(guī)則可能更有意義 ? 交易數(shù)據(jù)庫可以按照維或?qū)泳幋a ? 可以進(jìn)行共享的多維挖掘 食品 面包 牛奶 脫脂奶 光明 統(tǒng)一 酸奶 白 黃 T I D I t e m sT1 { 1 1 1 , 1 2 1 , 2 1 1 , 2 2 1 }T2 { 1 1 1 , 2 1 1 , 2 2 2 , 3 2 3 }T3 { 1 1 2 , 1 2 2 , 2 2 1 , 4 1 1 }T4 { 1 1 1 , 1 2 1 }T5 { 1 1 1 , 1 2 2 , 2 1 1 , 2 2 1 , 4 1 3 }169。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 多層關(guān)聯(lián)規(guī)則 ? 支持度不變 : 在各層之間使用統(tǒng)一的支持度 ? + 一個(gè)最小支持度閾值 . 如果一個(gè)項(xiàng)集的父項(xiàng)集不具有最小支持度,那他本身也不可能滿足最小支持度。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 支持度不變 支持度不變多層挖掘 牛奶 [support = 10%] 酸奶 [support = 6%] 脫脂奶 [support = 4%] 層 1 min_sup = 5% 層 2 min_sup = 5% 169。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 多層關(guān)聯(lián):冗余過濾 ? 由于 “ 祖先 ” 關(guān)系的原因,有些規(guī)則可能是多余的。 169。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 數(shù)據(jù)挖掘查詢的逐步精化 ?為什么要逐步精化 ?挖掘操作的代價(jià)可能高或低,結(jié)果可能細(xì)致或粗糙 ?在速度和質(zhì)量之間折衷:逐步精化 ?超集覆蓋特征: ?預(yù)存儲(chǔ)所有正面答案 —允許進(jìn)一步正確性驗(yàn)證,而不必驗(yàn)證已經(jīng)錯(cuò)誤的 ? 2或多步挖掘: ?先執(zhí)行粗糙的、容易的操作 (超集覆蓋 ) ?然后在減少后的候選集上進(jìn)行計(jì)算量大的算法 (Koperski amp。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 逐步求精空間關(guān)聯(lián)規(guī)則挖掘 ?空間關(guān)系的層次: ?“ g_close_to”: 鄰近 , 接觸 , 交叉 , 包含 ?先搜索粗糙的關(guān)系然后再精化 169。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 多維關(guān)聯(lián)規(guī)則:概念 ?單維規(guī)則: buys(X, ―milk‖) ? buys(X, ―bread‖) ?多維規(guī)則: 2個(gè)以上維 /謂詞 ?維間關(guān)聯(lián)規(guī)則 (維詞 不重復(fù) ) age(X,‖1925‖) ? occupation(X,―student‖) ? buys(X,―coke‖) ?混合維關(guān)聯(lián)規(guī)則 (維詞重復(fù) ) age(X,‖1925‖) ? buys(X, ―popcorn‖) ? buys(X, ―coke‖) ?類別屬性 ?有限個(gè)值 , 值之間無順序關(guān)系 ?數(shù)量屬性 ?數(shù)字的,值之間隱含了順序關(guān)系 169。 ? 按照對(duì) age 處理方式的不同,分為: 1. 用靜態(tài)方法把數(shù)值屬性離散化 ? 數(shù)值屬性可用預(yù)定義的概念層次加以離散化。 3. 基于距離的關(guān)聯(lián)規(guī)則 ? 用數(shù)據(jù)點(diǎn)之間的距離動(dòng)態(tài)的離散化 169。 ? 適宜使用數(shù)據(jù)立方體 ? N維立方體的每個(gè)單元 對(duì)應(yīng)一個(gè)維詞集合 ? 使用數(shù)據(jù)立方體速度更快 (ine) (age) () (buys) (age, ine) (age,buys) (ine,buys) (age,ine,buys) 169。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 ARCS (關(guān)聯(lián)規(guī)則聚集系統(tǒng) ) ARCS 流程 1. 分箱 2. 查找頻繁維詞 集合 3. 聚集 4. 優(yōu)化 169。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 基于距離的關(guān)聯(lián)規(guī)則挖掘 ? 分箱的方法沒有體現(xiàn)數(shù)據(jù)間隔的語義 ? 基于距離的分割是更有 “ 意義 ” 的離散化方法,考慮: ? 區(qū)間內(nèi)密度或點(diǎn)的個(gè)數(shù) ? 區(qū)間內(nèi)點(diǎn)的 “ 緊密程度 價(jià)格( $ )等寬( 寬度 $10)等深( 深度 2) 基于距離7 [ 0 , 1 0 ] [ 7 , 2 0 ] [ 7 , 7 ]20 [ 1 1 , 2 0 ] [ 2 2 , 5 0 ] [ 2 0 , 2 2 ]22 [ 2 1 , 3 0 ] [ 5 1 , 5 3 ] [ 5 0 , 5 3 ]50 [ 3 1 , 4 0 ]51 [ 4 1 , 5 0 ]53 [ 5 1 , 6 0 ]169。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 關(guān)聯(lián)規(guī)則可視化 Using Rule Graph 169。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 序列模式概念 ? 序列模式的概念最早是由 Agrawal和 Srikant 提出的 ? 序列模式定義:給定一個(gè)由不同序列組成的集合,其中,每個(gè) 序列由不同的元素按順序有序排列,每個(gè) 元素 由不同 項(xiàng)目 組成,同時(shí)給定一個(gè)用戶指定的最小支持度閾值,序列模式挖掘就是找出所有的頻繁子序列,即該子序列在序列集中的出現(xiàn)頻率不低于用戶指定的最小支持度閾值 169。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 序列模式應(yīng)用領(lǐng)域 ? 應(yīng)用領(lǐng)域: ? 客戶購買行為模式預(yù)測(cè) ? Web訪問模式預(yù)測(cè) ? 疾病診斷 ? 自然災(zāi)害預(yù)測(cè) ? DNA序列分析 ? 工業(yè)控制 169。長(zhǎng)度為 l的序列記為 l序列 169。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 序列模式表示 ? 例子:設(shè)序列數(shù)據(jù)庫如下圖所示,并設(shè)用戶指定的最小支持度 minsupport = 2。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 序列模式挖掘 ? 問題描述:給定序列數(shù)據(jù)庫和最小支持度閾值,序列模式挖掘就是要找出序列數(shù)據(jù)庫中所有的序列模式 ? 系統(tǒng)規(guī)定:由于同一個(gè)元素中的項(xiàng)目之間排列沒有順序,為了表達(dá)的唯一性,我們將同一個(gè)元素內(nèi)部的不同項(xiàng)目按照字典順序排列 169。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 序列模式挖掘算法 ? 上述算法存在的主要問題: ? 缺少時(shí)間限制:用戶可能需要指定序列模式的相鄰元素之間的時(shí)間間隔。我們需要的卻是給定時(shí)間間隔內(nèi)用戶的購買意向 ? 事務(wù)的定義過于嚴(yán)格:一個(gè)事務(wù)中包含在客戶的一次購買行為中所購買的所有物品。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 七、數(shù)據(jù)挖掘軟件 169。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 數(shù)據(jù)挖掘軟件的發(fā)展 第一代數(shù)據(jù)挖掘軟件 ? 特點(diǎn) ? 支持一個(gè)或少數(shù)幾個(gè)數(shù)據(jù)挖掘算法 ? 挖掘向量數(shù)據(jù)( vectorvalued data) ? 數(shù)據(jù)一般一次性調(diào)進(jìn)內(nèi)存進(jìn)行處理 ? 典型的系統(tǒng)如 Salford Systems公司早期的 CART系統(tǒng)() ? 缺陷 ? 如果數(shù)據(jù)足夠大,并且頻繁的變化,這就需要利用數(shù)據(jù)庫或者數(shù)據(jù)倉庫技術(shù)進(jìn)行管理,第一代系統(tǒng)顯然不能滿足需求。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 數(shù)據(jù)挖掘軟件的發(fā)展 第一代數(shù)據(jù)挖掘軟件 CBA 新加坡國(guó)立大學(xué)。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 二、數(shù)據(jù)挖掘軟件的發(fā)展 第二代數(shù)據(jù)挖掘軟件 ? 特點(diǎn) ? 與數(shù)據(jù)庫管理系統(tǒng)( DBMS)集成 ? 支持?jǐn)?shù)據(jù)庫和數(shù)據(jù)倉庫,和它們具有高性能的接口,具有高的可擴(kuò)展性 ? 能夠挖掘大數(shù)據(jù)集、以及更復(fù)雜的數(shù)據(jù)集 ? 通過支持?jǐn)?shù)據(jù)挖掘模式( data mining schema)和數(shù)據(jù)挖掘查詢語言增加系統(tǒng)的靈活性 ? 典型的系統(tǒng)如 DBMiner,能通過 DMQL挖掘語言進(jìn)行挖掘操作 ? 缺陷 ? 只注重模型的生成,如何和預(yù)言模型系統(tǒng)集成導(dǎo)致了第三代數(shù)據(jù)挖掘系統(tǒng)的開發(fā) 169。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 數(shù)據(jù)挖掘軟件的發(fā)展 第二代軟件 SAS Enterprise Miner 169。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 數(shù)據(jù)挖掘軟件的發(fā)展 第三代軟件 SPSS Clementine 以 PMML的格式提供與預(yù)言模型系統(tǒng)的接口 169。 ? 第四代軟件能夠挖掘嵌入式系統(tǒng)、移動(dòng)系統(tǒng)、和普遍存在( ubiquitous)計(jì)算設(shè)備產(chǎn)生的各種類型的數(shù)據(jù) 第四代數(shù)據(jù)挖掘原型或商業(yè)系統(tǒng)尚未見報(bào)導(dǎo), PKDD2022上Kargupta發(fā)表了一篇在移動(dòng)環(huán)境下挖掘決策樹的論文,Kargupta是馬里蘭巴爾的摩州立大學(xué)( University of Maryland Baltimore County)正在研制的 CAREER數(shù)據(jù)挖掘項(xiàng)目的負(fù)責(zé)人,該項(xiàng)目研究期限是 2022年 4月到 2022年 4月,目的是開發(fā)挖掘分布式和異質(zhì)數(shù)據(jù)( Ubiquitous設(shè)備)的第四代數(shù)據(jù)挖掘系統(tǒng)。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 數(shù)據(jù)挖掘軟件的發(fā)展 ? 第一代系統(tǒng)與第二代相比因?yàn)椴痪哂泻蛿?shù)據(jù)管理系統(tǒng)之間有效的接口,所以在數(shù)據(jù)預(yù)處理方面有一定缺陷 ? 第三、四代系統(tǒng)強(qiáng)調(diào)預(yù)測(cè)模型的使用和操作型環(huán)境的部署 ? 第二代系統(tǒng)提供數(shù)據(jù)管理系統(tǒng)和數(shù)據(jù)挖掘系統(tǒng)之間的有效接口 ? 第三代系統(tǒng)另外還提供數(shù)據(jù)挖掘系統(tǒng)和預(yù)言模型系統(tǒng)之間的有效的接口 ? 目前,隨著新的挖掘算法的研究和開發(fā),第一代數(shù)據(jù)挖掘系統(tǒng)仍然會(huì)出現(xiàn),第二代系統(tǒng)是商業(yè)軟件的主流,部分第二代系統(tǒng)開發(fā)商開始研制相應(yīng)的第三代數(shù)據(jù)挖掘系統(tǒng),比如 IBM Intelligent Score Service。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 數(shù)據(jù)挖掘軟件的發(fā)展 數(shù)據(jù)挖掘軟件發(fā)展的三個(gè)階段 ? 獨(dú)立的數(shù)據(jù)挖掘軟件 ? 橫向的數(shù)據(jù)挖掘工具集 ? 縱向的數(shù)據(jù)挖掘解決方案 169。 ? 這類軟件要求用戶對(duì)具體的算法和數(shù)據(jù)挖掘技術(shù)有相當(dāng)?shù)牧私?,還要負(fù)責(zé)大量的數(shù)據(jù)預(yù)處理工作。 169。 ? 隨著數(shù)據(jù)量的增加,需要利用數(shù)據(jù)庫或者數(shù)據(jù)倉庫技術(shù)進(jìn)行管理,所以數(shù)據(jù)挖掘系統(tǒng)與數(shù)據(jù)庫和數(shù)據(jù)倉庫結(jié)合是自然的發(fā)展。 Copyr
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1