_{<strong id="gjnfq"></strong>}

正文內(nèi)容

數(shù)據(jù)挖掘基于約束的挖掘-文庫吧資料

2024-09-08 09:03本頁面

　　

【正文】聯(lián)規(guī)則 (維詞重復(fù) ) age(X,‖1925‖) ? buys(X, ―popcorn‖) ? buys(X, ―coke‖) ? 類別屬性 ? 有限個值 , 值之間無順序關(guān)系 ? 數(shù)量屬性 ? 數(shù)字的，值之間隱含了順序關(guān)系挖掘多維關(guān)聯(lián)的技術(shù) ? 搜索頻繁 k維詞集合： ? 如 : {age, occupation, buys} 是一個 3維詞集合。 ? 例子 ? 奶制品 ? 白面包 [support = 8%, confidence = 70%] ? 酸奶 ? 白面包 [support = 2%, confidence = 72%] ? 酸奶占奶制品 25% ? 我們稱第一個規(guī)則是第二個規(guī)則的祖先 ? 參考規(guī)則的祖先，如果他的支持度與我們“預(yù)期”的支持度近似的話，我們就說這條規(guī)則是冗余的。黃面包 [6%, 50%]. ? 多層關(guān)聯(lián)規(guī)則的變種 1 支持度不變 : 在各層之間使用統(tǒng)一的支持度 ? + 一個最小支持度閾值 . 如果一個項集的父項集不具有最小支持度，那他本身也不可能滿足最小支持度。 ? 使用緊縮的數(shù)據(jù)結(jié)構(gòu) ? 避免重復(fù)數(shù)據(jù)庫掃描 ? 基本操作是計數(shù)和建立 FPtree 樹 FPgrowth vs. Apriori: 相對于支持度的擴展性 01020304050607080901000 0 . 5 1 1 . 5 2 2 . 5 3S u p p o r t t h r e s h o l d ( % )Run time(sec.)D 1 F P g r o w t h r u n t i m eD 1 A p r i o r i r u n t i m eData set T25I20D10K FPgrowth vs. TreeProjection:相對于支持度的擴展性 0204060801001201400 0 . 5 1 1 . 5 2S u p p o r t t h r e s h o l d ( % )Runtime (sec.)D 2 F P g r o w t hD 2 T r e e P r o j e c t i o nData set T25I20D100K 關(guān)聯(lián)規(guī)則結(jié)果顯示 (Table Form ) 關(guān)聯(lián)規(guī)則可視化 Using Plane Graph 關(guān)聯(lián)規(guī)則可視化 Using Rule Graph 第 6章：從大數(shù)據(jù)庫中挖掘關(guān)聯(lián)規(guī)則 ? 關(guān)聯(lián)規(guī)則挖掘 ? ? ? 聯(lián)規(guī)則 ? ? ? 多層關(guān)聯(lián)規(guī)則 ? 項通常具有層次 ? 底層的項通常支持度也低 ? 某些特定層的規(guī)則可能更有意義 ? 交易數(shù)據(jù)庫可以按照維或?qū)泳幋a ? 可以進行共享的多維挖掘食品面包牛奶脫脂奶光明統(tǒng)一酸奶白黃 T I D I t e m sT1 { 1 1 1 , 1 2 1 , 2 1 1 , 2 2 1 }T2 { 1 1 1 , 2 1 1 , 2 2 2 , 3 2 3 }T3 { 1 1 2 , 1 2 2 , 2 2 1 , 4 1 1 }T4 { 1 1 1 , 1 2 1 }T5 { 1 1 1 , 1 2 2 , 2 1 1 , 2 2 1 , 4 1 3 }挖掘多層關(guān)聯(lián)規(guī)則 ? 自上而下，深度優(yōu)先的方法： ? 先找高層的“強”規(guī)則：牛奶 174。步驟 1: 建立 FPtree （ 159頁圖 68） ? 從 FPtree的頭表開始 ? 按照每個頻繁項的連接遍歷 FPtree ? 列出能夠到達此項的所有前綴路徑，得到條件模式庫步驟 2:建立條件 FPtree進行挖掘（ 159頁圖 69） ? 對每個模式庫 ? 計算庫中每個項的支持度 ? 用模式庫中的頻繁項建立 FPtree 為什么頻繁集增長速度快？ ? 我們的性能研究顯示 ? FPgrowth 比 Apriori快一個數(shù)量級 , 同樣也比 treeprojection 快。 : 在添加一個新的候選集之前，先估計一下是不是他的所有子集都是頻繁的。(157頁圖 56) : 使用小的支持度 +完整性驗證方法。 : 一個項集要想在整個數(shù)據(jù)庫中是頻繁的，那么他至少在數(shù)據(jù)庫的一個分割上是頻繁的。 Apriori算法 — 例子 T ID Ite m s100 1 3 4200 2 3 5300 1 2 3 5400 2 5數(shù)據(jù)庫 D ite m s e t s u p .{ 1 } 2{ 2 } 3{ 3 } 3{ 4 } 1{ 5 } 3i te m s e t s u p .{ 1 } 2{ 2 } 3{ 3 } 3{ 5 } 3掃描 D C1 L1 item set{1 2}{1 3}{1 5}{2 3}{2 5}{3 5}ite m s et s up{ 1 2} 1{ 1 3} 2{ 1 5} 1{ 2 3} 2{ 2 5} 3{ 3 5} 2ite m s e t s u p{ 1 3 } 2{ 2 3 } 2{ 2 5 } 3{ 3 5 } 2L2 C2 C2 掃描 D C3 L3 item set{2 3 5}掃描 D ite m s e t s u p{ 2 3 5 } 2如何生成候選集 ? 假定 Lk1 中的項按順序排列 ? 第一步 : 自連接 Lk1 insert into Ck select , , …, k1, from Lk1 p, Lk1 q where =, …, k2=, ? 第二步 : 修剪 For all itemsets c in Ck do For all (k1)subsets s of c do if (s is not in Lk1) then delete c from Ck ? 計算支持度為什么會成為一個問題？ ? 候選集的個數(shù)非常巨大 ? 一筆交易可能包含多個候選集生成候選集的例子 ? L3={abc, abd, acd, ace, bcd} ? 自連接 : L3*L3 ? abc 和 abd 得到 abcd ? acd 和 ace 得到 acde ? 修剪 : ? ade 不在 L3中，刪除 acde ? C4={abcd} 提高 Apriori效率的方法 Hash的項集計數(shù) : 若 k項集在 hashtree的路徑上的一個計數(shù)值低于閾值，那他本身也不可能是頻繁的。 k++) do begin Ck = candidates generated from Lk1。 for (k = 2。 Y ? Z 具有最小支持度和可信度 ? 支持度 , s, 一次交易中包含{X 、 Y 、 Z}的可能性 ? 置信度 , c, 包含 {X 、 Y}的交易中也包含 Z的條件概率

點擊復(fù)制文檔內(nèi)容

醫(yī)療健康相關(guān)推薦

基于sqlserver2000的數(shù)據(jù)挖掘-文庫吧資料

【摘要】基于SQLServer2022的數(shù)據(jù)挖掘SQLServer2022分析服務(wù)微軟分析服務(wù)數(shù)據(jù)挖掘和OLAP都是微軟分析服務(wù)(AnalysisService)的組成服務(wù)，都是決策工具，但他們?yōu)椴煌哪康脑O(shè)計。在SQLSERVEROLAPSERVICE,只包括OLAP功能。OLAP主要是允許客戶端設(shè)計匯總表用來存儲數(shù)據(jù)便于數(shù)據(jù)的修

2024-07-31 18:51

數(shù)據(jù)挖掘可挖掘的知識類型-文庫吧資料

【摘要】1數(shù)據(jù)挖掘原理與SPSSClementine應(yīng)用寶典元昌安主編鄧松李文敬劉海濤編著電子工業(yè)出版社2?概念/類描述?關(guān)聯(lián)模式?分類?聚類分析?預(yù)測?時間序列?偏差檢測

2025-05-23 11:38

數(shù)據(jù)挖掘數(shù)據(jù)挖掘∶概念和技術(shù)-文庫吧資料

【摘要】2020-11-6數(shù)據(jù)挖掘：概念和技術(shù)1數(shù)據(jù)挖掘:概念和技術(shù)—Chapter6—?張曉輝復(fù)旦大學（國際）數(shù)據(jù)庫研究中心2020-11-6數(shù)據(jù)挖掘：概念和技術(shù)2第6章：從大數(shù)據(jù)庫中挖掘關(guān)聯(lián)規(guī)則?關(guān)聯(lián)規(guī)則挖掘?從交易數(shù)據(jù)庫中挖掘一維的布爾形關(guān)聯(lián)規(guī)則?從交易數(shù)據(jù)庫中

2024-09-08 09:03

金融數(shù)據(jù)挖掘和商業(yè)數(shù)據(jù)挖掘-文庫吧資料

【摘要】金融數(shù)據(jù)挖掘和商業(yè)數(shù)據(jù)挖掘建構(gòu)信用卡評分模型之商業(yè)智慧流程鄭宇庭謝邦昌程兆慶臺灣政治大學資料採礦中心2021/6/162報告大綱?研究目的?分析工具?建模流程?結(jié)論與建議?Q&A2021/6/163研究目的?有效地篩選出償債能力不佳

2025-05-18 03:30

基于文本的數(shù)據(jù)挖掘論文-文庫吧資料

【摘要】目錄第一部分基于文本的數(shù)據(jù)挖掘 1第一章緒論 1 1 1 2第二章基于支持向量機理論的分類機設(shè)計 2 3 3 4 9第三章支持向量分類器的具體編程實現(xiàn) 12 12 12 15第四章程序運行結(jié)果和結(jié)果分析 23 23 23 30第五章論文結(jié)論 31 31 33參考文獻 34代

2025-07-03 20:46

基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘方法-文庫吧資料

【摘要】基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘方法?0引言?1數(shù)據(jù)挖掘技術(shù)?2神經(jīng)網(wǎng)絡(luò)原理?3基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘?4結(jié)論20引言?現(xiàn)代信息技術(shù)的高速發(fā)展，數(shù)據(jù)庫應(yīng)用的規(guī)模、范圍不斷擴大，可獲得的數(shù)據(jù)量越來越大，數(shù)據(jù)的種類也日益繁多。?面對如此大規(guī)模的、并且存在著“噪聲”的數(shù)據(jù)，如何從中提取出隱含其中的有

2025-06-03 01:39

數(shù)據(jù)挖掘-數(shù)據(jù)挖掘原語、語言和系統(tǒng)結(jié)構(gòu)-文庫吧資料

【摘要】數(shù)據(jù)挖掘原語、語言和系統(tǒng)結(jié)構(gòu)為什么要數(shù)據(jù)挖掘原語和語言？?一個完全自動（不需要人為干預(yù)或指導(dǎo)）的數(shù)據(jù)挖掘機器只可能是“一只瘋了的怪獸”。?會產(chǎn)生大量模式（重新把知識淹沒）?會涵蓋所有數(shù)據(jù)，使得挖掘效率低下?大部分有價值的模式集可能被忽略?挖掘出的模式可能難以理解，缺乏有效性、新穎性和實用性——令人不感興趣。?沒有

2025-05-23 11:33

數(shù)據(jù)挖掘2章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的olap技術(shù)-文庫吧資料

【摘要】第3章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)本章要點?數(shù)據(jù)倉庫的基本概念?多維數(shù)據(jù)模型?數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)?數(shù)據(jù)倉庫實現(xiàn)?數(shù)據(jù)立方體技術(shù)的近一步發(fā)展?從數(shù)據(jù)倉庫到數(shù)據(jù)挖掘數(shù)據(jù)倉庫的發(fā)展?自從NCR公司為WalMart建立了第一個數(shù)據(jù)倉庫。?1996年，加拿大的IDC公司調(diào)查了62

2025-05-17 03:06

基于大數(shù)據(jù)挖掘的交通流量預(yù)測-文庫吧資料

【摘要】基于大數(shù)據(jù)挖掘的交通流量預(yù)測學生：慕偉導(dǎo)師：陳國定教授日本是最早進行ITS研究的國家，目前在ITS的實際部署方面處于國際領(lǐng)先地位?，F(xiàn)在已經(jīng)將先進的車載導(dǎo)航和誘導(dǎo)系統(tǒng)安裝在新款汽車上。日本美國歐盟美國的路網(wǎng)比較完善，目前全國道路建設(shè)已經(jīng)基本停止，但隨著交通狀況的日益嚴峻，政府開始重視道路土

2025-05-10 00:34

移動基于數(shù)據(jù)挖掘的數(shù)據(jù)業(yè)務(wù)精確營銷-文庫吧資料

【摘要】商用新業(yè)務(wù)營銷優(yōu)秀案例基于數(shù)據(jù)挖掘的數(shù)據(jù)業(yè)務(wù)精確營銷廣東公司2021年8月基于數(shù)據(jù)挖掘的數(shù)據(jù)業(yè)務(wù)精確營銷案例簡介背景介紹案例介紹經(jīng)驗總結(jié)效益分析第一部分案例簡介一、案例簡介“彩信精品盒”產(chǎn)品設(shè)計及推廣o營銷效率達到原來的o促進了客戶增長，形成

2025-05-10 01:32

數(shù)據(jù)挖掘?qū)д?文庫吧資料

【摘要】數(shù)據(jù)挖掘?qū)д摳＝ㄡt(yī)科大學鄭偉成支持向量機?支持向量機(SupportVectorMachine，SVM)是CorinnaCortes和Vapnik等亍1995年首先提出的，它在解決小樣本、非線性及高維模式識別中表現(xiàn)出許多特有的優(yōu)勢，幵能夠推廣應(yīng)用到函數(shù)擬合等其他機器學習問題中。?在機器學習中，支持向量機

2024-08-01 17:51

數(shù)據(jù)挖掘挖掘頻繁模式關(guān)聯(lián)和相關(guān)-文庫吧資料

【摘要】2020/9/15數(shù)據(jù)挖掘：概念和技術(shù)1第5章：挖掘頻繁模式、關(guān)聯(lián)和相關(guān)?基本概念和路線圖?有效的和可伸縮的頻繁項集挖掘方法?挖掘各種類型的關(guān)聯(lián)規(guī)則?由關(guān)聯(lián)挖掘到相關(guān)性分析?基于約束的關(guān)聯(lián)挖掘?小結(jié)2020/9/15數(shù)據(jù)挖掘：概念和技術(shù)2什么是關(guān)聯(lián)挖掘??關(guān)聯(lián)規(guī)則挖掘：?

2024-08-17 09:44

數(shù)據(jù)挖掘的價值：壽險行業(yè)數(shù)據(jù)挖掘應(yīng)用分析-文庫吧資料

【摘要】數(shù)據(jù)挖掘的價值：壽險行業(yè)數(shù)據(jù)挖掘應(yīng)用分析【北京理工大學劉勇張麗平】【計算機世界】　　壽險是保險行業(yè)的一個重要分支，具有巨大的市場發(fā)展空間，因此，隨著壽險市場的開放、外資公司的介入，競爭逐步升級，群雄逐鹿已成定局。如何保持自身的核心競爭力，使自己始終立于不敗之地，是每個企業(yè)必須面對的問題。信息技術(shù)的應(yīng)用無疑是提高企業(yè)競爭力的有效手段之一。壽險信息系統(tǒng)經(jīng)過了多年的發(fā)展，已逐步成熟完善，

2025-07-01 07:23

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片