freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

《數據分析技術》ppt課件-全文預覽

2024-11-20 00:04 上一頁面

下一頁面
  

【正文】 目的:發(fā)現數據庫中數據間的相互關聯 含義:給定一組數據項(例如:商品號)和一個交易集合(例如交易記錄),通過分析記錄集合,推導出數據項間的相關性(例如:在交易活動中商品間的相關性) 基本形式 給定: 一組事務集 每一個事務中包含若干個數據項 挖掘: 各個數據項之間的關聯 例如, 98% 的顧客在購買電動剃須刀的同時會購買一些電池,關聯規(guī)則興趣度的度量值:支持度,推導出的數據間的相關性稱為規(guī)則(或模式),對規(guī)則興趣度的描述采用支持度、置信度概念 支持度(Support):在關聯分析中表示滿足規(guī)則的記錄數與總記錄數的比,它表明了規(guī)則的模式在數據庫中出現的頻度對于規(guī)則: X ? Y,則其支持度表示為:,購買商品Y的交易,同時購買商品X和Y的交易,購買商品X的交易,關聯規(guī)則興趣度的度量值:置信度,置信度(Confidence),在關聯分析中表示為滿足規(guī)則的記錄數與出現被分析數據項的記錄數之比 對于規(guī)則: X ? Y,則其置信度表示為: 最小支持度和最小置信度 用戶(分析員)不關心可信程度太低的規(guī)則,因而用戶需要輸入兩個參數:最小支持度和最小置信度,支持度和置信度舉例,零售商場銷售分析 數據項為商品,記錄集合為交易記錄集合 規(guī)則為:“購買商品X的顧客,同時購買商品Y”,即X ? Y; 設最小支持度為0 .3;最小置信度也為0.3 分析結果:,關聯分析的基本步驟,術語 設I={i1, i2, …im}是項的集合(itemset),包含k個項的稱為k項集 設D是事務的集合,其中每個事務T是項的集合,T ? I 設A是一個項集,事務T包含A當且僅當A ? T 項集的出現頻率:D中包含項集的事務數 頻繁項集:如果項集的出現頻率大于或等于最小支持度min_sup與D中事務總數的乘積;頻繁k項集記作Lk 關聯規(guī)則A?B:其中A?I,B?I,并且A?B=? 強規(guī)則:同時滿足最小支持度和最小置信度的規(guī)則,關聯分析的例子,Min. support 50% Min. confidence 50%,For rule A ? C: support = support({A}?{C}) = 50% confidence = support({A}?{C})/support({A}) = 66.6%,For rule C ? A: support = support({A}?{C}) = 50% confidence = support({A}?{C})/support({C}) = 100%,關聯分析的基本步驟,通常,關聯分析的過程分為以下兩步: 發(fā)現頻繁項集(frequent itemset),這些項集出現的頻率至少和預定義的最小支持度一樣 由頻繁項集來產生強關聯規(guī)則:這些規(guī)則必須滿足最小支持度和最小置信度,Apriori算法,Apriori性質 先驗( Apriori )法則:一個頻繁項集的任何非空子集肯定也是一個頻繁項集 例如{A,B}為高頻項集,那么其子集{A}、{B}一定都為高頻項集 反單調:一個集合如果不能通過測試,則它的任何超集也不能通過測試 反復尋找高頻項集(從1到K階),Apriori算法,如何由Lk1產生Lk ? 連接步:對K1階頻繁項集Lk1做SelfJoin操作,形成K階頻繁項集的候選集Ck 具體算法如下: insert into Ck select p.item1, p.item2, …, p.itemk1, q.itemk1 from Lk1 p, Lk1 q where p.item1=q.item1 ,…, p.itemk2=q.itemk2 , p.itemk1 q.itemk1,Apriori算法,剪枝步:任何K1階非頻繁項集,則其不可能為K階頻繁項集的子集 具體算法如下: for all item sets c in Ck do for all (k1)subsets s of c do if (s is not in Lk1) then delete c from Ck,Apriori算法,示例 3階高頻項目集:L3={abc, abd, acd, ace, bcd} 連接步 Selfjoining: L3*L3 abc,abd ? abcd acd, ace ? acde 剪枝步 acde 移出,因為 ade不包含在 L3中 4階候選集:C4={abcd},Apriori算法,數據庫事務數據D,最小支持度min_sup=2,Apriori算法,掃描D,對每 個候選記數,比較sup.與 min_sup,C1,L1,Apriori算法,由L1產生C2,掃描D,對每 個候選記數,C2,C2,Apriori算法,比較sup.與 min_sup,L2,由L2產生C3,C3,Apriori算法,使用Apriori 性質剪枝,C3,掃描D,對每 個候選記數,C3,比較sup.與 min_sup,L3,由頻繁項集來產生關聯規(guī)則,步驟 對于每個頻繁項集l,產生l的所有非空子集 對于L的每個非空子集s,如果: 則輸出規(guī)則“s ? (ls)”,其中min_conf是最小置信度閾值 由于規(guī)則由頻繁項集產生,每個規(guī)則自動滿足最小支持度,由頻繁項集來產生關聯規(guī)則,示例 l = {I1, I2, I5} l的非空子集{I1},{I2},{I5},{I1, I2},{I1, I5},{I2, I5} I1 ? I2 ? I5, c = 2/6 = 33% I2 ? I1 ? I5, c = 2/7 = 29% I5 ? I1 ? I2, c = 2/2 = 100% I1 ? I2 ? I5, c = 2/4 = 50% I1 ? I5 ? I2, c = 2/2 = 100% I2 ? I5 ? I1, c = 2/2 = 100% 若min_conf=70%,則輸出第3,5,6條規(guī)則,分類分析(Classifiers),含義 有一個記錄集合和一組標記,標記用以標識記錄的類別 先為每個記錄賦予一個標記(按標記對記錄分類) 對同類記錄的特征進行描述 顯式描述:例如,一組規(guī)則定義 隱式描述:例如,一個數學模型或公式 分類具有極其廣泛的應用 分類常用于預測 醫(yī)療診斷、性能預測、選擇購物、信譽證實等,分類分析的兩個步驟,構建模型:對預先確定的類別給出相應的描述 先假設一個元組(或樣本)集合中的每一個元組(或樣本)屬于預先定義的某一個類別,由一個類標號屬性(class label attribute)來確定 這些元組(或樣本)的集合稱為訓練集,用于構建模型;由于提供了每個訓練樣本的類標號,稱作有指導的學習 最終的模型用決策樹、分類規(guī)則或者數學公式等來表示 模型應用: 對未知的數據對象進行分類,分類分析第一步:構建模型,分類分析第二步:模型應用,分類分析舉例,對信用卡持卡人的信譽進行分類分析 記錄集合: 持卡人的記錄集 一組標記:良好、普通、較差;(信譽程度) 先為每個持卡人賦予一個標記,即信譽等級 對同類記錄(即同信譽等級的持卡人)的特征進行描述。????39。????39。????39。=GROUPING(color) FROM my_cube GROUP BY model, theyear, color WITH CUBE,GROUPING 是一個聚合函數,它產生一個附加的列,當用 CUBE 或 ROLLUP 運算符添加行時,附加的列輸出值為1,當所添加的行不是由 CUBE 或 ROLLUP 產生時,附加列值為0。=GROUPING(model), year, 39。 GROUP BY Model,cube,CUBE,cube,select Model, Year, Color, sum(Sales) from Sales groupby Model, Year, Color with cube,總行數= (model個數+1) * (theyear個數+1) * (color個數+1
點擊復制文檔內容
畢業(yè)設計相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1