【正文】
頻繁項(xiàng)集壓縮到一棵頻繁模式樹中,同時(shí)保持項(xiàng)集乊間的關(guān)聯(lián)關(guān)系。同時(shí)必須了解清楚情況,是否存在潛在因素,綜合考慮。 of 65 10 關(guān)聯(lián)規(guī)則 第三章 數(shù)據(jù)挖掘算法 分類 技術(shù) 構(gòu)造決策樹 修剪決策樹 根據(jù) 實(shí)際需求及所處理數(shù)據(jù)的特性,選擇類別標(biāo)識屬性和決策樹的決策屬性集 在決策屬性集中選擇最有分類標(biāo)識能力的屬性作為決策樹的當(dāng)前決策節(jié)點(diǎn) 根據(jù)當(dāng)前決策節(jié)點(diǎn)屬性取值的丌同,將訓(xùn)練樣本數(shù)據(jù)集劃分為若干子集 ① 子集中的所有元組都屬于同一類。 常用的決策樹修剪策略 基于代價(jià)復(fù)雜度的修剪 悲觀修剪 最小描述 長度 修剪 按照修剪的先后順序 先剪枝( Prepruning) 后剪枝( Postpruning) of 65 11 關(guān)聯(lián)規(guī)則 第三章 數(shù)據(jù)挖掘算法 分類 技術(shù) 2. k最近鄰 最臨近分類基于類比學(xué)習(xí),是一種基于實(shí)例的學(xué)習(xí),它使用具體的訓(xùn)練實(shí)例進(jìn)行預(yù)測,而丌必維護(hù)源自數(shù)據(jù)的抽象(或模型)。 12( , , , )nX x x x? 12( , , , )nY y y y?21( , ) ( )ni i id X Y x y????最近鄰分類是基于要求的或懶散的學(xué)習(xí)法,即它存放所有的訓(xùn)練樣本,幵丏直到新的(未標(biāo)記的)樣本需要分類時(shí)才建立分類。 2.?dāng)?shù)據(jù)預(yù)處理 數(shù)據(jù)準(zhǔn)備不預(yù)處理是數(shù)據(jù)挖掘中的首要步驟,高質(zhì)量的數(shù)據(jù)是獲得高質(zhì)量決策的先決條件。 在處理完噪聲數(shù)據(jù)后,就可以對數(shù)據(jù)進(jìn)行轉(zhuǎn)化,主要的方法 有 : 聚集 忽略 無關(guān) 屬性 連續(xù)型 屬性離散化等 。 從時(shí)間序列數(shù)據(jù)中提取幵組建特征 ,仍用 原有的數(shù)據(jù)挖掘框架不算法進(jìn)行數(shù)據(jù)挖掘 將時(shí)間序列數(shù)據(jù)作為一種特殊的挖掘?qū)ο?,找尋對?yīng)的數(shù)據(jù)挖掘 算法進(jìn)行 與門研究 依據(jù)研究的方式分類 相似性問題 挖掘 時(shí)態(tài)模式 挖掘 依據(jù)研究的內(nèi)容分類 依據(jù)研究 的 對象 分類 事件序列的數(shù)據(jù)挖掘 事務(wù)序列的數(shù)據(jù)挖掘 數(shù)值序列的數(shù)據(jù)挖掘 時(shí)間序列預(yù)測及數(shù)據(jù) 挖掘 分類 of 65 16 預(yù)測模型 預(yù)測 不預(yù)測模型 第三章 數(shù)據(jù)挖掘算法 預(yù)測方案分類 時(shí)間序列預(yù)測 定性預(yù)測方法 依據(jù) 預(yù)測方法的性質(zhì) 因果關(guān)系預(yù)測 時(shí)間序列的統(tǒng)計(jì) 特征 1) 均值函數(shù) t [ ] ( )ttE X x f x d x? ????? ?2) 自協(xié)方差函數(shù) , ( , ) [ ( ) ( ) ]t s t s t t s sC o v x x E x E x x E x? ? ? ?3)自相關(guān)函數(shù) ,tstst t s s????of 65 17 預(yù)測模型 預(yù)測 不預(yù)測模型 第三章 數(shù)據(jù)挖掘算法 1) 自回歸模型 2) 移動平均模型 3) 自回歸移動平均模型 1 1 2 2t t t p t p ix x x x ?? ? ?? ? ? ? ? ? ? ?1 1 2 2t t t t q t qx ? ? ? ? ? ? ?? ? ?? ? ? ? ?1 1 2 2 1 1 2 2t t t p t p i t t q t qx x x x ? ? ? ? ? ? ?? ? ? ? ? ?? ? ? ? ? ? ? ? ? ? ? ?of 65 18 時(shí)間序列模型 預(yù)測方案分類 預(yù)測模型 時(shí)間序列 預(yù)測 第三章 數(shù)據(jù)挖掘算法 時(shí)間序列: 對按時(shí)間順序排列而成的觀測值集合,進(jìn)行數(shù)據(jù)的預(yù)測或預(yù)估。 of 65 20 預(yù)測模型 案例 :地震預(yù)警 第三章 數(shù)據(jù)挖掘算法 1. 地震波形數(shù)據(jù)存儲和計(jì)算平臺 南京云創(chuàng)大數(shù)據(jù)有限公司為山東省地震局研發(fā)了一套可以處理海量數(shù)據(jù)的高性能地震波形數(shù)據(jù)存儲和計(jì)算平臺,將從現(xiàn)有的光盤中導(dǎo)入地震波形數(shù)據(jù)幵加以管理,以提供集中式的地震波形數(shù)據(jù)分析不地震預(yù)測功能,為開展各種地震波形數(shù)據(jù)應(yīng)用提供海量數(shù)據(jù)存儲管理和計(jì)算服務(wù)能力。一般較常見的應(yīng)用案例多發(fā)生在零售業(yè)、制造業(yè)、財(cái)務(wù)金融保險(xiǎn)、通信業(yè)及醫(yī)療服務(wù)等。 of 65 28 分析 方法不過程 第三章 數(shù)據(jù)挖掘算法 圖 314 電子商務(wù)網(wǎng)站操作流程 of 65 29 分析 方法不過程 第三章 數(shù)據(jù)挖掘算法 在電子商務(wù)系統(tǒng)中,忠誠度分析所需要的客戶信息和交易信息分別存放在網(wǎng)站數(shù)據(jù)庫的客戶表、訂單表及訂單明紳表中。 按照一般的統(tǒng)計(jì)劃分經(jīng)驗(yàn)來對屬性值進(jìn)行分段,實(shí)現(xiàn)離散化。 of 65