【正文】
述則集中于尋找一種人類能夠理解和解釋的模式對數(shù)據(jù)進行刻畫,如聚類、關聯(lián)規(guī)則等。 數(shù)據(jù)挖掘的分類 ? 按所挖掘的模式的類型將數(shù)據(jù)挖掘劃分為: – 概念描述(歸納或簡約) – 分類和預測 – 聚類 – 關聯(lián)規(guī)則 – 其它的一些模式識別和統(tǒng)計方法 數(shù)據(jù)挖掘-概念描述(歸納) ? 概念描述與數(shù)據(jù)概化密切相關 – 以簡潔的形式在更一般的(而不是在較低的)抽象層描述數(shù)據(jù)是很有用的 – 允許數(shù)據(jù)集在多個抽象層概化,便于用戶考察數(shù)據(jù)的一般行為 ? 與 OLAp的區(qū)別 – 更為復雜的數(shù)據(jù)類型 – 用戶控制與自動處理 數(shù)據(jù)挖掘-分類和預測 ? 分類:給定已有的數(shù)據(jù)和類別,通過分類算法得到描述和區(qū)分數(shù)據(jù)類或概念的模型。 ? 預測:將上述分類模型應用到要進行測試的數(shù)據(jù)上,對未來或者未知的數(shù)據(jù)進行預測。 貸款分類模型 收入債務不貸款貸款 數(shù)據(jù)挖掘-聚類分析 ? 聚類是將一個數(shù)據(jù)集按照某個標準分成幾個簇的過程。 ? 每個簇內(nèi)部的數(shù)據(jù)按照該標準具有很高相似性,而簇之間的數(shù)據(jù)的相似性很低。 ? 聚類與分類不同 – 分類中,類標記事先給出,是一種監(jiān)督學習的方法; – 聚類沒有事先給定類別,屬于一種非監(jiān)督的學習。 客戶的聚類分析 收入債務+++++++ +++++++++++++++++++聚類2聚類1聚類3 數(shù)據(jù)挖掘-關聯(lián)規(guī)則挖掘 ? 關聯(lián)規(guī)則挖掘,就是對業(yè)務的所有不同類型的信息進行全面的處理,得到不同類型信息之間的相互關系,從而進一步分析不同信息之間潛在的邏輯規(guī)律,為業(yè)務運作提供參考和決策支持。 ? 技術層面講,關聯(lián)規(guī)則挖掘是在給定的事務數(shù)據(jù)庫中找到所有滿足最小支持度和最小置信度的形如 X=Y的規(guī)則 商務智能應用系統(tǒng) ? 目前商務智能和數(shù)據(jù)挖掘工具分為三類: – 通用單任務類 – 通用多任務類 – 面向?qū)iT領域類 IBM 商業(yè)智能解決方案 E T M LD B 2 D a t a W a re h o u s e O L T PQ u e r y / R e p o rtO L A PM I N I N GB u s i n e s sA p p l i c a t i o nD B 2U D B系統(tǒng)管理V i s u a lW a r e h o u seD a t a G u i d e應用層次通過 D B M S 。文件, W E B 導入高度交互并且能夠廣泛讀取數(shù)據(jù)( W e b + J a v a , C/ S , . .. )D e c is io n E d g e 。 D is co v e r yS e r ie s 。 B u s in e ss A n a ly sisS u ite s。 S u r f A id 。 I n f o P r in tB I s o lu t io nI B M I n te ll ig e n t M in e rH e a v y: I B M / A r b o r O L A P ,C o n g o s , M ic r o st r a t e g y,B u sin e s s O b je ct s , . . .L ig h t : A p p r o a chE x c e l, 1 2 3I B M Q M F ,A p p r o a c h , A c ce s s,I B M /E S RI BI 的數(shù)據(jù)挖掘解決方案 Intelligent Miner 數(shù)據(jù)倉庫知識選擇 轉(zhuǎn)換 挖掘 理解數(shù)據(jù)挖掘過程 選擇數(shù)據(jù) 挖掘數(shù)據(jù) 理解結果I n t e ll ig e n t M in e r f o r D a ta數(shù)據(jù)準備統(tǒng)計分析數(shù)據(jù)挖掘結果可視化最終用戶 J A V A 界面管理G U I可視化數(shù)據(jù)處理功能統(tǒng)計功能數(shù)據(jù)挖掘技術轉(zhuǎn)換后的數(shù)據(jù)理解后的信息抽取后的信息 演講完畢,謝謝觀看!