【文章內(nèi)容簡介】
lization categories: data visualization, mining result visualization, mining process visualization, and visual data mining ? Data mining query language and graphical user interface ? Easytouse and highquality graphical user interface ? Essential for userguided, highly interactive data mining 2022年 3月 13日星期日 Data Mining: Concepts and Techniques 17 Examples of Data Mining Systems (1) ? Mirosoft SQLServer 2022 ? Integrate DB and OLAP with mining ? Support OLEDB for DM standard ? SAS Enterprise Miner ? A variety of statistical analysis tools ? Data warehouse tools and multiple data mining algorithms ? IBM Intelligent Miner ? A wide range of data mining algorithms ? Scalable mining algorithms ? Toolkits: neural work algorithms, statistical methods, data preparation, and data visualization tools ? Tight integration with IBM39。s DB2 relational database system 2022年 3月 13日星期日 Data Mining: Concepts and Techniques 18 Examples of Data Mining Systems (2) ? SGI MineSet ? Multiple data mining algorithms and advanced statistics ? Advanced visualization tools ? Clementine (SPSS) ? An integrated data mining development environment for endusers and developers ? Multiple data mining algorithms and visualization tools 2022年 3月 13日星期日 Data Mining: Concepts and Techniques 19 Additional Themes on Data Mining 2022年 3月 13日星期日 Data Mining: Concepts and Techniques 20 Theoretical Foundations of Data Mining ? 資料化約 : ? 根據(jù)此理論資料探勘的基礎是減少資料的描述。在大型資料庫裡,資料化約能換來對查詢的快速近似應答。 ? 資料壓縮 : ? 根據(jù)此理論,資料探勘的基礎是對給定的資料進行壓縮,一般是依照 bits, association rules, decision trees, clusters等進行編碼實做。 2022年 3月 13日星期日 Data Mining: Concepts and Techniques 21 Theoretical Foundations of Data Mining ? 模式發(fā)現(xiàn) : ? 在這個理論中,資料探勘的基礎是在於資料庫中發(fā)現(xiàn)模式,例如關聯(lián)法則、分類模型、序列模式。 ? 機率理論 : ? 根據(jù)統(tǒng)計理論而來的這一個理論中,資料探勘的基礎是發(fā)現(xiàn)隨機變數(shù)的聯(lián)合機率分布。 ? 微觀經(jīng)濟觀點 : ? 把資料探勘當作發(fā)現(xiàn)模式的任務,透過資料探勘來發(fā)現(xiàn)那些對企業(yè)決策過程有用的並在一定程度上有趣的模式。這個觀點認為,如果模式有用的話,則認為是有趣的觀點。 2022年 3月 13日星期日 Data Mining: Concepts and Techniques 22 Theoretical Foundations of Data Mining ? 歸納資料庫 ? 根據(jù)此理論,一個資料庫要被看作是由儲存在資料庫中的模式和資料所組成的。資料探勘的問題變成了對資料庫進行歸納的問題,他的任務是查詢資料庫中的資料和理論 (模式 )。 2022年 3月 13日星期日 Data Mining: Concepts and Techniques 23 Statistical Data Mining ? 書上所介紹的資料探勘技術主要都是資料庫導向的。但是還有很多用於統(tǒng)計資料尤其是數(shù)值資料分析的技術。這些技術被過展到應用到科學以及經(jīng)濟或是社會科學資料中。 ? 回歸 : ? 用來預測一個或是多個預 測變數(shù)來的響應變數(shù)的值 。同時也有很多回歸方法 ,例如線性回歸、多重回 歸、加權回歸、多項式回 歸等。 2022年 3月 13日星期日 Data Mining: Concepts and Techniques 24 Statistical Data Mining ? 廣義化線性迴歸 : ? 這些模型和他們的廣義化模型 ,允許一個分類響應數(shù)和一系 列預測變數(shù)相關,這和使用線 性迴歸模型中的數(shù)值響應變數(shù) 類似 ? 變異數(shù)分析 : ? 用一個數(shù)值響應變數(shù)和 一個或多個分類變量來 描述兩個或多個群組的資料。 2022年 3月 13日星期日 Data Mining: Concepts and Techniques 25 Statistical Data Mining ? 回歸樹 : ? 利用 MSE(平均平方差 ) 所建立的一個二元樹, 可以利用在分類或是預 測之上。 ? 混合效應模型 : ? 用來分析依個或是多個 組變數(shù)分類的資料。他 們透過一個或多個因數(shù) 欄描述一個響應變數(shù)和 一些共變數(shù)之間的關連。 2022年 3月 13日星期日 Data Mining: Concepts and Techniques 26 Statistical Data Mining ? 因數(shù)分析 : ? 用來決定哪些變數(shù)一起產(chǎn)生了一個給定因子。譬如對於許多精神病學資料,不可能接測量某個特別的因子;然而,用於測量其他的數(shù)量 (考試成績 )是可能的。 2022年 3月 13日星期日 Data Mining: Concepts and Techniques 27 Statistical Data Mining ? 判別式分析 ? 這種技術可以用來預測分類響應變數(shù),他不像廣義 化線性模型假設自變數(shù)遵循多元正態(tài)分佈,整個過 程企圖決定幾個判別函式,用來區(qū)別由響應變數(shù)定 義的群組。 2022年 3月 13日星期日 Data Mining: Concepts and Techniques 28 Statistical Data Mining ? 時間序列 : ? 很多技術用來分析時間序列資料。例如 :自回歸方法, univariate ARIM,自動回歸組合模型,長記憶的時間序列模型。 ? 品質控制 : ? 各種統(tǒng)計法可以用來準備品質控制的圖表。例如 :Shewhart圖表和Cusum圖表。這些統(tǒng)計包括 :平均值、標準差、區(qū)間、計數(shù)、移動平均、移動標準差和移動區(qū)間。 2022年 3月 13日星期日 Data Mining: Concepts and Techniques 29 Statistical Data Mining ? 倖存分析 : ? 此分析起初是用來預測一個病人經(jīng)過治療之後能活到多少 t的時間。此分析也可用在製造設備,估計工業(yè)設備的生命週期。 2022年 3月 13日星期日 Data Mining: Concepts and Techniques 30 Visual Data Mining ? Visualization: 使用 CG(電腦繪圖 )去建立影像來輔助了解複雜或大型的資料。 ? Visual Data Mining: 結合資料視覺化和資料探勘兩門科學。 ? CG ? 多媒體系統(tǒng) ? 使用者介面 ? 高效能的運算 2022年 3月 13日星期日 Data Mining: Concepts and Techniques 31 Visual Data Mining ? Visual Data Mining ? 資料視覺化 ? 資料探勘結果視覺化 ? 資料探勘過程視覺化 ? 互動式的視覺化資料探勘 ? 資料視覺化 ? 在資料庫或是資料倉儲中的資料可以建立不同等級或是分級,也可以看作是由不同屬性和維度所組成的,由盒狀