【文章內(nèi)容簡(jiǎn)介】
lization categories: data visualization, mining result visualization, mining process visualization, and visual data mining ? Data mining query language and graphical user interface ? Easytouse and highquality graphical user interface ? Essential for userguided, highly interactive data mining 2022年 3月 13日星期日 Data Mining: Concepts and Techniques 17 Examples of Data Mining Systems (1) ? Mirosoft SQLServer 2022 ? Integrate DB and OLAP with mining ? Support OLEDB for DM standard ? SAS Enterprise Miner ? A variety of statistical analysis tools ? Data warehouse tools and multiple data mining algorithms ? IBM Intelligent Miner ? A wide range of data mining algorithms ? Scalable mining algorithms ? Toolkits: neural work algorithms, statistical methods, data preparation, and data visualization tools ? Tight integration with IBM39。s DB2 relational database system 2022年 3月 13日星期日 Data Mining: Concepts and Techniques 18 Examples of Data Mining Systems (2) ? SGI MineSet ? Multiple data mining algorithms and advanced statistics ? Advanced visualization tools ? Clementine (SPSS) ? An integrated data mining development environment for endusers and developers ? Multiple data mining algorithms and visualization tools 2022年 3月 13日星期日 Data Mining: Concepts and Techniques 19 Additional Themes on Data Mining 2022年 3月 13日星期日 Data Mining: Concepts and Techniques 20 Theoretical Foundations of Data Mining ? 資料化約 : ? 根據(jù)此理論資料探勘的基礎(chǔ)是減少資料的描述。在大型資料庫(kù)裡,資料化約能換來(lái)對(duì)查詢(xún)的快速近似應(yīng)答。 ? 資料壓縮 : ? 根據(jù)此理論,資料探勘的基礎(chǔ)是對(duì)給定的資料進(jìn)行壓縮,一般是依照 bits, association rules, decision trees, clusters等進(jìn)行編碼實(shí)做。 2022年 3月 13日星期日 Data Mining: Concepts and Techniques 21 Theoretical Foundations of Data Mining ? 模式發(fā)現(xiàn) : ? 在這個(gè)理論中,資料探勘的基礎(chǔ)是在於資料庫(kù)中發(fā)現(xiàn)模式,例如關(guān)聯(lián)法則、分類(lèi)模型、序列模式。 ? 機(jī)率理論 : ? 根據(jù)統(tǒng)計(jì)理論而來(lái)的這一個(gè)理論中,資料探勘的基礎(chǔ)是發(fā)現(xiàn)隨機(jī)變數(shù)的聯(lián)合機(jī)率分布。 ? 微觀經(jīng)濟(jì)觀點(diǎn) : ? 把資料探勘當(dāng)作發(fā)現(xiàn)模式的任務(wù),透過(guò)資料探勘來(lái)發(fā)現(xiàn)那些對(duì)企業(yè)決策過(guò)程有用的並在一定程度上有趣的模式。這個(gè)觀點(diǎn)認(rèn)為,如果模式有用的話(huà),則認(rèn)為是有趣的觀點(diǎn)。 2022年 3月 13日星期日 Data Mining: Concepts and Techniques 22 Theoretical Foundations of Data Mining ? 歸納資料庫(kù) ? 根據(jù)此理論,一個(gè)資料庫(kù)要被看作是由儲(chǔ)存在資料庫(kù)中的模式和資料所組成的。資料探勘的問(wèn)題變成了對(duì)資料庫(kù)進(jìn)行歸納的問(wèn)題,他的任務(wù)是查詢(xún)資料庫(kù)中的資料和理論 (模式 )。 2022年 3月 13日星期日 Data Mining: Concepts and Techniques 23 Statistical Data Mining ? 書(shū)上所介紹的資料探勘技術(shù)主要都是資料庫(kù)導(dǎo)向的。但是還有很多用於統(tǒng)計(jì)資料尤其是數(shù)值資料分析的技術(shù)。這些技術(shù)被過(guò)展到應(yīng)用到科學(xué)以及經(jīng)濟(jì)或是社會(huì)科學(xué)資料中。 ? 回歸 : ? 用來(lái)預(yù)測(cè)一個(gè)或是多個(gè)預(yù) 測(cè)變數(shù)來(lái)的響應(yīng)變數(shù)的值 。同時(shí)也有很多回歸方法 ,例如線(xiàn)性回歸、多重回 歸、加權(quán)回歸、多項(xiàng)式回 歸等。 2022年 3月 13日星期日 Data Mining: Concepts and Techniques 24 Statistical Data Mining ? 廣義化線(xiàn)性迴歸 : ? 這些模型和他們的廣義化模型 ,允許一個(gè)分類(lèi)響應(yīng)數(shù)和一系 列預(yù)測(cè)變數(shù)相關(guān),這和使用線(xiàn) 性迴歸模型中的數(shù)值響應(yīng)變數(shù) 類(lèi)似 ? 變異數(shù)分析 : ? 用一個(gè)數(shù)值響應(yīng)變數(shù)和 一個(gè)或多個(gè)分類(lèi)變量來(lái) 描述兩個(gè)或多個(gè)群組的資料。 2022年 3月 13日星期日 Data Mining: Concepts and Techniques 25 Statistical Data Mining ? 回歸樹(shù) : ? 利用 MSE(平均平方差 ) 所建立的一個(gè)二元樹(shù), 可以利用在分類(lèi)或是預(yù) 測(cè)之上。 ? 混合效應(yīng)模型 : ? 用來(lái)分析依個(gè)或是多個(gè) 組變數(shù)分類(lèi)的資料。他 們透過(guò)一個(gè)或多個(gè)因數(shù) 欄描述一個(gè)響應(yīng)變數(shù)和 一些共變數(shù)之間的關(guān)連。 2022年 3月 13日星期日 Data Mining: Concepts and Techniques 26 Statistical Data Mining ? 因數(shù)分析 : ? 用來(lái)決定哪些變數(shù)一起產(chǎn)生了一個(gè)給定因子。譬如對(duì)於許多精神病學(xué)資料,不可能接測(cè)量某個(gè)特別的因子;然而,用於測(cè)量其他的數(shù)量 (考試成績(jī) )是可能的。 2022年 3月 13日星期日 Data Mining: Concepts and Techniques 27 Statistical Data Mining ? 判別式分析 ? 這種技術(shù)可以用來(lái)預(yù)測(cè)分類(lèi)響應(yīng)變數(shù),他不像廣義 化線(xiàn)性模型假設(shè)自變數(shù)遵循多元正態(tài)分佈,整個(gè)過(guò) 程企圖決定幾個(gè)判別函式,用來(lái)區(qū)別由響應(yīng)變數(shù)定 義的群組。 2022年 3月 13日星期日 Data Mining: Concepts and Techniques 28 Statistical Data Mining ? 時(shí)間序列 : ? 很多技術(shù)用來(lái)分析時(shí)間序列資料。例如 :自回歸方法, univariate ARIM,自動(dòng)回歸組合模型,長(zhǎng)記憶的時(shí)間序列模型。 ? 品質(zhì)控制 : ? 各種統(tǒng)計(jì)法可以用來(lái)準(zhǔn)備品質(zhì)控制的圖表。例如 :Shewhart圖表和Cusum圖表。這些統(tǒng)計(jì)包括 :平均值、標(biāo)準(zhǔn)差、區(qū)間、計(jì)數(shù)、移動(dòng)平均、移動(dòng)標(biāo)準(zhǔn)差和移動(dòng)區(qū)間。 2022年 3月 13日星期日 Data Mining: Concepts and Techniques 29 Statistical Data Mining ? 倖存分析 : ? 此分析起初是用來(lái)預(yù)測(cè)一個(gè)病人經(jīng)過(guò)治療之後能活到多少 t的時(shí)間。此分析也可用在製造設(shè)備,估計(jì)工業(yè)設(shè)備的生命週期。 2022年 3月 13日星期日 Data Mining: Concepts and Techniques 30 Visual Data Mining ? Visualization: 使用 CG(電腦繪圖 )去建立影像來(lái)輔助了解複雜或大型的資料。 ? Visual Data Mining: 結(jié)合資料視覺(jué)化和資料探勘兩門(mén)科學(xué)。 ? CG ? 多媒體系統(tǒng) ? 使用者介面 ? 高效能的運(yùn)算 2022年 3月 13日星期日 Data Mining: Concepts and Techniques 31 Visual Data Mining ? Visual Data Mining ? 資料視覺(jué)化 ? 資料探勘結(jié)果視覺(jué)化 ? 資料探勘過(guò)程視覺(jué)化 ? 互動(dòng)式的視覺(jué)化資料探勘 ? 資料視覺(jué)化 ? 在資料庫(kù)或是資料倉(cāng)儲(chǔ)中的資料可以建立不同等級(jí)或是分級(jí),也可以看作是由不同屬性和維度所組成的,由盒狀