【正文】
1 Data Mining: Concepts and Techniques 楊昆 修譯 — Chapter 2 — Jiawei Han, Micheline Kamber, and Jian Pei University of Illinois at UrbanaChampaign Simon Fraser University 2 Chapter 2: 了解數(shù)據(jù) ? 數(shù)據(jù)對(duì)象和屬性類(lèi)型 Data Objects and Attribute Types ? 數(shù)據(jù)的 (基本 )統(tǒng)計(jì)描述 Basic Statistical Descriptions of Data ? 數(shù)據(jù)可視化 Data Visualization ? 測(cè)量數(shù)據(jù)相似性和相異性 Measuring Data Similarity and Dissimilarity ? 總結(jié) Summary 3 數(shù)據(jù)集合的類(lèi)型 ? 記錄 Record ? 關(guān)系記錄 ? 數(shù)據(jù)矩陣 , ., 數(shù)值矩陣 , 交叉表 ? 文檔數(shù)據(jù) : 文本文檔 :詞頻向量 termfrequency vector ? 交易數(shù)據(jù) ? 圖 and 網(wǎng)絡(luò) ? 萬(wàn)維網(wǎng) ? 社會(huì)或信息網(wǎng)絡(luò) ? 分子結(jié)構(gòu) Molecular Structures ? 有序的 Ordered ? 視頻數(shù)據(jù) : sequence of images ? 時(shí)間數(shù)據(jù) : 時(shí)間序列 timeseries ? 序列數(shù)據(jù) :交易序列 transaction sequences ? 遺傳序列數(shù)據(jù) ? 空間 , 圖像 image and 多媒體 multimedia: ? Spatial data: maps ? Image data: ? Video data: D o c u m e n t 1seasontimeoutlostwingamescoreballplaycoachteamD o c u m e n t 2D o c u m e n t 33 0 5 0 2 6 0 2 0 2007 0 2 1 0 0 3 0 01 0 0 1 2 2 0 3 0T ID It e m s 1 B r e ad , C o k e , M ilk 2 Beer, Bread 3 B e e r , C o k e, D iape r , M ilk 4 Beer, Bread , D ia p er, M il k 5 C ok e, D iap er, M ilk 4 結(jié)構(gòu)數(shù)據(jù)的重要特征 ? 維度 Dimensionality ? 維數(shù)災(zāi)難 Curse of dimensionality ? 稀疏 Sparsity ? 只有計(jì)數(shù) Only presence counts ? 分辯率 Resolution ? 模式依賴于尺度 ? 分布 Distribution ? 中心性和分散 Centrality and dispersion 5 數(shù)據(jù)對(duì)象 ? 數(shù)據(jù)集由數(shù)據(jù)對(duì)象構(gòu)成 ? 一個(gè)數(shù)據(jù)對(duì)象代表一個(gè)實(shí)體 ? 例子 : ? 銷(xiāo)售數(shù)據(jù)庫(kù) sales database:客戶 /顧客 ,商店物品 , sales ? 醫(yī)學(xué)數(shù)據(jù)庫(kù) : patients, treatments ? 大學(xué)數(shù)據(jù)庫(kù) : students, professors, courses ? 又稱(chēng)為 樣本 , 事例 ,實(shí)例 , 數(shù)據(jù)點(diǎn) , 對(duì)象 ,元組 tuples. ? 數(shù)據(jù)對(duì)象由屬性來(lái)描述 ? Database rows data objects。 columns attributes. 6 屬性 ? 屬性 Attribute (or維度 , 特征 , 變量 ):一個(gè)數(shù)據(jù)字段 , 表示一個(gè)數(shù)據(jù)對(duì)象的某個(gè)特征 . ? ., customer _ID, name, address ? 類(lèi)型 : ? 名詞性 Nominal ? 二元的 ? 數(shù)字的 Numeric: 數(shù)量的 ? Intervalscaled ? Ratioscaled 7 屬性類(lèi)型 ? 名詞性 Nominal:類(lèi)別 ,狀態(tài) , or ―名目 ‖ ? Hair_color = {auburn, black, blond, brown, grey, red, white} ? 婚姻狀態(tài) , 職業(yè) occupation, ID numbers, zip codes ? 二元 ? 只有 2個(gè)狀態(tài)的名詞性屬性 (0 and 1) ? 對(duì)稱(chēng)二元 Symmetric binary: 同樣重要的兩相 ? ., gender ? 非對(duì)稱(chēng) Asymmetric binary: 非同等重要 ? ., 醫(yī)療檢查 (positive vs. negative) ? 慣例 Convention: assign 1 to most important oute (., HIV positive) ? 順序的 Ordinal ? 值有一個(gè)有意義的順序 (排序 ) 但連續(xù)值之間的大小未知 . ? Size = {small, medium, large},等級(jí) ,軍隊(duì)排名 8 數(shù)值屬性的類(lèi)型 ? 數(shù)量 Quantity (integer or realvalued) ? 區(qū)間 Interval ? 在某個(gè)同等大小的一個(gè)尺度單位上 Measured on a scale of equalsized units ? 值有序 ? ., temperature in C?or F?, calendar dates ? 沒(méi)有真正的零點(diǎn) ? Ratio ? 有真正的零點(diǎn) ? 可以講值是被測(cè)量單位一個(gè)數(shù)量級(jí) (10 K? is twice as high as 5 K?). ? .,溫度在開(kāi)爾文 ,長(zhǎng)度 ,計(jì)數(shù) ,貨幣的數(shù)量 9 離散 vs. 連續(xù)屬性 ? Discrete Attribute ? 一個(gè)有限的或可數(shù)無(wú)限集值 ? ., zip codes, the set of words in a collection of documents ? 有時(shí) ,表示為整數(shù)變量 ? 注 : 二元屬性是離散屬性的一個(gè)特殊情況 ? Continuous Attribute ? 屬性值為實(shí)數(shù) ? ., temperature, height, or weight ? 實(shí)際上,實(shí)值只能使用有限位數(shù)進(jìn)行測(cè)量和代表 ? 連續(xù)屬性通常表示為浮點(diǎn)變量 10 Chapter 2:數(shù)據(jù)的統(tǒng)計(jì)描述 ? Data Objects and Attribute Types ? 數(shù)據(jù)的 (基本 )統(tǒng)計(jì)描述 ? 數(shù)據(jù)可視化 ? 測(cè)量數(shù)據(jù)相似性和相異性 Measuring Data Similarity and Dissimilarity ? Summary 11 數(shù)據(jù)的 (基本 )統(tǒng)計(jì)描述 ? Motivation ?為了更好的理解數(shù)據(jù) :集中趨勢(shì),變異和傳播 ? 數(shù)據(jù)離散特征 ?中位數(shù) , 最大 , 最小 , 粉位數(shù) , 離群點(diǎn) , 方差 , 等 . ? 針對(duì)排序區(qū)間的數(shù)值維 ?數(shù)據(jù)離散度 : 多個(gè)粒度上的精確分析 ?排序區(qū)間的盒圖 /分位數(shù)圖分析 ? 某計(jì)算側(cè)度下的離散度分析 ?折疊為某數(shù)值維度下 ?轉(zhuǎn)化立方體上的盒圖 /分位數(shù)圖 12 分布度量 /代數(shù)度量 /整體度量 ? 從數(shù)據(jù)挖掘角度,需要考察如何在大型數(shù)據(jù)可中有效計(jì)算度量。 ? 分布式度量 distributive measure ? 可通過(guò)如下方法計(jì)算的度量(函數(shù)):將數(shù)據(jù)劃分成較小子集,計(jì)算每個(gè)子集的度量,合并計(jì)算結(jié)果得到整個(gè)數(shù)據(jù)集的度量值。 ? Sum, count