【正文】
事例 ,實例 , 數(shù)據(jù)點 , 對象 ,元組 tuples. ? 數(shù)據(jù)對象由屬性來描述 ? Database rows data objects。91 ? Graph from Nadeau Software Consulting website: 可視化社會網(wǎng)絡(luò)數(shù)據(jù):模型感染從一個人到下一個擴散的方式 50 可視化復(fù)雜數(shù)據(jù)和關(guān)系 ? Visualizing nonnumerical data: text and social works ? Tag cloud: visualizing usergenerated tags ? The importance of tag is represented by font size/color ? Besides text data, there are also methods to visualize relationships, such as visualizing social works Newsmap: Google News Stories in 2022 51 Chapter 2:數(shù)據(jù)的統(tǒng)計描述 ? Data Objects and Attribute Types ? 數(shù)據(jù)的 (基本 )統(tǒng)計描述 ? 數(shù)據(jù)可視化 ? 測量數(shù)據(jù)相似性和相異性 Measuring Data Similarity and Dissimilarity ? Summary 52 相似性和相異性 ? Similarity ? 數(shù)值測量兩個數(shù)據(jù)對象類似程度 ? 目標(biāo)越相似時值越大 ? 通常介于 [0,1] ? Dissimilarity (., 距離 distance) ? 數(shù)值測量兩個數(shù)據(jù)對象差異程度 ? Lower when objects are more alike ? Minimum dissimilarity is often 0 ? Upper limit varies ? 鄰近度 Proximity refers to a similarity or dissimilarity 53 數(shù)據(jù)矩陣和相異度矩陣 ? Data matrix ? n data points with p dimensions ? Two modes ? Dissimilarity matrix ? n data points, but registers only the distance ? A triangular matrix ? Single mode ??????????????????npx. . .nfx. . .n1x. . .. . .. . .. . .. . .ipx. . .ifx. . .i1x. . .. . .. . .. . .. . .1px. . .1fx. . .11x????????????????0...)2,()1,(:::)2,3()...ndnd0dd ( 3 , 10d ( 2 , 1 )054 名詞性 屬性的鄰近度量 ? 2個或多個狀態(tài) , ., red, yellow, blue, green (二元屬性的推廣 ) ? Method 1: 簡單匹配 ? m: p個變量中匹配的個數(shù) , p: 全部變量的個數(shù) ? Method 2:使用一系列的二進制屬性 ? 為 M個名義狀態(tài)的每一個產(chǎn)生一個新的二進制 /二元屬性 p mpjid ??),(55 二進制屬性的鄰近度量 ? 二進制數(shù)據(jù)的列聯(lián)表contingency table ? 對稱二元變量的距離側(cè)度 : ? 不對稱二元變量的距離側(cè)度 : ? Jaccard系數(shù) (不對稱二元變量的相似性側(cè)度 ): ? Note: Jaccard coefficient is the same as ―coherence‖: Object i Object j 56 二進制屬性的相異度量 ? Example ? 性別是對稱屬性 ? The remaining attributes are asymmetric binary ? 令 Y and P 值為 1, 且 N值為 0 N a m e G e n d e r F e v e r C o u g h T e s t 1 T e s t 2 T e s t 3 T e s t 4J a c k M Y N P N N NM a ry F Y N P N P NJ im M Y P N N N N21121),(11111),(10210),(???????????????m a r yjimdjimj a c kdm a r yj a c kd57 規(guī)范數(shù)值數(shù)據(jù) ? Zscore: ? X: 需標(biāo)準(zhǔn)化的原始數(shù)值 , μ: 總體均值 , σ: 標(biāo)準(zhǔn)差 ? 在標(biāo)準(zhǔn)偏差單位下, 原始分?jǐn)?shù)和總體均值之間的距離 ? ―‖, ―+‖ ? 另一種方法 : Calculate the mean absolute deviation 其中 ? standardized measure (zscore): ? 使用平均絕對偏差比使用標(biāo)準(zhǔn)差更穩(wěn)健 .). . .211 nffff xx(xn m ????|)|. . .|||(|1 21 fnffffff mxmxmxns ???????ffifif smx z ??? ??? x z58 例 : 數(shù)據(jù)矩陣和相異度矩陣 p o i n t a t t r i b u t e 1 a t t r i b u t e 2x1 1 2x2 3 5x3 2 0x4 4 5Dissimilarity Matrix (with Euclidean Distance) x1 x2 x3 x4x1 0x2 3 . 6 1 0x3 5 . 1 5 . 1 0x4 4 . 2 4 1 5 . 3 9 0Data Matrix 59 數(shù)值數(shù)據(jù)的距離 : Minkowski Distance ? Minkowski distance:一種流行的距離測度 其中 i = (xi1, xi2, …, xip) and j = (xj1, xj2, …, xjp)為兩個 p維數(shù)據(jù)點 , and h is the order (the distance so defined is also called Lh norm) ? 特性 ? d(i, j)0 if i≠j, and d(i,i)=0 (正定 Positive definiteness) ? d(i, j) = d(j, i) (Symmetry) ? d(i, j) ? d(i, k) + d(k, j) (Triangle Inequality) ? A distance that satisfies these properties is a metric度量 60 閔可夫斯基距離 特殊形式 ? h = 1: Manhattan (city block, L1 norm) distance曼哈頓距離( L1范數(shù)) ? ., the Hamming distance: the number of bits that are different between two binary vectors ? h = 2: (L2 norm) Euclidean distance ? h ? ?.上確界 “supremum” (Lmax norm, L? no