【正文】
ntilequantile (qq) plot: 對著另一個分位數(shù),繪制一個單變量分布的分位數(shù) ? Scatter plot散布圖 : 每個值對 為一個坐標點繪于平面上 20 直方圖分析 ? Histogram:圖形顯示每個列值的頻率,條形圖所示 ? 顯示有多大比例的點下落入每個類別 ? 類別并不是均勻的寬度時有別于條形圖一個關鍵:條形圖的面積表示值而不是條形圖的高度 ? a bar chart柱狀圖 /柱形圖 ? 類別通常指定為變量的一些非重疊區(qū)間。91 ? Graph from Nadeau Software Consulting website: 可視化社會網絡數(shù)據:模型感染從一個人到下一個擴散的方式 50 可視化復雜數(shù)據和關系 ? Visualizing nonnumerical data: text and social works ? Tag cloud: visualizing usergenerated tags ? The importance of tag is represented by font size/color ? Besides text data, there are also methods to visualize relationships, such as visualizing social works Newsmap: Google News Stories in 2022 51 Chapter 2:數(shù)據的統(tǒng)計描述 ? Data Objects and Attribute Types ? 數(shù)據的 (基本 )統(tǒng)計描述 ? 數(shù)據可視化 ? 測量數(shù)據相似性和相異性 Measuring Data Similarity and Dissimilarity ? Summary 52 相似性和相異性 ? Similarity ? 數(shù)值測量兩個數(shù)據對象類似程度 ? 目標越相似時值越大 ? 通常介于 [0,1] ? Dissimilarity (., 距離 distance) ? 數(shù)值測量兩個數(shù)據對象差異程度 ? Lower when objects are more alike ? Minimum dissimilarity is often 0 ? Upper limit varies ? 鄰近度 Proximity refers to a similarity or dissimilarity 53 數(shù)據矩陣和相異度矩陣 ? Data matrix ? n data points with p dimensions ? Two modes ? Dissimilarity matrix ? n data points, but registers only the distance ? A triangular matrix ? Single mode ??????????????????npx. . .nfx. . .n1x. . .. . .. . .. . .. . .ipx. . .ifx. . .i1x. . .. . .. . .. . .. . .1px. . .1fx. . .11x????????????????0...)2,()1,(:::)2,3()...ndnd0dd ( 3 , 10d ( 2 , 1 )054 名詞性 屬性的鄰近度量 ? 2個或多個狀態(tài) , ., red, yellow, blue, green (二元屬性的推廣 ) ? Method 1: 簡單匹配 ? m: p個變量中匹配的個數(shù) , p: 全部變量的個數(shù) ? Method 2:使用一系列的二進制屬性 ? 為 M個名義狀態(tài)的每一個產生一個新的二進制 /二元屬性 p mpjid ??),(55 二進制屬性的鄰近度量 ? 二進制數(shù)據的列聯(lián)表contingency table ? 對稱二元變量的距離側度 : ? 不對稱二元變量的距離側度 : ? Jaccard系數(shù) (不對稱二元變量的相似性側度 ): ? Note: Jaccard coefficient is the same as ―coherence‖: Object i Object j 56 二進制屬性的相異度量 ? Example ? 性別是對稱屬性 ? The remaining attributes are asymmetric binary ? 令 Y and P 值為 1, 且 N值為 0 N a m e G e n d e r F e v e r C o u g h T e s t 1 T e s t 2 T e s t 3 T e s t 4J a c k M Y N P N N NM a ry F Y N P N P NJ im M Y P N N N N21121),(11111),(10210),(???????????????m a r yjimdjimj a c kdm a r yj a c kd57 規(guī)范數(shù)值數(shù)據 ? Zscore: ? X: 需標準化的原始數(shù)值 , μ: 總體均值 , σ: 標準差 ? 在標準偏差單位下, 原始分數(shù)和總體均值之間的距離 ? ―‖, ―+‖ ? 另一種方法 : Calculate the mean absolute deviation 其中 ? standardized measure (zscore): ? 使用平均絕對偏差比使用標準差更穩(wěn)健 .). . .211 nffff xx(xn m ????|)|. . .|||(|1 21 fnffffff mxmxmxns ???????ffifif smx z ??? ??? x z58 例 : 數(shù)據矩陣和相異度矩陣 p o i n t a t t r i b u t e 1 a t t r i b u t e 2x1 1 2x2 3 5x3 2 0x4 4 5Dissimilarity Matrix (with Euclidean Distance) x1 x2 x3 x4x1 0x2 3 . 6 1 0x3 5 . 1 5 . 1 0x4 4 . 2 4 1 5 . 3 9 0Data Matrix 59 數(shù)值數(shù)據的距離 : Minkowski Distance ? Minkowski distance:一種流行的距離測度 其中 i = (xi1, xi2, …, xip) and j = (xj1, xj2, …, xjp)為兩個 p維數(shù)據點 , and h is the order (the distance so defined is also called Lh norm) ? 特性 ? d(i, j)0 if i≠j, and d(i,i)=0 (正定 Positive definiteness) ? d(i, j) = d(j, i) (Symmetry) ? d(i, j) ? d(i, k) + d(k, j) (Triangle Inequality) ? A distance that satisfies these properties is a metric度量 60 閔可夫斯基距離 特殊形式 ? h = 1: Manhattan (city block, L1 norm) distance曼哈頓距離( L1范數(shù))