【正文】
?指標有 :企業(yè)規(guī)模 ( is) 、 服務 (se)、雇員工資比例 (sa)、 利潤增長 (prr)、 市場份額 (ms)、 市場份額增長 (msr)、 流動資金比例 (cp)、 資金周轉(zhuǎn)速度 (cs)等 . ?另外 , 有一些企業(yè)已經(jīng)被某雜志劃分為上升企業(yè) 、 穩(wěn)定企業(yè)和下降企業(yè) 。 此即判別分析 判別分析 (discriminant analysis) ?判別分析和聚類分析有何不同 ? ?在聚類分析中 , 人們一般事先并不知道應該分成幾類及哪幾類 , 全根據(jù)數(shù)據(jù)確定 。 SPSS實現(xiàn) (聚類分析 ) ?分層聚類 ?對 SPSS中選擇 Analyze- Classify- Hierarchical Cluster, ?然后把 calorie( 熱量 ) 、 caffeine( 咖啡因 ) 、 sodium( 鈉 ) 、 price( 價格 ) 選入 Variables, ?在 Cluster選 Cases( 這是 Q型聚類:對觀測值聚類 ) , 如果要對變量聚類 ( R型聚類 )則選 Variables, ?為了畫出樹狀圖 , 選 Plots , 再點Dendrogram等 。 聚類要注意的問題 ?另外就分成多少類來說 , 也要有道理 。 SPSS輸出為 A g g l o m e r a t i o n S c h e d u l e5 15 1 3 . 1 3 0 0 0 74 13 2 5 . 9 7 0 0 0 32 4 3 6 . 4 8 5 0 2 86 9 6 9 . 1 3 0 0 0 101 10 1 0 2 . 6 3 0 0 0 158 11 1 5 0 . 3 3 0 0 0 85 16 1 9 8 . 3 7 5 1 0 112 8 3 1 9 . 7 7 8 3 6 1212 14 3 2 2 . 5 4 0 0 0 123 6 4 5 8 . 7 9 5 0 4 135 7 1 0 0 6 . 8 6 3 7 0 132 12 1 4 3 5 . 0 7 6 8 9 143 5 1 7 5 5 . 6 5 4 10 11 142 3 6 2 8 7 . 1 7 5 12 13 151 2 1 9 4 0 6 . 6 8 4 5 14 0S t a g e123456789101112131415C lu s t e r 1 C lu s t e r 2C lu s t e r C o m b i n e dC o e f f ic i e n t s C lu s t e r 1 C lu s t e r 2S t a g e C l u s t e r F i r s tA p p e a r sN e x t S t a g eV e r t i c a l I c i c l eX X X X X X X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X XN u m b e r o f c l u s t e r s1234567891011121314157 16 15 5 9 6 3 14 12 11 8 13 4 2 10 1C a s e“冰柱圖” (icicle) 例 :5個樣品距離陣 令 Dk為系統(tǒng)聚類法種第 k次合并時的距離 ,如 {Dk}為單調(diào)的 ,則稱具有單調(diào)性 .前面只有重心和中間距離法不具有單調(diào)性 . 0070() 1 6 09 3 8 08 5 7 4 0ijDd??????????????????步驟 : 最短距離法 最長距離法 階段 bk(第 k階段類的集合 ) Dk Dk D(0) (1)(2)(3)(4)(5) 0 0 D(1) (1,3)(2)(4)(5) 1 1 D(2) (1,3)(2,4)(5) 3 3 D(3) (1,3)(2,4,5) 4 5 D(4) (1,3,2,4,5) 6 9 注 :最短和最長距離法結(jié)果一樣 (一般不一定一樣 ) 聚類要注意的問題 ?聚類結(jié)果主要受所選擇的變量影響 。 開始時 ,有多少點就是多少類 。結(jié)果是:第一類為飲料 10;第二類為飲料 1 1 1 14;第三類為剩下的飲料 1 16。下面用飲料例的數(shù)據(jù)來做 k均值聚類 。 事先要確定分多少類: k均值聚類 ?然后 , 根據(jù)和這三個點的距離遠近 ,把所有點分成三類 。 有了上面的點間距離和類間距離的概念,就可以介紹聚類的方法了。 向量 x=(x1,…, x p)與 y=(y1,…, y p)之間的距離或相似系數(shù) : 2()iiixy??歐氏距離 : Euclidean 平方歐氏距離 : Squared Euclidean 2()iiixy??夾角余弦 (相似系數(shù) 1) : cosine 22( 1 ) c osiiix y x yiiiixyCxy??????Pearson correlation (相似系數(shù) 2): Chebychev: Maxi|xiyi| Block(絕對距離 ): Si|xiyi| Minkowski: 1()qqiiixy????????當變量的測量值相差懸殊時 ,要先進行標準化 . 如 R為極差 , s 為標準差 , 則標準化的數(shù)據(jù)為每個觀測值減去均值后再除以 R或 s. 當觀測值大于 0時 , 有人采用 Lance和 Williams的距離 ||1 iii iixyp x y???22( ) ( )( 2)( ) ( )iiix y x yiiiix x y yCrx x y y?????????類 Gp與類 Gq之間的距離 Dpq (d(xi,xj)表示點 xi∈ Gp和 xj ∈ Gq之間的距離 ) m in ( , )pq i jD d x x?最短距離法 : 最長距離法 : 重心法 : 離差平方和 : (Wald) 類平均法 : (中間距離 , 可變平均法 ,可變法等可參考各書 ). 在用歐氏距離時 , 有統(tǒng)一的遞推公式 121 2 1 2 1 2( ) 39。 兩個距離概念 ?由一個點組成的類是最基本的類;如果每一類都由一個點組成 , 那么點間的距離就是類間距離 。 兩個距離概念 ?按照遠近程度來聚類需要明確兩個概念:一個是 點和點之間 的距離 , 一個是 類和類之間 的距離 。 ?如果還知道他們的物理成績 , 這樣數(shù)學和物理成績就形成二維平面上的 100個點 , 也可以按照距離遠近來分類 。 對變量的聚類稱為 R型聚類 , 而對觀測值聚類稱為Q型聚類 。統(tǒng)計學 ─ 從數(shù)據(jù)到結(jié)論 第十一章 聚類分析 分類 ?物以類聚、人以群分; ?但根據(jù)什么分類呢? ?如要想把中國的縣分類,就有多種方法 ?可以按照自然條件來分,比如考慮降水、土地、日照、濕度等, ?也可考慮收入、教育水準、醫(yī)療條件、基礎設施等指標; ?既可以用某一項來分類,也可以同時考慮多項指標來分類。 ?本章要介紹的分類的方法稱為聚類分析 ( cluster analysis) 。 這樣就可以把接近的點放到一類 。 這就是四維空間點的問題了 。 ?當然還有一些和距離相反但起同樣作用的概念 , 比如相似性等 ,兩點越相似度越大 , 就相當于距離越短 。 不同的選擇的結(jié)果會不同 , 但一般不會差太多 。( )i p j qk p qi p i p j q j qx G x Gk i pqx G GD x x x x D x x x xD x x x x D D D D??????? ? ? ? ? ?? ? ? ? ? ? ????m a x ( , )pq i jD d x x?m in ( , )pq p qD d x x?121 ( , )i p j qp q i jx G x GD d x xnn ??? ??最短距離( Nearest Neighbor) x21? x12? x22? x11? 13d最長距離( Furthest Neighbor ) ? ? ? x11? x21? ? ? ? 12d? ? ? ? ? ? 991 dd ?? ?組間平均連接( Betweengroup Linkage) 組內(nèi)平均連接法( Withingroup Linkage) 1 2 3 4 5 66d d d d d d? ? ? ? ?x21? x12? x22? x11? 重心法( Centroid clustering):均值點的距離 ? ? ? ?11,xy ? ?22,xy離差平方和法連接 2, 4 1, 5 6, 5 22( 2 3 ) ( 4 3 ) 2? ? ? ?22( 6 5 . 5 ) ( 5 5 . 5 ) 0 . 5? ? ? ?22( 1 3 ) ( 5 3 ) 8? ? ? ?紅綠( 2, 4, 6, 5) 離差平方和增加 - = 黃綠( 6, 5, 1, 5) 離差平方和增加 - = 黃紅( 2, 4, 1, 5) 10- 10= 0 故按該方法的連接和黃紅首先連接。 看起來有些主觀 , 是吧 ! ?假定你說分 3類 , 這個方法還進一步要求 你 事 先 確 定 3 個 點 為 “ 聚類種子 ” (SPSS軟件 自動 為你選種子 );也就是說 , 把這 3個點作為三類中每一類的基石 。 顯然 , 前面的聚類種子的選擇并不必太認真 , 它們很可能最后還會分到同一類中呢 。這樣就可以得到最后的三類的中心以及每類有多少點 F i n a l C l u s t e r C e n t e r s2 0 3 . 1 0 3 3 . 7 1 1 0 7 . 3 41 . 6 5 4 . 1 6 3 . 4 91 3 . 0 5 1 0 . 0 6 8 . 7 63 . 1 5 2 . 6 9 2 . 9 4C A L O R I EC A F F E I N ES O D I U MP R I C E1 2 3C l u s t e rN u m b e r o f C a s e s i n e a c h C l u s t e r2 . 0 0 07 . 0 0 07 . 0 0 01 6 . 0 0 0. 0 0 0123C l u s t e rV a l i dM i s s i n g根據(jù)需要 , 可以輸出哪些點分在一起 。 事先不用確定分多少類:分層聚類 ?另一種聚類稱為分層聚類或系統(tǒng)聚類( hierarchical cluster) 。 ?對于 飲料聚類。 因此 , 聚類之前一定要目標明確 。 這一點就不是