【正文】
?指標(biāo)有 :企業(yè)規(guī)模 ( is) 、 服務(wù) (se)、雇員工資比例 (sa)、 利潤(rùn)增長(zhǎng) (prr)、 市場(chǎng)份額 (ms)、 市場(chǎng)份額增長(zhǎng) (msr)、 流動(dòng)資金比例 (cp)、 資金周轉(zhuǎn)速度 (cs)等 . ?另外 , 有一些企業(yè)已經(jīng)被某雜志劃分為上升企業(yè) 、 穩(wěn)定企業(yè)和下降企業(yè) 。 此即判別分析 判別分析 (discriminant analysis) ?判別分析和聚類(lèi)分析有何不同 ? ?在聚類(lèi)分析中 , 人們一般事先并不知道應(yīng)該分成幾類(lèi)及哪幾類(lèi) , 全根據(jù)數(shù)據(jù)確定 。 SPSS實(shí)現(xiàn) (聚類(lèi)分析 ) ?分層聚類(lèi) ?對(duì) SPSS中選擇 Analyze- Classify- Hierarchical Cluster, ?然后把 calorie( 熱量 ) 、 caffeine( 咖啡因 ) 、 sodium( 鈉 ) 、 price( 價(jià)格 ) 選入 Variables, ?在 Cluster選 Cases( 這是 Q型聚類(lèi):對(duì)觀測(cè)值聚類(lèi) ) , 如果要對(duì)變量聚類(lèi) ( R型聚類(lèi) )則選 Variables, ?為了畫(huà)出樹(shù)狀圖 , 選 Plots , 再點(diǎn)Dendrogram等 。 聚類(lèi)要注意的問(wèn)題 ?另外就分成多少類(lèi)來(lái)說(shuō) , 也要有道理 。 SPSS輸出為 A g g l o m e r a t i o n S c h e d u l e5 15 1 3 . 1 3 0 0 0 74 13 2 5 . 9 7 0 0 0 32 4 3 6 . 4 8 5 0 2 86 9 6 9 . 1 3 0 0 0 101 10 1 0 2 . 6 3 0 0 0 158 11 1 5 0 . 3 3 0 0 0 85 16 1 9 8 . 3 7 5 1 0 112 8 3 1 9 . 7 7 8 3 6 1212 14 3 2 2 . 5 4 0 0 0 123 6 4 5 8 . 7 9 5 0 4 135 7 1 0 0 6 . 8 6 3 7 0 132 12 1 4 3 5 . 0 7 6 8 9 143 5 1 7 5 5 . 6 5 4 10 11 142 3 6 2 8 7 . 1 7 5 12 13 151 2 1 9 4 0 6 . 6 8 4 5 14 0S t a g e123456789101112131415C lu s t e r 1 C lu s t e r 2C lu s t e r C o m b i n e dC o e f f ic i e n t s C lu s t e r 1 C lu s t e r 2S t a g e C l u s t e r F i r s tA p p e a r sN e x t S t a g eV e r t i c a l I c i c l eX X X X X X X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X XN u m b e r o f c l u s t e r s1234567891011121314157 16 15 5 9 6 3 14 12 11 8 13 4 2 10 1C a s e“冰柱圖” (icicle) 例 :5個(gè)樣品距離陣 令 Dk為系統(tǒng)聚類(lèi)法種第 k次合并時(shí)的距離 ,如 {Dk}為單調(diào)的 ,則稱(chēng)具有單調(diào)性 .前面只有重心和中間距離法不具有單調(diào)性 . 0070() 1 6 09 3 8 08 5 7 4 0ijDd??????????????????步驟 : 最短距離法 最長(zhǎng)距離法 階段 bk(第 k階段類(lèi)的集合 ) Dk Dk D(0) (1)(2)(3)(4)(5) 0 0 D(1) (1,3)(2)(4)(5) 1 1 D(2) (1,3)(2,4)(5) 3 3 D(3) (1,3)(2,4,5) 4 5 D(4) (1,3,2,4,5) 6 9 注 :最短和最長(zhǎng)距離法結(jié)果一樣 (一般不一定一樣 ) 聚類(lèi)要注意的問(wèn)題 ?聚類(lèi)結(jié)果主要受所選擇的變量影響 。 開(kāi)始時(shí) ,有多少點(diǎn)就是多少類(lèi) 。結(jié)果是:第一類(lèi)為飲料 10;第二類(lèi)為飲料 1 1 1 14;第三類(lèi)為剩下的飲料 1 16。下面用飲料例的數(shù)據(jù)來(lái)做 k均值聚類(lèi) 。 事先要確定分多少類(lèi): k均值聚類(lèi) ?然后 , 根據(jù)和這三個(gè)點(diǎn)的距離遠(yuǎn)近 ,把所有點(diǎn)分成三類(lèi) 。 有了上面的點(diǎn)間距離和類(lèi)間距離的概念,就可以介紹聚類(lèi)的方法了。 向量 x=(x1,…, x p)與 y=(y1,…, y p)之間的距離或相似系數(shù) : 2()iiixy??歐氏距離 : Euclidean 平方歐氏距離 : Squared Euclidean 2()iiixy??夾角余弦 (相似系數(shù) 1) : cosine 22( 1 ) c osiiix y x yiiiixyCxy??????Pearson correlation (相似系數(shù) 2): Chebychev: Maxi|xiyi| Block(絕對(duì)距離 ): Si|xiyi| Minkowski: 1()qqiiixy????????當(dāng)變量的測(cè)量值相差懸殊時(shí) ,要先進(jìn)行標(biāo)準(zhǔn)化 . 如 R為極差 , s 為標(biāo)準(zhǔn)差 , 則標(biāo)準(zhǔn)化的數(shù)據(jù)為每個(gè)觀測(cè)值減去均值后再除以 R或 s. 當(dāng)觀測(cè)值大于 0時(shí) , 有人采用 Lance和 Williams的距離 ||1 iii iixyp x y???22( ) ( )( 2)( ) ( )iiix y x yiiiix x y yCrx x y y?????????類(lèi) Gp與類(lèi) Gq之間的距離 Dpq (d(xi,xj)表示點(diǎn) xi∈ Gp和 xj ∈ Gq之間的距離 ) m in ( , )pq i jD d x x?最短距離法 : 最長(zhǎng)距離法 : 重心法 : 離差平方和 : (Wald) 類(lèi)平均法 : (中間距離 , 可變平均法 ,可變法等可參考各書(shū) ). 在用歐氏距離時(shí) , 有統(tǒng)一的遞推公式 121 2 1 2 1 2( ) 39。 兩個(gè)距離概念 ?由一個(gè)點(diǎn)組成的類(lèi)是最基本的類(lèi);如果每一類(lèi)都由一個(gè)點(diǎn)組成 , 那么點(diǎn)間的距離就是類(lèi)間距離 。 兩個(gè)距離概念 ?按照遠(yuǎn)近程度來(lái)聚類(lèi)需要明確兩個(gè)概念:一個(gè)是 點(diǎn)和點(diǎn)之間 的距離 , 一個(gè)是 類(lèi)和類(lèi)之間 的距離 。 ?如果還知道他們的物理成績(jī) , 這樣數(shù)學(xué)和物理成績(jī)就形成二維平面上的 100個(gè)點(diǎn) , 也可以按照距離遠(yuǎn)近來(lái)分類(lèi) 。 對(duì)變量的聚類(lèi)稱(chēng)為 R型聚類(lèi) , 而對(duì)觀測(cè)值聚類(lèi)稱(chēng)為Q型聚類(lèi) 。統(tǒng)計(jì)學(xué) ─ 從數(shù)據(jù)到結(jié)論 第十一章 聚類(lèi)分析 分類(lèi) ?物以類(lèi)聚、人以群分; ?但根據(jù)什么分類(lèi)呢? ?如要想把中國(guó)的縣分類(lèi),就有多種方法 ?可以按照自然條件來(lái)分,比如考慮降水、土地、日照、濕度等, ?也可考慮收入、教育水準(zhǔn)、醫(yī)療條件、基礎(chǔ)設(shè)施等指標(biāo); ?既可以用某一項(xiàng)來(lái)分類(lèi),也可以同時(shí)考慮多項(xiàng)指標(biāo)來(lái)分類(lèi)。 ?本章要介紹的分類(lèi)的方法稱(chēng)為聚類(lèi)分析 ( cluster analysis) 。 這樣就可以把接近的點(diǎn)放到一類(lèi) 。 這就是四維空間點(diǎn)的問(wèn)題了 。 ?當(dāng)然還有一些和距離相反但起同樣作用的概念 , 比如相似性等 ,兩點(diǎn)越相似度越大 , 就相當(dāng)于距離越短 。 不同的選擇的結(jié)果會(huì)不同 , 但一般不會(huì)差太多 。( )i p j qk p qi p i p j q j qx G x Gk i pqx G GD x x x x D x x x xD x x x x D D D D??????? ? ? ? ? ?? ? ? ? ? ? ????m a x ( , )pq i jD d x x?m in ( , )pq p qD d x x?121 ( , )i p j qp q i jx G x GD d x xnn ??? ??最短距離( Nearest Neighbor) x21? x12? x22? x11? 13d最長(zhǎng)距離( Furthest Neighbor ) ? ? ? x11? x21? ? ? ? 12d? ? ? ? ? ? 991 dd ?? ?組間平均連接( Betweengroup Linkage) 組內(nèi)平均連接法( Withingroup Linkage) 1 2 3 4 5 66d d d d d d? ? ? ? ?x21? x12? x22? x11? 重心法( Centroid clustering):均值點(diǎn)的距離 ? ? ? ?11,xy ? ?22,xy離差平方和法連接 2, 4 1, 5 6, 5 22( 2 3 ) ( 4 3 ) 2? ? ? ?22( 6 5 . 5 ) ( 5 5 . 5 ) 0 . 5? ? ? ?22( 1 3 ) ( 5 3 ) 8? ? ? ?紅綠( 2, 4, 6, 5) 離差平方和增加 - = 黃綠( 6, 5, 1, 5) 離差平方和增加 - = 黃紅( 2, 4, 1, 5) 10- 10= 0 故按該方法的連接和黃紅首先連接。 看起來(lái)有些主觀 , 是吧 ! ?假定你說(shuō)分 3類(lèi) , 這個(gè)方法還進(jìn)一步要求 你 事 先 確 定 3 個(gè) 點(diǎn) 為 “ 聚類(lèi)種子 ” (SPSS軟件 自動(dòng) 為你選種子 );也就是說(shuō) , 把這 3個(gè)點(diǎn)作為三類(lèi)中每一類(lèi)的基石 。 顯然 , 前面的聚類(lèi)種子的選擇并不必太認(rèn)真 , 它們很可能最后還會(huì)分到同一類(lèi)中呢 。這樣就可以得到最后的三類(lèi)的中心以及每類(lèi)有多少點(diǎn) F i n a l C l u s t e r C e n t e r s2 0 3 . 1 0 3 3 . 7 1 1 0 7 . 3 41 . 6 5 4 . 1 6 3 . 4 91 3 . 0 5 1 0 . 0 6 8 . 7 63 . 1 5 2 . 6 9 2 . 9 4C A L O R I EC A F F E I N ES O D I U MP R I C E1 2 3C l u s t e rN u m b e r o f C a s e s i n e a c h C l u s t e r2 . 0 0 07 . 0 0 07 . 0 0 01 6 . 0 0 0. 0 0 0123C l u s t e rV a l i dM i s s i n g根據(jù)需要 , 可以輸出哪些點(diǎn)分在一起 。 事先不用確定分多少類(lèi):分層聚類(lèi) ?另一種聚類(lèi)稱(chēng)為分層聚類(lèi)或系統(tǒng)聚類(lèi)( hierarchical cluster) 。 ?對(duì)于 飲料聚類(lèi)。 因此 , 聚類(lèi)之前一定要目標(biāo)明確 。 這一點(diǎn)就不是