【正文】
、 咖啡因 、 鈉及價(jià)格四種變量 ? ?如果想要對 100個(gè)學(xué)生進(jìn)行分類 ,而僅知道他們的數(shù)學(xué)成績 , 則只好按照數(shù)學(xué)成績分類;這些成績在直線上形成 100個(gè)點(diǎn) 。 對變量的聚類稱為 R型聚類 , 而對觀測值聚類稱為Q型聚類 。 ?當(dāng)然 , 不一定事先假定有多少類 , 完全可以按照數(shù)據(jù)本身的規(guī)律來分類 。統(tǒng)計(jì)學(xué) ─ 從數(shù)據(jù)到結(jié)論 第十一章 聚類分析 分類 ?物以類聚、人以群分; ?但根據(jù)什么分類呢? ?如要想把中國的縣分類,就有多種方法 ?可以按照自然條件來分,比如考慮降水、土地、日照、濕度等, ?也可考慮收入、教育水準(zhǔn)、醫(yī)療條件、基礎(chǔ)設(shè)施等指標(biāo); ?既可以用某一項(xiàng)來分類,也可以同時(shí)考慮多項(xiàng)指標(biāo)來分類。 聚類分析 ?對一個(gè)數(shù)據(jù) , 既可以對變量 (指標(biāo) )進(jìn)行分類 (相當(dāng)于對數(shù)據(jù)中的列分類 ), 也可以對觀測值 (事件 , 樣品 )來分類 (相當(dāng)于對數(shù)據(jù)中的行分類 )。 ?本章要介紹的分類的方法稱為聚類分析 ( cluster analysis) 。 它們在數(shù)學(xué)上是無區(qū)別的 。 這樣就可以把接近的點(diǎn)放到一類 。 ? ?三維或者更高維的情況也是類似;只不過三維以上的圖形無法直觀地畫出來而已 。 這就是四維空間點(diǎn)的問題了 。 ?點(diǎn)間距離 有很多定義方式 。 ?當(dāng)然還有一些和距離相反但起同樣作用的概念 , 比如相似性等 ,兩點(diǎn)越相似度越大 , 就相當(dāng)于距離越短 。 但是如果某一類包含不止一個(gè)點(diǎn) , 那么就要確定類間距離 , ?類間距離 是基于點(diǎn)間距離定義的:比如 兩類之間最近點(diǎn)之間的距離 可以作為這兩類之間的距離 , 也可以用 兩類中最遠(yuǎn)點(diǎn)之間的距離 或各類的中心之間的距離來作為類間距離 。 不同的選擇的結(jié)果會(huì)不同 , 但一般不會(huì)差太多 。( ) , ( ) 39。( )i p j qk p qi p i p j q j qx G x Gk i pqx G GD x x x x D x x x xD x x x x D D D D??????? ? ? ? ? ?? ? ? ? ? ? ????m a x ( , )pq i jD d x x?m in ( , )pq p qD d x x?121 ( , )i p j qp q i jx G x GD d x xnn ??? ??最短距離( Nearest Neighbor) x21? x12? x22? x11? 13d最長距離( Furthest Neighbor ) ? ? ? x11? x21? ? ? ? 12d? ? ? ? ? ? 991 dd ?? ?組間平均連接( Betweengroup Linkage) 組內(nèi)平均連接法( Withingroup Linkage) 1 2 3 4 5 66d d d d d d? ? ? ? ?x21? x12? x22? x11? 重心法( Centroid clustering):均值點(diǎn)的距離 ? ? ? ?11,xy ? ?22,xy離差平方和法連接 2, 4 1, 5 6, 5 22( 2 3 ) ( 4 3 ) 2? ? ? ?22( 6 5 . 5 ) ( 5 5 . 5 ) 0 . 5? ? ? ?22( 1 3 ) ( 5 3 ) 8? ? ? ?紅綠( 2, 4, 6, 5) 離差平方和增加 - = 黃綠( 6, 5, 1, 5) 離差平方和增加 - = 黃紅( 2, 4, 1, 5) 10- 10= 0 故按該方法的連接和黃紅首先連接。這里介紹兩個(gè)簡單的方法。 看起來有些主觀 , 是吧 ! ?假定你說分 3類 , 這個(gè)方法還進(jìn)一步要求 你 事 先 確 定 3 個(gè) 點(diǎn) 為 “ 聚類種子 ” (SPSS軟件 自動(dòng) 為你選種子 );也就是說 , 把這 3個(gè)點(diǎn)作為三類中每一類的基石 。 再把這三類的中心 (均值 )作為新的基石或種子 (原來 “ 種子 ” 就沒用了 ), 再重新按照距離分類 。 顯然 , 前面的聚類種子的選擇并不必太認(rèn)真 , 它們很可能最后還會(huì)分到同一類中呢 。 ? 假定要把這 16種飲料分成 3類。這樣就可以得到最后的三類的中心以及每類有多少點(diǎn) F i n a l C l u s t e r C e n t e r s2 0 3 . 1 0 3 3 . 7 1 1 0 7 . 3 41 . 6 5 4 . 1 6 3 . 4 91 3 . 0 5 1 0 . 0 6 8 . 7 63 . 1 5 2 . 6 9 2 . 9 4C A L O R I EC A F F E I N ES O D I U MP R I C E1 2 3C l u s t e rN u m b e r o f C a s e s i n e a c h C l u s t e r2 . 0 0 07 . 0 0 07 . 0 0 01 6 . 0 0 0. 0 0 0123C l u s t e rV a l i dM i s s i n g根據(jù)需要 , 可以輸出哪些點(diǎn)分在一起 。 SPSS實(shí)現(xiàn) (聚類分析 ) ?K均值聚類 ?以數(shù)據(jù) , 在 SPSS中選擇Analyze- Classify- KMenas Cluster, ?然后把 calorie( 熱量 ) 、 caffeine( 咖啡因 ) 、 sodium( 鈉 ) 、 price( 價(jià)格 ) 選入 Variables, ?在 Number of Clusters處選擇 3( 想要分的類數(shù) ) , ?如果想要知道哪種飲料分到哪類 , 則選Save, 再選 Cluster Membership等 。 事先不用確定分多少類:分層聚類 ?另一種聚類稱為分層聚類或系統(tǒng)聚類( hierarchical cluster) 。 ?它第一步先把最近的兩類 ( 點(diǎn) ) 合并成一類 , 然后再把剩下的最近的兩類合并成一類; ?這樣下去 , 每次都少一類 , 直到最后只有一大類為止 。 ?對于 飲料聚類。如果去掉一些變量 , 或者增加一些變量 , 結(jié)果會(huì)很不同 。 因此 , 聚類之前一定要目標(biāo)明確 。 只要你高興 , 從分層聚類的計(jì)算機(jī)結(jié)果可以得到任何可能數(shù)量的類 。 這一點(diǎn)就不是數(shù)學(xué)可以解決的了 。 統(tǒng)計(jì)學(xué) ─ 從數(shù)據(jù)到結(jié)論 第十二章 判別分析 判別分析 (discriminant analysis) ?某些昆蟲的性別只有通過解剖才能夠判別 ?但雄性和雌性昆蟲在若干體表度量上有些綜合的差異。 ?這樣雖非 100%準(zhǔn)確的判別至少大部分是對的,而且用不著殺生。 ?在判別分析中 , 至少有一個(gè)已經(jīng)明確知道類別的 “ 訓(xùn)練樣本 ” , 并利用該樣本來建立判別準(zhǔn)則 , 并通過預(yù)測變量來為未知類別的觀測值進(jìn)行判別了 。 該體系對每個(gè)企業(yè)的一些指標(biāo) ( 變量 ) 進(jìn)行評分 。 判別分析例子 ?希望根據(jù)這些企業(yè)的上述變量的打分及其已知的類別 (三個(gè)類別之一:group1代表上升 , group2代表穩(wěn)定 ,group3代表下降 )找出一個(gè)分類標(biāo)準(zhǔn) ,以對尚未被分類的企業(yè)進(jìn)行分類 。 這個(gè)數(shù)據(jù)就是一個(gè) “ 訓(xùn)練樣本 ” 。 這個(gè)數(shù)據(jù)在 8維空間有90個(gè)點(diǎn) , ?由于已知所有點(diǎn)的類別 , 可以求得每個(gè)類型的中心 。 1. 根據(jù)距離判別的思想 ?最簡單的辦法就是 :某點(diǎn)離哪個(gè)中心距離最近 , 就屬于哪一類 。 ?用來比較到各個(gè)中心距離的數(shù)學(xué)函數(shù) 稱 為 判 別 函 數(shù) (discriminant function). ?這種根據(jù)遠(yuǎn)近判別的思想 , 原理簡單 , 直觀易懂 。 ?考慮只有兩個(gè) (預(yù)測 )變量的判別問題 。 數(shù)據(jù)中的每個(gè)觀測值是二維空間的一個(gè)點(diǎn) 。 ?這里只有兩種已知類型的訓(xùn)練樣本 。 按原來變量 (橫坐標(biāo)和縱坐標(biāo) ), 很難將這兩種點(diǎn)分開 。 可以看出 , 如果向其他方向投影 , 判別效果不會(huì)比這個(gè)好 。 這種先投影的判別方法就是 Fisher判別法 。即 , 一邊判別 , 一邊選擇判別能力最強(qiáng)的變量 , ?這個(gè)過程可以有進(jìn)有出 。 其細(xì)節(jié)這里就不贅述了;這些不同方法可由統(tǒng)計(jì)軟件的各種選項(xiàng)來實(shí)現(xiàn) 。 ?利用 SPSS軟件的逐步判別法淘汰了不顯著的流動(dòng)資金比例 (cp), 還剩下七個(gè)變量 。 這兩個(gè)典則判別函數(shù)的系數(shù)是下面的 SPSS輸出得到的: 1 2 3 4 5 6 71 2 3 4 5 6 71 3 . 1 6 6 0 . 0 3 5 3 . 2 8 3 0 . 0 3 7 0 . 0 0 7 0 . 0 6 8 0 . 0 2 3 0 . 3 8 52 4 . 3 8 4 0 . 0 0 5 0 . 5 6 7 0 . 0 4 1 0 . 0 1 2 0 . 0 4 8 0 . 0 4 4 0 . 1 5 9F x x x x x x xF x x x x x x x? ? ? ? ? ? ? ? ?? ? ? ? ? ? ? ? ? ?根據(jù)這兩個(gè)函數(shù) , 從任何一個(gè)觀測值 ( 每個(gè)觀測值都有 7個(gè)變量值 ) 都可以算出兩個(gè)數(shù) 。 它們的點(diǎn)圖在下面圖中 。 這兩個(gè)典則判別函數(shù)并不是平等的 。 SPSS的一個(gè)輸出就給出了這些判別函數(shù) ( 投影 ) 的重要程度: E i g e n v a l u e s2 6 . 6 7 3a9 9 . 0 9 9 . 0 . 9 8 2. 2 6 2 a 1 . 0 1 0 0 . 0 . 4 5 6F u n c t i o n12E i g e n v a l u e % o f V a r i a n c e C u m u l a t i v e %C a n o n i c a lC o r r e l a t i o nF i r s t 2 c a n o n i c a l d i s c r i m i n a n t f u n c t i o n s w e r e u s e d i n t h ea n a l y s i s .a . 前面說過 , 投影的重要性是和特征值的貢獻(xiàn)率有關(guān) 。 當(dāng)然 , 二維圖要容易看一些 。 s l i n e a r d i s c r i m i n a n t f u n c t i o n s該表給出了三個(gè)線性分類函數(shù)的系數(shù) 。 當(dāng)然 , 用不著自己去算 , 計(jì)算機(jī)軟件的選項(xiàng)可以把這些訓(xùn)練數(shù)據(jù)的每一個(gè)點(diǎn)按照這里的分類法分到某一類 。 ?下面就是對我們的訓(xùn)練樣本的分類結(jié)果 ( SPSS) : C l a s s i f i c a t i o n R e s u l t sb,c30 0 0 300 30 0 300 0 30 301 0 0 . 0 .0 .0 1 0 0 . 0.0 1 0 0 . 0 .0 1 0 0 . 0.0 .0 1 0 0 . 0 1 0 0 . 030 0 0 300 30 0 300 0 30 301 0 0 . 0 .0 .0 1 0 0 . 0.0 1 0 0 . 0 .0 1 0 0 . 0.0 .0 1 0 0 . 0 1 0 0 . 0G R O U P1 . 0 02 . 0 03 . 0 01 . 0 02 . 0 03 . 0 01 . 0 02 . 0 03 . 0 01 . 0 02 . 0 03 . 0 0C o u n t%C o u n t%O r i g i n a lC r o s s v a l i d a t e da1 . 0 0 2 . 0 0 3 . 0 0P r e d i c t e d G r o u p M e m b e r s h i pT o t a lC r o s s v a l i d a t i o n i s d o n e o n l y f o r t h o s e c a s e s i n t h e a n a l y s i s . I n c r o s sv a l i d a t i o n , e a c h c a s e i s c l a s s i f i e d b y t h e f u n c t i o n s d e r i v e d f r o m a l lc a s e s o t h e r t h a n t h a t c a s e .a . 1 0 0 . 0 % o f o r i g i n a l g r o u p e d c a s e s c o r r e c t l y c l a s s i f i e d .b . 1 0 0 . 0 % o f c r o s s v a l i d a t e d g r o u p e d