【正文】
, 1 , ...., 。39。 39。( ) ( )D x G D x Gx x x xm m m m???? ? S ? ? ? S ?這是 x的一個二次函數(shù) , 按照距離最近原則 ,判別準(zhǔn)則仍然為 如果 W(x)0即 D(x,G1)D(x,G2)則 x∈ G1 如果 W(x)0即 D(x,G1)D(x,G2)則 x∈ G2 如果 W(x)=0即 D(x,G1)=D(x,G2)則待判 多總體時的線性判別函數(shù) :當(dāng) S(1)=…= S(k)=S時 記 22( ) ( ) 1 ( ) ( )1( ) [ ( , ) ( , ) ]21[ ( ) ] 39。 ( ) ( ) 39。mnk m m m miimiE x x x x??? ? ???這里 注 :L=|E|/|B+E|為有 Wilks分布的檢驗(yàn)零假設(shè)H0:m(1)=…= m(k)的似然比統(tǒng)計量 . Wilks分布常用 c2分布近似 (Bartlett) 希望尋找 a使得 SSG盡可能大而 SSE盡可能小 ,即 39。kmmmkmmmmS S G n a x a xa n x x x x a a Ba????? ? ? ???這里 ( ) ( )1( ) ( ) 39。ax()11139。 ? 為了輸出 Fisher分類函數(shù)的結(jié)果可以在 Statistics中的Function Coefficient選 Fisher和 Unstandardized ,在Matrices中選擇輸出所需要的相關(guān)陣; ? 還可以在 Classify中的 Display選 summary table, Leaveoneout classification;注意在 Classify選項中默認(rèn)的Prior Probability為 All groups equal表示所有的類都平等對待,而另一個選項為 Compute from group sizes,即按照類的大小加權(quán)。 ?在計算中需要看關(guān)于各個類的有關(guān)變量的均值是否顯著不同的 ?檢驗(yàn)結(jié)果 (在 SPSS選項中選擇 Wilks’ Lambda、Rao’s V、 The Squared Mahalanobis Distance或The Sum of Unexplained Variations等檢驗(yàn)的計算機(jī)輸出 ),以確定是否分類結(jié)果僅由于隨機(jī)因素。 C l a s s i f i c a t i o n R e s u l t sb,c30 0 0 302 27 1 300 0 30 301 0 0 . 0 .0 .0 1 0 0 . 06 . 7 9 0 . 0 3 . 3 1 0 0 . 0.0 .0 1 0 0 . 0 1 0 0 . 030 0 0 302 27 1 300 0 30 301 0 0 . 0 .0 .0 1 0 0 . 06 . 7 9 0 . 0 3 . 3 1 0 0 . 0.0 .0 1 0 0 . 0 1 0 0 . 0G R O U P1 . 0 02 . 0 03 . 0 01 . 0 02 . 0 03 . 0 01 . 0 02 . 0 03 . 0 01 . 0 02 . 0 03 . 0 0C o u n t%C o u n t%O r i g i n a lC r o s s v a l i d a t e da1 . 0 0 2 . 0 0 3 . 0 0P r e d i c t e d G r o u p M e m b e r s h i pT o t a lC r o s s v a l i d a t i o n i s d o n e o n l y f o r t h o s e c a s e s i n t h e a n a l y s i s . I n c r o s sv a l i d a t i o n , e a c h c a s e i s c l a s s i f i e d b y t h e f u n c t i o n s d e r i v e d f r o m a l lc a s e s o t h e r t h a n t h a t c a s e .a . 9 6 . 7 % o f o r i g i n a l g r o u p e d c a s e s c o r r e c t l y c l a s s i f i e d .b . 9 6 . 7 % o f c r o s s v a l i d a t e d g r o u p e d c a s e s c o r r e c t l y c l a s s i f i e d .c . ? ?訓(xùn)練樣本中必須包含所有要判別的類型,分類必須清楚,不能有混雜。 ?下面就是對我們的訓(xùn)練樣本的分類結(jié)果 ( SPSS) : C l a s s i f i c a t i o n R e s u l t sb,c30 0 0 300 30 0 300 0 30 301 0 0 . 0 .0 .0 1 0 0 . 0.0 1 0 0 . 0 .0 1 0 0 . 0.0 .0 1 0 0 . 0 1 0 0 . 030 0 0 300 30 0 300 0 30 301 0 0 . 0 .0 .0 1 0 0 . 0.0 1 0 0 . 0 .0 1 0 0 . 0.0 .0 1 0 0 . 0 1 0 0 . 0G R O U P1 . 0 02 . 0 03 . 0 01 . 0 02 . 0 03 . 0 01 . 0 02 . 0 03 . 0 01 . 0 02 . 0 03 . 0 0C o u n t%C o u n t%O r i g i n a lC r o s s v a l i d a t e da1 . 0 0 2 . 0 0 3 . 0 0P r e d i c t e d G r o u p M e m b e r s h i pT o t a lC r o s s v a l i d a t i o n i s d o n e o n l y f o r t h o s e c a s e s i n t h e a n a l y s i s . I n c r o s sv a l i d a t i o n , e a c h c a s e i s c l a s s i f i e d b y t h e f u n c t i o n s d e r i v e d f r o m a l lc a s e s o t h e r t h a n t h a t c a s e .a . 1 0 0 . 0 % o f o r i g i n a l g r o u p e d c a s e s c o r r e c t l y c l a s s i f i e d .b . 1 0 0 . 0 % o f c r o s s v a l i d a t e d g r o u p e d c a s e s c o r r e c t l y c l a s s i f i e d .c . 誤判和正確判別率 ?從該表看,我們的分類能夠 100%地把訓(xùn)練數(shù)據(jù)的每一個觀測值分到其本來的類。 SPSS的一個輸出就給出了這些判別函數(shù) ( 投影 ) 的重要程度: E i g e n v a l u e s2 6 . 6 7 3a9 9 . 0 9 9 . 0 . 9 8 2. 2 6 2 a 1 . 0 1 0 0 . 0 . 4 5 6F u n c t i o n12E i g e n v a l u e % o f V a r i a n c e C u m u l a t i v e %C a n o n i c a lC o r r e l a t i o nF i r s t 2 c a n o n i c a l d i s c r i m i n a n t f u n c t i o n s w e r e u s e d i n t h ea n a l y s i s .a . 前面說過 , 投影的重要性是和特征值的貢獻(xiàn)率有關(guān) 。 ?利用 SPSS軟件的逐步判別法淘汰了不顯著的流動資金比例 (cp), 還剩下七個變量 。 可以看出 , 如果向其他方向投影 , 判別效果不會比這個好 。 ?考慮只有兩個 (預(yù)測 )變量的判別問題 。 這個數(shù)據(jù)就是一個 “ 訓(xùn)練樣本 ” 。 ?這樣雖非 100%準(zhǔn)確的判別至少大部分是對的,而且用不著殺生。 因此 , 聚類之前一定要目標(biāo)明確 。 事先不用確定分多少類:分層聚類 ?另一種聚類稱為分層聚類或系統(tǒng)聚類( hierarchical cluster) 。 顯然 , 前面的聚類種子的選擇并不必太認(rèn)真 , 它們很可能最后還會分到同一類中呢 。( )i p j qk p qi p i p j q j qx G x Gk i pqx G GD x x x x D x x x xD x x x x D D D D??????? ? ? ? ? ?? ? ? ? ? ? ????m a x ( , )pq i jD d x x?m in ( , )pq p qD d x x?121 ( , )i p j qp q i jx G x GD d x xnn ??? ??最短距離( Nearest Neighbor) x21? x12? x22? x11? 13d最長距離( Furthest Neighbor ) ? ? ? x11? x21? ? ? ? 12d? ? ? ? ? ? 991 dd ?? ?組間平均連接( Betweengroup Linkage) 組內(nèi)平均連接法( Withingroup Linkage) 1 2 3 4 5 66d d d d d d? ? ? ? ?x21? x12? x22? x11? 重心法( Centroid clustering):均值點(diǎn)的距離 ? ? ? ?11,xy ? ?22,xy離差平方和法連接 2, 4 1, 5 6, 5 22( 2 3 ) ( 4 3 ) 2? ? ? ?22( 6 5 . 5 ) ( 5 5 . 5 ) 0 . 5? ? ? ?22( 1 3 ) ( 5 3 ) 8? ? ? ?紅綠( 2, 4, 6, 5) 離差平方和增加 - = 黃綠( 6, 5, 1, 5) 離差平方和增加 - = 黃紅( 2, 4, 1, 5) 10- 10= 0 故按該方法的連接和黃紅首先連接。 ?當(dāng)然還有一些和距離相反但起同樣作用的概念 , 比如相似性等 ,兩點(diǎn)越相似度越大 , 就相當(dāng)于距離越短 。 這樣就可以把接近的點(diǎn)放到一類 。統(tǒng)計學(xué) ─ 從數(shù)據(jù)到結(jié)論 第十一章 聚類分析 分類 ?物以類聚、人以群分; ?但根據(jù)什么分類呢? ?如要想把中國的縣分類,就有多種方法 ?可以按照自然條件來分,比如考慮降水、土地、日照、濕度等, ?也可考慮收入、教育水準(zhǔn)、醫(yī)療條件、基礎(chǔ)設(shè)施等指標(biāo); ?既可以用某一項來分類,也可以同時考慮多項指標(biāo)來分類。 ?如果還知道他們的物理成績 , 這樣數(shù)學(xué)和物理成績就形成二維平面上的 100個點(diǎn) , 也可以按照距離遠(yuǎn)近來分類 。 兩個距離概念 ?由一個點(diǎn)組成的類是最基本的類;如果每一類都由一個點(diǎn)組成 , 那么點(diǎn)間的距離就是類間距離 。 有了上面的點(diǎn)間距離和類間距離的概念,就可以介紹聚類的方法了。下面用飲料例的數(shù)據(jù)來做 k均值聚類 。 開始時 ,有多少點(diǎn)就是多少類 。 聚類要注意的問題 ?另外就分成多少類來說 , 也要有道理 。 此即判別分析 判別分析 (discriminant analysis) ?判別分析和聚類分析有何不同 ? ?在聚類分析中 , 人們一般事先并不知道應(yīng)該分成幾類及哪幾類 , 全根據(jù)數(shù)據(jù)確定 。 1. 根據(jù)距離判別的思想 ? 8個用來建立判別標(biāo)準(zhǔn) (或判別函數(shù) )的 (預(yù)測 )變量 ,另一個 (group)是類別 ?每一個企業(yè)的打分在這 8個變量所構(gòu)成的 8維空間中是一個點(diǎn) 。 ?假定只有兩類 。 ?有了投影之后 , 再用前面講到的距離遠(yuǎn)近的方法得到判別準(zhǔn)則 。 用 x1,x2, x3, x4,x5, x6, x7分別表示標(biāo)準(zhǔn)化后的變量 is, se, sa, prr, ms, msr,cs , 得 到 兩 個 典 則 判 別 函