【正文】
? 我們知道如何衡量?jī)蓚€(gè)變量之間是否相關(guān)的問(wèn)題;這是一個(gè)簡(jiǎn)單的公式就可以解決的問(wèn)題 (Pearson相關(guān)系數(shù)、 Kendall’s t、 Spearman 秩相關(guān)系數(shù) )。 L a m b d a. 0 2 5 5 3 8 . 9 5 0 8 . 0 0 0. 7 7 4 3 7 . 3 5 1 3 . 0 0 0T e s t o f F u n c t i o n ( s )1 t h r o u g h 22W i l k s 39。 , 1 , ...., 。 , 39。v x v x?判別規(guī)則為 12( ) ( * )( ) ( * )( ) ( * )y x or x Gy x or x Gy x or x und e c ide dmmmmmm? ? ?? ? ???用 m個(gè)線性判別函數(shù) yi(x) =vi’x,i=1,…,m, 時(shí) , 先將樣本點(diǎn)在 L(vi,…,v m )空間投影再按照 p1情況的距離判別法來(lái)制定判別規(guī)則 . 判別能力為 111mimii rihhpll???????于秀林書(shū)上介紹了對(duì)用一個(gè)和 m個(gè)判別函數(shù)的加權(quán)和不加權(quán)方法 . 記 y(x)= v’x, 其在 Gi上的樣本均值和方差 , 以及總均值為 ( ) ( ) 2 ( )39。1s v A vn??于是閾值 如 ( 2 ) ( 1 )1139。39。] 39。 nv x v x12 ( 1 ) ( 1 ) ( 1 ) ( 1 )1 1 1 1 1 111139。( ) / 2v x v x v x xm ? ? ? ?1( 1 ) ( 1 )1 1 139。 39。 , 39。( ) ( )j j jiji i iW x x xxxmmmm??? ? S ?? ? S ?相應(yīng)的準(zhǔn)則為 : 如果對(duì)一切 j≠i, Wij(x)0, 則 x∈ Gi 如果有某一個(gè) Wij(x)=0, 則待判 . 當(dāng) m(i), S(i) 未知 時(shí) , 可通過(guò)樣本來(lái)估計(jì) 2( ) ( ) ( ) ( )1( ) ( ) ( ) ( )111?? , , 1 , ...,1( ) ( ) 39。( ) ( ) , 1 , .. .,i i iiD x G x x i kmm ?? ? S ? ?非線性判別函數(shù) :當(dāng) S(1) ,…, S(k) 不等時(shí) ( ) ( ) 1 ( )( ) ( ) 1 ( )( ) ( ) 39。( ) ( )D x G D x Gx x x xm m m m???? ? S ? ? ? S ?這是 x的一個(gè)二次函數(shù) , 按照距離最近原則 ,判別準(zhǔn)則仍然為 如果 W(x)0即 D(x,G1)D(x,G2)則 x∈ G1 如果 W(x)0即 D(x,G1)D(x,G2)則 x∈ G2 如果 W(x)=0即 D(x,G1)=D(x,G2)則待判 多總體時(shí)的線性判別函數(shù) :當(dāng) S(1)=…= S(k)=S時(shí) 記 22( ) ( ) 1 ( ) ( )1( ) [ ( , ) ( , ) ]21[ ( ) ] 39。 ( )W x x x x x?? ? S ?非線性判別函數(shù) :當(dāng) S(1) ≠S(2)時(shí) 2221( 2 ) ( 2 ) 1 ( 2 ) ( 1 ) ( 1 ) 1 ( 1 )( , ) ( , )( ) 39。 a稱為判別系數(shù) . 當(dāng) m(1), m(2), S 未知 時(shí) , 可通過(guò)樣本來(lái)估計(jì) : ( ) ( )1 , .. ., iiinxx判別函數(shù)為 為來(lái)自 Gi的樣本為 (i=1,2) 2( ) ( ) ( )121 12( ) ( ) ( ) ( ) ( 1 ) ( 2 )111?? , ( ) ,21( ) ( ) 39。 39。 ( ) ( ) 39。 判別分析 (Discriminant Analysis) 和聚類分析的關(guān)系 ? 判別分析和聚類分析都是分類 . ? 但判別分析是在已知對(duì)象有若干類型和一批已知樣品的觀測(cè)數(shù)據(jù)后的基礎(chǔ)上根據(jù)某些準(zhǔn)則建立判別式 . 而做聚類分析時(shí)類型并不知道 . ? 可以先聚類以得知類型 ,再進(jìn)行判別 . 距離判別法 ? 假設(shè)有兩個(gè)總體 G1和 G2, 如果能夠定義點(diǎn) x到它們的距離D(x,G1)和 D(x,G2), 則 ? 如果 D(x,G1) D(x,G2)則 x∈ G1 ? 如果 D(x,G2) D(x,G1)則 x∈ G2 ? 如果 D(x,G1) = D(x,G2)則待判 Mahalanobis距離 ? 假設(shè) m(1), m(2), S(1), S(2)分別為 G1和G2的均值向量和協(xié)差陣 ,則點(diǎn) x到 Gi的馬氏距離定義為 D2(x,Gi)=(x m(i))’(S(i))1(x m(i)) ? 其他一些距離為馬氏距離的特殊情況 ,因此我們著重討論馬氏距離 .馬氏距離的好處是可以克服變量之間的相關(guān)性干擾 ,并且消除各變量量綱的影響 . 線性判別函數(shù) :當(dāng) S(1)=S(2)=S時(shí) 2 2 ( 1 ) ( 2 ) 1 ( 1 ) ( 2 )211( , ) ( , ) 2 [ ( ) ] 39。a Baa Eam個(gè)判別函數(shù)的判別能力定義為 111mimii rihhpll???????據(jù)此來(lái)確定選擇多少判別函數(shù)。a B aaa E a? ? ?記方程 |BlE|=0的全部特征根為 l1 ≥ …≥ lr0, 相應(yīng)的特征向量為 v1,…,v r. ?(a)的大小可以估計(jì)判別函數(shù) yi(x)=vi’x (= a’x)的效果 . 記 pi為判別能力 (效率 ), 有 最大的值為方程 |BlE|=0的最大特征根 l1. 1ii rhhpll???使 39。mnk m m m miimiE x x x x??? ? ???這里 注 :L=|E|/|B+E|為有 Wilks分布的檢驗(yàn)零假設(shè)H0:m(1)=…= m(k)的似然比統(tǒng)計(jì)量 . Wilks分布常用 c2分布近似 (Bartlett) 希望尋找 a使得 SSG盡可能大而 SSE盡可能小 ,即 39。 。[ ( ) ( ) 39。 39。kmmmkmmmmS S G n a x a xa n x x x x a a Ba????? ? ? ???這里 ( ) ( )1( ) ( ) 39。] 39。 )39。mnkmimia x a xn ??? ??組間離差平方和為 : ( ) 21( ) ( )1( 39。ax()11139。 , 1 , . . . ,mnmmiima x a x m kn ????()39。 , 1 , ...,iiiinG a x a x i k?將 Gm組中數(shù)據(jù)投影的均值記為 有 記 k組數(shù)據(jù)投影的總均值為 有 ( ) ( )1139。 附錄 費(fèi)歇 (Fisher)判別法 ? 并未要求總體分布類型 ? 工作原理就是對(duì)原數(shù)據(jù)系統(tǒng)進(jìn)行坐標(biāo)變換 ,尋求能夠?qū)⒖傮w盡可能分開(kāi)的方向 . ? 點(diǎn) x在以 a為法方向的投影為 a’x ? 各組數(shù)據(jù)的投影為 ( ) ( )1: 39。 ? 為了輸出 Fisher分類函數(shù)的結(jié)果可以在 Statistics中的Function Coefficient選 Fisher和 Unstandardized ,在Matrices中選擇輸出所需要的相關(guān)陣; ? 還可以在 Classify中的 Display選 summary table, Leaveoneout classification;注意在 Classify選項(xiàng)中默認(rèn)的 Prior Probability為 All groups equal表示所有的類都平等對(duì)待,而另一個(gè)選項(xiàng)為 Compute from group sizes,即按照類的大小加權(quán)。然后點(diǎn)擊 Analyze- Classify-Discriminant, ? 把 group放入 Grouping Variable,再定義范圍,即在 Define Range輸入 1- 3的范圍。研究被誤分類的觀測(cè)值,看是否能找出原因。 ? 對(duì)于多個(gè)判別函數(shù),要弄清各自的重要性。 ? 在計(jì)算中需要看關(guān)于各個(gè)類的有關(guān)變量的均值是否顯著不同的 ? 檢驗(yàn)結(jié)果 (在 SPSS選項(xiàng)中選擇 Wilks’ Lambda、Rao’s V、 The Squared Mahalanobis Distance或 The Sum of Unexplained Variations等檢驗(yàn)的計(jì)算機(jī)輸出 ),以確定是否分類結(jié)果僅由于隨機(jī)因素。 判別分析要注意什么 ? ? 判別分析是為了正確地分類,但同時(shí)也要注意使用盡可能少的預(yù)測(cè)變量來(lái)達(dá)到這個(gè)目的。 ? 要注意數(shù)據(jù)是否有不尋常的點(diǎn)或者模式存在。這是最重要的。 C l a s s i f i c a t i o n R e s u l t sb,c30 0 0 302 27 1 300 0 30 301 0 0 . 0 .0 .0 1 0 0 . 06 . 7 9 0 . 0 3 . 3 1 0 0 . 0.0 .0 1 0 0 . 0 1 0 0 . 030 0 0 302 27 1 300 0 30 301 0 0 . 0 .0 .0 1 0 0 . 06 . 7 9 0 . 0 3 . 3 1 0 0 . 0.0 .0 1 0 0 . 0 1 0 0 . 0G R O U P1 . 0 02 . 0 03 . 0 01 . 0 02 . 0 03 . 0 01 . 0 02 . 0 03 . 0 01 . 0 02 . 0 03 . 0 0C o u n t%C o u n t%O r i g i n a lC r o s s v a l i d a t e da1 . 0 0 2 . 0 0 3 . 0 0P r e d i c t e d G r o u p M e m b e r s h i pT o t a lC r o s s v a l i d a t i o n i s d o n e o n l y f o r t h o s e c a s e s i n t h e a n a l y s i s . I n c r o s sv a l i d a t i o n , e a c h c a s e i s c l a s s i f i e d b y t h e f u n c t i o n s d e r i v e d f r o m a l lc a s e s o t h e r t h a n t h a t c a s e .a . 9 6 . 7 % o f o r i g i n a l g r o u p e d c a s e s c o r r e c t l y c l a s s i f i e d .b . 9 6 . 7 % o f c r o s s v a l i d a t e d g r o u p e d c a s e s c o r r e c t l y c l a s s i f i e d .c . ? ? 訓(xùn)練樣本中必須包含所有要判別的類型,分類必須清楚,不能有混雜。 下圖為兩個(gè)典則判別函數(shù)導(dǎo)出的 150個(gè)企業(yè)的二維點(diǎn)圖 。 ? 如果就用這個(gè)數(shù)據(jù) , 但不用所有的變量 , 而 只用 4個(gè)變量 進(jìn)行判別:企業(yè)規(guī)模 ( is) 、 服務(wù) (se)、 雇員工資比例 (sa)、 資金周轉(zhuǎn)速度 (cs)。 ? 下面一半( Cross validated)是對(duì)每一個(gè)觀測(cè)值,都用缺少該觀測(cè)的全部數(shù)據(jù)得到的判別函數(shù)來(lái)判斷的結(jié)果。 ? 下面就是對(duì)我們的訓(xùn)練樣本的分類結(jié)果 ( SPSS) : C l a s s i f i c a t i o n R e s u l t sb,c30 0 0 300 30 0 300 0 30 301 0 0 . 0 .0 .0 1 0 0 . 0.0 1 0 0 . 0 .0 1 0 0 . 0.0 .0 1 0 0 . 0 1 0 0 . 030 0 0 300 30 0 300 0 30 301 0 0 . 0 .0 .0 1 0 0 . 0.0 1 0 0 . 0 .0 1 0 0 . 0.0 .0 1 0 0 . 0 1 0 0 . 0G R O U P1 . 0 02