【正文】
8 9 . 9 0 2 8 . 1 2 7 4 . 0 4 91 8 . 2 9 0 8 . 1 2 7 2 2 . 0 8 2 7 . 3 1 05 . 5 7 8 4 . 0 4 9 7 . 3 1 0 3 . 9 1 15 0 . 8 1 2 8 . 0 9 0 2 8 . 4 6 1 6 . 4 0 98 . 0 9 0 1 0 . 3 5 5 5 . 8 0 4 4 . 4 5 62 8 . 4 6 1 5 . 8 0 4 3 0 . 6 9 4 4 . 9 4 36 . 4 0 9 4 . 4 5 6 4 . 9 4 3 7 . 5 4 37 4 . 5 3 7 4 . 6 8 3 1 3 0 . 0 3 6 5 3 . 5 0 7 4 . 6 8 3 1 9 . 0 3 6 3 3 . 0 5 6 1 2 . 0 8 31 3 0 . 0 3 6 3 3 . 0 5 6 3 1 2 . 6 7 0 1 2 9 . 8 0 35 3 . 5 0 7 1 2 . 0 8 3 1 2 9 . 8 0 3 5 8 . 1 0 1花萼長花萼寬花瓣長花瓣寬花萼長花萼寬花瓣長花瓣寬花萼長花萼寬花瓣長花瓣寬花萼長花萼寬花瓣長花瓣寬分類剛毛鳶尾花變色鳶尾花佛吉尼亞鳶尾花T o t a l花萼長 花萼寬 花瓣長 花瓣寬T h e t o t a l c o v a r i a n c e m a t r i x h a s 1 4 9 d e g r e e s o f f r e e d o m .a . 鳶尾花數(shù)據(jù) (特征值表 ) Eigenvalue:用于分析的前兩個典則判別函數(shù)的特征值 , 是組間平方和與組內(nèi)平方和之比值 . 最大特征值與組均值最大的向量對應(yīng) , 第二大特征值對應(yīng)著次大的組均值向量 典則相關(guān)系數(shù) (canonical correlation):是組間平方和與總平方和之比的平方根 .被平方的是由組間差異解釋的變異總和的比 . E i g e n v a l u e s3 0 . 4 1 9a9 9 . 0 9 9 . 0 . 9 8 4. 2 9 3a1 . 0 1 0 0 . 0 . 4 7 6F u n c t i o n12E i g e n v a l u e % o f V a r i a n c e C u m u l a t i v e %C a n o n i c a lC o r r e l a t i o nF i r s t 2 c a n o n i c a l d i s c r i m i n a n t f u n c t i o n s w e r e u s e d i n t h ea n a l y s i s .a . 鳶尾花數(shù)據(jù) (Wilks’ Lambda統(tǒng)計量 ) 檢驗的零假設(shè)是各組變量均值相等 . Lambda接近 0表示組均值不同 ,接近 1表示組均值沒有不同 . Chisquare是 lambda的卡方轉(zhuǎn)換 , 用于確定其顯著性 . W i l k s 39。i i iiy v x v s v y v x?? ? ?m=1時 , 不加權(quán)法 : ( ) ( )| ( ) | m in | ( ) |ij jiy x y y x y x G? ? ? ? ?m=1時 , 加權(quán)法 : 按大小排列 ( 1 ) ( ), .. ., ( 1 ) ( )ky y y y k? ? ?Di,i+1可為相應(yīng)兩類的分界點 相應(yīng)的標準差為 令 (1 ) , ... , ( )k??,1( 1 ) ( ) ( ) ( 1 ) , 1 , . . . , 1( 1 ) ( )iii y i i y id i kii?????? ? ?? ? ???1 , , 1()i i i i id y x d x G??? ? ? ?m1時 , 不加權(quán)法 : 記 對 x=(x1,…,)’, y l(x)=v(l)’x m1時 , 加權(quán)法 : 記 2 ( ) 21[ ( ) ] , 1 , . . . ,mii l llD y x y i k?? ? ??則 則 22m iniiD D x G??? ? ?( ) ( ) ( )39。 , 39。39。s v x s v xssm ???類似地 ,第二組數(shù)據(jù)投影的樣本方差為 22 1 2 121 39。11niiis v x x x x v v A vnn ?? ? ? ????總體方差不等時 ,注意到 的樣本方差為 ( 1 ) ( 2 )* 2 1 1 11239。[ ( ) ( ) 39。 , .. ., 39。 ) / 2 39。v x v x當總體方差相等時 閾值為 ( 1 ) ( 2 ) ( 1 ) ( 2 )1 1 1( 39。 .ini i i ikikiini i i ii t ttx x S i knnS x x x xm??? ? S ? ??? ? ???m個判別函數(shù)的判別能力定義為 下面以兩總體 (k=2)為例來發(fā)現(xiàn)閾值 . 它們的均值 的投影分別為 111mimii rihhpll???????(1 ) ( 2 ),xx ( 1 ) ( 2 )1139。( ) ( )( ) 39。 ( ) , , 1 , .. .,2ij i ji j i jW x D x G D x Gx i j km m m m???? ? ? S ? ?相應(yīng)的準則為 : 如果對一切 j≠i, Wij(x)0, 則 x∈ Gi 如果有某一個 Wij(x)=0, 則待判 2 ( ) ( ) 1 ( )( , ) ( ) 39。( ) ( ) ( ) 39。, ( )2ini i ikkini i i ii t ttx x S Sn n nS x x x x x x xm??? ? S ? ???? ? ? ? ???1 ( 1 ) ( 2 )?( ) ( ) 39。( ) ( , ..., )( ) , ..., ( )pppp p pxW x x a a x a axa x a xmmmmmm?? ???? ? ? ? ????? ???? ? ?顯然 W(x)為 x1,…, x p的線性函數(shù) , 稱為線性判別函數(shù) 。 ( )2W x xm m m m m m?? ? ? ? S ?如果 W(x)0即 D(x,G1)D(x,G2)則 x∈ G1 如果 W(x)0即 D(x,G1)D(x,G2)則 x∈ G2 如果 W(x)=0即 D(x,G1)=D(x,G2)則待判 當 m(1), m(2), S 已知 時 , 令 a= S1(m(1) m(2) ) ≡(a1,…, a p)’,則 1111 1 1( ) ( ) 39。 ( )2D x G D x G x m m m m?? ? ? ? S ?記 ( 1 ) ( 2 ) 1 ( 1 ) ( 2 )1 ( ) 。 再看逐步判別法。39。( ) m a x39。mmnkmmiminkm m m miimiS S E a x a xa x x x x a a Ea??????? ? ? ?????( ) ( ) ( ) ( )11( ) ( ) 39。 ] 39。 )39。]k mmmmB n x x x x?? ? ?? 組內(nèi)離差平方和為 : ( ) ( ) 211( ) ( ) ( ) ( )11( 39。 。[ ( ) ( ) 39。 39。39。 max39。 39。 39。 ? 在 Plots可選 Combinedgroups, Territorial map等。然后在 Independents輸入所有想用的變量;但如果要用逐步判別,則不選 Enter independents together,而選擇 Use stepwise method, ? 在方法( Method)中選挑選變量的準則(檢驗方法;默認值為 Wilks’ Lambda)。 SPSS選項 ? 打開 。 ?注意訓(xùn)練樣本的正確和錯誤分類率。 判別分析要注意什么 ? ?此外成員的權(quán)數(shù)( SPSS用 prior probability,即“先驗概率”,和貝葉斯統(tǒng)計的先驗概率有區(qū)別)需要考慮;一般來說,加權(quán)要按照各類觀測值的多少,觀測值少的就要按照比例多加權(quán)。使用較少的變量意味著節(jié)省資源和易于對結(jié)果作解釋。還要看預(yù)測變量中是否有些不適宜的;這可以用單變量方差分析( ANOVA)和相關(guān)分析來驗證。當然,在應(yīng)用中,選擇余地不見得有多大。 ?要選擇好可能用于判別的預(yù)測變量。 它不如前面的圖那么容易分清楚了 C an o n i c al D i s c r i mi n an t F u n c t i o n sF u n ct io n 1864202468Function 232101234G R O U PG r o u p Ce n t r o id s321321C an o n i c al D i s c r i mi n an t F u n c t i o n sF u n ct io n 1100 1 0Function 243210123G R O U PG r o u p Ce n t r o id s321321原先的圖 ?下面是基于 4個變量時分類結(jié)果表: ? 這個表的結(jié)果是有 87個點 ( %) 得到正確劃分 , 有3個點被錯誤判別;其中第二類有兩個被誤判為第一類 ,有一個被誤判為第三類 。 結(jié)果的圖形和判別的正確與否就不一樣了 。 ?這里結(jié)果是 100%正確,但一般并不一定。 ?該表分成兩部分;上面一半( Original)是用從全部數(shù)據(jù)得到的判別函數(shù)來判斷每一個點的結(jié)果(前面三行為判斷結(jié)果的數(shù)目,而后三行為相應(yīng)的百分比)。 當然 , 我們一開始就知道這些訓(xùn)練數(shù)據(jù)的各個觀測值的歸屬 , 但即使是這些訓(xùn)練樣本的觀測值 ( 企業(yè) ) 按照這里推導(dǎo)出的分類函數(shù)來分類 , 也不一定全都能夠正確劃分 。 把每個觀測點帶入三個函數(shù) ,就可以得到分別代表三類的三個值 , 哪個值最大 , 該點就屬于相應(yīng)的那一類 。 投影之后 , 再根據(jù)各點的位置遠近算出具體的判別公式 ( SPSS輸出 ) : ? 具體的判別公式 ( SPSS輸出 ) , 由一張分類函數(shù)表給出: C l a s s i f i c a t i o n F u n c t i o n C o e f f i c i e n t s. 1 1 8 . 3 3 8 . 5 5 4. 7 7 0 2 1 . 3 2 9 4 1 . 6 1 6. 3 4 5 . 5 4 2 . 8 1 1. 0 8 6 . 0 2 9 . 0 0 1. 3 5 5 . 7 4 3 1 . 2 0 3. 3 6 8 . 1 7 3 . 0 8 17 . 5 3 1 5 . 2 2 0 2 . 7 4 2 5 7 . 5 2 1 5 3 . 7 0 4 9 6 . 0 8 4ISSESAP R RMSM S RCS( C o n s t a n t )1 . 0 0 2 . 0 0 3 . 0 0G R O U PF i s h e r 39。 該表說明第一個函數(shù)的貢獻率已經(jīng)是 99%了 , 而第二個只有1%。 其實一個函數(shù)就已經(jīng)能夠把這三類分清楚了 。 C a n on i c a l D i s c r i m i n a n t F u n c t i on C oe f f i c i e n t s. 0 3 5 . 0 0 53 . 2 8 3 . 5 6 7. 0 3 7 . 0 4 1 . 0 0 7 . 0 1 2. 0 6 8 . 0 4 8 . 0 2 3 . 0 4 4 . 3 8 5 . 1 5 9 3 . 1 6 6 4 . 3 8 4ISSESAP R RMSMS RCS( C o n s t a n t )1 2F u n ct io nU n s t a n d a r d iz e d co e f f ici e n t sC an o n i c al D i