【正文】
? 還可以把 (比如 )存入一個文件夾。 計算結果 ? 類似地 , 也可以得到被稱為協(xié)變量 (covariate)的標準化的第二組變量的相應于頭三個特征值得三個典型變量 W W2和 W2的系數: 。 這種命名僅僅是為了敘述方便 。 它們的典型相關系數也都在 。 數學原理 ? 計算結果 ? 第一個表為判斷這兩組變量相關性的若干檢驗 , 包括 Pillai跡檢驗 , HotellingLawley跡檢驗 , Wilks l檢驗和 Roy的最大根檢驗;它們都是有兩個自由度的 F檢驗 。 實際上 , 只要選擇特征值累積總貢獻占主要部分的那些即可 。 典型相關系數 ? 這里所涉及的主要的數學工具還是矩陣的特征值和特征向量問題 。 典型相關分析 ? 由于一組變量可以有無數種線性組合(線性組合由相應的系數確定),因此必須找到 既有意義又可以確定的線性組合。人們對這樣兩組變量之間的關系感到興趣。 L a m b d a C h i s q u a r e df S i g .鳶尾花數據 (有關判別函數的輸出 ) S t a n d a r d i z e d C a n o n i c a l D i s c r i m i n a n tF u n c t i o n C o e f f i c i e n t s . 3 4 6 . 0 3 9 . 5 2 5 . 7 4 2. 8 4 6 . 3 8 6. 6 1 3 . 5 5 5花萼長花萼寬花瓣長花瓣寬1 2F u n c t i o n標準化的典則判別函數系數 (使用時必須用標準化的自變量 ) 1 1 2 3 42 1 2 3 40 . 3 4 6 0 . 5 2 5 0 . 8 4 6 0 . 6 1 30 . 0 3 9 0 . 7 4 2 0 . 3 8 6 0 . 5 5 5y x x x xy x x x x? ? ? ? ?? ? ? ?鳶尾花數據 (有關判別函數的輸出 ) C a n o n i c a l D i s c r i m i n a n t F u n c t i o n C o e f f i c i e n t s . 0 6 3 . 0 0 7 . 1 5 5 . 2 1 8. 1 9 6 . 0 8 9. 2 9 9 . 2 7 1 2 . 5 2 6 6 . 9 8 7花萼長花萼寬花瓣長花瓣寬( C o n s t a n t )1 2F u n c t i o nU n s t a n d a r d i z e d c o e f f i c i e n t s典則判別函數系數 1 1 2 3 42 1 2 3 40 . 0 6 3 0 . 1 5 5 0 . 1 9 6 0 . 2 9 9 2 . 5 2 60 . 0 0 7 0 . 2 1 8 0 . 0 8 9 0 . 2 7 1 6 . 9 4 8y x x x xy x x x x? ? ? ? ? ?? ? ? ? ?鳶尾花數據 (有關判別函數的輸出 ) 這是類均值 (重心 )處的典則判別函數值 F u n c t i o n s a t G r o u p C e n t r o i d s 7 . 3 9 2 . 2 1 91 . 7 6 3 . 7 3 75 . 6 2 9 . 5 1 8分類剛毛鳶尾花變色鳶尾花佛吉尼亞鳶尾花1 2F u n c t i o nU n s t a n d a r d i z e d c a n o n i c a l d i s c r i m i n a n tf u n c t i o n s e v a l u a t e d a t g r o u p m e a n s這是典則判別函數 (前面兩個函數 )在類均值 (重心 )處的值 鳶尾花數據 (用判別函數對觀測量分類結果 ) C l a s s i f i c a t i o n P r o c e s s i n g S u m m a r y1 5 0001 5 0P r o c e s s e dM i s s i n g o r o u t o f r a n g eg r o u p c o d e sA t l e a s t o n e m i s s i n gd i s c r i m i n a t i n g v a r i a b l eE x c l u d e dU s e d i n O u t p u tP r i o r P r o b a b i l i t i e s f o r G r o u p s. 3 3 3 50 5 0 . 0 0 0. 3 3 3 50 5 0 . 0 0 0. 3 3 3 50 5 0 . 0 0 01 . 0 0 0 1 5 0 1 5 0 . 0 0 0分類剛毛鳶尾花變色鳶尾花佛吉尼亞鳶尾花T o t a lP r i o r U n w e i g h t e d W e i g h t e dC a s e s U s e d i n A n a l y s i sC l a s s i f i c a t i o n F u n c t i o n C o e f f i c i e n t s1 . 6 8 7 1 . 1 0 1 . 8 6 52 . 6 9 5 1 . 0 7 0 . 7 4 7 . 8 8 0 1 . 0 0 1 1 . 6 4 7 2 . 2 8 4 . 1 9 7 1 . 6 9 5 8 0 . 2 6 8 7 1 . 1 9 6 1 0 3 . 8 9 0花萼長花萼寬花瓣長花瓣寬( C o n s t a n t )剛毛鳶尾花 變色鳶尾花佛吉尼亞鳶尾花分類F i s h e r 39。i i iiy v x v s v y v x?? ? ?m=1時 , 不加權法 : ( ) ( )| ( ) | m in | ( ) |ij jiy x y y x y x G? ? ? ? ?m=1時 , 加權法 : 按大小排列 ( 1 ) ( ), .. ., ( 1 ) ( )ky y y y k? ? ?Di,i+1可為相應兩類的分界點 相應的標準差為 令 (1 ) , ... , ( )k??,1( 1 ) ( ) ( ) ( 1 ) , 1 , . . . , 1( 1 ) ( )iii y i i y id i kii?????? ? ?? ? ???1 , , 1()i i i i id y x d x G??? ? ? ?m1時 , 不加權法 : 記 對 x=(x1,…,)’, y l(x)=v(l)’x m1時 , 加權法 : 記 2 ( ) 21[ ( ) ] , 1 , . . . ,mii l llD y x y i k?? ? ??則 則 22m iniiD D x G??? ? ?( ) ( ) ( )39。39。11niiis v x x x x v v A vnn ?? ? ? ????總體方差不等時 ,注意到 的樣本方差為 ( 1 ) ( 2 )* 2 1 1 11239。 , .. ., 39。v x v x當總體方差相等時 閾值為 ( 1 ) ( 2 ) ( 1 ) ( 2 )1 1 1( 39。( ) ( )( ) 39。( ) ( ) ( ) 39。( ) ( , ..., )( ) , ..., ( )pppp p pxW x x a a x a axa x a xmmmmmm?? ???? ? ? ? ????? ???? ? ?顯然 W(x)為 x1,…, x p的線性函數 , 稱為線性判別函數 。 ( )2D x G D x G x m m m m?? ? ? ? S ?記 ( 1 ) ( 2 ) 1 ( 1 ) ( 2 )1 ( ) 。39。mmnkmmiminkm m m miimiS S E a x a xa x x x x a a Ea??????? ? ? ?????( ) ( ) ( ) ( )11( ) ( ) 39。 )39。 。 39。 max39。 39。然后在 Independents輸入所有想用的變量;但如果要用逐步判別,則不選 Enter independents together,而選擇 Use stepwise method, ? 在方法( Method)中選挑選變量的準則(檢驗方法;默認值為 Wilks’ Lambda)。 ? 注意訓練樣本的正確和錯誤分類率。使用較少的變量意味著節(jié)省資源和易于對結果作解釋。當然,在應用中,選擇余地不見得有多大。 它不如前面的圖那么容易分清楚了 C an o n i c al D i s c r i mi n an t F u n c t i o n sF u n ct io n 1864202468Function 232101234G R O U PG r o u p Ce n t r o id s321321C an o n i c al D i s c r i mi n an t F u n c t i o n sF u n ct io n 1100 1 0Function 243210123G R O U PG r o u p Ce n t r o id s321321原先的圖 ? 下面是基于 4個變量時分類結果表: ? 這個表的結果是有 87個點 ( %) 得到正確劃分 , 有3個點被錯誤判別;其中第二類有兩個被誤判為第一類 ,有一個被誤判為第三類 。 ? 這里結果是 100%正確,但一般并不一定。 當然 , 我們一開始就知道這些訓練數據的各個觀測值的歸屬 , 但即使是這些訓練樣本的觀測值 ( 企業(yè) ) 按照這里推導出的分類函數來分類 , 也不一定全都能夠正確劃分 。 投影之后 , 再根據各點的位置遠近算出具體的判別公式 ( SPSS輸出 ) : ? 具體的判別公式 ( SPSS輸出 ) , 由一張分類函數表給出: C l a s s i f i c a t i o n F u n c t i o n C o e f f i c i e n t s. 1 1 8 . 3 3 8 . 5 5 4. 7 7 0 2 1 . 3 2 9 4 1 . 6 1 6. 3 4 5 . 5 4 2 . 8 1 1. 0 8 6 . 0 2 9 . 0 0 1. 3 5 5 . 7 4 3 1 . 2 0 3. 3 6 8 . 1 7 3 . 0 8 17 . 5 3 1 5 . 2 2 0 2 . 7 4 2 5 7 . 5 2 1 5 3 . 7 0 4 9 6 . 0 8 4ISSESAP R RMSM S RCS( C o n s t a n t )1 . 0 0 2 . 0 0 3 . 0 0G R O U PF i s h e r 39。 其實一個函數就已經能夠把這三類分清楚了 。 把這兩個數目當成該觀測值的坐標 , 這樣數據中的 150個觀測值就是二維平面上的 150個點 。 逐步判別的其他方面和前面的無異 。 4 2 0 2 4 643210123Fisher判別法的數學 (僅僅是在前面的方法中加入變量選擇的功能 ) ? 有時 , 一些變量對于判別并沒有什么作用 , 為了得到對判別最合適的變量 , 可以使用逐步判別 。 4 2 0 2 4 6432101232. Fisher判別法 (先進行投影 ) ? 于是就尋找一個方向 , 即圖上的虛線方向 , 沿該方向朝和這個虛線垂直的一條直線進行投影會使得這兩類分得最清楚 。 見圖 。 為判別分析的基礎 2. Fisher判別法 (先進行投影 ) ? Fisher判別法就是一種先投影的方法 。 這樣只要定義了距離 , 就可以得到任何給定的點 ( 企業(yè) ) 到這三個中心的三個距離 。 ? 該數據有 90個企業(yè) ( 90個觀測值 ) ,其中 30個屬于上升型 , 30個屬于穩(wěn)定型 , 30個屬于下降型 。 判別分析例子 ? 數據 :企圖用一套打分體系來描繪企業(yè)的狀況 。人們就根據已知雌雄的昆蟲體表度量(這些用作度量的變量亦稱為預測變量)得到一個標準,并以此標準來判別其他