【文章內(nèi)容簡(jiǎn)介】
數(shù)來(lái)分類 , 也不一定全都能夠正確劃分 。 ?下面就是對(duì)我們的訓(xùn)練樣本的分類結(jié)果 ( SPSS) : C l a s s i f i c a t i o n R e s u l t sb,c30 0 0 300 30 0 300 0 30 301 0 0 . 0 .0 .0 1 0 0 . 0.0 1 0 0 . 0 .0 1 0 0 . 0.0 .0 1 0 0 . 0 1 0 0 . 030 0 0 300 30 0 300 0 30 301 0 0 . 0 .0 .0 1 0 0 . 0.0 1 0 0 . 0 .0 1 0 0 . 0.0 .0 1 0 0 . 0 1 0 0 . 0G R O U P1 . 0 02 . 0 03 . 0 01 . 0 02 . 0 03 . 0 01 . 0 02 . 0 03 . 0 01 . 0 02 . 0 03 . 0 0C o u n t%C o u n t%O r i g i n a lC r o s s v a l i d a t e da1 . 0 0 2 . 0 0 3 . 0 0P r e d i c t e d G r o u p M e m b e r s h i pT o t a lC r o s s v a l i d a t i o n i s d o n e o n l y f o r t h o s e c a s e s i n t h e a n a l y s i s . I n c r o s sv a l i d a t i o n , e a c h c a s e i s c l a s s i f i e d b y t h e f u n c t i o n s d e r i v e d f r o m a l lc a s e s o t h e r t h a n t h a t c a s e .a . 1 0 0 . 0 % o f o r i g i n a l g r o u p e d c a s e s c o r r e c t l y c l a s s i f i e d .b . 1 0 0 . 0 % o f c r o s s v a l i d a t e d g r o u p e d c a s e s c o r r e c t l y c l a s s i f i e d .c . 誤判和正確判別率 ?從該表看,我們的分類能夠 100%地把訓(xùn)練數(shù)據(jù)的每一個(gè)觀測(cè)值分到其本來(lái)的類。 ?該表分成兩部分;上面一半( Original)是用從全部數(shù)據(jù)得到的判別函數(shù)來(lái)判斷每一個(gè)點(diǎn)的結(jié)果(前面三行為判斷結(jié)果的數(shù)目,而后三行為相應(yīng)的百分比)。 ?下面一半( Cross validated)是對(duì)每一個(gè)觀測(cè)值,都用缺少該觀測(cè)的全部數(shù)據(jù)得到的判別函數(shù)來(lái)判斷的結(jié)果。 ?這里結(jié)果是 100%正確,但一般并不一定。 ? 如果就用這個(gè)數(shù)據(jù) , 但不用所有的變量 , 而 只用 4個(gè)變量 進(jìn)行判別:企業(yè)規(guī)模 ( is) 、 服務(wù) (se)、 雇員工資比例 (sa)、 資金周轉(zhuǎn)速度 (cs)。 結(jié)果的圖形和判別的正確與否就不一樣了 。 下圖為兩個(gè)典則判別函數(shù)導(dǎo)出的 150個(gè)企業(yè)的二維點(diǎn)圖 。 它不如前面的圖那么容易分清楚了 C an o n i c al D i s c r i mi n an t F u n c t i o n sF u n ct io n 1864202468Function 232101234G R O U PG r o u p Ce n t r o id s321321C an o n i c al D i s c r i mi n an t F u n c t i o n sF u n ct io n 1100 1 0Function 243210123G R O U PG r o u p Ce n t r o id s321321原先的圖 ?下面是基于 4個(gè)變量時(shí)分類結(jié)果表: ? 這個(gè)表的結(jié)果是有 87個(gè)點(diǎn) ( %) 得到正確劃分 , 有3個(gè)點(diǎn)被錯(cuò)誤判別;其中第二類有兩個(gè)被誤判為第一類 ,有一個(gè)被誤判為第三類 。 C l a s s i f i c a t i o n R e s u l t sb,c30 0 0 302 27 1 300 0 30 301 0 0 . 0 .0 .0 1 0 0 . 06 . 7 9 0 . 0 3 . 3 1 0 0 . 0.0 .0 1 0 0 . 0 1 0 0 . 030 0 0 302 27 1 300 0 30 301 0 0 . 0 .0 .0 1 0 0 . 06 . 7 9 0 . 0 3 . 3 1 0 0 . 0.0 .0 1 0 0 . 0 1 0 0 . 0G R O U P1 . 0 02 . 0 03 . 0 01 . 0 02 . 0 03 . 0 01 . 0 02 . 0 03 . 0 01 . 0 02 . 0 03 . 0 0C o u n t%C o u n t%O r i g i n a lC r o s s v a l i d a t e da1 . 0 0 2 . 0 0 3 . 0 0P r e d i c t e d G r o u p M e m b e r s h i pT o t a lC r o s s v a l i d a t i o n i s d o n e o n l y f o r t h o s e c a s e s i n t h e a n a l y s i s . I n c r o s sv a l i d a t i o n , e a c h c a s e i s c l a s s i f i e d b y t h e f u n c t i o n s d e r i v e d f r o m a l lc a s e s o t h e r t h a n t h a t c a s e .a . 9 6 . 7 % o f o r i g i n a l g r o u p e d c a s e s c o r r e c t l y c l a s s i f i e d .b . 9 6 . 7 % o f c r o s s v a l i d a t e d g r o u p e d c a s e s c o r r e c t l y c l a s s i f i e d .c . ? ?訓(xùn)練樣本中必須包含所有要判別的類型,分類必須清楚,不能有混雜。 ?要選擇好可能用于判別的預(yù)測(cè)變量。這是最重要的。當(dāng)然,在應(yīng)用中,選擇余地不見(jiàn)得有多大。 ?要注意數(shù)據(jù)是否有不尋常的點(diǎn)或者模式存在。還要看預(yù)測(cè)變量中是否有些不適宜的;這可以用單變量方差分析( ANOVA)和相關(guān)分析來(lái)驗(yàn)證。 判別分析要注意什么 ? ?判別分析是為了正確地分類,但同時(shí)也要注意使用盡可能少的預(yù)測(cè)變量來(lái)達(dá)到這個(gè)目的。使用較少的變量意味著節(jié)省資源和易于對(duì)結(jié)果作解釋。 ?在計(jì)算中需要看關(guān)于各個(gè)類的有關(guān)變量的均值是否顯著不同的 ?檢驗(yàn)結(jié)果 (在 SPSS選項(xiàng)中選擇 Wilks’ Lambda、Rao’s V、 The Squared Mahalanobis Distance或The Sum of Unexplained Variations等檢驗(yàn)的計(jì)算機(jī)輸出 ),以確定是否分類結(jié)果僅由于隨機(jī)因素。 判別分析要注意什么 ? ?此外成員的權(quán)數(shù)( SPSS用 prior probability,即“先驗(yàn)概率”,和貝葉斯統(tǒng)計(jì)的先驗(yàn)概率有區(qū)別)需要考慮;一般來(lái)說(shuō),加權(quán)要按照各類觀測(cè)值的多少,觀測(cè)值少的就要按照比例多加權(quán)。 ?對(duì)于多個(gè)判別函數(shù),要弄清各自的重要性。 ?注意訓(xùn)練樣本的正確和錯(cuò)誤分類率。研究被誤分類的觀測(cè)值,看是否能找出原因。 SPSS選項(xiàng) ? 打開(kāi) 。然后點(diǎn)擊 Analyze- Classify-Discriminant, ? 把 group放入 Grouping Variable,再定義范圍,即在Define Range輸入 1- 3的范圍。然后在 Independents輸入所有想用的變量;但如果要用逐步判別,則不選 Enter independents together,而選擇 Use stepwise method, ? 在方法( Method)中選挑選變量的準(zhǔn)則(檢驗(yàn)方法;默認(rèn)值為 Wilks’ Lambda)。 ? 為了輸出 Fisher分類函數(shù)的結(jié)果可以在 Statistics中的Function Coefficient選 Fisher和 Unstandardized ,在Matrices中選擇輸出所需要的相關(guān)陣; ? 還可以在 Classify中的 Display選 summary table, Leaveoneout classification;注意在 Classify選項(xiàng)中默認(rèn)的Prior Probability為 All groups equal表示所有的類都平等對(duì)待,而另一個(gè)選項(xiàng)為 Compute from group sizes,即按照類的大小加權(quán)。 ? 在 Plots可選 Combinedgroups, Territorial map等。 附錄 費(fèi)歇 (Fisher)判別法 ?并未要求總體分布類型 ?工作原理就是對(duì)原數(shù)據(jù)系統(tǒng)進(jìn)行坐標(biāo)變換 ,尋求能夠?qū)⒖傮w盡可能分開(kāi)的方向 . ?點(diǎn) x在以 a為法方向的投影為a’x ?各組數(shù)據(jù)的投影為 ( ) ( )1: 39。 39。 , 1 , ...,iiiinG a x a x i k?將 Gm組中數(shù)據(jù)投影的均值記為 有 記 k組數(shù)據(jù)投影的總均值為 有 ( ) ( )1139。 39。 , 1 , . . . ,mnmmiima x a x m kn ????()39。 max39。ax()11139。39。mnkmimia x a xn ??? ??組間離差平方和為 : ( ) 21( ) ( )1( 39。 39。 )39。[ ( ) ( ) 39。] 39。 。kmmmkmmmmS S G n a x a xa n x x x x a a Ba????? ? ? ???這里 ( ) ( )1( ) ( ) 39。]k mmmmB n x x x x?? ? ?? 組內(nèi)離差平方和為 : ( ) ( ) 211( ) ( ) ( ) ( )11( 39。 39。 )39。[ ( ) ( ) 39。 ] 39。 。mmnkmmiminkm m m miimiS S E a x a xa x x x x a a Ea??????? ? ? ?????( ) ( ) ( ) ( )11( ) ( ) 39。mnk m m m miimiE x x x x??? ? ???這里 注 :L=|E|/|B+E|為有 Wilks分布的檢驗(yàn)零假設(shè)H0:m(1)=…= m(k)的似然比統(tǒng)計(jì)量 . Wilks分布常用 c2分布近似 (Bartlett) 希望尋找 a使得 SSG盡可能大而 SSE盡可能小 ,即 39。( ) m a x39。a B aaa E a? ? ?記方程 |BlE|=0的全部特征根為 l1 ≥ …≥ lr0, 相應(yīng)的特征向量為 v1,…,v r. ?(a)的大小可以估計(jì)判別函數(shù) yi(x)=vi’x (= a’x)的效果 . 記 pi為判別能力 (效率 ), 有 最大的值為方程 |BlE|=0的最大特征根 l1. 1ii rhhpll???使 39。39。a Baa Eam個(gè)判別函數(shù)的判別能力定義為 111mimii rihhpll???????據(jù)此來(lái)確定選擇多少判別函數(shù)。 再看逐步判別法。 判別分析 (Discriminant Analysis) 和聚類分析的關(guān)系 ?判別分析和聚類分析都是分類 . ?但判別分析是在已知對(duì)象有若干類型和一批已知樣品的觀測(cè)數(shù)據(jù)后的基礎(chǔ)上根據(jù)某些準(zhǔn)則建立判別式 . 而做聚類分析時(shí)類型并不知道 . ?可以先聚類以得知類型 ,再進(jìn)行判別 . 距離判