【正文】
? 由于 V1和 W1最相關 , 這說明 V1所代表的高學歷觀眾和 W1所主要代表的藝術家 (arti)及各部門經理 (man)觀點相關;而由于 V2和 W2也相關 , 這說明 V2所代表的低學歷 (led)及以年輕人為主的網民 ()觀眾和 W2所主要代表的看重經濟效益的發(fā)行人 ()觀點相關 , 但遠遠不如 V1和 W1的相關那么顯著 ( 根據特征值的貢獻率 ) 。 下面表格給出的是第一組變量相應于上面三個特征根的三個典型變量 V V2和 V3的系數(shù) , 即典型系數(shù)(canonical coefficient)。 ? 對實際問題 , 還要看選取的 (V, W)是否有意義 , 是否能夠說明問題才行 。 典型變量 ? 假定兩組變量為 X1,X2… ,Xp和 Y1,Y2,… ,Yq, 那么 , 問題就在于要尋找系數(shù) a1,a2… ,ap 和b1,b2,… ,bq, 和使得新的綜合變量 ( 亦稱為典型變量 (canonical variable)) 1 1 2 21 1 2 2ppqqV a X a X a XW b Y b Y b Y? ? ? ?? ? ? ?? 之間的相關關系最大 。 公式 ? 如果我們有兩組變量,如何能夠表明它們之間的關系呢? 例子(數(shù)據 ) ? 業(yè)內人士和觀眾對于一些電視節(jié)目的觀點有什么樣的關系呢? 該數(shù)據 是不同的人群對 30個電視節(jié)目所作的平均評分。 , 39。[ ( ) ( ) 39。 .ini i i ikikiini i i ii t ttx x S i knnS x x x xm??? ? S ? ??? ? ???m個判別函數(shù)的判別能力定義為 下面以兩總體 (k=2)為例來發(fā)現(xiàn)閾值 . 它們的均值 的投影分別為 111mimii rihhpll???????(1 ) ( 2 ),xx ( 1 ) ( 2 )1139。, ( )2ini i ikkini i i ii t ttx x S Sn n nS x x x x x x xm??? ? S ? ???? ? ? ? ???1 ( 1 ) ( 2 )?( ) ( ) 39。 再看逐步判別法。 ] 39。[ ( ) ( ) 39。 39。 SPSS選項 ? 打開 。還要看預測變量中是否有些不適宜的;這可以用單變量方差分析( ANOVA)和相關分析來驗證。 結果的圖形和判別的正確與否就不一樣了 。 把每個觀測點帶入三個函數(shù) ,就可以得到分別代表三類的三個值 , 哪個值最大 , 該點就屬于相應的那一類 。 C a n on i c a l D i s c r i m i n a n t F u n c t i on C oe f f i c i e n t s. 0 3 5 . 0 0 53 . 2 8 3 . 5 6 7. 0 3 7 . 0 4 1 . 0 0 7 . 0 1 2. 0 6 8 . 0 4 8 . 0 2 3 . 0 4 4 . 3 8 5 . 1 5 9 3 . 1 6 6 4 . 3 8 4ISSESAP R RMSMS RCS( C o n s t a n t )1 2F u n ct io nU n s t a n d a r d iz e d co e f f ici e n t sC an o n i c al D i s c r i mi n an t F u n c t i o n sF u n ct io n 1100 1 0Function 243210123G R O U PG r o u p Ce n t r o id s321321 ? 從上圖可以看出 , 第一個投影 ( 相應于來自于第一個典則判別函數(shù)橫坐標值 ) 已經能夠很好地分辨出三個企業(yè)類型了 。 一個變量的判別能力的判斷方法有很多種 , 主要利用各種檢驗 , 例如Wilks’ Lambda、 Rao’s V、 The Squared Mahalanobis Distance、 Smallest F ratio或 The Sum of Unexplained Variations等檢驗 。一類有 38個點 (用 “ o”表示 ),另一類有 44個點 (用 “ *” 表示 )。 ? 一個常用距離是 Mahalanobis距離 。 ? 指標有 :企業(yè)規(guī)模 ( is) 、 服務 (se)、 雇員工資比例 (sa)、 利潤增長 (prr)、 市場份額 (ms)、 市場份額增長 (msr)、 流動資金比例 (cp)、 資金周轉速度 (cs)等 . ? 另外 , 有一些企業(yè)已經被某雜志劃分為上升企業(yè) 、 穩(wěn)定企業(yè)和下降企業(yè) 。統(tǒng)計學 ─ 從數(shù)據到結論 第十二章 判別分析 判別分析 (discriminant analysis) ? 某些昆蟲的性別只有通過解剖才能夠判別 ?但雄性和雌性昆蟲在若干體表度量上有些綜合的差異。 判別分析例子 ? 希望根據這些企業(yè)的上述變量的打分及其已知的類別 (三個類別之一:group1代表上升 , group2代表穩(wěn)定 ,group3代表下降 )找出一個分類標準 ,以對尚未被分類的企業(yè)進行分類 。 ? 用來比較到各個中心距離的數(shù)學函數(shù)稱為判別函數(shù) (discriminant function). ? 這種根據遠近判別的思想 , 原理簡單 , 直觀易懂 。 按原來變量 (橫坐標和縱坐標 ), 很難將這兩種點分開 。 其細節(jié)這里就不贅述了;這些不同方法可由統(tǒng)計軟件的各種選項來實現(xiàn) 。 這兩個典則判別函數(shù)并不是平等的 。 當然 , 用不著自己去算 , 計算機軟件的選項可以把這些訓練數(shù)據的每一個點按照這里的分類法分到某一類 。 下圖為兩個典則判別函數(shù)導出的 150個企業(yè)的二維點圖 。 判別分析要注意什么 ? ? 判別分析是為了正確地分類,但同時也要注意使用盡可能少的預測變量來達到這個目的。然后點擊 Analyze- Classify-Discriminant, ? 把 group放入 Grouping Variable,再定義范圍,即在 Define Range輸入 1- 3的范圍。 , 1 , . . . ,mnmmiima x a x m kn ????()39。] 39。 。 判別分析 (Discriminant Analysis) 和聚類分析的關系 ? 判別分析和聚類分析都是分類 . ? 但判別分析是在已知對象有若干類型和一批已知樣品的觀測數(shù)據后的基礎上根據某些準則建立判別式 . 而做聚類分析時類型并不知道 . ? 可以先聚類以得知類型 ,再進行判別 . 距離判別法 ? 假設有兩個總體 G1和 G2, 如果能夠定義點 x到它們的距離D(x,G1)和 D(x,G2), 則 ? 如果 D(x,G1) D(x,G2)則 x∈ G1 ? 如果 D(x,G2) D(x,G1)則 x∈ G2 ? 如果 D(x,G1) = D(x,G2)則待判 Mahalanobis距離 ? 假設 m(1), m(2), S(1), S(2)分別為 G1和G2的均值向量和協(xié)差陣 ,則點 x到 Gi的馬氏距離定義為 D2(x,Gi)=(x m(i))’(S(i))1(x m(i)) ? 其他一些距離為馬氏距離的特殊情況 ,因此我們著重討論馬氏距離 .馬氏距離的好處是可以克服變量之間的相關性干擾 ,并且消除各變量量綱的影響 . 線性判別函數(shù) :當 S(1)=S(2)=S時 2 2 ( 1 ) ( 2 ) 1 ( 1 ) ( 2 )211( , ) ( , ) 2 [ ( ) ] 39。 ( )W x x x x x?? ? S ?非線性判別函數(shù) :當 S(1) ≠S(2)時 2221( 2 ) ( 2 ) 1 ( 2 ) ( 1 ) ( 1 ) 1 ( 1 )( , ) ( , )( ) 39。 , 39。] 39。 , 39。 ? 觀眾評分來自低學歷 (led)、高學歷 (hed)和網絡 ()調查三種 ,它們形成 第一組變量 ; ? 而業(yè)內人士分評分來自包括演員和導演在內的藝術家 (arti)、發(fā)行 ()與業(yè)內各部門主管 (man)三種,形成 第二組變量 。 這種相關關系是用典型相關系數(shù) ( canonical correlation coefficient)來衡量的 。 至于得到 (V, W)的計算 , 則很簡單 , 下面就 。 注意 , SPSS把第一組變量稱為因變量 (dependent variables), 而把第二組稱為協(xié)變量 (covariates);顯然 , 這兩組變量是完全對稱的 。 SPSS的 實現(xiàn) ? 對例 , 首先打開例 SPSS數(shù)據 , ? 通過 File- New- Syntax打開一個空白文件 ( 默認文件名為 ) , 再在其中鍵入下面命令行: ? MANOVA led hed WITH arti man ? /DISCRIM ALL ALPHA(1) ? /PRINT=SIG(EIGEN DIM). ? 再點擊一個向右的三角形圖標 (運行目前程序,Run current),就可以得到所需結果了。 例子結論 ? 從這兩個表中可以看出 , V1主要和變量 hed相關 , 而 V2主要和 led及 相關; W1主要和變量 arti及 man相關 , 而 W2主要和 相關;這和它們的典型系數(shù)是一致的 。 計算結果 ? 對于眾多的計算機輸出挑出一些來介紹 。 ? 軟件還會輸出一些檢驗結果;于是只要選擇顯著的那些 (V, W)。 ? 典型相關分析 (canonical correlation analysis)就是要找到這兩組變量線性組合的系數(shù)使得這兩個由線性組合生成的變量(和其他線性組合相比)之間的 相關系數(shù)最大。 s l i n e a r d i s c r i m i n a n t f u n c t i o n s先驗概率 (沒有給 ) 費歇判別函數(shù)系數(shù) 把自變量代入三個式子 ,哪個大歸誰 . Territorial Map Canonical Discriminant Function 2 .0 趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌 12 23 12 23 12 23 12 23 12 23 12 23 12 23 12 23 12 23 12 23 12 23 12 23 12 23 12 23 12