【正文】
h ea n a l y s i s .a . 鳶尾花數(shù)據(jù) (Wilks’ Lambda統(tǒng)計量 ) 檢驗的零假設(shè)是各組變量均值相等 . Lambda接近 0表示組均值不同 ,接近 1表示組均值沒有不同 . Chisquare是 lambda的卡方轉(zhuǎn)換 , 用于確定其顯著性 . W i l k s 39。i i iiy v x v s v y v x?? ? ?m=1時 , 不加權(quán)法 : ( ) ( )| ( ) | m in | ( ) |ij jiy x y y x y x G? ? ? ? ?m=1時 , 加權(quán)法 : 按大小排列 ( 1 ) ( ), .. ., ( 1 ) ( )ky y y y k? ? ?Di,i+1可為相應(yīng)兩類的分界點 相應(yīng)的標(biāo)準(zhǔn)差為 令 (1 ) , ... , ( )k??,1( 1 ) ( ) ( ) ( 1 ) , 1 , . . . , 1( 1 ) ( )iii y i i y id i kii?????? ? ?? ? ???1 , , 1()i i i i id y x d x G??? ? ? ?m1時 , 不加權(quán)法 : 記 對 x=(x1,…,)’, y l(x)=v(l)’x m1時 , 加權(quán)法 : 記 2 ( ) 21[ ( ) ] , 1 , . . . ,mii l llD y x y i k?? ? ??則 則 22m iniiD D x G??? ? ?( ) ( ) ( )39。11niiis v x x x x v v A vnn ?? ? ? ????總體方差不等時 ,注意到 的樣本方差為 ( 1 ) ( 2 )* 2 1 1 11239。v x v x當(dāng)總體方差相等時 閾值為 ( 1 ) ( 2 ) ( 1 ) ( 2 )1 1 1( 39。( ) ( ) ( ) 39。 ( )2D x G D x G x m m m m?? ? ? ? S ?記 ( 1 ) ( 2 ) 1 ( 1 ) ( 2 )1 ( ) 。mmnkmmiminkm m m miimiS S E a x a xa x x x x a a Ea??????? ? ? ?????( ) ( ) ( ) ( )11( ) ( ) 39。 。 max39。然后在 Independents輸入所有想用的變量;但如果要用逐步判別,則不選 Enter independents together,而選擇 Use stepwise method, ? 在方法( Method)中選挑選變量的準(zhǔn)則(檢驗方法;默認(rèn)值為 Wilks’ Lambda)。使用較少的變量意味著節(jié)省資源和易于對結(jié)果作解釋。 它不如前面的圖那么容易分清楚了 C an o n i c al D i s c r i mi n an t F u n c t i o n sF u n ct io n 1864202468Function 232101234G R O U PG r o u p Ce n t r o id s321321C an o n i c al D i s c r i mi n an t F u n c t i o n sF u n ct io n 1100 1 0Function 243210123G R O U PG r o u p Ce n t r o id s321321原先的圖 ?下面是基于 4個變量時分類結(jié)果表: ? 這個表的結(jié)果是有 87個點 ( %) 得到正確劃分 , 有3個點被錯誤判別;其中第二類有兩個被誤判為第一類 ,有一個被誤判為第三類 。 當(dāng)然 , 我們一開始就知道這些訓(xùn)練數(shù)據(jù)的各個觀測值的歸屬 , 但即使是這些訓(xùn)練樣本的觀測值 ( 企業(yè) ) 按照這里推導(dǎo)出的分類函數(shù)來分類 , 也不一定全都能夠正確劃分 。 其實一個函數(shù)就已經(jīng)能夠把這三類分清楚了 。 逐步判別的其他方面和前面的無異 。 4 2 0 2 4 6432101232. Fisher判別法 (先進(jìn)行投影 ) ?于是就尋找一個方向 , 即圖上的虛線方向 , 沿該方向朝和這個虛線垂直的一條直線進(jìn)行投影會使得這兩類分得最清楚 。 為判別分析的基礎(chǔ) 2. Fisher判別法 (先進(jìn)行投影 ) ?Fisher判別法就是一種先投影的方法 。 ?該數(shù)據(jù)有 90個企業(yè) ( 90個觀測值 ) ,其中 30個屬于上升型 , 30個屬于穩(wěn)定型 , 30個屬于下降型 。人們就根據(jù)已知雌雄的昆蟲體表度量(這些用作度量的變量亦稱為預(yù)測變量)得到一個標(biāo)準(zhǔn),并以此標(biāo)準(zhǔn)來判別其他未知性別的昆蟲。 ?相比之下 , 聚類方法的選擇則不那么重要了 。 ?注意 k均值聚類只能做 Q型聚類 , 如要做 R型聚類 , 需要把數(shù)據(jù)陣進(jìn)行轉(zhuǎn)置 。 ?如此疊代下去 , 直到達(dá)到停止疊代的要求 ( 比如 , 各類最后變化不大了 ,或者疊代次數(shù)太多了 ) 。( ) ,( ) 39。 最簡單的是歐氏距離 。 飲料數(shù)據(jù)( ) ? 16種飲料的熱量 、 咖啡因 、 鈉及價格四種變量 ? ?如果想要對 100個學(xué)生進(jìn)行分類 ,而僅知道他們的數(shù)學(xué)成績 , 則只好按照數(shù)學(xué)成績分類;這些成績在直線上形成 100個點 。 聚類分析 ?對一個數(shù)據(jù) , 既可以對變量 (指標(biāo) )進(jìn)行分類 (相當(dāng)于對數(shù)據(jù)中的列分類 ), 也可以對觀測值 (事件 , 樣品 )來分類 (相當(dāng)于對數(shù)據(jù)中的行分類 )。 ? ?三維或者更高維的情況也是類似;只不過三維以上的圖形無法直觀地畫出來而已 。 但是如果某一類包含不止一個點 , 那么就要確定類間距離 , ?類間距離 是基于點間距離定義的:比如 兩類之間最近點之間的距離 可以作為這兩類之間的距離 , 也可以用 兩類中最遠(yuǎn)點之間的距離 或各類的中心之間的距離來作為類間距離 。這里介紹兩個簡單的方法。 ? 假定要把這 16種飲料分成 3類。 ?它第一步先把最近的兩類 ( 點 ) 合并成一類 , 然后再把剩下的最近的兩類合并成一類; ?這樣下去 , 每次都少一類 , 直到最后只有一大類為止 。 只要你高興 , 從分層聚類的計算機(jī)結(jié)果可以得到任何可能數(shù)量的類 。 ?在判別分析中 , 至少有一個已經(jīng)明確知道類別的 “ 訓(xùn)練樣本 ” , 并利用該樣本來建立判別準(zhǔn)則 , 并通過預(yù)測變量來為未知類別的觀測值進(jìn)行判別了 。 這個數(shù)據(jù)在 8維空間有90個點 , ?由于已知所有點的類別 , 可以求得每個類型的中心 。 數(shù)據(jù)中的每個觀測值是二維空間的一個點 。 這種先投影的判別方法就是 Fisher判別法 。 這兩個典則判別函數(shù)的系數(shù)是下面的 SPSS輸出得到的: 1 2 3 4 5 6 71 2 3 4 5 6 71 3 . 1 6 6 0 . 0 3 5 3 . 2 8 3 0 . 0 3 7 0 . 0 0 7 0 . 0 6 8 0 . 0 2 3 0 . 3 8 52 4 . 3 8 4 0 . 0 0 5 0 . 5 6 7 0 . 0 4 1 0 . 0 1 2 0 . 0 4 8 0 . 0 4 4 0 . 1 5 9F x x x x x x xF x x x x x x x? ? ? ? ? ? ? ? ?? ? ? ? ? ? ? ? ? ?根據(jù)這兩個函數(shù) , 從任何一個觀測值 ( 每個觀測值都有 7個變量值 ) 都可以算出兩個數(shù) 。 當(dāng)然 , 二維圖要容易看一些 。 ?下面一半( Cross validated)是對每一個觀測值,都用缺少該觀測的全部數(shù)據(jù)得到的判別函數(shù)來判斷的結(jié)果。這是最重要的。 ?對于多個判別函數(shù),要弄清各自的重要性。 附錄 費(fèi)歇 (Fisher)判別法 ?并未要求總體分布類型 ?工作原理就是對原數(shù)據(jù)系統(tǒng)進(jìn)行坐標(biāo)變換 ,尋求能夠?qū)⒖傮w盡可能分開的方向 . ?點 x在以 a為法方向的投影為a’x ?各組數(shù)據(jù)的投影為 ( ) ( )1: 39。mnkmimia x a xn ??? ??組間離差平方和為 : ( ) 21( ) ( )1( 39。 39。a B aaa E a? ? ?記方程 |BlE|=0的全部特征根為 l1 ≥ …≥ lr0, 相應(yīng)的特征向量為 v1,…,v r. ?(a)的大小可以估計判別函數(shù) yi(x)=vi’x (= a’x)的效果 . 記 pi為判別能力 (效率 ), 有 最大的值為方程 |BlE|=0的最大特征根 l1. 1ii rhhpll???使 39。 39。( ) ( ) , 1 , .. .,i i iiD x G x x i kmm ?? ? S ? ?非線性判別函數(shù) :當(dāng) S(1) ,…, S(k) 不等時 ( ) ( ) 1 ( )( ) ( ) 1 ( )( ) ( ) 39。( ) / 2v x v x v x xm ? ? ? ?1( 1 ) ( 1 )1 1 139。1s v A vn??于是閾值 如 ( 2 ) ( 1 )1139。 L a m b d a. 0 2 5 5 3 8 . 9 5 0 8 . 0 0 0. 7 7 4 3 7 . 3 5 1 3 . 0 0 0T e s t o f F u n c t i o n ( s )1 t h r o u g h 22W i l k s 39。 , 39。] 39。 , 39。 ( )W x x x x x?? ? S ?非線性判別函數(shù) :當(dāng) S(1) ≠S(2)時 2221( 2 ) ( 2 ) 1 ( 2 ) ( 1 ) ( 1 ) 1 ( 1 )( , ) ( , )( ) 39。 判別分析 (Discriminant Analysis) 和聚類分析的關(guān)系 ?判別分析和聚類分析都是分類 . ?但判別分析是在已知對象有若干類型和一批已知樣品的觀測數(shù)據(jù)后的基礎(chǔ)上根據(jù)某些準(zhǔn)則建立判別式 . 而做聚類分析時類型并不知道 . ?可以先聚類以得知類型 ,再進(jìn)行判別 . 距離判別法 ?假設(shè)有兩個總體 G1和 G2, 如果能夠定義點 x到它們的距離D(x,G1)和 D(x,G2), 則 ?如果 D(x,G1) D(x,G2)則 x∈ G1 ?如果 D(x,G2) D(x,G1)則 x∈ G2 ?如果 D(x,G1) = D(x,G2)則待判 Mahalanobis距離 ?假設(shè) m(1), m(2), S(1), S(2)分別為 G1和G2的均值向量和協(xié)差陣 ,則點 x到 Gi的馬氏距離定義為 D2(x,Gi)=(x m(i))’(S(i))1(x m(i)) ? 其他一些距離為馬氏距離的特殊情況 ,因此我們著重討論馬氏距離 .馬氏距離的好處是可以克服變量之間的相關(guān)性干擾 ,并且消除各變量量綱的影響 . 線性判別函數(shù) :當(dāng) S(1)=S(2)=S時 2 2 ( 1 ) ( 2 ) 1 ( 1 ) ( 2 )211( , ) ( , ) 2 [ ( ) ] 39。 。] 39。 , 1 , . . . ,mnmmiima x a x m kn ????()39。然后點擊 Analyze- Classify-Discriminant, ? 把 group放入 Grouping Variable,再定義范圍,即在Define Range輸入 1- 3的范圍。 判別分析要注意什么 ? ?判別分析是為了正確地分類,但同時也要注意使用盡可能少的預(yù)測變量來達(dá)到這個目的。 下圖為兩個典則判別函數(shù)導(dǎo)出的 150個企業(yè)的二維點圖 。 當(dāng)然 , 用不著自己去算 , 計算機(jī)軟件的選項可以把這些訓(xùn)練數(shù)據(jù)的每一個點按照這里的分類法分到某一類 。 這兩個典則判別函數(shù)并不是平等的 。 其細(xì)節(jié)這里就不贅述了;這些不同方法可由統(tǒng)計軟件的各種選項來實現(xiàn) 。 按原來變量 (橫坐標(biāo)和縱坐標(biāo) ), 很難將這兩種點分開 。 ?用來比較到各個中心距離的數(shù)學(xué)函數(shù) 稱 為 判 別 函 數(shù) (discriminant function). ?這種根據(jù)遠(yuǎn)近判別的思想 , 原理簡單 , 直觀易懂 。 判別分析例子 ?希望根據(jù)這些企業(yè)的上述變量的打分及其已知的類別 (三個類別之一:group1代表上升 , group2代表穩(wěn)定 ,group3代表下降 )找出一個分類標(biāo)準(zhǔn) ,以對尚未被分類的企業(yè)進(jìn)行分類 。 統(tǒng)計學(xué) ─ 從數(shù)據(jù)到結(jié)論 第十二章 判別分析 判別分析 (