【正文】
且分類結(jié)果還要有令人信服的解釋 。利用 SPSS,只疊代了三次就達(dá)到目標(biāo)了(計(jì)算機(jī)選的種子還可以)。 兩個(gè)距離概念 ?在計(jì)算時(shí) , 各種點(diǎn)間距離和類間距離的選擇是通過統(tǒng)計(jì)軟件的選項(xiàng)實(shí)現(xiàn)的 。 ?當(dāng)然 , 不一定事先假定有多少類 , 完全可以按照數(shù)據(jù)本身的規(guī)律來分類 。 ?點(diǎn)間距離 有很多定義方式 。 再把這三類的中心 (均值 )作為新的基石或種子 (原來 “ 種子 ” 就沒用了 ), 再重新按照距離分類 。如果去掉一些變量 , 或者增加一些變量 , 結(jié)果會很不同 。 判別分析例子 ?希望根據(jù)這些企業(yè)的上述變量的打分及其已知的類別 (三個(gè)類別之一:group1代表上升 , group2代表穩(wěn)定 ,group3代表下降 )找出一個(gè)分類標(biāo)準(zhǔn) ,以對尚未被分類的企業(yè)進(jìn)行分類 。 按原來變量 (橫坐標(biāo)和縱坐標(biāo) ), 很難將這兩種點(diǎn)分開 。 這兩個(gè)典則判別函數(shù)并不是平等的 。 下圖為兩個(gè)典則判別函數(shù)導(dǎo)出的 150個(gè)企業(yè)的二維點(diǎn)圖 。然后點(diǎn)擊 Analyze- Classify-Discriminant, ? 把 group放入 Grouping Variable,再定義范圍,即在Define Range輸入 1- 3的范圍。] 39。 判別分析 (Discriminant Analysis) 和聚類分析的關(guān)系 ?判別分析和聚類分析都是分類 . ?但判別分析是在已知對象有若干類型和一批已知樣品的觀測數(shù)據(jù)后的基礎(chǔ)上根據(jù)某些準(zhǔn)則建立判別式 . 而做聚類分析時(shí)類型并不知道 . ?可以先聚類以得知類型 ,再進(jìn)行判別 . 距離判別法 ?假設(shè)有兩個(gè)總體 G1和 G2, 如果能夠定義點(diǎn) x到它們的距離D(x,G1)和 D(x,G2), 則 ?如果 D(x,G1) D(x,G2)則 x∈ G1 ?如果 D(x,G2) D(x,G1)則 x∈ G2 ?如果 D(x,G1) = D(x,G2)則待判 Mahalanobis距離 ?假設(shè) m(1), m(2), S(1), S(2)分別為 G1和G2的均值向量和協(xié)差陣 ,則點(diǎn) x到 Gi的馬氏距離定義為 D2(x,Gi)=(x m(i))’(S(i))1(x m(i)) ? 其他一些距離為馬氏距離的特殊情況 ,因此我們著重討論馬氏距離 .馬氏距離的好處是可以克服變量之間的相關(guān)性干擾 ,并且消除各變量量綱的影響 . 線性判別函數(shù) :當(dāng) S(1)=S(2)=S時(shí) 2 2 ( 1 ) ( 2 ) 1 ( 1 ) ( 2 )211( , ) ( , ) 2 [ ( ) ] 39。 , 39。 , 39。1s v A vn??于是閾值 如 ( 2 ) ( 1 )1139。( ) ( ) , 1 , .. .,i i iiD x G x x i kmm ?? ? S ? ?非線性判別函數(shù) :當(dāng) S(1) ,…, S(k) 不等時(shí) ( ) ( ) 1 ( )( ) ( ) 1 ( )( ) ( ) 39。a B aaa E a? ? ?記方程 |BlE|=0的全部特征根為 l1 ≥ …≥ lr0, 相應(yīng)的特征向量為 v1,…,v r. ?(a)的大小可以估計(jì)判別函數(shù) yi(x)=vi’x (= a’x)的效果 . 記 pi為判別能力 (效率 ), 有 最大的值為方程 |BlE|=0的最大特征根 l1. 1ii rhhpll???使 39。mnkmimia x a xn ??? ??組間離差平方和為 : ( ) 21( ) ( )1( 39。 ?對于多個(gè)判別函數(shù),要弄清各自的重要性。 ?下面一半( Cross validated)是對每一個(gè)觀測值,都用缺少該觀測的全部數(shù)據(jù)得到的判別函數(shù)來判斷的結(jié)果。 這兩個(gè)典則判別函數(shù)的系數(shù)是下面的 SPSS輸出得到的: 1 2 3 4 5 6 71 2 3 4 5 6 71 3 . 1 6 6 0 . 0 3 5 3 . 2 8 3 0 . 0 3 7 0 . 0 0 7 0 . 0 6 8 0 . 0 2 3 0 . 3 8 52 4 . 3 8 4 0 . 0 0 5 0 . 5 6 7 0 . 0 4 1 0 . 0 1 2 0 . 0 4 8 0 . 0 4 4 0 . 1 5 9F x x x x x x xF x x x x x x x? ? ? ? ? ? ? ? ?? ? ? ? ? ? ? ? ? ?根據(jù)這兩個(gè)函數(shù) , 從任何一個(gè)觀測值 ( 每個(gè)觀測值都有 7個(gè)變量值 ) 都可以算出兩個(gè)數(shù) 。 數(shù)據(jù)中的每個(gè)觀測值是二維空間的一個(gè)點(diǎn) 。 ?在判別分析中 , 至少有一個(gè)已經(jīng)明確知道類別的 “ 訓(xùn)練樣本 ” , 并利用該樣本來建立判別準(zhǔn)則 , 并通過預(yù)測變量來為未知類別的觀測值進(jìn)行判別了 。 ?它第一步先把最近的兩類 ( 點(diǎn) ) 合并成一類 , 然后再把剩下的最近的兩類合并成一類; ?這樣下去 , 每次都少一類 , 直到最后只有一大類為止 。這里介紹兩個(gè)簡單的方法。 ? ?三維或者更高維的情況也是類似;只不過三維以上的圖形無法直觀地畫出來而已 。 飲料數(shù)據(jù)( ) ? 16種飲料的熱量 、 咖啡因 、 鈉及價(jià)格四種變量 ? ?如果想要對 100個(gè)學(xué)生進(jìn)行分類 ,而僅知道他們的數(shù)學(xué)成績 , 則只好按照數(shù)學(xué)成績分類;這些成績在直線上形成 100個(gè)點(diǎn) 。( ) ,( ) 39。 ?注意 k均值聚類只能做 Q型聚類 , 如要做 R型聚類 , 需要把數(shù)據(jù)陣進(jìn)行轉(zhuǎn)置 。人們就根據(jù)已知雌雄的昆蟲體表度量(這些用作度量的變量亦稱為預(yù)測變量)得到一個(gè)標(biāo)準(zhǔn),并以此標(biāo)準(zhǔn)來判別其他未知性別的昆蟲。 為判別分析的基礎(chǔ) 2. Fisher判別法 (先進(jìn)行投影 ) ?Fisher判別法就是一種先投影的方法 。 逐步判別的其他方面和前面的無異 。 當(dāng)然 , 我們一開始就知道這些訓(xùn)練數(shù)據(jù)的各個(gè)觀測值的歸屬 , 但即使是這些訓(xùn)練樣本的觀測值 ( 企業(yè) ) 按照這里推導(dǎo)出的分類函數(shù)來分類 , 也不一定全都能夠正確劃分 。使用較少的變量意味著節(jié)省資源和易于對結(jié)果作解釋。 max39。mmnkmmiminkm m m miimiS S E a x a xa x x x x a a Ea??????? ? ? ?????( ) ( ) ( ) ( )11( ) ( ) 39。( ) ( ) ( ) 39。11niiis v x x x x v v A vnn ?? ? ? ????總體方差不等時(shí) ,注意到 的樣本方差為 ( 1 ) ( 2 )* 2 1 1 11239。 1 , ...,i l ily c x l m i k? ? ?2 ( ) 21[ ( ) ] , 1 , .. .,mii l l llD y x y i kl?? ? ??22m iniiD D x G??? ? ?Bayes判別法 ?不用判別式 ,而用 比較 新給樣品屬于各個(gè)總體的條件概率 P(l|x), l=1,…, k, 的大小 (將新樣品判歸為來自概率最大的總體 ). ?先給出對于 k個(gè)總體的先驗(yàn)概率 q1,…,q k. 如各總體密度為 {fk(x)}, 則后驗(yàn)概率為 (g=1,…k): P(g|x)=qgfg(x)/Si qifi(x) ?當(dāng)且僅當(dāng) P(h|x)= maxgP(g|x), 判 x來自第 h總體 . ?也可以用使錯(cuò)判的損失最小來判別 . 如果 c(i|j)為來自 j總體的個(gè)體被錯(cuò)判到第 i總體的損失 . 定義平均錯(cuò)判損失 (ECM)為 ECM=Si=1 qi[Sl≠iP(l|i)c(l|i)] 逐步判別法 ?前面判別用了所有變量 . ?但是各變量所起作用并不一樣 . ?要有進(jìn)有出 ,引進(jìn)“最重要的”并剔除不顯著的 . 根據(jù)是假設(shè)檢驗(yàn) (比如似然比檢驗(yàn) ). ? 檢驗(yàn)的零假設(shè)是各組變量均值相等 . Lambda (Wilks’ Lambda統(tǒng)計(jì)量 ) 接近 0表示組均值不同 ,接近 1表示組均值沒有不同 . Chisquare是 lambda的卡方轉(zhuǎn)換 (Bartelett近似 ), 用于確定其顯著性 . 鳶尾花數(shù)據(jù) (花瓣 ,花萼的長寬 ) 5個(gè)變量 :花瓣長 (slen),花瓣寬 (swid), 花萼長(plen), 花萼寬 (pwid), 分類號 (1:Setosa, 2:Versicolor, 3:Virginica)(data1404) Statistics→Classify →Discriminant: Variables: independent (slen,swid,plen,pwid) Grouping(spno) Define range(min1,max3) Classify: prior probability(All group equal) use covariance matrix (Withingroups) Plots (Combinedgroups, Separategroups, Territorial map) Display (Summary table) Statistics: Descriptive (Means) Function Coefficients (Fisher’s, Unstandardized) Matrix (Withingroups correlation, Withingroups covariance, Separategroups covariance, Total covariance) Save: (Predicted group membership, Discriminant Scores, Probability of group membership) 鳶尾花數(shù)據(jù) (數(shù)據(jù)分析過程簡明表 ) A n a l y s i s C a s e P r o c e s s i n g S u m m a r y1 5 0 1 0 0 . 00 .00 .00 .00 .01 5 0 1 0 0 . 0U n w e i g h t e d C a s e sV a l i dM i s s i n g o r o u t o f r a n g eg r o u p c o d e sA t l e a s t o n e m i s s i n gd i s c r i m i n a t i n g v a r i a b l eB o t h m i s s i n g o ro u t o f r a n g e g r o u pc o d e s a n d a t l e a s t o n em i s s i n g d i s c r i m i n a t i n gv a r i a b l eT o t a lE x c l u d e dT o t a lN P e r c e n tG r o u p S t a t i s t i c s5 0 . 0 6 3 . 5 2 5 50 5 0 . 0 0 03 4 . 2 8 3 . 7 9 1 50 5 0 . 0 0 01 4 . 6 2 1 . 7 3 7 50 5 0 . 0 0 02 . 4 6 1 . 0 5 4 50 5 0 . 0 0 05 9 . 3 6 5 . 1 6 2 50 5 0 . 0 0 02 7 . 6 6 3 . 1 4 7 50 5 0 . 0 0 04 2 . 6 0 4 . 6 9 9 50 5 0 . 0 0 01 3 . 2 6 1 . 9 7 8 50 5 0 . 0 0 06 6 . 3 8 7 . 1 2 8 50 5 0 . 0 0 02 9 . 8 2 3 . 2 1 8 50 5 0 . 0 0 05 5 . 6 0 5 . 5 4 0 50 5 0 . 0 0 02 0 . 2 6 2 . 7 4 7 50 5 0 . 0 0 05 8 . 6 0 8 . 6 3 3 1 5 0 1 5 0 . 0 0 03 0 . 5 9 4 . 3 6 3 1 5 0 1 5 0 . 0 0 03 7 . 6 1 1 7 . 6 8 2 1 5 0 1 5 0 . 0 0 01 1 . 9 9 7 . 6 2 2 1 5 0 1 5 0 . 0 0 0花萼長花萼寬花瓣長花瓣寬花萼長花萼寬花瓣長花瓣寬花萼長花萼寬花瓣長花瓣寬花萼長花萼寬花瓣長花瓣寬分類剛毛鳶尾花變色鳶尾花佛吉尼亞鳶尾花T o t a lM e a nS t d .D e v i a t i o n U n w e i g h t e d W e i g h t e dV a l i d N ( l i s t w i s e )鳶尾花數(shù)據(jù) (原始數(shù)據(jù)的描述 ) 鳶尾花數(shù)據(jù) (合并類內(nèi)相關(guān)陣