【正文】
察數(shù)據(jù)來自具有標(biāo)量協(xié)方差矩陣的多元正態(tài)分布的獨立樣本,且聚類方法將觀察隨機分類的假設(shè)前提下,偽 F 和偽 2t 統(tǒng)計量才具有真正的 F 分布和 2t 分布。一般情況下, 3 個或 3 個以內(nèi)的典型變量就已經(jīng)能很好地概括原始數(shù)據(jù)的變異了。但在其他情況下, CCC 將給出比較保守的結(jié)果。通常應(yīng)該畫出聚類估計數(shù)對 k 值的圖形,這樣還可能從圖形中獲得很 多 的 有用信息。 值得注意的是 , 在整個聚類的過程中,如果在某一步的距離矩陣中最小元素不止一個時,則可以將其同時合并。判別分析方法假定類已事先分好,判別新樣品應(yīng)歸屬哪一類,對類的事先劃分常常通過聚類分析得到。 Ward 最小方差法傾向于尋找觀察數(shù)相同的類。親疏程度依樣本間的距離或相似系數(shù)進(jìn)行計算。這 5 個過程的比較和選擇為: cluster 過程 為系統(tǒng)聚類過程,可使用十一種聚類方法進(jìn)行譜系聚類,包括重心法、 Ward 離差平方和法和歐氏平均距離法等 。 id 變量 。 ? outtree=輸出數(shù)據(jù)集 —— 供 tree 過程調(diào)用,用來輸出聚類結(jié)果的樹狀圖。 p的值必須大于 0,缺省時為2。 ? hybrid—— 要求用 Wong 混合聚類方法,其中密度用 k 均值法的初始聚類分析中的均值計算得到。 ? rsquare—— 打印輸 出 R2和半偏 R2。 上海財經(jīng)大學(xué)經(jīng)濟信息管理系 IS/SHUFE Page 14 of 62 ? std—— 變量標(biāo)準(zhǔn)化。它是根據(jù)由一個或幾個定量變量計算的歐氏距離和 k 均值聚類方法對數(shù)據(jù)進(jìn)行分類,該過程只須對這組數(shù)據(jù)掃描二次或三次就能尋找出很好的分類結(jié)果,這些類之間互不相交。 初始類的“凝聚點”必須是沒有丟失值的觀察,用戶可以選擇這些“凝聚點”,或讓過程自己去選擇。 by 變量表 。 radius =t—— 為選擇新的“凝聚點”指定最小距離準(zhǔn)則。因而“凝聚點”不斷發(fā)生變化。 主要有 var、 id、 freq、 weight、 by 等語句,意義同其他聚類過程中的語句,不再贅述。若采用相關(guān)矩陣的信息,則所有變量都平等;當(dāng)引用協(xié)方差矩陣分析時.某變量有較大方差,該變量則較為重要。重新分配可能要求保持譜系結(jié)構(gòu)。 freq 變量 。 ② 有關(guān)控制聚類數(shù) 的 選項主要有: ? minc =n —— 最小聚類個數(shù)(默認(rèn)為l)。 ? hi—— 要求在不同層次的類構(gòu)成譜系聚類結(jié)構(gòu)。 主要有 var、 partial、 seed、 freq、 weight、 by 語句,意義同其他聚類過程中的語句,不再贅述。 id 變量 。 ② 有關(guān)樹狀結(jié)構(gòu)控制的選項: ? level =n—— 對于 out=的輸出數(shù)據(jù)集,規(guī)定確定 不相交類的樹狀圖水平(層次)。常規(guī)變量為上海財經(jīng)大學(xué)經(jīng)濟信息管理系 IS/SHUFE Page 18 of 62 h/l/m/n,分別指 _height_變量、根到自己節(jié)點的路徑長度、 _mode_變量、 _ncl_變量。 ? fillchar=“字母” —— 規(guī)定沒有連成一類的樹葉之間的打印字符。 ④ 其他選項 ? sort—— 按照類的形成順序,用 height 變量對每個節(jié)點的子輩排序。語句缺省時尋找 _name_變量。數(shù)據(jù)見表 。 上海財經(jīng)大學(xué)經(jīng)濟信息管理系 IS/SHUFE Page 20 of 62 proc plot formchar=39。 CRUDE BIRTH AND DEATH RATES IN 1976 Plot of DEATH*BIRTH. Legend: A = 1 obs, B = 2 obs, etc. DEATH 30 | A 29 | 28 | A 27 | 26 | 25 | 24 | 23 | AB 22 | A A A 21 | 20 | A 19 | A A 18 | B 17 | A AA A 16 | A A A 15 | A A 14 | A A A A AB A 13 | A AA 12 | A B A A A AA 11 | A A A A A 10 | A A B A C A 9 | A AA A A A 8 | A A B 7 | A A A 6 | A A A A A 5 | A |||||| 10 20 30 40 50 60 BIRTH 上海財經(jīng)大學(xué)經(jīng)濟信息管理系 IS/SHUFE Page 21 of 62 2. 調(diào)用 聚類分析 cluster 和 tree 過程。 title2。nn CLUSTERS FROM method=amp。在宏過程 %macro analyze 中,凡是要用到 輸入?yún)?shù)變量 mm 和 nn 中的值,必須在這些輸入?yún)?shù)變量前加上“ amp。聚類是從 74 國家 (地區(qū)) 作為 74 類,先聚類成 74— 1類開始,直至將所有國家 (地區(qū)) 聚為1類的聚類過程和統(tǒng)計數(shù)。例如, cluster 過程的 method=選項 需要賦聚類方法的字符串值(如 average、 centroid 等),語上海財經(jīng)大學(xué)經(jīng)濟信息管理系 IS/SHUFE Page 22 of 62 句格式應(yīng)該為 method=amp。 run。nn。編程方法如下: title 39。 hpct=100 vpct=100。 程序如下: data vital 。語句缺省時尋找 _parent_變量。 ? list—— 列出這個樹中所有節(jié)點,并且打印高 度、父輩及每個節(jié)點的子輩。 ? joinchar=“字母” —— 規(guī)定已連成一類的樹葉之間的打印字符。 ? minh=n—— 指定在高度軸上打印的最小值。 ? dock =n—— 當(dāng)某個類中的對象(觀察或變量)的個數(shù)小于或等于 n時,在 out=的輸出數(shù)據(jù)集里把該類中這些對象的變量 cluster 和 clusname 的值置為丟失值。 freq 變量 。這個樹狀結(jié)構(gòu)圖可以按垂直或水平方向輸出。 ④ 有關(guān)控制輸出選項主要有: ? corr—— 打印相關(guān)系數(shù)。 ? maxeigen=n —— 規(guī)定每一類中第二特征值所允許的最大值。 by 變量表 。用戶準(zhǔn)則:或者是每個類分量所解釋的方差百分比,或者是每一類的第二特征值。 varclus 過程的變量聚類步驟如下: 如果沒有為過程提供初始分類的情況(缺省情況),該過程開始把所有變量看成一個類,上海財經(jīng)大學(xué)經(jīng)濟信息管理系 IS/SHUFE Page 16 of 62 然后它重復(fù)以下步驟: ① 首先挑選一個將被分裂的類。var x1 x2。當(dāng)“凝聚點”改變的最大距離小于或等于初始 “凝聚點”之間的最小距離乘以 c 值時,循環(huán)過程結(jié)束。 t 的缺省值為 0。 上海財經(jīng)大學(xué)經(jīng)濟信息管理系 IS/SHUFE Page 15 of 62 按選項控制的性質(zhì)可以分成以下 4 類。特別要注意, fastclus 過程對異常點很敏感,通常會把異常點分配為單獨的一個類,因此也是檢測異常點的有效過程。而在實際問題中,常常只需要知道聚類到有實用價值的幾類結(jié)果即可。當(dāng) ccc和 psf 值出現(xiàn)峰值 時 所對應(yīng)的分類數(shù)較合適,而 pst2 值是在出現(xiàn)峰值 時 所對應(yīng)的分類數(shù)減 1較合適。 ? ccc—— 要求打印輸出在均勻的原假設(shè)下判斷聚類分成幾類合適的一種立方聚類準(zhǔn)則統(tǒng)計量 ccc和近似期望值 R2。 ? k=n—— 指明 k 最近鄰估計法中近鄰的個數(shù)。 p 的有效值為大于等于0 到小于 100之間,被當(dāng)作百分比。 ? standard—— 對變量實施標(biāo)準(zhǔn)化。 copy 變量表 。 modeclus過程為動態(tài)聚類過程,使用非參數(shù)密度估計法尋找不相交的聚類。 SAS 的系統(tǒng)聚類法按樣本距離定義類間距離,將 n 個樣本各自看作一類,對兩類距離最小的樣本合并,重新計算類間距離。具有最小偏差的聚類方法為最短距離法和密度估計法。 上海財經(jīng)大學(xué)經(jīng)濟信息管理系 IS/SHUFE Page 12 of 62 ? 聚類的幾種類型:不相交聚類、譜系聚類、重迭聚類、模糊聚類。此法非常類似于計算方法的迭代法。其基本思想是首先將 n個樣品看成 n類(即一類包括一個樣品),然后規(guī)定樣品之間的距離和類與類之間的距離。在對樣本數(shù)據(jù)的模擬研究中,找出了以下三個最好的準(zhǔn)則: ① 偽 F 統(tǒng)計量;② 偽 2t 統(tǒng) 計量; ③ 立方聚類準(zhǔn)則 CCC。 通常的顯著性檢驗,比如方差分析的 F 檢驗,對于檢驗類之間的差異是無效的。 4. 類的個數(shù) 對于 確定各種形式的聚類分析總體中的類的個數(shù)問題,至今 未找 到 令人 滿意的方法。偽 F值越大越表示這些觀察可顯著地分為 G 個類。類的合并總是使 2R 值 變小,如果這種變小是均勻的,合并是應(yīng)該的,但當(dāng)某次合并使 2R 值減少很多,這次合并就不應(yīng)該,即我們找到了最合適的上海財經(jīng)大學(xué)經(jīng)濟信息管理系 IS/SHUFE Page 9 of 62 分類數(shù)。把一個類的離差平方和定義為直徑是非常形象化的,例如,如果一個類的離差平方和等于 0,那么類內(nèi)的所有點都集中在一個點上,所以類的直徑為 0;如果一個類的離差平方 和逐漸變大,那么類內(nèi)的所有點就越來越分散,包含所有點的一個圓或球就會越來越大,相應(yīng)地這個圓或球的直徑就越來越大。 在第二階段中,把第一階段中形成的眾數(shù)類再按最短距離法譜系地(某一類能夠完全地包含在別的類里,但在類之間不允許其他形式的重迭)合并。 ( 7) 兩階段密度估計法: 兩階段密度估計法是 SAS 研究所的 發(fā)展的。這樣,新的非相似測度距離 *d 為: 否則如果 ))(),(m a x(),(2/))(/1)(/1(),(* jkikjijiji xrxrxxdxfxfxxd ???? ? ?? () k 最近鄰估計法適用于樣品數(shù)目較多且密度較高的類。 Ward方法對異常值也很敏感( Milligan , 1980)。類平均距離法首先由 Sokal和 Michener( 1958)提出。例如,圖 中的( a)形式的類。由于類的形狀是多種多樣的, 因此, 類與類之間的距離也有多種計算方法。 定義 1 T 為一給定的閾值,如果對任意的 Gji ?, ,有 Tdij? ( ijd 為 i 和 j 的距離 ),則稱 G 為一個類。 借助于相似系數(shù),可以定義變量之間的距離。 1. 距離 設(shè)有 n 組 樣品,每組樣品有 p 個變量, n 組樣品數(shù)據(jù)如表 所示 。因此 , 盡管聚類方法有很多種,但不管哪一種都不能說得到的分類是準(zhǔn)確的。上海財經(jīng)大學(xué)經(jīng)濟信息管理系 IS/SHUFE Page 1 of 62 第三十九課 聚類分析 聚類分析是多元統(tǒng)計分析中研究“物以類聚”的一種方法,用于對事物的類別面貌尚不清楚,甚至在事前連總共有幾類都