【正文】
4 6 5 2 0 G 5 8 7 4 2 0 G 6 9 8 5 3 1 0 表 ( 2) D( 0) 中最小的元素是 D12= D56= 1,于是將 G1和 G2合 并成 G7, G5和 G6合并成 G8,并利用( )式計算新類與其 它類的距離 D( 1) ,見表 G 7 G 3 G 4 G 8 G 7 0 G 3 3 0 G 4 5 2 0 G 8 7 4 2 0 表 ( 3)在 D( 1) 中最小值是 D34= D48= 2,由于 G4與 G3合并, 又與 G8合并,因此 G G G8合并成一個新類 G9,其與其 它類的距離 D( 2) ,見表 G 7 G 9 G 7 0 G 9 3 0 表 ( 4)最后將 G7和 G9合并成 G10,這時所有的六個樣品聚為一類,其過程終止。 上述聚類的可視化過程見圖 ,橫坐標(biāo)的刻度表示并類的距離。這里我們應(yīng)該注意,聚類的個數(shù)要以實際情況所定,其詳細(xì)內(nèi)容將在后面討論。 圖 最短距離聚類法的過程 2 . 最長距離法 定義類iG與jG之間的距離為兩類最遠(yuǎn)樣品的距離,即為 ,m a xi p j qp q ijX G X GDd ??? ( 5 . 1 3 ) 最長距離法與最短距離法的并類步驟完全一樣,也是將各樣品先自成一類,然后將距離最小的兩類合并。將類pG與qG合并為rG,則任一類kG與rG的類間距離公式為 ? 再找距離最小兩類并類,直至所有的樣品全歸為一類為止??梢钥闯鲎铋L距離法與最短距離法只有兩點不同: ? 一是類與類之間的距離定義不同; ? 另一是計算新類與其它類的距離所用的公式不同。 ,m a xi k j rk r i jX G X GDd ??? ,m a x{ m a x , m a x }i k j pj i k j qi j i jX G X G x G x Gdd? ? ? ?? m a x { , }k p k qDD? ( 5 . 14 ) 3. 中間距離法 最短、最長距離定義表示都是極端情況,我們定義類間距離可以既不采用兩類之間最近的距離也不采用兩類之間最遠(yuǎn)的距離,而是采用介于兩者之間的距離,稱為中間距離法。 中間距離將類 Gp與 Gq類合并為類 Gr,則任意的類 Gk和 Gr的距離公式為 (?1/ 4 ? ? ? 0) () 設(shè) Dkq> Dkp,如果采用最短距離法,則 Dkr = Dkp,如果采用 最長距離法,則 Dkr = Dkq。如圖 , ()式就是取它們(最長距離與最短距離)的中間一點作為計算 Dkr的根據(jù)。 22222121 pqkqkpkr DDDD ???? ? 特別當(dāng) ? = ? 1/ 4,它表示取中間點算距離,公式為 () 222412121pqkpkpkr DDDD ??? 圖 中間距離法 4. 重心法 重心法定義類間距離為兩類重心(各類樣品的均值)的距離。重心指標(biāo)對類有很好的代表性,但利用各樣本的信息不充分。 設(shè)pG與qG分別有樣品pn,qn個,其重心分別為pX和qX,則pG與qG之間的距離定義為pX和qX之間的距離,這里我們用歐氏距離來表示,即 2 ( ) ( )p q p q p qD X X X X?? ? ? ( 5 . 17) ? ? 設(shè)將pG和qG合并為rG,則rG內(nèi)樣品個數(shù)為qpr nnn ??,它的重心是)(1qqpprr XnXnnX ??,類kG的重心是kX,那么依據(jù)( )式它與新類rG的距離為 2 2 2 22p q p qk r k p k q p qr r rn n n nD D D Dn n n? ? ? ( ) 這里我們應(yīng)該注意,實際上 ( ) 式表示的類kG與新類rG的距離為: 2 ( ) ( )k r k r k rD X X X X?? ? ? 11[ ( ) ] [ ( ) ]k p p q q k p p q qrrX n X n X X n X n Xnn?? ? ? ? ? 222221( 2 )pqk k k p k qrrp p p p q p q q q qrnnX X X X X Xnnn X X n n X X n X Xn???? ? ???? ? ? ? 利用1()k k p k k q k krX X n X X n X Xn? ? ???代入上式,有 2( 2 )( 2 )( 2 )pk r k k k p p prqk k k q q qrpqp p p q q qrnD X X X X X XnnX X X X X XnnnX X X X X Xn? ? ?? ? ?? ? ?? ? ?? ? ?? ? ? 2 2 22p q p qk p k q p qr r rn n n nD D Dn n n? ? ? ( 5 . 19 ) ? 【 例 】 針對例 ,試用重心法將它們聚類。 ( 1)樣品采用歐氏距離,計算樣品間的平方距離陣 D2( 0) ,見表 。 G 1 G 2 G 3 G 4 G 5 G 6 G 1 0 G 2 1 0 G 3 16 9 0 G 4 36 25 4 0 G 5 64 49 16 4 0 G 6 81 64 25 9 1 0 表 ( 2) D2( 0) 中最小的元素是 D212= D256= 1,于是將 G1和 G2合 并成 G7, G5和 G6合并成 G8,并利用( )式計算新類與 其它類的距離得到距離陣 D2( 1) ,見表 : 其中, 其它結(jié)果類似可以求得 G 1 G 2 G 3 G 4 G 1 0 G 2 0 G 3 4 0 G 4 6 4 0 2 2 2 23 7 3 1 3 2 1 21 1 1 12 2 2 21 1 1 116 9 1 52 2 2 2D D D D? ? ? ?? ? ? ? ? ? ? ? ( 3)在 D2( 1) 中最小值是 D234= 4,那么 G3與 G4合并一個新類 G9,其與與其它類的距離 D2( 2) ,見表 : G 7 G 9 G 8 G 7 0 G 9 0 G 8 64 0 表 ( 4)在中最小值是= ,那么與合并一個新類,其與與 其它類的距離,見表 : G 7 G 10 G 7 0 G 10 0 表 ( 5)最后將 G7和 G10合并成 G11,這時所有的六個樣品聚為一類,其過程終止。 上述重心法聚類的可視化過程見圖 ,橫坐標(biāo)的刻度表示并類的距離。 圖 重心聚類法的過程 5 .類平均法 類平均法定義類間距離平方為這兩類元素兩兩之間距離平方的平均數(shù),即為 221i p j jp q i jX G X GpqDdnn ??? ?? ( ) 設(shè)聚類的某一步將pG和qG合并為rG,則任一類類kG與rG的距離為: 221i k j rk r i jX G X GkrDdnn ??? ?? 221()i k j p i k j qij ijX G X G X G X Gkrddnn ? ? ? ??? ? ? ? ? 22pqk p k qrrnnDDnn?? ( ) 類平均法的聚類過程與上述方法完全類似,這里就不在詳述了。 6. 可變類平均法 由于類平均法中沒有反映出 Gp和 Gq之間的距離 Dpq的影響, 因此將類平均法進(jìn)一步推廣,如果將 Gp和 Gq合并為新類 Gr,類 Gk與新并類 Gr的距離公式為: ( ) 其中 ?是可變的且 ? 1,稱這種系統(tǒng)聚類法為可變類平均法。 2 2 2 2( 1 ) ( )pqk r k p k q p qrrnnD D D D??? ? ? ? 7 . 可變法 針對于中間法而言,如果將中間法的前兩項的系數(shù)也依賴于?,那么,如果將pG和qG合并為新類rG,類kG與新并類rG的距離公式為: 2 2 2 21 ()2k r k p k q p qD D D D???? ? ? ( 5 .23 ) 其中?是可變的,且1? ?。顯然在可變類平均法中取12pqrrnnnn??,即為可變法??勺冾惼骄ㄅc可變法的分類效果與?的選擇關(guān)系很大,在實際應(yīng)用中?常取負(fù)值。 8. 離差平方和法 該方法是 Ward提出來的,所以又稱為 Ward法。該方法的基本思想來自于方差分析,如果分類正確,同類樣品的離差平方和應(yīng)當(dāng)較小,類與類的離差平方和較大。具體做法是先將n個樣品各自成一類,然后每次縮小一類,每縮小一類,離差平方和就要增大,選擇使方差增加最小的兩類合并,直到所有的樣品歸為一類為止。 設(shè)將 n個樣品分成 k類 G1, G2, … , Gk,用 Xit表示 Gt中的第 I 個樣品, nt表示 Gt中樣品的個數(shù), 是 Gt的重心,則 Gt的樣品離差平方和為 1( ) ( )tnt it t it ttS X X X X??? ? ?? ( 5. 24) tX? 如果pG和qG合并為新類rG類內(nèi)離差平方和分別為 1( ) ( )pnp i p p i p piS X X X X??? ? ?? 1( ) ( )qnq iq q iq qiS X X X X??? ? ?? 1( ) ( )rnr ir r ir riS X X X X??? ? ?? ? ? 這種系統(tǒng)聚類法稱為離差平方和法或 Ward方法。下面論證離差平方和法的距離遞推( )式。 它們反映了各自類內(nèi)樣品的分散程度,如果pG和qG這兩類相距較近,則合并后所增加的離散平方和r p qS S S??應(yīng)較小;否則,應(yīng)較大。于是定義pG和qG之間的平方距離為: 2p q r p qD S S S? ? ? ( 5 .25) 其中r p qG G G??,可以證明類間距離的遞推公式為 2 2 2 2k p k q kk r k p k q p qr k r k r kn n n n nD D D Dn n n n n n??? ? ?? ? ? ( 6 ) ? 由于 1( ) ( )rnr ir r ir riS X X X