【正文】
頁 6 167。有關該方法的研究內(nèi)容相當豐富,而且許多統(tǒng)計軟件(如 SPSS、 STATISTICA、 SAS)中都有專門的程序。我們知道,在植物分類學中,分類的單位:門、綱、目、科、屬、種,其中種是分類的基本單位。利用這種分類思想,譜系聚類法首先視各樣品(或變量)自成一類,然后把最相似的樣品(或變量)聚為 小類,再將已聚合的小類按其相似性再聚合,隨著相似性的減弱,最后將一切子類都聚合到一個大類,從而得到一個按相似性大小聚結起來的一個譜系關系。類與類之間的距離有許多定義方式,不同的定義方式就產(chǎn)生了不同的譜系聚類法。 一、 類與類之間的距離 我們先就樣品聚類的情形予以討論,并為簡單起見,以 i,j等分別表示樣品 ,ijxx,以 ijd 簡記樣品 i與 j之間的距離 ? ?,ijd x x, 用 pG 和 qG 表示兩個類,它們所包含的樣品個數(shù)分別記為 pn 和 qn ,類 pG 與 qG 之間的距離用 ? ?,pqDG G表示。 1. 最短距離法 ( 1)定義類 pG 與 qG 之間的距離為兩類中所有樣品之間距離最小者 ? ?m i n m i n | ,ipjqp q ij ij i p j qxGD d d x G x G??? ? ? ? 最短距離法就是以 pqD 為準則進行聚類的方法。初始時,每個樣本點自成一類,易見 pq pqDd? 。 ① 如果最小的非零元素不止一個時,對應這些最小元素的類可以同時合并。如此下去,直到所有的元素并成一類為止 ① 。 2.最長距離法 ( 1)定義類pG與qG之間的距離為兩類最遠樣本點之間的距離 ? ?m a x m a x | ,ipjqp q ij ij i p j qxGD d d x G x G??? ? ? ? NOTE: ① 類與類之間的最 長 距離有如下的遞推公式,設 rG 為由pG與qG合并所得,則 rG 與其它類( , )kG k pq? 的最 長 距離 可由下式遞推得到 ? ? ? ? ? ?? ?( , ) m a x | , m a x m a x | , , m a x | ,r k r k i j i r j k i j i p j k i j i q j kD G G D d x G x G d x G x G d x G x G? ? ? ? ? ? ? ? ? ? ?m a x ( , ) , ( , )p k q kD G G D G G? ②有兩點不同:其一,類與類之間距離的定義方法不同;其二,計算新類與其它類距離所用的遞推公式不同。只是距離是按照最遠樣本點計算,但聚類仍然按照距離最小的并為一類。 3.中間距離法 ( 1)定義類與類之間的距離既不采用兩類之間最近的距離,也不采用兩類之間最遠的距離,而是采用介于兩者之間的距離,故稱中間距離法。 ( 2)基本步驟 基本步驟完全等同于最短距離法。 4.重心 距離 法 ( 1)定義類與類之間的距離 時,為了體現(xiàn)每類所包含的樣品個數(shù) , 給出重心法。 設 pG 與 qG 合并成新類 rG ,它們分別含有 pn 、 qn 和 ()r r p qn n n n?? 個樣本點,它們的重心分別為: px 、qx 和 rx 。 設某 一類 kG 的重心為 kx ,則它 與新類 rG 的距離公式為: 2 2 2 2p q p qkr kp kq p qr r r rn n n nD D D Dn n n n? ? ? NOTE:①當 pqnn? 時, 該方法即為中間距離法 ; ② 遞推公式的由來詳見 P78。 ② 式中采用平方距離是為了上機的方便,也可以完全不采用平方距離。易見,單個樣本點的重心是自身,兩個樣本點的重心就是兩點邊線中點。 ( 3)例子: P79續(xù)例 1。 類平均法定義兩類之間的距離平方為這兩類元素兩兩之間距離平方的平均,即 221i p j qpq ijx G x GpqDdnn ??? ?? 設pG與qG合并成新類 rG ,則任一類 kG 與 rG 之間的距離為 2 2 2 2 2 21 1 1i k j r i k j p j q i k j p i k j qk r ij ij ij ij ijx G x G x G x G x G x G x G x G x Gk r k r k rD d d d d dn n n n n n? ? ? ? ? ? ? ? ???? ? ? ?? ? ? ? ???? ? ? ?? ? ? ?? ? ? ???? ? ? ? ? ? ? ? ? ? ?221 ( , ) ( , )k p k p k q k qkr n n D G G n n D G Gnn?? 2 2 2 2( , ) ( , )p q p qk p k q k p k qr r r rn n n nD G G D G G D Dn n n n? ? ? ? ( 2)基本步驟 基本步驟完全等同于最短距離法。 6.可變類平均距離法 由于類平均法公式中沒有反映 pG 與 qG 之間距離 pqD 的影響,所以給出可變類平均法。只是遞推公式有所改變。 ( 3)例子: P81續(xù)例 1。 NOTE:可變類平均法與可變法的分類效果與 ? 的選擇關系極大, ? 如果接近 1,一般分類效果不好,在實際應用中 ? 常取負值。 ( 3)例子: P83續(xù)例 1。 ( 1)基本思想:來源于方差分析 如果分類合理,同類樣本點的離差平方和應當較小,而類與類之間的離差平方和應該較大。 NOTE:①粗看起來, Ward法與前七種方法有較大的差異,但 如果將pG與qG的距離定義為 2pq r p qD S S S? ? ? 其中r p qG G G?, rS 為 rG 的離差平方和。 ② 可以證明,其計算距離的遞推公式為 2 2 2 2k p k q kk r k p k q p qr k r q r kn n n n nD D D Dn n n n n n??? ? ?? ? ? ( 3)例子: P85續(xù)例 1。 R 型系統(tǒng)聚類與 Q型系統(tǒng)聚類的原理和步驟相同,但有兩點區(qū)別:統(tǒng)計量的選取、各類中的元素構成不同。 二、 系統(tǒng)聚類方法的統(tǒng)一 上述八種系統(tǒng)聚類方法的步驟是完全一樣的,所不同的是類與類之間的距離有不同的定義方法,依此所給出的新類與任一類的距離公式不同。 當采用歐氏距離時,八種方法有統(tǒng)一形式的遞推公式: 2 2 2 2 2 2k r p k p q k q p q k p k qD a D a D D D D??? ? ? ? ? NOTE: ①如果不采用歐氏距離時,除重心法、中間距離法、離差平方和法之外,統(tǒng)一形式的遞推公式仍成立; ②不同的聚類方法,參數(shù) , , ,pqaa?? 有不同的取值,詳見教材 P88的表; ③聚類方法的選擇問題,至今沒有統(tǒng)一的標準。顯然,此時有? ?,p q pqD G G d? 。 STEP02:選擇 (0)D 中對角線元素以外的下三角部分(或上三角部