【正文】
距離,不但適用于對樣品的聚類問題,而且也適合于對變量的聚類問題,這只要將 ijd 用變量間的相似系數(shù) ijC 代替,相應(yīng)的距離可稱之為類與類之間的相似系數(shù)。 ( 2)基本做法 不妨設(shè)將 n 個樣品分成了 k 類: 12, , , kG G G ,用 ()tiX 表示 tG 中的第 i 個樣品(這里 ()tiX 是 p 維向量),tn 表示 tG 中的樣品個數(shù), ()tX 是 tG 的重心,則 tG 中樣品的離差平方和為 第 頁 9 ? ? ? ?1 ( ) ( ) ( ) ( )1n t t t tt i iiS X X X X? ?? ? ?? k 個類的類內(nèi)離差平方和為 ? ? ? ?1 ( ) ( ) ( ) ( )1 1 1nkk t t t tt i it t iS S X X X X? ? ? ?? ? ? ?? ? ? 首先將 n 個樣品看成各自一類,然后每次縮小一類,每縮小一類,離差平方和就要增大,選擇使得離差平方和增加最小的二類進行合并,直到所有的樣品歸為一類 ① 。 ( 2)基本步驟 基本步驟完全等同于最短距離法。 設(shè) pG 與 qG 合并成新類 rG ,則任一類 kG 與 rG 之間的距離為 2 ( 1 ) ( , ) ( 1 ) ( , ) ( , ) ( 1 ) ( 1 )p q p qk r k p k q p q k p k q p qr r r rn n n nD D G G D G G D G G D D Dn n n n? ? ? ? ? ?? ? ? ? ? ? ? ? ? ? 其中 ? 是可變的,且 1?? ( 2)基本步驟 基本步驟完全等同于最短距離法。 ( 3)例 子: P80續(xù)例 1。 Gp Gq Gk Gr Dkq Dkp Dkr 第 頁 8 ( 2)基本步驟 基本步驟完全等同于最短距離法。 ① 在實際問題中,一般事先給定分類的數(shù)目,或給定閾值 T,要求 類與類之間的距離小于 T。它將兩類之間的距離定義兩類重心 ③ 之間的距 離。 如果 r p qG G G? ,則任一類 kG 與新類 rG 的距離公式為: 2 2 2 21122kr kp kq pqD D D D?? ? ? 1 04 ?? ? ?② NOTE:① 當(dāng) 14???時, krD 為三角形的中線; ② 如果用最短距離法,則 kr kpDD? ;如果用最長距離法,則 kr kqDD? 。 ( 2)基本步驟 基本步驟完全等同于最短距離法。 第 頁 7 STEP04:對 (1)D ,重復(fù)上述對 (0)D 的 STEP02 和 STEP03 兩步得 (2)D 。 NOTE:類與類之間的最短距離有如下的遞推公式,設(shè) rG 為由 pG 與 qG 合并所得,則 rG 與其它類( , )kG k pq? 的最短距離為 ? ? ? ? ? ?? ?( , ) m i n | , m i n m i n | , , m i n | ,r k r k i j i r j k i j i p j k i j i q j kD G G D d x G x G d x G x G d x G x G? ? ? ? ? ? ? ? ? ? ?m in ( , ) , ( , )p k q kD G G D G G? ( 2)基本步驟 STEP01:定義樣品之間的距離,計算樣品兩兩之間的距離,得到樣本距離矩陣 (0)D 。本節(jié)中,我們首先引進八種類與類之間的距離,然后再詳細介紹譜系聚類法。分類單位越小它所包含的植物種類就越少,植物間的共同特征就越多。 3 譜系聚類法 (系統(tǒng)聚類) 譜系聚類法是目前應(yīng)用較為廣泛的一種聚類方法。 ① 由印度統(tǒng)計學(xué)家馬哈拉諾比斯于 1936 年引入。設(shè) ? ?12, , ,i i nix x x ? 表示對變量 ( 1, , )iX i p? 的 n 個觀測值,常用的相似系數(shù)有: 1.夾角余弦(向量內(nèi)積) 12211( 1 ) c o s , 1 , 2 , ,nk i k jkij ij nnk i k jkkxxC i j pxx? ???? ? ???? NOTE:①若將變量 iX 的 n 個觀測值 ? ?12, , ,i i i niX x x x ?? 和變量 jX 的n 個觀測值 ? ?12, , ,j j njx x x ? 看成 n 維空間中的兩個向量, (1)ijC 正好是這兩個向量夾角的余弦,這個統(tǒng)計量在圖像識別中非常有用; ② 當(dāng) (1) 1ijC ? 時,說明完全相似 ; 當(dāng) (1) 0ijC ? 時,說明完全不一樣。距離的定義有很大的靈活性,有時可根據(jù)實際問題定義新的距離。 3. Mahalanobis距離 ① ? ? ? ?21()ij i j i jd M x x x x??? ? ? ? 其中, ? 為 p 個指標(biāo)的協(xié)方差矩陣。 2. 方差加權(quán)距離 ① 當(dāng)變量為定性變量(如性別,職業(yè),等級)時,也可定義樣品間的“距離”和變量間的“相似系數(shù)”,在此不作深入討論。設(shè)每個樣品 ix 有 p個指標(biāo),它們的觀測值可表示為 12( , , , )i i i pix x x x ?? ( 1,2, , )in? 這時,每個樣品 ix 可看成 p維空間中的一個點, n個樣品就組成 p組空間中的 n 個點,我們很自然地用各點之間的距離來衡量各樣品之間的靠近程度。如在服裝設(shè)計中,往往要測量很多的指標(biāo)(變量),如身高,上體長,臂長,肩寬,胸圍,腰圍等,有時需要對這些指標(biāo)分類,以顯示人體各部分的不同特點,以便于服裝設(shè)計。 第 頁 3 167。無論聚類統(tǒng)計量還是聚類的方法,都還未 最終定型。可以看到,這種系統(tǒng)歸類過程,顯然與計算類與類之間的歸類指標(biāo)是什么有關(guān)系,同時也與歸類的方法有關(guān)系。而度量相似或疏遠程度常有兩種指標(biāo):距離和相似系數(shù)。本章要介紹的分類的方法稱為 聚類分析( cluster analysis) 。后來,隨著多元分析方法的引進,從數(shù)值分析學(xué)中逐漸分離出了聚類分析這個分支。 俗語說,物以類聚、人以群分。 167。 【教學(xué)重點】 1. 分類的統(tǒng)計量 ; 2. 各種聚類分析方法的闡述 ??傊茖W(xué)的分類方法無論在自然科學(xué),還是在社會科學(xué)中,都有著極其廣泛的應(yīng)用。有時,只憑經(jīng)驗和專業(yè)知識還不能進行科學(xué)有效的分類,于是數(shù)學(xué)這一有力的工具被逐漸引入到分類學(xué)中,形成了一門新興的學(xué)科 ——數(shù)值分類學(xué)。當(dāng)然,并不一定事先假定 有多少類,完全可以按照數(shù)據(jù)本身的規(guī)律來分類。 聚類分析 就是一種分類方法,它將一批樣品、變量(或指標(biāo)),按照它們在性質(zhì)上相似、疏遠程度進行科學(xué)的分類。這一歸類過程可以用一張聚類圖(或稱譜系圖)形象地表示出來,由譜系圖來進行分 類。 聚類分析的歷