【正文】
史還很短,由于在其發(fā)展過程中首先是著重于實(shí)用,因此相對(duì)而言理論上還不夠完善。關(guān)于其它聚類方法,如模糊聚類法,動(dòng)態(tài)聚類法,有序樣品聚類法,分解法,加入法等等,可以參看其它的文獻(xiàn)。另一方面是對(duì)變量進(jìn)行分類,即對(duì)所考察的 p個(gè)指標(biāo) ? ?12, , , pX X X X ??,根據(jù) n個(gè)觀測(cè)值12( , , , )i i i pix x x x ?? ( 1,2, , )in?及某些相似性原則將這 p個(gè)變量12, , , pX X X進(jìn)行分類 。 一、 樣品間的相似性度量 —— 距離 我們將不區(qū)分樣品與它的指標(biāo)觀測(cè)值。 NOTE:明氏距離存在不足 ①它與各指標(biāo)的量綱有關(guān); ②它沒有考慮指標(biāo)之間的相關(guān)性; ③要求一個(gè)向量的 n 個(gè)分量是不相關(guān)的且具有相同的方差 若考慮 p 個(gè)指標(biāo)的相關(guān)性和異方差等問題,我們可以采用方差加權(quán)距離或 Mahalanobis距離。 第 頁 4 1 / 2221()p ik jkij k kxxd ?????? ????? 其中, 2k? 為第 k 個(gè)指標(biāo)的方差。 用聚類分析解決實(shí)際問題時(shí),選用何種距離是十分重要的,這通常要結(jié)合有關(guān)專業(yè)的實(shí)際背景而定。 ijC 越接近于 1,說明變量 iX 和 jX 之間的關(guān)系越密切。其定義為 ? ? ? ?? ? ? ?12211( 2 ) , 1 , 2 , ,nk i i k j jkij ij nnk i i k j jkkx x x xC r i j px x x x?????? ? ?????? 其中,11 pi kikxxp ?? ?,11 pj kjkxxp ?? ?。 第 頁 6 167。我們知道,在植物分類學(xué)中,分類的單位:門、綱、目、科、屬、種,其中種是分類的基本單位。類與類之間的距離有許多定義方式,不同的定義方式就產(chǎn)生了不同的譜系聚類法。 1. 最短距離法 ( 1)定義類 pG 與 qG 之間的距離為兩類中所有樣品之間距離最小者 ? ?m i n m i n | ,ipjqp q ij ij i p j qxGD d d x G x G??? ? ? ? 最短距離法就是以 pqD 為準(zhǔn)則進(jìn)行聚類的方法。 ① 如果最小的非零元素不止一個(gè)時(shí),對(duì)應(yīng)這些最小元素的類可以同時(shí)合并。 2.最長距離法 ( 1)定義類pG與qG之間的距離為兩類最遠(yuǎn)樣本點(diǎn)之間的距離 ? ?m a x m a x | ,ipjqp q ij ij i p j qxGD d d x G x G??? ? ? ? NOTE: ① 類與類之間的最 長 距離有如下的遞推公式,設(shè) rG 為由pG與qG合并所得,則 rG 與其它類( , )kG k pq? 的最 長 距離 可由下式遞推得到 ? ? ? ? ? ?? ?( , ) m a x | , m a x m a x | , , m a x | ,r k r k i j i r j k i j i p j k i j i q j kD G G D d x G x G d x G x G d x G x G? ? ? ? ? ? ? ? ? ? ?m a x ( , ) , ( , )p k q kD G G D G G? ②有兩點(diǎn)不同:其一,類與類之間距離的定義方法不同;其二,計(jì)算新類與其它類距離所用的遞推公式不同。 3.中間距離法 ( 1)定義類與類之間的距離既不采用兩類之間最近的距離,也不采用兩類之間最遠(yuǎn)的距離,而是采用介于兩者之間的距離,故稱中間距離法。 4.重心 距離 法 ( 1)定義類與類之間的距離 時(shí),為了體現(xiàn)每類所包含的樣品個(gè)數(shù) , 給出重心法。 設(shè)某 一類 kG 的重心為 kx ,則它 與新類 rG 的距離公式為: 2 2 2 2p q p qkr kp kq p qr r r rn n n nD D D Dn n n n? ? ? NOTE:①當(dāng) pqnn? 時(shí), 該方法即為中間距離法 ; ② 遞推公式的由來詳見 P78。易見,單個(gè)樣本點(diǎn)的重心是自身,兩個(gè)樣本點(diǎn)的重心就是兩點(diǎn)邊線中點(diǎn)。 類平均法定義兩類之間的距離平方為這兩類元素兩兩之間距離平方的平均,即 221i p j qpq ijx G x GpqDdnn ??? ?? 設(shè)pG與qG合并成新類 rG ,則任一類 kG 與 rG 之間的距離為 2 2 2 2 2 21 1 1i k j r i k j p j q i k j p i k j qk r ij ij ij ij ijx G x G x G x G x G x G x G x G x Gk r k r k rD d d d d dn n n n n n? ? ? ? ? ? ? ? ???? ? ? ?? ? ? ? ???? ? ? ?? ? ? ?? ? ? ???? ? ? ? ? ? ? ? ? ? ?221 ( , ) ( , )k p k p k q k qkr n n D G G n n D G Gnn?? 2 2 2 2( , ) ( , )p q p qk p k q k p k qr r r rn n n nD G G D G G D Dn n n n? ? ? ? ( 2)基本步驟 基本步驟完全等同于最短距離法。只是遞推公式有所改變。 NOTE:可變類平均法與可變法的分類效果與 ? 的選擇關(guān)系極大, ? 如果接近 1,一般分類效果不好,在實(shí)際應(yīng)用中 ? 常取負(fù)值。 ( 1)基本思想:來源于方差分析 如果分類合理,同類樣本點(diǎn)的離差平方和應(yīng)當(dāng)較小,而類與類之間的離差平方和應(yīng)該較大。 ② 可以證明,其計(jì)算距離的遞推公式為 2 2 2 2k p k q kk r k p k q p qr k r q r kn n n n nD D D Dn n n n n n??? ? ?? ? ? ( 3)例子: P85續(xù)例 1。 二、 系統(tǒng)聚類方法的統(tǒng)一 上述八種系統(tǒng)聚類方法的步驟是完全一樣的,所不同的是類與類之間的距離有不同的定義方法,依此所給出的新類與任一類的距離公式不同。顯然,此時(shí)有? ?,p q pqD G G d? 。 ① 這時(shí)所得到的結(jié)果可能只是一個(gè)局部極小值。 STEP04:在合并過程中記下兩類合并時(shí)樣品(或變量)的編號(hào)以及合并兩類時(shí)的距離或相似系數(shù)的大?。ㄎ覀兎Q之為水平),并繪成聚類的譜系圖,然后可根據(jù)實(shí)際問題的背景和要求選定相應(yīng)的臨界水平以確定類的個(gè)數(shù)。分析選用了三個(gè)指標(biāo):( 1)大學(xué)以上文化程度的人口占全部人口的比例( DXBZ);( 2)初中文化程度的人口占全部人口的比例( CZBZ) ;( 3)文盲半文盲人口占全部人口的比例( WMBZ),分別用來反映較高、中等、較低文化程度人口的狀況,對(duì) 30個(gè)省、市、自治區(qū)進(jìn)行分