【正文】
? 時(shí), 1 / 221( 2 )pij ik jkkd x x??????????為 歐氏 距離; ( 3)當(dāng) q?? 時(shí),1( ) m axij ik jkkpd x x??? ? ?為 Chebishov距離 ③ 。 NOTE:明氏距離存在不足 ①它與各指標(biāo)的量綱有關(guān); ②它沒有考慮指標(biāo)之間的相關(guān)性; ③要求一個(gè)向量的 n 個(gè)分量是不相關(guān)的且具有相同的方差 若考慮 p 個(gè)指標(biāo)的相關(guān)性和異方差等問題,我們可以采用方差加權(quán)距離或 Mahalanobis距離。 2. 方差加權(quán)距離 ① 當(dāng)變量為定性變量(如性別,職業(yè),等級(jí))時(shí),也可定義樣品間的“距離”和變量間的“相似系數(shù)”,在此不作深入討論。 ② 在聚類分析中,有時(shí)所用的距離并不滿足第三條,我們在廣義的角度上仍稱它為距離。 ③ 可以利用不等式的縮放技術(shù)進(jìn)行證明。 第 頁 4 1 / 2221()p ik jkij k kxxd ?????? ????? 其中, 2k? 為第 k 個(gè)指標(biāo)的方差。 3. Mahalanobis距離 ① ? ? ? ?21()ij i j i jd M x x x x??? ? ? ? 其中, ? 為 p 個(gè)指標(biāo)的協(xié)方差矩陣。實(shí)際應(yīng)用中,若 2k? 與 ? 未知,可用觀測數(shù)據(jù)對其估計(jì),一般用 2?k? 和樣本協(xié)方差陣 S 作為其估計(jì)。 4. 蘭氏( LanceWilliams)距離 11() p ik jkijk ik jkxxdL p x x??? ?? NOTE:此距離僅適用于一切 0ijx?的情況,該距離有助于克服各指標(biāo)之間量綱的影響,但沒有考慮指標(biāo)之間的相關(guān)性。 用聚類分析解決實(shí)際問題時(shí),選用何種距離是十分重要的,這通常要結(jié)合有關(guān)專業(yè)的實(shí)際背景而定。距離的定義有很大的靈活性,有時(shí)可根據(jù)實(shí)際問題定義新的距離。 二、 變量間的“關(guān)聯(lián)性”度量 —— 相似系數(shù) 當(dāng)對 p 個(gè)指標(biāo)(或變量)進(jìn)行聚類時(shí),用相似系數(shù)衡量變量間的關(guān)聯(lián)程度。 定義: 一般地,稱 ijC 為變量 iX 和 jX 之間的相關(guān)系數(shù),如果對一切的 1,i j p??滿足: ① 1ijC?; ② 1iiC? ; ③ ij jiCC? 。 ijC 越接近于 1,說明變量 iX 和 jX 之間的關(guān)系越密切。設(shè) ? ?12, , ,i i nix x x ? 表示對變量 ( 1, , )iX i p? 的 n 個(gè)觀測值,常用的相似系數(shù)有: 1.夾角余弦(向量內(nèi)積) 12211( 1 ) c o s , 1 , 2 , ,nk i k jkij ij nnk i k jkkxxC i j pxx? ???? ? ???? NOTE:①若將變量 iX 的 n 個(gè)觀測值 ? ?12, , ,i i i niX x x x ?? 和變量 jX 的n 個(gè)觀測值 ? ?12, , ,j j njx x x ? 看成 n 維空間中的兩個(gè)向量, (1)ijC 正好是這兩個(gè)向量夾角的余弦,這個(gè)統(tǒng)計(jì)量在圖像識(shí)別中非常有用; ② 當(dāng) (1) 1ijC ? 時(shí),說明完全相似 ; 當(dāng) (1) 0ijC ? 時(shí),說明完全不一樣。 2.相關(guān)系數(shù)(相似系數(shù)) 從統(tǒng)計(jì)角度看,兩個(gè)隨機(jī)變量的相關(guān)系數(shù)是描述這兩個(gè)變量關(guān)聯(lián)性(線性關(guān)系)強(qiáng)弱的一個(gè)很有用的特征數(shù)字。因此,用任意兩個(gè)變量的 n個(gè)觀測值對其相關(guān)系數(shù)的估計(jì)可作為兩個(gè)變量關(guān)聯(lián)性的一種度量。其定義為 ? ? ? ?? ? ? ?12211( 2 ) , 1 , 2 , ,nk i i k j jkij ij nnk i i k j jkkx x x xC r i j px x x x?????? ? ?????? 其中,11 pi kikxxp ?? ?,11 pj kjkxxp ?? ?。 ① 由印度統(tǒng)計(jì)學(xué)家馬哈拉諾比斯于 1936 年引入。 A B C D 第 頁 5 NOTE:① ( , 1, 2, , )ijr i j p?其實(shí)就是 ? ?12, , , pX X X X ??的樣本相關(guān)矩陣中的各元素; ②ijr就是零均值化后向量的夾角余弦; ③如果將原始數(shù)據(jù)標(biāo)準(zhǔn)化,則 0ix? 且 0jx?,這時(shí)有 cosij ijr ??。 3.同號(hào)率 ( 3 ) , 1 , 2 , ,ij nnC i j p?????? 其中, n? 為指標(biāo) iX 和jX之間相應(yīng)各分量取同號(hào)的個(gè)數(shù); n? 為指標(biāo) iX 和jX之間相應(yīng)各分量取異號(hào)的 個(gè)數(shù) 。 第 頁 6 167。 3 譜系聚類法 (系統(tǒng)聚類) 譜系聚類法是目前應(yīng)用較為廣泛的一種聚類方法。有關(guān)該方法的研究內(nèi)容相當(dāng)豐富,而且許多統(tǒng)計(jì)軟件(如 SPSS、 STATISTICA、 SAS)中都有專門的程序。譜系聚類法是根據(jù)古老的植物分類學(xué)的思想對研究對象進(jìn)行分類的一種方法。我們知道,在植物分類學(xué)中,分類的單位:門、綱、目、科、屬、種,其中種是分類的基本單位。分類單位越小它所包含的植物種類就越少,植物間的共同特征就越多。利用這種分類思想,譜系聚類法首先視各樣品(或變量)自成一類,然后把最相似的樣品(或變量)聚為 小類,再將已聚合的小類按其相似性再聚合,隨著相似性的減弱,最后將一切子類都聚合到一個(gè)大類,從而得到一個(gè)按相似性大小聚結(jié)起來的一個(gè)譜系關(guān)系。 在譜系聚類法的合并過程中要涉及到兩個(gè)類之間的距離(或相似系數(shù))問題。類與類之間的距離有許多定義方式,不同的定義方式就產(chǎn)生了不同的譜系聚類法。本節(jié)中,我們首先引進(jìn)八種類與類之間的距離,然后再詳細(xì)介紹譜系聚類法。 一、 類與類之間的距離 我們先就樣品聚類的情形予以討論,并為簡單起見,以 i,j等分別表示樣品 ,ijxx,以 ijd 簡記樣品 i與 j之間的距離 ? ?,ijd x x, 用 pG 和 qG 表示兩個(gè)類,它們所包含的樣品個(gè)數(shù)分別記為 pn 和 qn ,類 pG 與 qG 之間的距離用 ? ?,pqDG G表示。 下面給出 八 種最常用的類與類之間距離的定義。 1. 最短距離法 ( 1)定義類 pG 與 qG 之間的距離為兩類中所有樣品之間距離最小者 ? ?m i n m i n | ,ipjqp q ij ij i p j qxGD d d x G x G??? ? ? ? 最短距離法就是以 pqD 為準(zhǔn)則進(jìn)行聚類的方法。 NOTE:類與類之間的最短距離有如下的遞推公式,設(shè) rG 為由 pG 與 qG 合并所得,則 rG 與其它類( , )kG k pq? 的最短距離為 ? ? ? ? ? ?? ?( , ) m i n | , m i n m i n |