【正文】
各類的中心之間的距離來作 為類間距離。 統(tǒng)計(jì)量 距離實(shí)質(zhì)上反映的是兩個(gè)向量相異的指標(biāo),它與相似是互補(bǔ) 的概念。 統(tǒng)計(jì)量 計(jì)算任何兩個(gè)樣本(指標(biāo)) 與 之間的相關(guān)系數(shù) ,其值 越大表示樣本(指標(biāo))間接近程度越大,值越小表示接近程 度越小。? 統(tǒng)計(jì)量-相似系數(shù) ? 夾角余弦( Cosine) ijCos?167。 內(nèi)積的數(shù)值可以作為一種反映兩向量相似程度的指標(biāo),稱為 相似系數(shù)。 167。 概述 ? 統(tǒng)計(jì)量 ? 為了將樣本 (或變量 )進(jìn)行分類,需要研究其關(guān)系。 ? 最后將分類系統(tǒng)直觀地用 圖形表示出來,即譜系圖。 167。 概述 167。 統(tǒng)計(jì)量 ? 167。 10 聚類分析( Cluster Analysis) [引例 101] 167。 10 聚類分析( Cluster Analysis) [引例 101] 167。 系統(tǒng)聚類(層次聚類) ? 167。 概述 ? 問題的提出 聚類分析又稱群分析、點(diǎn)群分析、簇群分析等,是研究分類問題 (樣本或指標(biāo) )的一種多元統(tǒng)計(jì)方法。 概述 ? 問題的提出 ? 基本思想 ? 假定研究對象之間存在不同程度的相似性(親疏程度)。 167。 ? 目前用得最多的方法有兩個(gè):一種方法是用 相似系數(shù) ,比較相似的樣本歸為一類,不怎么相似的樣本歸為不同的類。 統(tǒng)計(jì)量 相似系數(shù)是指衡量全部樣本或全部變量中任何兩部分相似程 度的指標(biāo)。 1pij i jiQ x x???? ?? 統(tǒng)計(jì)量-相似系數(shù) ? 相 似 系數(shù) ( similarity coefficient) 167。 統(tǒng)計(jì)量 為了消除量綱的影響,對原始數(shù)據(jù)進(jìn)行離差標(biāo)準(zhǔn)化處理,經(jīng)過 離差標(biāo)準(zhǔn)化處理后的內(nèi)積正好是兩個(gè)向量的相關(guān)系數(shù) 。 可以根據(jù)相似系數(shù)矩陣對樣本(指標(biāo))進(jìn)行分類。 距離系數(shù)的種類很多,但都有一個(gè)共同的特征,即當(dāng)兩 個(gè)向量完全相同時(shí)取最小值,完全不同時(shí)取最大值。 如果每一類都由一個(gè)點(diǎn)組成,那么點(diǎn)間的距離就 是類間距離。 統(tǒng)計(jì)量 122( 2)ij ia iaad x y?????????( ) m a xij ia iad x y? ? ?歐氏距離是應(yīng)用最廣泛的 一種距離系數(shù)。? 統(tǒng)計(jì)量-距離 167。 選擇距離最小的兩類將其合并成一新類,再按類間距離的定義 計(jì)算新類與其它類的距離,再行合并,直至所有樣本都聚為一類 為止。 ②“ Within groups linkage”類內(nèi)平均法,當(dāng)合并后所有樣本的距離的平均值最小時(shí),這兩類可以合并為一類。 ⑥“ Median clustering”中心法,當(dāng)兩類中心距離最小時(shí),這兩類可以合并為一類。 系統(tǒng)聚類 ? 類的個(gè)數(shù)的確定 根據(jù)譜系圖確定分類個(gè)數(shù)的準(zhǔn)則: ? 各類間的距離必須較大; ? 類中包含的元素不要太多; ? 類的個(gè)數(shù)必須符合實(shí)際應(yīng)用; ? 如果采用幾種不同的聚類方 法處理,則在各種聚類圖中應(yīng) 該發(fā)現(xiàn)相同的類。 系統(tǒng)聚類法 對原始數(shù)據(jù)進(jìn)行離差標(biāo)準(zhǔn)化處理; 采用相關(guān)系數(shù)表征變量之間的相似程度; 采用離差平方和最小的方法計(jì)算類與類之間的距離。 系統(tǒng)聚類法 Stage 列出步驟序號, Cluster Combined 欄中列出了合 并的兩個(gè)類的序號, Next stage欄是合并的新類再次出 現(xiàn)的步驟序號。 系統(tǒng)聚類法 ? SPSS 軟件實(shí)現(xiàn) 對樣本進(jìn)行聚類 167。 系統(tǒng)聚類法 V e r t i c a l I c i c l eX X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X XN u m b e r o f c l u s t e r s320:Case 20 24:Case 24 23:Case 23 25:Case 25 17:Case 17 21:Case 21 13:Case 13 10:Case 10 4:Case 4 3:Case 3 12:Case 12 16:Case 16 11:Case 11 9:Case 9 8:Case 8 6:Case 6 5:Case 5 2:Case 2 15:Case 15 18:Case 18 7:Case 7 14:Case 14 22:Case 22 19:Case 19 1:Case 1C a s e? SPSS 軟件實(shí)現(xiàn) 對樣本進(jìn)行因子聚類 因子提取方法:主成分法、累積方差貢獻(xiàn)率 85% 、方差最大正交因子旋轉(zhuǎn) 數(shù)據(jù)標(biāo)準(zhǔn)化方法:離差標(biāo)準(zhǔn)化( Z score法) 點(diǎn)與點(diǎn)間距離的計(jì)算:歐氏距離 類與類間距離的計(jì)算: “Ward39。 系統(tǒng)聚類法 CLU31是全變量聚類結(jié)果; CLU32是主成分聚類結(jié)果;CLU32是因子聚類結(jié)果 ? SPSS 軟件實(shí)現(xiàn) 167。 ? 快速聚類過程始終遵照所有樣本空間的點(diǎn)與這幾個(gè)類中心的 距離取最小值原則 ,進(jìn)行反復(fù)的迭代計(jì)算,最終將各個(gè)樣本分配到各個(gè)類中心所在的類,迭代計(jì)算將停止。 快速聚類法 ? SPSS 軟件實(shí)現(xiàn) 167。 167。 快速聚類法 ? SPSS 軟件實(shí)現(xiàn) Iterate迭代 對話框 Cluster membership: 觀測量的類別; Distance from cluster center: 各觀測量與所屬類聚心之間的歐氏距離。包括各觀 測量最終被聚入的類別、各觀測量與最終聚心之間的歐氏距離,以及最 終各類聚心之間的歐氏距離。 快速聚類法 表明迭代 10次后凝聚點(diǎn)的變化。 Distance表示觀測與凝聚點(diǎn) 之間的歐氏距離。原假設(shè)是類間無顯著 性差異,最后一列的概率值表明所選擇的分析變量是否能很好地區(qū)分類間 的差異。 A N O V A7 . 6 7 4 2 1 . 5 5 2 22 4 . 9 4 6 . 0 1 7. 0 3 0 2 . 0 0 4 22 7 . 0 2 6 . 0 0 4. 0 0 0 2 . 0 0 2 22 . 1 2 5 . 8 8 31 8 7 . 6 2 5 2 2 0 . 6 2 4 22 9 . 0 9 7 . 0 0 1. 1 4 0 2 . 0 2 1 22 6 . 6 3 8 . 0 0 61 9 0 0 . 2 0 3 2 2 9