【文章內容簡介】
XX X X X X X X X X X X XX X X X X X X X X X XN u m b e r o f c l u s t e r s1234567899:g 6:w 8:r 5:j 3:k 4:s 7:e 2:y 10:m 1:hC a s e ……………………………… ………… …… …………………………… ………………………………………………… ……… ……………… …………………………………………… ………………… ……… ………………………………………… ……………… 7 8 9 1 10 2 11 12 5 6 3 4 層次聚類分析中的 R型聚類 ? R型聚類的計算公式和 Q型聚類的計算公式是類似的 , 不同的是 R型聚類是對變量間進行距離的計算 , Q型聚類則是對樣本間進行距離的計算。 ? 研究問題 : 對一個班同學的各科成績進行聚類 , 分析哪些課程屬于一個類。聚類的依據(jù)是 4門功課的考試成績 , 數(shù)據(jù)如下表所示。 姓名 數(shù)學 物理 語文 政治 張啟 99 98 78 80 王會 88 89 89 90 趙麗 79 80 95 97 周正 89 78 81 82 劉輝 75 78 95 96 衛(wèi)單 60 65 85 88 孫犁 79 87 50 51 桑晨 75 76 88 89 韓笑 60 56 89 90 伍佰 100 100 85 84 Case Proc essing Summary a10 1 0 0 . 0 % 0 . 0 % 10 1 0 0 . 0 %N P e r c e n t N P e r c e n t N P e r c e n tV a l i d M i s s i n g T o t a lC a s e s C o r r e l a t i o n b e t w e e n V e c t o r s o f V a l u e s u s e da . Proximity Matrix1 . 0 0 0 . 9 3 1 . 1 5 4 . 1 9 1. 9 3 1 1 . 0 0 0 . 2 8 0 . 3 1 1 . 1 5 4 . 2 8 0 1 . 0 0 0 . 9 9 7 . 1 9 1 . 3 1 1 . 9 9 7 1 . 0 0 0C a s e數(shù)學成績物理成績語文成績政治成績數(shù)學成績 物理成績 語文成績 政治成績M a t r i x F i l e I n p u tAgglomerat ion Schedule3 4 . 9 9 7 0 0 31 2 . 9 3 1 0 0 31 3 . 2 3 4 2 1 0S t a g e123C l u s t e r 1 C l u s t e r 2C l u s t e r C o m b i n e dC o e f f i c i e n t s C l u s t e r 1 C l u s t e r 2S t a g e C l u s t e r F i r s tA p p e a r sN e x t S t a g eCluster Membership1122C a s e數(shù)學成績物理成績語文成績政治成績2 C l u s t e r sVertical I cicleX X X X X X XX X X X X XX X X X XN u m b e r o f c l u s t e r s123政治成績 語文成績 物理成績 數(shù)學成績C a s e快速聚類分析過程 它先對數(shù)據(jù)進行初始分類 , 然后逐步調整 ,得到最終分類。快速聚類分析的實質是 KMean聚類。以距離為樣本間親疏程度的標志。在快速聚類分析中 , 用戶可以自己指定初始的類中心點。如果用戶的經驗比較豐富 , 則可以指定比較合理的初始類中心點 , 否則 , 需要增加迭代的次數(shù) , 以保證最終聚類結果的準確性。 ? 執(zhí)行 KMeans Cluster命令 , 使用 K均值分類法對觀測量進行聚類。可以完全使用系統(tǒng)的默認值來執(zhí)行該命令 , 也可以對聚類通過設置各種參數(shù)進行聚類。 ? 進行快速樣本聚類首先要選擇用于聚類分析的變量和類數(shù)。參與聚類分析的變量必須是數(shù)值型變量 , 且至少有一個。 ? 為了清楚的表明各觀測量最后聚到哪一類 ,還應該指定一個表明觀測量特征的變量作為表示變量。 快速聚類分析 SPSS過程 ? 首先 需要用戶指定聚類成多少類 (比如 K類 )。 ? 然后 SPSS根據(jù)樣本數(shù)據(jù)的實際情況 , 選擇 K個有 代表性的 樣本數(shù)據(jù)作為初始類中心。初始類中心也可以由用戶自行指定 , 需要指定 K組樣本數(shù)據(jù)作為初始類中心點。 ? 計算 所有樣本數(shù)據(jù)點到 K個類中心點的歐氏距離 , SPSS按照距 K個類中心點距離最短原則 ,把所有樣本分派到各中心點所在的類中 , 形成一個新的 K類 , 完成一次迭代過程。 ? SPSS重新 確定 k個類的中心點。 SPSS計算每個類中各個變量的變量值均值 , 并以均值點作為新的類中心點。 ? 重復 上面的兩步計算過程 , 直到達到 指定的達代次數(shù) 或 終止 迭代的判斷要求為止。 月份 月平均增長率( %) 身高( cm) 體重( kg) 胸圍( cm) 坐高( cm) 1 2 3 4 6 8 10 12 15 18 24 30 36 42 48 54 60 66 72 如 : 為研究兒童生長發(fā)育的分期 , 調查 1253名一個月至 7歲兒童的身高、體重、胸圍和坐高的資料 , 先把一個月至 7歲兒童劃成 19個月份段 ,分月份段算出各指標的平均值 , 將第 1個 月份段的各指標的平均值與出生時的各指標平均值比較 , 求出月平均增長率 , 然后 , 第 2個 月份段起的各月份段指標平均值均與前一月份段比較 ,亦求出月平均增長率 , 結果如下表 : 欲將兒童生長發(fā)育分為四期 , 故指定聚類的類別數(shù)為 4, 試通過聚類分析確定四個兒童生長發(fā)育期的起止區(qū)間。 點擊 Analyze項 , 展開下拉菜單 , 選擇 Classify中的 KMeans Cluster項 , 進入 KMeans Cluster Analysis對話框。 ? Variables: 分析變量欄。 ? Label Cases by: 標識變量欄。 ? Number of Cluster: 確定聚類數(shù)欄 , 系統(tǒng)默認值為 2。 ? Method: 聚類方法欄。 ?Iterate and classify: 指先定初始類別中心點 ,而后按 KMeans算法作迭代分類 ; ? Classif