freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

統(tǒng)計(jì)學(xué)第四版聚類分析20xx年(參考版)

2024-09-03 12:28本頁面
  

【正文】 如果是對樣本分類 , 三種方法都可用;如果是對變量分類則應(yīng)選擇層次聚類法 (至少 SPSS的程序是這樣 ) 聚類分析的注意事項(xiàng) 13 62 統(tǒng)計(jì)學(xué)STATISTICS (第四版 ) 2020105 ? 注意對分類結(jié)果的檢驗(yàn) ? 分類結(jié)果是否合理取決于它是否 “ 有用 ”, 但分類結(jié)果是否可靠和穩(wěn)定 , 則需要反復(fù)聚類和比較 ? 一般來說 , 在所分的類別中 , 各類所包含的對象 (樣本或變量 )的數(shù)量應(yīng)該大致相當(dāng)。 如果變量中包括離散變量 (計(jì)數(shù)變量 ), 則需要將先對離散變量進(jìn)行連續(xù)化處理 , 否則應(yīng)該使用兩步聚類法 。 這時(shí)需要對變量進(jìn)行標(biāo)準(zhǔn)化處理 (SPSS提供的層次聚類法中在聚類時(shí)可以選擇對變量做標(biāo)準(zhǔn)化處理 , 而 K均值聚類法則需要單獨(dú)做標(biāo)準(zhǔn)化處理 , 爾后再進(jìn)行聚類 ) ? 各變量間不應(yīng)有較強(qiáng)的相關(guān)關(guān)系 。 分類的結(jié)果沒有對錯之分 , 只是分類標(biāo)準(zhǔn)不同而已 ? 使用聚類方法時(shí) , 首先要明確分類的目的 , 再考慮選擇哪些變量 (或數(shù)據(jù) )參與分類 , 最后才需要考慮方法的選擇。 從表中可以看出 , 分類后各變量在不同類別之間的差異都是顯著的 (P值均接近 0) 13 55 統(tǒng)計(jì)學(xué)STATISTICS (第四版 ) 2020105 K均值聚類的應(yīng)用 (實(shí)例分析 ) 分成 4類時(shí)每一類的地區(qū)數(shù)量 ? 由該表可以看出 , 第一類包括 2個地區(qū) , 第二類包括 11個地區(qū) ,第三類包括 4個地區(qū) , 第四類包括 14個地區(qū) 13 56 統(tǒng)計(jì)學(xué)STATISTICS (第四版 ) 2020105 K均值聚類的應(yīng)用 (實(shí)例分析 ) 分成4類時(shí)每個地區(qū)所屬的類別 13 57 統(tǒng)計(jì)學(xué)STATISTICS (第四版 ) 2020105 K均值聚類的應(yīng)用 (分類匯總 ) 類別 地區(qū) 地區(qū)個數(shù) 第一類 上海,北京 2 第二類 天津,內(nèi)蒙古,吉林,海南,重慶,貴州,西藏,甘肅,青海,寧夏,新疆 11 第三類 江蘇,浙江,山東,廣東 4 第四類 河北,山西,遼寧,黑龍江,安徽,福建,江西,河南,湖北,湖南,廣西,四川,云南,陜西 14 使用聚類方法的注意事項(xiàng) K均值 聚類 13 59 統(tǒng)計(jì)學(xué)STATISTICS (第四版 ) 2020105 ? 除分層聚類法和 K均值聚類法外 , 1996年還提出一種新的聚類方法 , 即兩步聚類法 (TwoStep Cluster)(SPSS提供了該聚類方法的程序 ) ? 無論那種分類方法 , 最終要分成多少類別 , 并不是完全由方法本身來決定 , 研究者應(yīng)結(jié)合具體問題而定 ? 聚類分析是一種探索性的數(shù)據(jù)分析方法 。 本例只 4次就已經(jīng)收斂了 13 53 統(tǒng)計(jì)學(xué)STATISTICS (第四版 ) 2020105 K均值聚類的應(yīng)用 (實(shí)例分析 ) 分成 4類的最終聚類中心 ? 表中的數(shù)據(jù)表示各個類別在各變量上的平均值 。 例如 , 第一類的聚類中心是 , 這實(shí)際上就是上海的人均 GDP標(biāo)準(zhǔn)化后的值 。將需要標(biāo)準(zhǔn)化的變量選入 【 Variable(s)】 ? 【 Save standardized values as variables】 ? 【 OK】 ) K— 均值聚類 13 51 統(tǒng)計(jì)學(xué)STATISTICS (第四版 ) 2020105 K均值聚類的應(yīng)用 (實(shí)例分析 ) 分成 4類的初始聚類中心 ? 該表列出每一類別的初始聚類中心 , 本例的這些中心是由 SPSS自動生成的 , 它實(shí)際上就是數(shù)據(jù)集中的某一條記錄 。 類別數(shù)目的確定具有一定的主主觀性 , 究竟分多少類合適 , 需要研究者對研究問題的了解程度 、 相關(guān)知識和經(jīng)驗(yàn) K均值聚類 (步驟 ) K均值聚類的應(yīng)用 K均值 聚類 13 48 統(tǒng)計(jì)學(xué)STATISTICS (第四版 ) 2020105 【 例 132】 根據(jù)我國 31個省市自治區(qū) 2020年的 6項(xiàng)主要經(jīng)濟(jì)指標(biāo)數(shù)據(jù) , 采用層次聚類法進(jìn)行分類 , 并對結(jié)果進(jìn)行分析 K均值聚類的應(yīng)用 (實(shí)例分析 ) 31個地區(qū)的 6項(xiàng)經(jīng)濟(jì)指標(biāo) 13 49 統(tǒng)計(jì)學(xué)STATISTICS (第四版 ) 2020105 ? 數(shù)據(jù)檢查 ? 若原始變量取值差異較大 , 應(yīng)先將原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化 ,避免變量值差異過大對分類結(jié)果的影響 ? 可以先觀察 6項(xiàng)經(jīng)濟(jì)指標(biāo)的有關(guān)描述統(tǒng)計(jì)量 K均值聚類的應(yīng)用 (實(shí)例分析 ) 13 50 統(tǒng)計(jì)學(xué)STATISTICS (第四版 ) 2020105 用 SPSS進(jìn)行 K— 均值聚類 第 1步: 選擇 【 Analyze】 ?【 ClassifyKMeans Cluster】 ,進(jìn)入主對話框 第 2步: 在主對話框中將用于聚類的所有標(biāo)準(zhǔn)化后的變量選入【 Variable(s)】 ;把區(qū)分樣本的標(biāo)簽變量 (本例為“地區(qū)” )選入【 Label Cases by】 ;在 【 Number of Clusters】 下輸入想要分類的數(shù)目 (本例為 4) 第 3步: 點(diǎn)擊 【 Iterate】 并在 【 Maximum Iterations】 輸入最大迭代次數(shù) (本例使用隱含的 10次 ),點(diǎn)擊 【 Continue】 回到主對話框;點(diǎn)擊 【 Save】并選擇 【 Cluster membership】 ,點(diǎn)擊 【 Continue】 回到主對話框;點(diǎn)擊 【 Options】 并選擇 【 Initial cluster centers】 和 【 ANOVA table】(本項(xiàng)可根據(jù)需要選擇 )。 該方法可以繪制出樹狀聚類圖 , 方便使用者直觀選擇類別 , 但其缺點(diǎn)是計(jì)算量較大 , 對大批量數(shù)據(jù)的聚類效率不高 ? K均值聚類事先需要確定要分的類別數(shù)據(jù) , 計(jì)算量要小得多 , 效率比層次聚類要高 , ? 也被稱為快速聚類 (quick cluster) K均值聚類 (Kmeans cluster) K均值聚類的基本過程 K均值 聚類 13 44 統(tǒng)計(jì)學(xué)STATISTICS (第四版 ) 2020105 ? 第 1步: 確定要分的類別數(shù)目 K ? 需要研究者自己確定 ? 在實(shí)際應(yīng)用中 , 往往需要研究者根據(jù)實(shí)際問題反復(fù)嘗試, 得到不同的分類并進(jìn)行比較 , 得出最后要分的類別數(shù)量 ? 第 2步: 確定 K個類別的初始聚類中心 ? 要求在用于聚類的全部樣本
點(diǎn)擊復(fù)制文檔內(nèi)容
試題試卷相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1