freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

第14章聚類分析與判別分析(已修改)

2024-11-09 15:28 本頁(yè)面
 

【正文】 第 14章 聚類分析與判別分析 介紹: 聚類分析 判別分析 分類學(xué)是人類認(rèn)識(shí)世界的基礎(chǔ)科學(xué)。聚類分析和判別分析是研究事物分類的基本方法,廣泛地應(yīng)用于自然科學(xué)、社會(huì)科學(xué)、工農(nóng)業(yè)生產(chǎn)的各個(gè)領(lǐng)域。 聚類分析 根據(jù)事物本身的特性研究個(gè)體分類的方法,原則是同一類中的個(gè)體有較大的相似性,不同類中的個(gè)體差異很大。 根據(jù)分類對(duì)象的不同,分為樣品(觀測(cè)量)聚類和變量聚類兩種: ? 樣品聚類:對(duì)觀測(cè)量 (Case)進(jìn)行聚類(不同的目的選用不同的指標(biāo)作為分類的依據(jù),如選拔運(yùn)動(dòng)員與分課外活動(dòng)小組) ? 變量聚類:找出彼此獨(dú)立且有代表性的自變量,而又不丟失大部分信息。在生產(chǎn)活動(dòng)中不乏有變量聚類的實(shí)例,如:衣服號(hào)碼(身長(zhǎng)、胸圍、褲長(zhǎng)、腰圍)、鞋的號(hào)碼。變量聚類使批量生產(chǎn)成為可能。 判別分析 判別分析是根據(jù)表明事物特點(diǎn)的變量值和它們所屬的類,求出判別函數(shù)。根據(jù)判別函數(shù)對(duì)未知所屬類別的事物進(jìn)行分類的一種分析方法。 在自然科學(xué)和社會(huì)科學(xué)的各個(gè)領(lǐng)域經(jīng)常遇到需要對(duì)某個(gè)個(gè)體屬于哪一類進(jìn)行判斷。如動(dòng)物學(xué)家對(duì)動(dòng)物如何分類的研究和某個(gè)動(dòng)物屬于哪一類、目、綱的判斷。 不同:判別分析和聚類分析不同的在于判別分析要求已知一系列反映事物特征的數(shù)值變量的值,并且已知各個(gè)體的分類( 訓(xùn)練樣本 )。 聚類分析與判別分析的 SPSS過(guò)程 在 Analyze?Classify下: 1. KMeans Cluster: 觀測(cè)量快速聚類分析過(guò)程 2. Hierarchical Cluster: 分層聚類(進(jìn)行觀測(cè)量聚類和變量聚類的過(guò)程 3. Discriminant:進(jìn)行判別分析的過(guò)程 快速樣本聚類過(guò)程 (Quick Cluster) 使用 k 均值分類法對(duì)觀測(cè)量進(jìn)行聚類 可使用系統(tǒng)的默認(rèn)選項(xiàng)或自己設(shè)置選項(xiàng),如分為幾類、指定初始類中心、是否將聚類結(jié)果或中間數(shù)據(jù)數(shù)據(jù)存入數(shù)據(jù)文件等。 快速聚類實(shí)例 (P342, data1401a):使用系統(tǒng)的默認(rèn)值進(jìn)行:對(duì)運(yùn)動(dòng)員的分類(分為 4類) ? Analyze?Classify?KMeans Cluster ? Variables: x1,x2,x3 ? Label Case By: no ? Number of Cluster: 4 ? 比較有用的結(jié)果:聚類結(jié)果形成的最后四類中心點(diǎn) (Final Cluster Centers) 和每類的觀測(cè)量數(shù)目( Number of Cases in each Cluster) ? 但不知每個(gè)運(yùn)動(dòng)員究竟屬于哪一類?這就要用到 Save選項(xiàng) 快速樣本聚類過(guò)程 (Quick Cluster)中的選項(xiàng) 使用快速聚類的選擇項(xiàng): ?類中心數(shù)據(jù)的輸入與輸出: Centers選項(xiàng) ?輸出數(shù)據(jù)選擇項(xiàng): Save選項(xiàng) ?聚類方法選擇項(xiàng): Method選項(xiàng) ?聚類何時(shí)停止 選擇項(xiàng): Iterate選項(xiàng) ?輸出統(tǒng)計(jì)量選擇項(xiàng): Option選項(xiàng) 指定初始類中心的聚類方法例題 P343 數(shù)據(jù)同上( data1401a):以四個(gè)四類成績(jī)突出者的數(shù)據(jù)為初始聚類中心 (種子 )進(jìn)行聚類。類中心數(shù)據(jù)文件 data1401b(但缺一列 Cluster_,不能直接使用,要修改) 。對(duì)運(yùn)動(dòng)員的分類(還是分為 4類) Analyze?Classify?KMeans Cluster ? Variables: x1,x2,x3 ? Label Case By: no ? Number of Cluster: 4 ? Center: Read initial from: data1401b ? Save: Cluster membership和 Distance from Cluster Center ? 比較有用的結(jié)果(可將結(jié)果與前面沒有初始類中心比較): ? 聚類結(jié)果形成的最后四類中心點(diǎn) (Final Cluster Centers) ? 每類的觀測(cè)量數(shù)目( Number of Cases in each Cluster) ? 在數(shù)據(jù)文件中的兩個(gè)新變量 qc1_1(每個(gè)觀測(cè)量最終被分配到哪一類)和 qc1_2(觀測(cè)量與所屬 類中心點(diǎn)的距離) 分層聚類 (Hierarchical Cluster) 分層聚類方法: ? 分解法 :先視為一大類,再分成幾類 ? 凝聚法 :先視每個(gè)為一類 ,再合并為幾大類 可用于觀測(cè)量 (樣本 )聚類 (Q型 )和變量聚類 (R型 ) 一般分為兩步(自動(dòng) ,可從 Paste的語(yǔ)句知道 ,P359): ? Proximities:先對(duì)數(shù)據(jù)進(jìn)行的預(yù)處理 (標(biāo)準(zhǔn)化和計(jì)算距離等 ) ? Cluster:然后進(jìn)行聚類分析 兩種統(tǒng)計(jì)圖:樹形圖 (Dendrogram)和冰柱圖 (Icicle) 各類型數(shù)據(jù)的標(biāo)準(zhǔn)化、距離和相似性計(jì)算 P348354 ? 定距變量、分類變量、二值變量 ? 標(biāo)準(zhǔn)化方法 p353: Z Scores、 Range 1 to Range 0 to 1等 用分層聚類法進(jìn)行觀測(cè)量聚類實(shí)例 P358 對(duì) 20種啤酒進(jìn)行分類 (data1402), 變量包括: Beername(啤酒名稱 )、 calorie(熱量 )、 sodium(鈉含量 )、 alcohol(酒精含量 )、 cost(價(jià)格 ) Analyze→ Classify → Hierarchical Cluster: ? Variables: calorie,sodium,alcohol, cost 成分和價(jià)格 ? Label Case By: Beername ? Cluster: Case, Q聚類 ? Display: 選中 Statistics,單擊 Statistics ? Agglomeration Schedule 凝聚狀態(tài)表 ? Proximity matrix:距離矩陣 ? Cluster membership: Single solution: 4 顯示分為 4類時(shí),各觀測(cè)量所屬的類 ? Method: Cluster (Furthest Neighbor), MeasureInterval (Squared Euclidean distance), Transform Value (Range 01/By variable (值 最小值 )/極差 ) ? Plots: (Dendrogram) Icicle(Specified range of cluster, Start1,Stop4, by1), Orientation (Vertical縱向作圖 ) ? Save: Cluster Membership(Single solution [4]) ? 比較有用的結(jié)果:根據(jù)需要進(jìn)行分類,在數(shù)據(jù)文件中的分類新變量 clu4_1等 用分層聚類法進(jìn)行變量聚類 變量聚類,是一種降維的方法,用于在變量眾多時(shí)尋找有代表性的變量,以便在用少量、有代表性的變量代替大變量集時(shí),損失信息很少。 與進(jìn)行觀測(cè)量聚類雷同,不同點(diǎn)在于: ?選擇 Variable而非 Case ?Save選項(xiàng)失效,不建立的新變量 變量聚類實(shí)例 1 P366 上面啤酒分類問題 data1402。 Analyze→ Classify → Hierarchical Cluster: ? Variables: calorie,sodium,alcohol, cost 成分和價(jià)格 ? Cluster: Variable, R聚類 ? Method: ? Cluster Method : Furthest Neighbor ? MeasureInterval: Pearson Correlation ? Transform Values: Z Score ( By Variable) ? Plots: Dendrogram 樹型圖 ? Statistics: Proximity matrix:相關(guān)矩陣 ? 比較有用的結(jié)果:根據(jù)相關(guān)矩陣和樹型圖,可知 calorie(熱量 )和 alcohol(酒精含量 )的相關(guān)系數(shù)最大,首先聚為一類。從整體上看,聚為三類是比較好的結(jié)果。至于熱量和酒精含量選擇哪個(gè)作為典型指標(biāo)代替原來(lái)的兩個(gè)變量,可以根據(jù)專業(yè)知識(shí)或測(cè)度的難易程度決定。 變量聚類實(shí)例 2 P368 有 10個(gè)測(cè)試項(xiàng)目,分別用變量 X1X10表示,50名學(xué)生參加測(cè)試。想從 10個(gè)變量中選擇幾個(gè)典型指標(biāo)。 data1403 Analyze→ Classify → Hierarchical Cluster: ? Variables: X1X10 ? Cluster: Variable, R聚類 ? Method: ? Cluster Method : Furthest Neighbor ? MeasureInterval: Pearson Correlation ? Plots: Dendrogram 樹型圖 ? Statistics: Proximity matrix相關(guān)矩陣 ? 比較有用的結(jié)果:可以從樹型圖中看出聚類過(guò)程。具體聚為幾類最為合理,根據(jù)專業(yè)知識(shí)來(lái)定。而每類中的典型指標(biāo)的選擇,可用 p370的相關(guān)指數(shù)公式的計(jì)算,然后比較類中各個(gè)變量間的相關(guān)指數(shù),哪個(gè)大,就選哪個(gè)變量作為此類的代表變量。 判別分析 P374 判別分析的概念:是根據(jù)觀測(cè)到的若干變量值,判斷研究對(duì)象如何分類的方法。 要先建立判別函數(shù) Y=a1x1+a2x2+...anxn,其中 :Y為判別分?jǐn)?shù) (判別值 ), x1 x2...xn為反映研究對(duì)象特征的變量, a1 a2...an為系數(shù) SPSS對(duì)于分為 m類的研究對(duì)象,建立 m個(gè)線性判別函數(shù)。對(duì)于每個(gè)個(gè)體進(jìn)行判別時(shí),把觀測(cè)量的各變量值代入判別函數(shù),得出判別分?jǐn)?shù),從而確定該個(gè)體屬于哪一類,或計(jì)算屬于各類的概率,從而判別該個(gè)體屬于哪一類。還建立標(biāo)準(zhǔn)化和未標(biāo)準(zhǔn)化的典則判別函數(shù)。 具體見下面 吳喜之教授有關(guān) 判別分析 的講義 補(bǔ)充: 聚類分析與判別分析 以下的講義是吳喜之教授有關(guān)聚類分析與判別分析 的講義 ,我覺得比書上講得清楚 。 先是聚類分析一章 再是判別分析一章 聚類分析 分類 俗語(yǔ)說(shuō),物以類聚、人以群分。 但什么是分類的根據(jù)呢? 比如,要想把中國(guó)的縣分成若干類,就有很多種分類法; 可以按照自然條件來(lái)分, 比如考慮降水、土地、日照、濕度等各方面; 也可以考慮收入、教育水準(zhǔn)、醫(yī)療條件、基礎(chǔ)設(shè)施等指標(biāo); 既可以用某一項(xiàng)來(lái)分類,也可以同時(shí)考慮多項(xiàng)指標(biāo)來(lái)分類。 聚類分析 對(duì)于一個(gè)數(shù)據(jù) , 人們既可以對(duì)變量 ( 指標(biāo) ) 進(jìn)行分類 (相當(dāng)于對(duì)數(shù)據(jù)中的列分類 ), 也可以對(duì)觀測(cè)值 ( 事件 , 樣品 ) 來(lái)分類 ( 相當(dāng)于對(duì)數(shù)據(jù)中的行分類 ) 。 比如學(xué)生成績(jī)數(shù)據(jù)就可以對(duì)學(xué)生按照理科或文科成績(jī) ( 或者綜合考慮各科成績(jī) ) 分類 , 當(dāng)然 , 并不一定事先假定有多少類 , 完全可以按照數(shù)據(jù)本身的規(guī)律來(lái)分類 。 本章要介紹的分類的方法稱為聚類分析( cluster analysis) 。 對(duì)變量的聚類稱為 R型聚類 , 而對(duì)觀測(cè)值聚類稱為 Q型聚類 。 這兩種聚類在數(shù)學(xué)上是對(duì)稱的 , 沒有什么不同 。 飲料數(shù)據(jù)( ) 16種飲料的熱量 、 咖啡因 、 鈉及價(jià)格四種變量 如何度量遠(yuǎn)近 ? 如果想要對(duì) 100個(gè)學(xué)生進(jìn)行分類 , 如果僅僅知道他們的數(shù)學(xué)成績(jī) , 則只好按照數(shù)學(xué)成績(jī)來(lái)分類;這些成績(jī)?cè)谥本€上形成 100個(gè)點(diǎn) 。 這樣就可以把接近的點(diǎn)放到一類 。 如果還知道他們的物理成績(jī) , 這樣數(shù)學(xué)和物理成績(jī)就形成二維平面上的 100個(gè)點(diǎn) , 也可以按照距離遠(yuǎn)近來(lái)分類 。 三維或者更高維的情況也是類似;只不過(guò)三維以上的圖形無(wú)法直觀地畫出來(lái)而已 。 在飲料數(shù)據(jù)中 , 每種飲料都有四個(gè)變量值 。 這就是四維空間點(diǎn)的問題了 。 兩個(gè)距離概念 按照遠(yuǎn)近程度來(lái)聚類需要明確兩個(gè)概念:一個(gè)是 點(diǎn)和點(diǎn)之間 的距離 , 一個(gè)是 類和類之間 的距離 。 點(diǎn)間距離有很多定義方式 。 最簡(jiǎn)單的是歐氏距離 , 還有其他的距離 。 當(dāng)然還有一些和距離相反但起同樣作用的概念 , 比如相似性等 , 兩點(diǎn)越相似度越大 , 就相當(dāng)于距離越短 。 由一個(gè)點(diǎn)組成的類是最基本的類;如果每一類都由一個(gè)點(diǎn)組成 , 那么點(diǎn)間的距離就是類間距離 。 但是如果某一類包含不止一個(gè)點(diǎn) , 那么就要確定類間距離 , 類間距離是基于點(diǎn)間距離定義的:比如 兩類之間最近點(diǎn)之間的距離 可以作為這兩類之間的距離 , 也可以用 兩類中最遠(yuǎn)點(diǎn)之間的距離 作為這兩類之間的距離;當(dāng)然也可以用各類的中心之間的距離來(lái)作為類間距離 。 在計(jì)算時(shí) ,各種點(diǎn)間距離和類間距離的選擇是通過(guò)統(tǒng)計(jì)軟件的選項(xiàng)實(shí)現(xiàn)的 。 不同的選擇的結(jié)果會(huì)不同 , 但一般不會(huì)差太多 。 向量 x=(x1,… , xp)與 y=(y1,… , yp)之間的距離或相似系數(shù) : 2()iiixy??歐氏距離 : Euclidean 平方歐氏距離 : Squared Euclidean 2()iiixy??夾角余弦 (相似系數(shù) 1) : cosine 22( 1 ) c o siiix y
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
公安備案圖鄂ICP備17016276號(hào)-1