freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

第14章聚類分析與判別分析(已修改)

2024-11-09 15:28 本頁面
 

【正文】 第 14章 聚類分析與判別分析 介紹: 聚類分析 判別分析 分類學(xué)是人類認識世界的基礎(chǔ)科學(xué)。聚類分析和判別分析是研究事物分類的基本方法,廣泛地應(yīng)用于自然科學(xué)、社會科學(xué)、工農(nóng)業(yè)生產(chǎn)的各個領(lǐng)域。 聚類分析 根據(jù)事物本身的特性研究個體分類的方法,原則是同一類中的個體有較大的相似性,不同類中的個體差異很大。 根據(jù)分類對象的不同,分為樣品(觀測量)聚類和變量聚類兩種: ? 樣品聚類:對觀測量 (Case)進行聚類(不同的目的選用不同的指標(biāo)作為分類的依據(jù),如選拔運動員與分課外活動小組) ? 變量聚類:找出彼此獨立且有代表性的自變量,而又不丟失大部分信息。在生產(chǎn)活動中不乏有變量聚類的實例,如:衣服號碼(身長、胸圍、褲長、腰圍)、鞋的號碼。變量聚類使批量生產(chǎn)成為可能。 判別分析 判別分析是根據(jù)表明事物特點的變量值和它們所屬的類,求出判別函數(shù)。根據(jù)判別函數(shù)對未知所屬類別的事物進行分類的一種分析方法。 在自然科學(xué)和社會科學(xué)的各個領(lǐng)域經(jīng)常遇到需要對某個個體屬于哪一類進行判斷。如動物學(xué)家對動物如何分類的研究和某個動物屬于哪一類、目、綱的判斷。 不同:判別分析和聚類分析不同的在于判別分析要求已知一系列反映事物特征的數(shù)值變量的值,并且已知各個體的分類( 訓(xùn)練樣本 )。 聚類分析與判別分析的 SPSS過程 在 Analyze?Classify下: 1. KMeans Cluster: 觀測量快速聚類分析過程 2. Hierarchical Cluster: 分層聚類(進行觀測量聚類和變量聚類的過程 3. Discriminant:進行判別分析的過程 快速樣本聚類過程 (Quick Cluster) 使用 k 均值分類法對觀測量進行聚類 可使用系統(tǒng)的默認選項或自己設(shè)置選項,如分為幾類、指定初始類中心、是否將聚類結(jié)果或中間數(shù)據(jù)數(shù)據(jù)存入數(shù)據(jù)文件等。 快速聚類實例 (P342, data1401a):使用系統(tǒng)的默認值進行:對運動員的分類(分為 4類) ? Analyze?Classify?KMeans Cluster ? Variables: x1,x2,x3 ? Label Case By: no ? Number of Cluster: 4 ? 比較有用的結(jié)果:聚類結(jié)果形成的最后四類中心點 (Final Cluster Centers) 和每類的觀測量數(shù)目( Number of Cases in each Cluster) ? 但不知每個運動員究竟屬于哪一類?這就要用到 Save選項 快速樣本聚類過程 (Quick Cluster)中的選項 使用快速聚類的選擇項: ?類中心數(shù)據(jù)的輸入與輸出: Centers選項 ?輸出數(shù)據(jù)選擇項: Save選項 ?聚類方法選擇項: Method選項 ?聚類何時停止 選擇項: Iterate選項 ?輸出統(tǒng)計量選擇項: Option選項 指定初始類中心的聚類方法例題 P343 數(shù)據(jù)同上( data1401a):以四個四類成績突出者的數(shù)據(jù)為初始聚類中心 (種子 )進行聚類。類中心數(shù)據(jù)文件 data1401b(但缺一列 Cluster_,不能直接使用,要修改) 。對運動員的分類(還是分為 4類) Analyze?Classify?KMeans Cluster ? Variables: x1,x2,x3 ? Label Case By: no ? Number of Cluster: 4 ? Center: Read initial from: data1401b ? Save: Cluster membership和 Distance from Cluster Center ? 比較有用的結(jié)果(可將結(jié)果與前面沒有初始類中心比較): ? 聚類結(jié)果形成的最后四類中心點 (Final Cluster Centers) ? 每類的觀測量數(shù)目( Number of Cases in each Cluster) ? 在數(shù)據(jù)文件中的兩個新變量 qc1_1(每個觀測量最終被分配到哪一類)和 qc1_2(觀測量與所屬 類中心點的距離) 分層聚類 (Hierarchical Cluster) 分層聚類方法: ? 分解法 :先視為一大類,再分成幾類 ? 凝聚法 :先視每個為一類 ,再合并為幾大類 可用于觀測量 (樣本 )聚類 (Q型 )和變量聚類 (R型 ) 一般分為兩步(自動 ,可從 Paste的語句知道 ,P359): ? Proximities:先對數(shù)據(jù)進行的預(yù)處理 (標(biāo)準(zhǔn)化和計算距離等 ) ? Cluster:然后進行聚類分析 兩種統(tǒng)計圖:樹形圖 (Dendrogram)和冰柱圖 (Icicle) 各類型數(shù)據(jù)的標(biāo)準(zhǔn)化、距離和相似性計算 P348354 ? 定距變量、分類變量、二值變量 ? 標(biāo)準(zhǔn)化方法 p353: Z Scores、 Range 1 to Range 0 to 1等 用分層聚類法進行觀測量聚類實例 P358 對 20種啤酒進行分類 (data1402), 變量包括: Beername(啤酒名稱 )、 calorie(熱量 )、 sodium(鈉含量 )、 alcohol(酒精含量 )、 cost(價格 ) Analyze→ Classify → Hierarchical Cluster: ? Variables: calorie,sodium,alcohol, cost 成分和價格 ? Label Case By: Beername ? Cluster: Case, Q聚類 ? Display: 選中 Statistics,單擊 Statistics ? Agglomeration Schedule 凝聚狀態(tài)表 ? Proximity matrix:距離矩陣 ? Cluster membership: Single solution: 4 顯示分為 4類時,各觀測量所屬的類 ? Method: Cluster (Furthest Neighbor), MeasureInterval (Squared Euclidean distance), Transform Value (Range 01/By variable (值 最小值 )/極差 ) ? Plots: (Dendrogram) Icicle(Specified range of cluster, Start1,Stop4, by1), Orientation (Vertical縱向作圖 ) ? Save: Cluster Membership(Single solution [4]) ? 比較有用的結(jié)果:根據(jù)需要進行分類,在數(shù)據(jù)文件中的分類新變量 clu4_1等 用分層聚類法進行變量聚類 變量聚類,是一種降維的方法,用于在變量眾多時尋找有代表性的變量,以便在用少量、有代表性的變量代替大變量集時,損失信息很少。 與進行觀測量聚類雷同,不同點在于: ?選擇 Variable而非 Case ?Save選項失效,不建立的新變量 變量聚類實例 1 P366 上面啤酒分類問題 data1402。 Analyze→ Classify → Hierarchical Cluster: ? Variables: calorie,sodium,alcohol, cost 成分和價格 ? Cluster: Variable, R聚類 ? Method: ? Cluster Method : Furthest Neighbor ? MeasureInterval: Pearson Correlation ? Transform Values: Z Score ( By Variable) ? Plots: Dendrogram 樹型圖 ? Statistics: Proximity matrix:相關(guān)矩陣 ? 比較有用的結(jié)果:根據(jù)相關(guān)矩陣和樹型圖,可知 calorie(熱量 )和 alcohol(酒精含量 )的相關(guān)系數(shù)最大,首先聚為一類。從整體上看,聚為三類是比較好的結(jié)果。至于熱量和酒精含量選擇哪個作為典型指標(biāo)代替原來的兩個變量,可以根據(jù)專業(yè)知識或測度的難易程度決定。 變量聚類實例 2 P368 有 10個測試項目,分別用變量 X1X10表示,50名學(xué)生參加測試。想從 10個變量中選擇幾個典型指標(biāo)。 data1403 Analyze→ Classify → Hierarchical Cluster: ? Variables: X1X10 ? Cluster: Variable, R聚類 ? Method: ? Cluster Method : Furthest Neighbor ? MeasureInterval: Pearson Correlation ? Plots: Dendrogram 樹型圖 ? Statistics: Proximity matrix相關(guān)矩陣 ? 比較有用的結(jié)果:可以從樹型圖中看出聚類過程。具體聚為幾類最為合理,根據(jù)專業(yè)知識來定。而每類中的典型指標(biāo)的選擇,可用 p370的相關(guān)指數(shù)公式的計算,然后比較類中各個變量間的相關(guān)指數(shù),哪個大,就選哪個變量作為此類的代表變量。 判別分析 P374 判別分析的概念:是根據(jù)觀測到的若干變量值,判斷研究對象如何分類的方法。 要先建立判別函數(shù) Y=a1x1+a2x2+...anxn,其中 :Y為判別分數(shù) (判別值 ), x1 x2...xn為反映研究對象特征的變量, a1 a2...an為系數(shù) SPSS對于分為 m類的研究對象,建立 m個線性判別函數(shù)。對于每個個體進行判別時,把觀測量的各變量值代入判別函數(shù),得出判別分數(shù),從而確定該個體屬于哪一類,或計算屬于各類的概率,從而判別該個體屬于哪一類。還建立標(biāo)準(zhǔn)化和未標(biāo)準(zhǔn)化的典則判別函數(shù)。 具體見下面 吳喜之教授有關(guān) 判別分析 的講義 補充: 聚類分析與判別分析 以下的講義是吳喜之教授有關(guān)聚類分析與判別分析 的講義 ,我覺得比書上講得清楚 。 先是聚類分析一章 再是判別分析一章 聚類分析 分類 俗語說,物以類聚、人以群分。 但什么是分類的根據(jù)呢? 比如,要想把中國的縣分成若干類,就有很多種分類法; 可以按照自然條件來分, 比如考慮降水、土地、日照、濕度等各方面; 也可以考慮收入、教育水準(zhǔn)、醫(yī)療條件、基礎(chǔ)設(shè)施等指標(biāo); 既可以用某一項來分類,也可以同時考慮多項指標(biāo)來分類。 聚類分析 對于一個數(shù)據(jù) , 人們既可以對變量 ( 指標(biāo) ) 進行分類 (相當(dāng)于對數(shù)據(jù)中的列分類 ), 也可以對觀測值 ( 事件 , 樣品 ) 來分類 ( 相當(dāng)于對數(shù)據(jù)中的行分類 ) 。 比如學(xué)生成績數(shù)據(jù)就可以對學(xué)生按照理科或文科成績 ( 或者綜合考慮各科成績 ) 分類 , 當(dāng)然 , 并不一定事先假定有多少類 , 完全可以按照數(shù)據(jù)本身的規(guī)律來分類 。 本章要介紹的分類的方法稱為聚類分析( cluster analysis) 。 對變量的聚類稱為 R型聚類 , 而對觀測值聚類稱為 Q型聚類 。 這兩種聚類在數(shù)學(xué)上是對稱的 , 沒有什么不同 。 飲料數(shù)據(jù)( ) 16種飲料的熱量 、 咖啡因 、 鈉及價格四種變量 如何度量遠近 ? 如果想要對 100個學(xué)生進行分類 , 如果僅僅知道他們的數(shù)學(xué)成績 , 則只好按照數(shù)學(xué)成績來分類;這些成績在直線上形成 100個點 。 這樣就可以把接近的點放到一類 。 如果還知道他們的物理成績 , 這樣數(shù)學(xué)和物理成績就形成二維平面上的 100個點 , 也可以按照距離遠近來分類 。 三維或者更高維的情況也是類似;只不過三維以上的圖形無法直觀地畫出來而已 。 在飲料數(shù)據(jù)中 , 每種飲料都有四個變量值 。 這就是四維空間點的問題了 。 兩個距離概念 按照遠近程度來聚類需要明確兩個概念:一個是 點和點之間 的距離 , 一個是 類和類之間 的距離 。 點間距離有很多定義方式 。 最簡單的是歐氏距離 , 還有其他的距離 。 當(dāng)然還有一些和距離相反但起同樣作用的概念 , 比如相似性等 , 兩點越相似度越大 , 就相當(dāng)于距離越短 。 由一個點組成的類是最基本的類;如果每一類都由一個點組成 , 那么點間的距離就是類間距離 。 但是如果某一類包含不止一個點 , 那么就要確定類間距離 , 類間距離是基于點間距離定義的:比如 兩類之間最近點之間的距離 可以作為這兩類之間的距離 , 也可以用 兩類中最遠點之間的距離 作為這兩類之間的距離;當(dāng)然也可以用各類的中心之間的距離來作為類間距離 。 在計算時 ,各種點間距離和類間距離的選擇是通過統(tǒng)計軟件的選項實現(xiàn)的 。 不同的選擇的結(jié)果會不同 , 但一般不會差太多 。 向量 x=(x1,… , xp)與 y=(y1,… , yp)之間的距離或相似系數(shù) : 2()iiixy??歐氏距離 : Euclidean 平方歐氏距離 : Squared Euclidean 2()iiixy??夾角余弦 (相似系數(shù) 1) : cosine 22( 1 ) c o siiix y
點擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
公安備案圖鄂ICP備17016276號-1