freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

廈門大學(xué)《應(yīng)用多元統(tǒng)計分析》第05章_聚類分析-預(yù)覽頁

2025-06-10 02:48 上一頁面

下一頁面
 

【正文】 如:在生物學(xué)中,為了研究生物的演變,生物學(xué)家需要根據(jù)各種生物不同的特征對生物進(jìn)行分類。第五章 聚類分析 第一節(jié) 引言 第二節(jié) 相似性的量度 第三節(jié) 系統(tǒng)聚類分析法 第四節(jié) K均值聚類分析 第五節(jié) 有序樣品的聚類分析法 第六節(jié) 實例分析與計算機(jī)實現(xiàn) 第一節(jié) 引言 ? “物以類聚,人以群分”。 ? 在生物、經(jīng)濟(jì)、社會、人口等領(lǐng)域的研究中,存在著大量量化分類研究。在人口學(xué)研究中,需要構(gòu)造人口生育分類模式、人口死亡分類狀況,以此來研究人口的生育和死亡規(guī)律。隨著計算機(jī)技術(shù)的不斷發(fā)展,利用數(shù)學(xué)方法研究分類不僅非常必要而且完全可能,因此近年來,聚類分析的理論和應(yīng)用得到了迅速的發(fā)展。 第二節(jié) 相似性的量度 一 樣品相似性的度量 二 變量相似性的度量 一、樣品相似性的度量 ? 在聚類之前,要首先分析樣品間的相似性。兩點(diǎn)距離公式可以從不同角度進(jìn)行定義,令 dij 表示樣品 Xi與 Xj的距離,存在以下的距離公式: 1.明考夫斯基距離 () 明考夫斯基距離簡稱明氏距離,按的取值不同又可分成: 1/1( ) ( )p q qi j i k j kkd q X X???? ( 1 )絕對距離(1q ?) 1( 1 )pij ik jkkd X X???? ( 5 . 2 ) ( 2 )歐氏距離(2q ?) 2 1 / 21( 2 ) ( )pi j i k j kkd X X??? ? ( 5 . 3 ) ( 3 )切比雪夫距離(q ??) 1( ) m a xi j i k j kkpd X X??? ? ? ( 5 . 4 ) ? 歐氏距離是常用的距離,大家都比較熟悉,但是前面已經(jīng)提到,在解決多元數(shù)據(jù)的分析問題時,歐氏距離就顯示出了它的不足之處。顯然,馬氏距離與上述各種距離的主要不同就是它考慮了觀測變量之間的相關(guān)性。 21( ) ( ) ( )i j i j i jdM ??? ? ?XX Σ XX 3.蘭氏距離 () 它僅適用于一切 Xij0的情況,這個距離也可以克服各個指標(biāo)之間量綱的影響。產(chǎn)生不同結(jié)果的原因,主要是由于不同的距離公式的側(cè)重點(diǎn)和實際意義都有不同。馬氏距離有消除量綱影響的作用。樣品間距離公式的選擇是一個比較復(fù)雜且?guī)в幸欢ㄖ饔^性的問題,我們應(yīng)根據(jù)研究對象的特點(diǎn)不同做出具體分折。因此,變量間的相似性,我們可以從它們的方向趨同性或“相關(guān)性”進(jìn)行考察,從而得到“夾角余弦法”和“相關(guān)系數(shù)”兩種度量方法。 12211( )( )( ) ( )pi k i j k jkijppi k i j k jkkX X X XrX X X X??????????? ? 無論是夾角余弦還是相關(guān)系數(shù),它們的絕對值都小于 1,作為變量近似性的度量工具,我們把它們統(tǒng)記為 cij。 第三節(jié) 系統(tǒng)聚類分析法 一 系統(tǒng)聚類的基本思想 二 類間距離與系統(tǒng)聚類法 三 類間距離的統(tǒng)一性 一、系統(tǒng)聚類的基本思想 ? 系統(tǒng)聚類的基本思想是:距離相近的樣品(或變量)先聚成類,距離相遠(yuǎn)的后聚成類,過程一直進(jìn)行下去,每個樣品(或變量)總能聚到合適的類中。除系統(tǒng)聚類法外,還有有序聚類法、動態(tài)聚類法、圖論聚類法、模糊聚類法等,限于篇幅,我們只介紹系統(tǒng)聚類方法。以下用 dij表示樣品 Xi與 Xj之間距離,用 Dij表示類 Gi與 Gj 之間的距離。 ( 4)重復(fù)( 2)、( 3)兩步,直到所有元素。 ( 1)樣品采用絕對值距離,計算樣品間的距離陣 D( 0) ,見表 G 1 G 2 G 3 G 4 G 5 G 6 G 1 0 G 2 1 0 G 3 4 3 0 G 4 6 5 2 0 G 5 8 7 4 2 0 G 6 9 8 5 3 1 0 表 ( 2) D( 0) 中最小的元素是 D12= D56= 1,于是將 G1和 G2合 并成 G7, G5和 G6合并成 G8,并利用( )式計算新類與其 它類的距離 D( 1) ,見表 G 7 G 3 G 4 G 8 G 7 0 G 3 3 0 G 4 5 2 0 G 8 7 4 2 0 表 ( 3)在 D( 1) 中最小值是 D34= D48= 2,由于 G4與 G3合并, 又與 G8合并,因此 G G G8合并成一個新類 G9,其與其 它類的距離 D( 2) ,見表 G 7 G 9 G 7 0 G 9 3 0 表 ( 4)最后將 G7和 G9合并成 G10,這時所有的六個樣品聚為一類,其過程終止。將類pG與qG合并為rG,則任一類kG與rG的類間距離公式為 ? 再找距離最小兩類并類,直至所有的樣品全歸為一類為止。如圖 , ()式就是取它們(最長距離與最短距離)的中間一點(diǎn)作為計算 Dkr的根據(jù)。 ( 1)樣品采用歐氏距離,計算樣品間的平方距離陣 D2( 0) ,見表 。 6. 可變類平均法 由于類平均法中沒有反映出 Gp和 Gq之間的距離 Dpq的影響, 因此將類平均法進(jìn)一步推廣,如果將 Gp和 Gq合并為新類 Gr,類 Gk與新并類 Gr的距離公式為: ( ) 其中 ?是可變的且 ? 1,稱這種系統(tǒng)聚類法為可變類平均法。 8. 離差平方和法 該方法是 Ward提出來的,所以又稱為 Ward法。下面論證離差平方和法的距離遞推( )式。 () 其中 ap、 aq、 ? 、 ?是參數(shù),不同的系統(tǒng)聚類法,它們?nèi)〔? 同的數(shù),詳見表 。而 K—均值法是一種快速聚類法,采用該方法得到的結(jié)果比較簡單易懂,對計算機(jī)的性能要求不高,因此應(yīng)用也比較廣泛。 ? 下面通過一個具體問題說明 K均值法的計算過程。 表 ,比如( A、 B)類的, 等等。計算 B到兩類的平方距離: 10)23()25())(,( 222 ?????ABAd 61)23()15())(,( 222 ?????CDAd 10)21()21())(,( 222 ??????ABBd 9)21()11())(,( 222 ??????CDBd ? 由于 B到( A、 B)的距離大于到( C、 D)的距離,因此 B要分配給( C、 D)類,得到新的聚類是( A)和( B、 C、D)。 ? 到現(xiàn)在為止,每個樣品都已經(jīng)分配給距離中心最近的類,因此聚類過程到此結(jié)束。例如對動植物按生長的年齡段進(jìn)行分類,年齡的順序是不能改變的,否則就沒有實際意義了;又例如在地質(zhì)勘探中,需要通過巖心了解地層結(jié)構(gòu),此時按深度順序取樣,樣品的次序也不能打亂。 一、有序樣品可能的分類數(shù)目 ? n個有序樣品分成 k類,則一切可能的分法有 種。因此,對于有限的 n和 k,有序樣品的所有可能分類結(jié)果是有限的,可以在某種損失函數(shù)意義下,求得最優(yōu)解。用),( knb表示將n個有序樣品分為k類的某一種分法: }1,1,{ 2111 ??? iiiG ?,2 2 2 3{ , 1 , , 1 }G i i i? ? ?, ,},1,{ niiG kkk ??? 其中11 1 ki i i n? ? ? ? ?。 3 .求最優(yōu)分類法的遞推公式。 圖 2k ?時的情形 進(jìn)一步考慮對于k,求),( knp。從遞推公式 ( ) 可知,要得到分點(diǎn)kj,使得 ),()]1,1([)],([( njDkjpLknpL kk ???? 從而獲得第k類:},{ njG kk ??,必須先計算1?kj使得 )1,()]2,1([)]1,1([( 11 ??????? ?? kkkk jjDkjpLkjpL 從而獲得第1k ?類: }1,{ 11 ?? ?? kkk jjG ?。 因此,實際計算過程中是從計算2j開始的,一直到最后計算出kj為止。步驟如下: ( 1 )計算直徑 {),( jiD} ,結(jié)果如表 5 .14 。 再計算 {114)],3,([ ?? llpL} (即表中的3k ?列),例如計算: )}4,4()]2,3([),4,3()]2,2([m i n {)]3,4([ DpLDpLpL ??? m i n{ 0 0. 02 , 0 .0 05 0 } 0. 00 5 ( 4)? ? ? ? 表 5. 15 中其它數(shù)值同樣計算,括弧內(nèi)的數(shù)字表示最優(yōu)分割處的序號。 ? 本例從表 k =3, 4處有拐點(diǎn),即分成 3類或 4類都是較合適的,從圖 點(diǎn)。 第六節(jié) 實例分析與計算機(jī)實現(xiàn) 一 在 SPSS中利用系統(tǒng)聚類法進(jìn)行聚類分析 二 在 SPSS中利用 K均值法進(jìn)行聚類分析 一、在 SPSS中利用系統(tǒng)聚類法進(jìn)行 聚類分析 ? 設(shè)有 20個土壤樣品分別對 5個變量的觀測數(shù)據(jù)如表 ,試?yán)孟到y(tǒng)聚類法對其進(jìn)行樣品聚類分析。 圖 系統(tǒng)聚類法主界面 ? 2. 點(diǎn)擊 Statistics按鈕,設(shè)置在結(jié)果輸出窗口中給出的聚類分析統(tǒng)計量。單擊 Continue按鈕,返回主界面。單擊 Continue按鈕,返回主界面。點(diǎn)擊 Continue,返回主界面。 2 6 19 7 18 1 8 9 4 3 5 12 20 16 14 10 11 15 17 13 CA S E La b e l N u m 0 5 1 0 1 5 2 0 2 5 R e s c ale d D i s t an c e C l u st e r C om b i n e 圖 系統(tǒng)聚類法樹形圖 ? 2. 由于我們已經(jīng)在 Save子對話框中設(shè)置了在數(shù)據(jù)文件中生成新的分類變量,所以,在數(shù)據(jù)編輯窗口中,我們可以看到生成的三個表示分類結(jié)果的新變量。 ? (一)操作步驟 ? 1. 在 SPSS窗口中選擇 Analyze→Classify→K Means Cluster,調(diào)出 K均值聚類分析主界面,并將變量 — 移入 Variables框中,將標(biāo)志變量 Region移入 Label Case by框中。如果不手工設(shè)置,則系統(tǒng)會自動設(shè)置初始類中心,這里我們不作設(shè)置。設(shè)置完這兩個參數(shù)之后,只要在迭代的過程中先滿足了其中的參數(shù),則迭代過程就停止。其中 Cluster membership選項用于建立一個代表聚類結(jié)果的變量,默認(rèn)變量名為 qcl_1; Distance from cluster center選項建立一個新變量,代表各觀測量與其所屬類中心的歐氏距離。這樣,在輸出窗口中將給出聚類的初始類中心和每個觀測量的分類信息,包括分配到哪一類和該觀測量距所屬類中心的距離。由于我們在 Iterate子對話框中使用系統(tǒng)默認(rèn)的選項(最大迭代次數(shù)為 10和收斂判據(jù)為 0),所以在第三次迭代后,類中心的變化為 0,從而迭代停止。第一類包括:江蘇、浙江、山東和廣東 4個省。剩下的 11個地區(qū)為第三類。 本章結(jié)束
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1