freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

廈門大學(xué)應(yīng)用多元統(tǒng)計分析第05章_聚類分析-展示頁

2025-05-21 02:48本頁面
  

【正文】 G3與 G4合并一個新類 G9,其與與其它類的距離 D2( 2) ,見表 : G 7 G 9 G 8 G 7 0 G 9 0 G 8 64 0 表 ( 4)在中最小值是= ,那么與合并一個新類,其與與 其它類的距離,見表 : G 7 G 10 G 7 0 G 10 0 表 ( 5)最后將 G7和 G10合并成 G11,這時所有的六個樣品聚為一類,其過程終止。 設(shè)pG與qG分別有樣品pn,qn個,其重心分別為pX和qX,則pG與qG之間的距離定義為pX和qX之間的距離,這里我們用歐氏距離來表示,即 2 ( ) ( )p q p q p qD X X X X?? ? ? ( 5 . 17) ? ? 設(shè)將pG和qG合并為rG,則rG內(nèi)樣品個數(shù)為qpr nnn ??,它的重心是)(1qqpprr XnXnnX ??,類kG的重心是kX,那么依據(jù)( )式它與新類rG的距離為 2 2 2 22p q p qk r k p k q p qr r rn n n nD D D Dn n n? ? ? ( ) 這里我們應(yīng)該注意,實際上 ( ) 式表示的類kG與新類rG的距離為: 2 ( ) ( )k r k r k rD X X X X?? ? ? 11[ ( ) ] [ ( ) ]k p p q q k p p q qrrX n X n X X n X n Xnn?? ? ? ? ? 222221( 2 )pqk k k p k qrrp p p p q p q q q qrnnX X X X X Xnnn X X n n X X n X Xn???? ? ???? ? ? ? 利用1()k k p k k q k krX X n X X n X Xn? ? ???代入上式,有 2( 2 )( 2 )( 2 )pk r k k k p p prqk k k q q qrpqp p p q q qrnD X X X X X XnnX X X X X XnnnX X X X X Xn? ? ?? ? ?? ? ?? ? ?? ? ?? ? ? 2 2 22p q p qk p k q p qr r rn n n nD D Dn n n? ? ? ( 5 . 19 ) ? 【 例 】 針對例 ,試用重心法將它們聚類。 22222121 pqkqkpkr DDDD ???? ? 特別當(dāng) ? = ? 1/ 4,它表示取中間點算距離,公式為 () 222412121pqkpkpkr DDDD ??? 圖 中間距離法 4. 重心法 重心法定義類間距離為兩類重心(各類樣品的均值)的距離。 中間距離將類 Gp與 Gq類合并為類 Gr,則任意的類 Gk和 Gr的距離公式為 (?1/ 4 ? ? ? 0) () 設(shè) Dkq> Dkp,如果采用最短距離法,則 Dkr = Dkp,如果采用 最長距離法,則 Dkr = Dkq??梢钥闯鲎铋L距離法與最短距離法只有兩點不同: ? 一是類與類之間的距離定義不同; ? 另一是計算新類與其它類的距離所用的公式不同。 圖 最短距離聚類法的過程 2 . 最長距離法 定義類iG與jG之間的距離為兩類最遠樣品的距離,即為 ,m a xi p j qp q ijX G X GDd ??? ( 5 . 1 3 ) 最長距離法與最短距離法的并類步驟完全一樣,也是將各樣品先自成一類,然后將距離最小的兩類合并。 上述聚類的可視化過程見圖 ,橫坐標(biāo)的刻度表示并類的距離。 ? 【 例 】 設(shè)有六個樣品,每個只測量一個指標(biāo),分別是 1,2, 5, 7, 9, 10,試用最短距離法將它們分類。并成一類為 止。 ( 3)按( )計算新類與其它類的距離。 1. 最短距離法 定義類與之間的距離為兩類最近樣品的距離,即為 () 設(shè)類與合并成一個新類記為,則任一類與的距離為 () ijGXGXij dD jjii ??? ,m i n ,m ini k j rk r ijX G X GDd ??? ,m in { m in , m in }i k j p i k j qi j i jX G X G x G x Gdd? ? ? ?? m in { , }k p k qDD? ? 最短距離法進行聚類分析的步驟如下: ( 1)定義樣品之間距離,計算樣品的兩兩距離,得一距離 陣記為 D( 0) ,開始每個樣品自成一類,顯然這時 Dij = dij。它們的歸類步驟基本上是一致的,主要差異是類間距離的計算方法不同。 二、類間距離與系統(tǒng)聚類法 ? 在進行系統(tǒng)聚類之前,我們首先要定義類與類之間的距離,由類間距離定義的不同產(chǎn)生了不同的系統(tǒng)聚類法。所以有時系統(tǒng)聚類也稱為譜系分析。系統(tǒng)聚類過程是:假設(shè)總共有 n個樣品(或變量),第一步將每個樣品(或變量)獨自聚成一類,共有 n類;第二步根據(jù)所確定的樣品(或變量)“距離”公式,把距離較近的兩個樣品(或變量)聚合為一類,其它的樣品(或變量)仍各自聚為一類,共聚成 n ?1類;第三步將“距離”最近的兩個類進一步聚成一類,共聚成 n ?2類; …… ,以上步驟一直進行下去,最后將所有的樣品(或變量)全聚成一類。 ? 在實際聚類過程中,為了計算方便,我們把變量間相似性的度量公式作一個變換為 dij = 1 ? ∣ cij∣ () 或者 dij2 = 1 ? cij2 () 用表示變量間的距離遠近,小則與先聚成一類,這比較符合人們的一般思維習(xí)慣。當(dāng) ∣ cij∣ = 1時,說明變量 Xi與 Xj完全相似;當(dāng) ∣ cij∣ 近似于 1時,說 明變量 Xi與 Xj非常密切;當(dāng) ∣ cij∣ = 0時,說明變量 Xi與 Xj完 全不一樣;當(dāng) ∣ cij∣ 近似于 0時,說明變量 Xi與 Xj差別很大。變量 Xi與 Xj的相關(guān)系數(shù)定義為 () 顯然也有, ∣ rij∣ ? 1。 夾角余弦 兩變量 Xi與 Xj看作 p維空間的兩個向量,這兩個向量間的夾角余弦可用下式進行計算 () 顯然, ∣ cos ? ij∣ ? 1。在對多元數(shù)據(jù)進行分析時,相對于數(shù)據(jù)的大小,我們更多地對變量的變化趨勢或方向感興趣。實際中,聚類分析前不妨試探性地多選擇幾個距離公式分別進行聚類,然后對聚類分析的結(jié)果進行對比分析,以確定最合適的距離測度方法。 ? ( 3)要考慮研究對象的特點和計算量的大小。 ? ( 2)要綜合考慮對樣本觀測數(shù)據(jù)的預(yù)處理和將要采用的聚類分析方法。如歐氏距離就有非常明確的空間距離概念。因此我們在進行聚類分析時,應(yīng)注意距離公式的選擇。 11() p i k j kijk i k j kXXdLp X X????? 4.距離選擇的原則 ? 一般說來,同一批數(shù)據(jù)采用不同的距離公式,會得到不同的分類結(jié)果。這是一個自身標(biāo)準(zhǔn)化的量,由于它對大的奇異值不敏感,它特別適合于高度偏倚的數(shù)據(jù)。將原始數(shù)據(jù)作線性變換后,馬氏距離不變。如果各變量之間相互獨立,即觀測變量的協(xié)方差矩陣是對角矩陣,則馬氏距離就退化為用各個觀測指標(biāo)的標(biāo)準(zhǔn)差的倒數(shù)作為權(quán)數(shù)的加權(quán)歐氏距離。 2.馬氏距離 設(shè) Xi與 Xj是來自均值向量為 ? ,協(xié)方差為 ∑ =(> 0) 的總體 G中的 p維樣品,則兩個樣品間的馬氏距離為 () 馬氏距離又稱為廣義歐氏距離。一是它沒有考慮到總體的變異對“距離”遠近的影響,顯然一個變異程度大的總體可能與更多樣品近些,既使它們的歐氏距離不一定最近;另外,歐氏距離受變量的量綱影響,這對多元數(shù)據(jù)的處理是不利的。如果把 n個樣品看成 p維空間中的 n個點,則兩個樣品間相似程度就可用 p維空間中的兩點距離公式來度量。 Q型聚類分析,常用距離來測度樣品之間的相似程度。 Q型聚類是對樣品進行分類處理, R型聚類是對變量進行分類處理。 ? 聚類分析就是分析如何對樣品(或變量)進行量化分類的問題。后來隨著多元統(tǒng)計分析的發(fā)展,從數(shù)值分類學(xué)中逐漸分離出了聚類分析方法。 ? 但歷史上這些分類方法多半是人們主要依靠經(jīng)驗作定性分類,致使許多分類帶有主觀性和任意性,不能很好地揭示客觀事物內(nèi)在的本質(zhì)差別與聯(lián)系;特別是對于多因素、多指標(biāo)的分類問題,定性分類的準(zhǔn)確性不好把握。在地質(zhì)學(xué)中,為了研究礦物勘探,需要根據(jù)各種礦石的化學(xué)和物理性質(zhì)和所含化學(xué)成分把它們歸于不同的礦石類。例如:在生物學(xué)中,為了研究生物的演變,生物學(xué)家需要根據(jù)各種生物不同的特征對生物進行分類。因此,分類學(xué)已成為人們認識世界的一門基礎(chǔ)科學(xué)。第五章 聚類分析 第一節(jié) 引言 第二節(jié) 相似性的量度 第三節(jié) 系統(tǒng)聚類分析法 第四節(jié) K均值聚類分析 第五節(jié) 有序樣品的聚類分析法 第六節(jié) 實例分析與計算機實現(xiàn) 第一節(jié) 引言 ? “物以類聚,人以群分”。對事物進行分類,是人們認識事物的出發(fā)點,也是人們認識世界的一種重要方法。 ? 在生物、經(jīng)濟、社會、人口等領(lǐng)域的研究中,存在著大量量化分類研究。在經(jīng)濟研究中,為了研究不同地區(qū)城鎮(zhèn)居民生活中的收入和消費情況,往往需要劃分不同的類型去研究。在人口學(xué)研究中,需要構(gòu)造人口生育分類模式、人口死亡分類狀況,以此來研究人口的生育和死亡規(guī)律。為了克服定性分類存在的不足,人們把數(shù)學(xué)方法引入分類中,形成了數(shù)值分類學(xué)。隨著計算機技術(shù)的不斷發(fā)展,利用數(shù)學(xué)方法研究分類不僅非常必要而且完全可能,因此近年來,聚類分析的理論和應(yīng)用得到了迅速的發(fā)展。通常聚類分析分為 Q型聚類和 R型聚類。 第二節(jié) 相似性的量度 一 樣品相似性的度量 二 變量相似性的度量 一、樣品相似性的度量 ? 在聚類之前,要首先分析樣品間的相似性。每個樣品有 p個指標(biāo)(變量)從不同方面描述其性質(zhì),形成一個 p維的向量。兩點距離公式可以從不同角度進行定義,令 dij 表示樣品 Xi與 Xj的距離,存在以下的距離公式: 1.明考夫斯基距離
點擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1