freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

廈門大學(xué)應(yīng)用多元統(tǒng)計分析第05章_聚類分析-wenkub

2023-05-20 02:48:51 本頁面
 

【正文】 }。常用的類間距離定義有 8種之多,與之相應(yīng)的系統(tǒng)聚類法也有 8種,分別為最短距離法、最長距離法、中間距離法、重心法、類平均法、可變類平均法、可變法和離差平方和法。為了直觀地反映以上的系統(tǒng)聚類過程,可以把整個分類系統(tǒng)畫成一張譜系圖。 據(jù)此,我們把比較相似的變量聚為一類,把不太相似的變量歸到不同的類內(nèi)。 12211c o s( )( )pi k j kkijppi k j kkkXXXX? ??????? 2.相關(guān)系數(shù) 相關(guān)系數(shù)經(jīng)常用來度量變量間的相似性。 二、變量相似性的度量 ? 多元數(shù)據(jù)中的變量表現(xiàn)為向量形式,在幾何上可用多維空間中的一個有向線段表示。如在進(jìn)行聚類分析之前已經(jīng)對變量作了標(biāo)準(zhǔn)化處理,則通常就可采用歐氏距離。通常選擇距離公式應(yīng)注意遵循以下的基本原則: ? ( 1)要考慮所選擇的距離公式在實際應(yīng)用中有明確的意義。雖然這個距離有助于克服明氏距離的第一個缺點(diǎn),但它也沒有考慮指標(biāo)之間的相關(guān)性。馬氏距離還考慮了觀測變量之間的變異性,不再受各指標(biāo)量綱的影響。為了克服這方面的不足,可用“馬氏距離”的概念。每個樣品有 p個指標(biāo)(變量)從不同方面描述其性質(zhì),形成一個 p維的向量。通常聚類分析分為 Q型聚類和 R型聚類。為了克服定性分類存在的不足,人們把數(shù)學(xué)方法引入分類中,形成了數(shù)值分類學(xué)。在經(jīng)濟(jì)研究中,為了研究不同地區(qū)城鎮(zhèn)居民生活中的收入和消費(fèi)情況,往往需要劃分不同的類型去研究。對事物進(jìn)行分類,是人們認(rèn)識事物的出發(fā)點(diǎn),也是人們認(rèn)識世界的一種重要方法。因此,分類學(xué)已成為人們認(rèn)識世界的一門基礎(chǔ)科學(xué)。在地質(zhì)學(xué)中,為了研究礦物勘探,需要根據(jù)各種礦石的化學(xué)和物理性質(zhì)和所含化學(xué)成分把它們歸于不同的礦石類。后來隨著多元統(tǒng)計分析的發(fā)展,從數(shù)值分類學(xué)中逐漸分離出了聚類分析方法。 Q型聚類是對樣品進(jìn)行分類處理, R型聚類是對變量進(jìn)行分類處理。如果把 n個樣品看成 p維空間中的 n個點(diǎn),則兩個樣品間相似程度就可用 p維空間中的兩點(diǎn)距離公式來度量。 2.馬氏距離 設(shè) Xi與 Xj是來自均值向量為 ? ,協(xié)方差為 ∑ =(> 0) 的總體 G中的 p維樣品,則兩個樣品間的馬氏距離為 () 馬氏距離又稱為廣義歐氏距離。將原始數(shù)據(jù)作線性變換后,馬氏距離不變。 11() p i k j kijk i k j kXXdLp X X????? 4.距離選擇的原則 ? 一般說來,同一批數(shù)據(jù)采用不同的距離公式,會得到不同的分類結(jié)果。如歐氏距離就有非常明確的空間距離概念。 ? ( 3)要考慮研究對象的特點(diǎn)和計算量的大小。在對多元數(shù)據(jù)進(jìn)行分析時,相對于數(shù)據(jù)的大小,我們更多地對變量的變化趨勢或方向感興趣。變量 Xi與 Xj的相關(guān)系數(shù)定義為 () 顯然也有, ∣ rij∣ ? 1。 ? 在實際聚類過程中,為了計算方便,我們把變量間相似性的度量公式作一個變換為 dij = 1 ? ∣ cij∣ () 或者 dij2 = 1 ? cij2 () 用表示變量間的距離遠(yuǎn)近,小則與先聚成一類,這比較符合人們的一般思維習(xí)慣。所以有時系統(tǒng)聚類也稱為譜系分析。它們的歸類步驟基本上是一致的,主要差異是類間距離的計算方法不同。 ( 3)按( )計算新類與其它類的距離。 ? 【 例 】 設(shè)有六個樣品,每個只測量一個指標(biāo),分別是 1,2, 5, 7, 9, 10,試用最短距離法將它們分類。 圖 最短距離聚類法的過程 2 . 最長距離法 定義類iG與jG之間的距離為兩類最遠(yuǎn)樣品的距離,即為 ,m a xi p j qp q ijX G X GDd ??? ( 5 . 1 3 ) 最長距離法與最短距離法的并類步驟完全一樣,也是將各樣品先自成一類,然后將距離最小的兩類合并。 中間距離將類 Gp與 Gq類合并為類 Gr,則任意的類 Gk和 Gr的距離公式為 (?1/ 4 ? ? ? 0) () 設(shè) Dkq> Dkp,如果采用最短距離法,則 Dkr = Dkp,如果采用 最長距離法,則 Dkr = Dkq。 設(shè)pG與qG分別有樣品pn,qn個,其重心分別為pX和qX,則pG與qG之間的距離定義為pX和qX之間的距離,這里我們用歐氏距離來表示,即 2 ( ) ( )p q p q p qD X X X X?? ? ? ( 5 . 17) ? ? 設(shè)將pG和qG合并為rG,則rG內(nèi)樣品個數(shù)為qpr nnn ??,它的重心是)(1qqpprr XnXnnX ??,類kG的重心是kX,那么依據(jù)( )式它與新類rG的距離為 2 2 2 22p q p qk r k p k q p qr r rn n n nD D D Dn n n? ? ? ( ) 這里我們應(yīng)該注意,實際上 ( ) 式表示的類kG與新類rG的距離為: 2 ( ) ( )k r k r k rD X X X X?? ? ? 11[ ( ) ] [ ( ) ]k p p q q k p p q qrrX n X n X X n X n Xnn?? ? ? ? ? 222221( 2 )pqk k k p k qrrp p p p q p q q q qrnnX X X X X Xnnn X X n n X X n X Xn???? ? ???? ? ? ? 利用1()k k p k k q k krX X n X X n X Xn? ? ???代入上式,有 2( 2 )( 2 )( 2 )pk r k k k p p prqk k k q q qrpqp p p q q qrnD X X X X X XnnX X X X X XnnnX X X X X Xn? ? ?? ? ?? ? ?? ? ?? ? ?? ? ? 2 2 22p q p qk p k q p qr r rn n n nD D Dn n n? ? ? ( 5 . 19 ) ? 【 例 】 針對例 ,試用重心法將它們聚類。 圖 重心聚類法的過程 5 .類平均法 類平均法定義類間距離平方為這兩類元素兩兩之間距離平方的平均數(shù),即為 221i p j jp q i jX G X GpqDdnn ??? ?? ( ) 設(shè)聚類的某一步將pG和qG合并為rG,則任一類類kG與rG的距離為: 221i k j rk r i jX G X GkrDdnn ??? ?? 221()i k j p i k j qij ijX G X G X G X Gkrddnn ? ? ? ??? ? ? ? ? 22pqk p k qrrnnDDnn?? ( ) 類平均法的聚類過程與上述方法完全類似,這里就不在詳述了??勺冾惼骄ㄅc可變法的分類效果與?的選擇關(guān)系很大,在實際應(yīng)用中?常取負(fù)值。 設(shè)將 n個樣品分成 k類 G1, G2, … , Gk,用 Xit表示 Gt中的第 I 個樣品, nt表示 Gt中樣品的個數(shù), 是 Gt的重心,則 Gt的樣品離差平方和為 1( ) ( )tnt it t it ttS X X X X??? ? ?? ( 5. 24) tX? 如果pG和qG合并為新類rG類內(nèi)離差平方和分別為 1( ) ( )pnp i p p i p piS X X X X??? ? ?? 1( ) ( )qnq iq q iq qiS X X X X??? ? ?? 1( ) ( )rnr ir r ir riS X X X X??? ? ?? ? ? 這種系統(tǒng)聚類法稱為離差平方和法或 Ward方法。蘭斯( Lance)和威廉姆斯( Williams)于 1967年給出了一個統(tǒng)一的公式。 2 2 2 2 2 2k r p k p q k q p q k p k qD D D D D D? ? ? ?? ? ? ? ? 方 法 p? q? ? ? 最短距離法 1/2 1/2 0 1 / 2 最長距離法 1/2 1/2 0 1/2 中間距離法 1/2 1/2 1 / 4 0 重心法 prnn qrnn pq??? 0 類平均法 prnn qrnn 0 0 可變類平均法 ( 1 ) prnn?? ( 1 ) qrnn?? ( 1 )? ? 0 可變法 ( 1 ) / 2?? ( 1 ) / 2?? ( 1 )? ? 0 離差平方和法 ( ) ( )p k r kn n n n?? ( ) ( )q k r kn n n n?? ()k k rn n n?? 0 表 系統(tǒng)聚類法參數(shù)表 第四節(jié) K均值聚類分析 ? 系統(tǒng)聚類法需要計算出不同樣品或變量的距離,還要在聚類的每一步都要計算“類間距離”,相應(yīng)的計算量自然比較大;特別是當(dāng)樣本的容量很大時,需要占據(jù)非常大的計算機(jī)內(nèi)存空間,這給應(yīng)用帶來一定的困難。具體類數(shù)的確定,離不開實踐經(jīng)驗的積累;有時也可以借助系統(tǒng)聚類法以一部分樣品為對象進(jìn)行聚類,其結(jié)果作為 K—均值法確定類數(shù)的參考。 樣品 變量 1X 2X A 5 3 B 1 1 C 1 2 D 3 2 表 樣品測量結(jié)果 第一步:按要求取 K=2,為了實施均值法聚類,我們將這些樣品隨意分成兩類,比如( A、 B)和( C、 D),然后計算這兩個聚類的中心坐標(biāo),見表 。先計算 A到兩個類的平方距離: 由于 A到( A、 B)的距離小于到( C、 D)的距離,因此 A不用重新分配。計算各樣品到各中心的距離平方,得結(jié)果見表 。但在實際應(yīng)用中,有時樣品的次序是不能變動的,這就產(chǎn)生了有序樣品的聚類分析問題。這類問題稱為有序樣品的聚類分析。 圖 有序樣品的分類法 ? 這就是 n個有序樣品分成 k類的一切可能分法。費(fèi)希爾最優(yōu)求解法定義的分類損失函數(shù)的思想類似于系統(tǒng)聚類分析中的 W a r d 法,即要求分類后產(chǎn)生的離差平方和的增量最小。因此,要求尋找一種分法),( knb,使分類的損失函數(shù))],([( knbL最小,這種最優(yōu)分類法記為),( knp。得到最優(yōu)分類)2,( np:}1,2,1{ *1 ?? jG ?,},{ *2 njG ??。 ? 因此我們得到費(fèi)希爾最優(yōu)求解法的遞推公式為
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1