freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

廈門大學(xué)應(yīng)用多元統(tǒng)計(jì)分析第05章_聚類分析(已修改)

2025-05-25 02:48 本頁面
 

【正文】 第五章 聚類分析 第一節(jié) 引言 第二節(jié) 相似性的量度 第三節(jié) 系統(tǒng)聚類分析法 第四節(jié) K均值聚類分析 第五節(jié) 有序樣品的聚類分析法 第六節(jié) 實(shí)例分析與計(jì)算機(jī)實(shí)現(xiàn) 第一節(jié) 引言 ? “物以類聚,人以群分”。對(duì)事物進(jìn)行分類,是人們認(rèn)識(shí)事物的出發(fā)點(diǎn),也是人們認(rèn)識(shí)世界的一種重要方法。因此,分類學(xué)已成為人們認(rèn)識(shí)世界的一門基礎(chǔ)科學(xué)。 ? 在生物、經(jīng)濟(jì)、社會(huì)、人口等領(lǐng)域的研究中,存在著大量量化分類研究。例如:在生物學(xué)中,為了研究生物的演變,生物學(xué)家需要根據(jù)各種生物不同的特征對(duì)生物進(jìn)行分類。在經(jīng)濟(jì)研究中,為了研究不同地區(qū)城鎮(zhèn)居民生活中的收入和消費(fèi)情況,往往需要?jiǎng)澐植煌念愋腿パ芯?。在地質(zhì)學(xué)中,為了研究礦物勘探,需要根據(jù)各種礦石的化學(xué)和物理性質(zhì)和所含化學(xué)成分把它們歸于不同的礦石類。在人口學(xué)研究中,需要構(gòu)造人口生育分類模式、人口死亡分類狀況,以此來研究人口的生育和死亡規(guī)律。 ? 但歷史上這些分類方法多半是人們主要依靠經(jīng)驗(yàn)作定性分類,致使許多分類帶有主觀性和任意性,不能很好地揭示客觀事物內(nèi)在的本質(zhì)差別與聯(lián)系;特別是對(duì)于多因素、多指標(biāo)的分類問題,定性分類的準(zhǔn)確性不好把握。為了克服定性分類存在的不足,人們把數(shù)學(xué)方法引入分類中,形成了數(shù)值分類學(xué)。后來隨著多元統(tǒng)計(jì)分析的發(fā)展,從數(shù)值分類學(xué)中逐漸分離出了聚類分析方法。隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展,利用數(shù)學(xué)方法研究分類不僅非常必要而且完全可能,因此近年來,聚類分析的理論和應(yīng)用得到了迅速的發(fā)展。 ? 聚類分析就是分析如何對(duì)樣品(或變量)進(jìn)行量化分類的問題。通常聚類分析分為 Q型聚類和 R型聚類。 Q型聚類是對(duì)樣品進(jìn)行分類處理, R型聚類是對(duì)變量進(jìn)行分類處理。 第二節(jié) 相似性的量度 一 樣品相似性的度量 二 變量相似性的度量 一、樣品相似性的度量 ? 在聚類之前,要首先分析樣品間的相似性。 Q型聚類分析,常用距離來測(cè)度樣品之間的相似程度。每個(gè)樣品有 p個(gè)指標(biāo)(變量)從不同方面描述其性質(zhì),形成一個(gè) p維的向量。如果把 n個(gè)樣品看成 p維空間中的 n個(gè)點(diǎn),則兩個(gè)樣品間相似程度就可用 p維空間中的兩點(diǎn)距離公式來度量。兩點(diǎn)距離公式可以從不同角度進(jìn)行定義,令 dij 表示樣品 Xi與 Xj的距離,存在以下的距離公式: 1.明考夫斯基距離 () 明考夫斯基距離簡稱明氏距離,按的取值不同又可分成: 1/1( ) ( )p q qi j i k j kkd q X X???? ( 1 )絕對(duì)距離(1q ?) 1( 1 )pij ik jkkd X X???? ( 5 . 2 ) ( 2 )歐氏距離(2q ?) 2 1 / 21( 2 ) ( )pi j i k j kkd X X??? ? ( 5 . 3 ) ( 3 )切比雪夫距離(q ??) 1( ) m a xi j i k j kkpd X X??? ? ? ( 5 . 4 ) ? 歐氏距離是常用的距離,大家都比較熟悉,但是前面已經(jīng)提到,在解決多元數(shù)據(jù)的分析問題時(shí),歐氏距離就顯示出了它的不足之處。一是它沒有考慮到總體的變異對(duì)“距離”遠(yuǎn)近的影響,顯然一個(gè)變異程度大的總體可能與更多樣品近些,既使它們的歐氏距離不一定最近;另外,歐氏距離受變量的量綱影響,這對(duì)多元數(shù)據(jù)的處理是不利的。為了克服這方面的不足,可用“馬氏距離”的概念。 2.馬氏距離 設(shè) Xi與 Xj是來自均值向量為 ? ,協(xié)方差為 ∑ =(> 0) 的總體 G中的 p維樣品,則兩個(gè)樣品間的馬氏距離為 () 馬氏距離又稱為廣義歐氏距離。顯然,馬氏距離與上述各種距離的主要不同就是它考慮了觀測(cè)變量之間的相關(guān)性。如果各變量之間相互獨(dú)立,即觀測(cè)變量的協(xié)方差矩陣是對(duì)角矩陣,則馬氏距離就退化為用各個(gè)觀測(cè)指標(biāo)的標(biāo)準(zhǔn)差的倒數(shù)作為權(quán)數(shù)的加權(quán)歐氏距離。馬氏距離還考慮了觀測(cè)變量之間的變異性,不再受各指標(biāo)量綱的影響。將原始數(shù)據(jù)作線性變換后,馬氏距離不變。 21( ) ( ) ( )i j i j i jdM ??? ? ?XX Σ XX 3.蘭氏距離 () 它僅適用于一切 Xij0的情況,這個(gè)距離也可以克服各個(gè)指標(biāo)之間量綱的影響。這是一個(gè)自身標(biāo)準(zhǔn)化的量,由于它對(duì)大的奇異值不敏感,它特別適合于高度偏倚的數(shù)據(jù)。雖然這個(gè)距離有助于克服明氏距離的第一個(gè)缺點(diǎn),但它也沒有考慮指標(biāo)之間的相關(guān)性。 11() p i k j kijk i k j kXXdLp X X????? 4.距離選擇的原則 ? 一般說來,同一批數(shù)據(jù)采用不同的距離公式,會(huì)得到不同的分類結(jié)果。產(chǎn)生不同結(jié)果的原因,主要是由于不同的距離公式的側(cè)重點(diǎn)和實(shí)際意義都有不同。因此我們?cè)谶M(jìn)行聚類分析時(shí),應(yīng)注意距離公式的選擇。通常選擇距離公式應(yīng)注意遵循以下的基本原則: ? ( 1)要考慮所選擇的距離公式在實(shí)際應(yīng)用中有明確的意義。如歐氏距離就有非常明確的空間距離概念。馬氏距離有消除量綱影響的作用。 ? ( 2)要綜合考慮對(duì)樣本觀測(cè)數(shù)據(jù)的預(yù)處理和將要采用的聚類分析方法。如在進(jìn)行聚類分析之前已經(jīng)對(duì)變量作了標(biāo)準(zhǔn)化處理,則通常就可采用歐氏距離。 ? ( 3)要考慮研究對(duì)象的特點(diǎn)和計(jì)算量的大小。樣品間距離公式的選擇是一個(gè)比較復(fù)雜且?guī)в幸欢ㄖ饔^性的問題,我們應(yīng)根據(jù)研究對(duì)象的特點(diǎn)不同做出具體分折。實(shí)際中,聚類分析前不妨試探性地多選擇幾個(gè)距離公式分別進(jìn)行聚類,然后對(duì)聚類分析的結(jié)果進(jìn)行對(duì)比分析,以確定最合適的距離測(cè)度方法。 二、變量相似性的度量 ? 多元數(shù)據(jù)中的變量表現(xiàn)為向量形式,在幾何上可用多維空間中的一個(gè)有向線段表示。在對(duì)多元數(shù)據(jù)進(jìn)行分析時(shí),相對(duì)于數(shù)據(jù)的大小,我們更多地對(duì)變量的變化趨勢(shì)或方向感興趣。因此,變量間的相似性,我們可以從它們的方向趨同性或“相關(guān)性”進(jìn)行考察,從而得到“夾角余弦法”和“相關(guān)系數(shù)”兩種度量方法。 夾角余弦 兩變量 Xi與 Xj看作 p維空間的兩個(gè)向量,這兩個(gè)向量間的夾角余弦可用下式進(jìn)行計(jì)算 () 顯然, ∣ cos ? ij∣ ? 1。 12211c o s( )( )pi k j kkijppi k j kkkXXXX? ??????? 2.相關(guān)系數(shù) 相關(guān)系數(shù)經(jīng)常用來度量變量間的相似性。變量 Xi與 Xj的相關(guān)系數(shù)定義為 () 顯然也有, ∣ rij∣ ? 1。 12211( )( )( ) ( )pi k i j k jkijppi k i j k jkkX X X XrX X X X??????????? ? 無論是夾角余弦還是相關(guān)系數(shù),它們的絕對(duì)值都小于 1,作為變量近似性的度量工具,我們把它們統(tǒng)記為 cij。當(dāng) ∣ cij∣ = 1時(shí),說明變量 Xi與 Xj完全相似;當(dāng) ∣ cij∣ 近似于 1時(shí),說 明變量 Xi與 Xj非常密切;當(dāng) ∣ cij∣ = 0時(shí),說明變量 Xi與 Xj完 全不一樣;當(dāng) ∣ cij∣ 近似于 0時(shí),說明變量 Xi與 Xj差別很大。 據(jù)此,我們把比較相似的變量聚為一類,把不太相似的變量歸到不同的類內(nèi)。 ? 在實(shí)際聚類過程中,為了計(jì)算方便,我們把變量間相似性的度量公式作一個(gè)變換為 dij = 1 ? ∣ cij∣ () 或者 dij2 = 1 ? cij2 () 用表示變量間的距離遠(yuǎn)近,小則與先聚成一類,這比較符合人們的一般思維習(xí)慣。 第三節(jié) 系統(tǒng)聚類分析法 一 系統(tǒng)聚類的基本思想 二 類間距離與系統(tǒng)聚類法 三 類間距離的統(tǒng)一性 一、系統(tǒng)聚類的基本思想 ? 系統(tǒng)聚類的基本思想是:距離相近的樣品(或變量)先聚成類,距離相遠(yuǎn)的后聚成類,過程一直進(jìn)行下去,每個(gè)樣品(或變量)總能聚到合適的類中。系統(tǒng)聚類過程是:假設(shè)總共有 n個(gè)樣品(或變量),第一步將每個(gè)樣品(或變量)獨(dú)自聚成一類,共有 n類;第二步根據(jù)所確定的樣品(或變量)“距離”公式,把距離較近的兩個(gè)樣品(或變量)聚合為一類,其它的樣品(或變量)仍各自聚為一類,共聚成 n ?1類;第三步將“距離”最近的兩個(gè)類進(jìn)一步聚成一類,共聚成 n ?2類; …… ,以上步驟一直進(jìn)行下去,最后將所有的樣品(或變量)全聚成一類。為了直觀地反映以上的系統(tǒng)聚類過程,可以把整個(gè)分類系統(tǒng)畫成一張譜系圖。所以有時(shí)系統(tǒng)聚類也稱為譜系分析。除系統(tǒng)聚類法外,還有有序聚類法、動(dòng)態(tài)聚類法、圖論聚類法、模糊聚類法等,限于篇幅,我們只介紹系統(tǒng)聚類方法。 二、類間距離與系統(tǒng)聚類法 ? 在進(jìn)行系統(tǒng)聚類之前,我們首先要定義類與類之間的距離,由類間距離定義的不同產(chǎn)生了不同的系統(tǒng)聚類法。常用的類間距離定義有 8種之多,與之相應(yīng)的系統(tǒng)聚類法也有 8種,分別為最短距離法、最長距離法、中間距離法、重心法、類平均法、可變類平均法、可變法和離差平方和法。它們的歸類步驟基本上是一致的,主要差異是類間距離的計(jì)算方法不同。以下用 dij表示樣品 Xi與 Xj之間距離,用 Dij表示類 Gi與 Gj 之間的距離。 1. 最短距離法 定義類與之間的距離為兩類最近樣品的距離,即為 () 設(shè)類與合并成一個(gè)新類記為,則任一類與的距離為 () ijGXGXij dD jjii ??? ,m i n ,m ini k j rk r ijX G X GDd ??? ,m in { m in , m in }i k j p i k j qi j i jX G X G x G x Gdd? ? ? ?? m in { , }k p k qDD? ? 最短距離法進(jìn)行聚類分析的步驟如下: ( 1)定義樣品之間距離,計(jì)算樣品的兩兩距離,得一距離 陣記為 D( 0) ,開始每個(gè)樣品自成一類,顯然這時(shí) Dij = dij。 ( 2)找出距離最小元素,設(shè)為 Dpq,則將 Gp和 Gq合并成一個(gè) 新類,記為 Gr,即 Gr = { Gp, Gq}。 ( 3)按( )計(jì)算新類與其它類的距離。 ( 4)重復(fù)( 2)、( 3)兩步,直到所有元素。并成一類為 止。如果某一步距離最小的元素不止一個(gè),則對(duì)應(yīng)這些 最小元素的類可以同時(shí)合并。 ? 【 例 】 設(shè)有六個(gè)樣品,每個(gè)只測(cè)量一個(gè)指標(biāo),分別是 1,2, 5, 7, 9, 10,試用最短距離法將它們分類。 ( 1)樣品采用絕對(duì)值距離,計(jì)算樣品間的距離陣 D( 0) ,見表 G 1 G 2 G 3 G 4 G 5 G 6 G 1 0 G 2 1 0 G 3 4 3 0 G
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫吧 www.dybbs8.com
公安備案圖鄂ICP備17016276號(hào)-1