freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

多元統(tǒng)計分析聚類分析講義-文庫吧

2025-07-28 16:58 本頁面


【正文】 ? 時, 1 / 221( 2 )pij ik jkkd x x??????????為 歐氏 距離; ( 3)當 q?? 時,1( ) m axij ik jkkpd x x??? ? ?為 Chebishov距離 ③ 。 NOTE:明氏距離存在不足 ①它與各指標的量綱有關(guān); ②它沒有考慮指標之間的相關(guān)性; ③要求一個向量的 n 個分量是不相關(guān)的且具有相同的方差 若考慮 p 個指標的相關(guān)性和異方差等問題,我們可以采用方差加權(quán)距離或 Mahalanobis距離。 2. 方差加權(quán)距離 ① 當變量為定性變量(如性別,職業(yè),等級)時,也可定義樣品間的“距離”和變量間的“相似系數(shù)”,在此不作深入討論。 ② 在聚類分析中,有時所用的距離并不滿足第三條,我們在廣義的角度上仍稱它為距離。 ③ 可以利用不等式的縮放技術(shù)進行證明。 第 頁 4 1 / 2221()p ik jkij k kxxd ?????? ????? 其中, 2k? 為第 k 個指標的方差。 3. Mahalanobis距離 ① ? ? ? ?21()ij i j i jd M x x x x??? ? ? ? 其中, ? 為 p 個指標的協(xié)方差矩陣。實際應用中,若 2k? 與 ? 未知,可用觀測數(shù)據(jù)對其估計,一般用 2?k? 和樣本協(xié)方差陣 S 作為其估計。 4. 蘭氏( LanceWilliams)距離 11() p ik jkijk ik jkxxdL p x x??? ?? NOTE:此距離僅適用于一切 0ijx?的情況,該距離有助于克服各指標之間量綱的影響,但沒有考慮指標之間的相關(guān)性。 用聚類分析解決實際問題時,選用何種距離是十分重要的,這通常要結(jié)合有關(guān)專業(yè)的實際背景而定。距離的定義有很大的靈活性,有時可根據(jù)實際問題定義新的距離。 二、 變量間的“關(guān)聯(lián)性”度量 —— 相似系數(shù) 當對 p 個指標(或變量)進行聚類時,用相似系數(shù)衡量變量間的關(guān)聯(lián)程度。 定義: 一般地,稱 ijC 為變量 iX 和 jX 之間的相關(guān)系數(shù),如果對一切的 1,i j p??滿足: ① 1ijC?; ② 1iiC? ; ③ ij jiCC? 。 ijC 越接近于 1,說明變量 iX 和 jX 之間的關(guān)系越密切。設(shè) ? ?12, , ,i i nix x x ? 表示對變量 ( 1, , )iX i p? 的 n 個觀測值,常用的相似系數(shù)有: 1.夾角余弦(向量內(nèi)積) 12211( 1 ) c o s , 1 , 2 , ,nk i k jkij ij nnk i k jkkxxC i j pxx? ???? ? ???? NOTE:①若將變量 iX 的 n 個觀測值 ? ?12, , ,i i i niX x x x ?? 和變量 jX 的n 個觀測值 ? ?12, , ,j j njx x x ? 看成 n 維空間中的兩個向量, (1)ijC 正好是這兩個向量夾角的余弦,這個統(tǒng)計量在圖像識別中非常有用; ② 當 (1) 1ijC ? 時,說明完全相似 ; 當 (1) 0ijC ? 時,說明完全不一樣。 2.相關(guān)系數(shù)(相似系數(shù)) 從統(tǒng)計角度看,兩個隨機變量的相關(guān)系數(shù)是描述這兩個變量關(guān)聯(lián)性(線性關(guān)系)強弱的一個很有用的特征數(shù)字。因此,用任意兩個變量的 n個觀測值對其相關(guān)系數(shù)的估計可作為兩個變量關(guān)聯(lián)性的一種度量。其定義為 ? ? ? ?? ? ? ?12211( 2 ) , 1 , 2 , ,nk i i k j jkij ij nnk i i k j jkkx x x xC r i j px x x x?????? ? ?????? 其中,11 pi kikxxp ?? ?,11 pj kjkxxp ?? ?。 ① 由印度統(tǒng)計學家馬哈拉諾比斯于 1936 年引入。 A B C D 第 頁 5 NOTE:① ( , 1, 2, , )ijr i j p?其實就是 ? ?12, , , pX X X X ??的樣本相關(guān)矩陣中的各元素; ②ijr就是零均值化后向量的夾角余弦; ③如果將原始數(shù)據(jù)標準化,則 0ix? 且 0jx?,這時有 cosij ijr ??。 3.同號率 ( 3 ) , 1 , 2 , ,ij nnC i j p?????? 其中, n? 為指標 iX 和jX之間相應各分量取同號的個數(shù); n? 為指標 iX 和jX之間相應各分量取異號的 個數(shù) 。 第 頁 6 167。 3 譜系聚類法 (系統(tǒng)聚類) 譜系聚類法是目前應用較為廣泛的一種聚類方法。有關(guān)該方法的研究內(nèi)容相當豐富,而且許多統(tǒng)計軟件(如 SPSS、 STATISTICA、 SAS)中都有專門的程序。譜系聚類法是根據(jù)古老的植物分類學的思想對研究對象進行分類的一種方法。我們知道,在植物分類學中,分類的單位:門、綱、目、科、屬、種,其中種是分類的基本單位。分類單位越小它所包含的植物種類就越少,植物間的共同特征就越多。利用這種分類思想,譜系聚類法首先視各樣品(或變量)自成一類,然后把最相似的樣品(或變量)聚為 小類,再將已聚合的小類按其相似性再聚合,隨著相似性的減弱,最后將一切子類都聚合到一個大類,從而得到一個按相似性大小聚結(jié)起來的一個譜系關(guān)系。 在譜系聚類法的合并過程中要涉及到兩個類之間的距離(或相似系數(shù))問題。類與類之間的距離有許多定義方式,不同的定義方式就產(chǎn)生了不同的譜系聚類法。本節(jié)中,我們首先引進八種類與類之間的距離,然后再詳細介紹譜系聚類法。 一、 類與類之間的距離 我們先就樣品聚類的情形予以討論,并為簡單起見,以 i,j等分別表示樣品 ,ijxx,以 ijd 簡記樣品 i與 j之間的距離 ? ?,ijd x x, 用 pG 和 qG 表示兩個類,它們所包含的樣品個數(shù)分別記為 pn 和 qn ,類 pG 與 qG 之間的距離用 ? ?,pqDG G表示。 下面給出 八 種最常用的類與類之間距離的定義。 1. 最短距離法 ( 1)定義類 pG 與 qG 之間的距離為兩類中所有樣品之間距離最小者 ? ?m i n m i n | ,ipjqp q ij ij i p j qxGD d d x G x G??? ? ? ? 最短距離法就是以 pqD 為準則進行聚類的方法。 NOTE:類與類之間的最短距離有如下的遞推公式,設(shè) rG 為由 pG 與 qG 合并所得,則 rG 與其它類( , )kG k pq? 的最短距離為 ? ? ? ? ? ?? ?( , ) m i n | , m i n m i n |
點擊復制文檔內(nèi)容
研究報告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1