freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

多元統(tǒng)計分析聚類分析講義(文件)

2024-09-24 16:58 上一頁面

下一頁面
 

【正文】 較為廣泛的譜系聚類方法。如某班有 n個學(xué)生,根據(jù)每個學(xué)生的期末各科考試成績將該班學(xué)生分類(如分為優(yōu),良,中,差四類等)。下面分別介紹幾種常用的距離和相似系數(shù) ① 。 1. Minkowski距離 1/1( ) 0qp qij ik jkkd q x x q???? ? ?????? ( 1)當(dāng) 1q? 時,1(1)pij ik jkkd x x????為絕對距離; ( 2)當(dāng) 2q? 時, 1 / 221( 2 )pij ik jkkd x x??????????為 歐氏 距離; ( 3)當(dāng) q?? 時,1( ) m axij ik jkkpd x x??? ? ?為 Chebishov距離 ③ 。 ③ 可以利用不等式的縮放技術(shù)進行證明。 4. 蘭氏( LanceWilliams)距離 11() p ik jkijk ik jkxxdL p x x??? ?? NOTE:此距離僅適用于一切 0ijx?的情況,該距離有助于克服各指標之間量綱的影響,但沒有考慮指標之間的相關(guān)性。 定義: 一般地,稱 ijC 為變量 iX 和 jX 之間的相關(guān)系數(shù),如果對一切的 1,i j p??滿足: ① 1ijC?; ② 1iiC? ; ③ ij jiCC? 。因此,用任意兩個變量的 n個觀測值對其相關(guān)系數(shù)的估計可作為兩個變量關(guān)聯(lián)性的一種度量。 3.同號率 ( 3 ) , 1 , 2 , ,ij nnC i j p?????? 其中, n? 為指標 iX 和jX之間相應(yīng)各分量取同號的個數(shù); n? 為指標 iX 和jX之間相應(yīng)各分量取異號的 個數(shù) 。譜系聚類法是根據(jù)古老的植物分類學(xué)的思想對研究對象進行分類的一種方法。 在譜系聚類法的合并過程中要涉及到兩個類之間的距離(或相似系數(shù))問題。 下面給出 八 種最常用的類與類之間距離的定義。 213 1 3 21 2 300( 0 ) 00n n ndD d dd d d????????? STEP02:選擇 (0)D 中非對角線最小元素 ① ,不防設(shè)為 pq pqDd? ,于是將 pG 與 qG 類合并,記為 1n p qG G G? ? STEP03:計算新類 1nG? 與其它類 ? ?,kG k l m? 的距離 ? ? ? ? ? ?? ?1 , 1m i n | , m i n m i n | , , m i n | ,n k i j i n j k i j i p j k i j i q j kD d x G x G d x G x G d x G x G??? ? ? ? ? ? ? ? ? ?m in ( , ) , ( , )p k q kD G G D G G? 將 (0)D 中的第 ,pq行及 ,pq列用上面公式并成一個新行新列,得到的矩陣記為 (1)D 。 ( 3)例子: P71例 1。 ( 3)例子: P74續(xù) 例 1。 ( 3)例子: P76續(xù)例 1。則 ? ?1r p p q qrx n x n xn??。 ③ 每類的重心就是該類(組)樣本點的均值。 5.類平均距離法 ( 1)重心距離法雖然具有一定的代表性,但并未充分利用各樣品點所包括的距離信息,為此給出類平均距離法。 ( 1)定義距離:其距離的定義仍為221i p j qpq ijx G x GpqDdnn ??? ??。 7.可變距離法 ( 1) 由 可變類平均距離法可以得到一個特例,即令 12pqrrnn??,得到: ? ?2 2 2 21 2kr kp kq pqD D D D? ??? ? ? 其中 ? 是可變的,且 1?? 。 8.離差平方和法 該方法是 Ward提出,所以又稱 Ward方法。其含義為:把兩類合并增加的離差平方和,當(dāng)成是兩類之間距離的平方。它定義 類與類之間的相似系數(shù)(最小、最大、平均),并且按照最大的相似系數(shù)進行并類 ② 。 有了樣品之間的距離(或變量之間的相似系數(shù))以及類與類之間的距離定義后,便可以進行譜系聚類,其基本步驟歸納如下: STEP01: n 個樣品(變量)一開始就作為 n 個類,計算兩兩之間的距離(或相似系數(shù))構(gòu)成一個對稱矩陣 ? ?ij nnDd??,其對角線上的元素全為零(對相似系數(shù)矩陣,其對角線上元素全為 1)。在 (0)D 中劃去 pG 與 qG 所對應(yīng)的兩行和兩列,并加入由新類 ? ?,r p qG G G?與剩下的未聚合的各類之間的距離所組成的一行和一列,得到一個新的距離矩陣 (1)D , (1)D 是一個 1n? 階對稱陣(若在 (0)D 中最小元素不唯一,對其它最小元素也作如上相同處理,每合并兩類,矩陣 (0)D 則降低一階)。 第 頁 10 STEP03:由(1)D出發(fā),重復(fù)步驟 2得到對稱矩陣(2)D,從(2)D出發(fā)得到(2)D,依此類推,直到 n 個樣品(變量)聚為一個大類為止。 一、 教材中的案例 案例 1:為了更深入地了解我國人口的文化程度狀況,現(xiàn)利用 1990 年全國人口普查數(shù)據(jù)對全國 30 個省、直轄市、自治區(qū)進行聚類分析。 【作業(yè)】 T r e e D ia g r a m f o r 3 0 C a s e sW a r d ` s m e t h o dE u c lid e a n d is t a n c e s新 疆重 慶云 南廣 西寧 夏青 海海 南甘 肅陜 西貴 州江 西吉 林內(nèi)蒙古山 西河 南四 川湖 南安 徽黑龍江湖 北遼 寧河 北廣 東浙 江山 東江 蘇福 建天 津上 海北 京0500010000150002020025000300003500040000Linkage Distance圖 25 2020年系統(tǒng)聚類的結(jié)果 。 案例 2:根據(jù)信息基礎(chǔ)設(shè)施的發(fā)展?fàn)顩r,對世界 20個國家和地區(qū)進行分類 二、 課題研究中的 案例 案例 3: 區(qū)域產(chǎn)業(yè)結(jié)構(gòu)與區(qū)域消費結(jié)構(gòu)關(guān)聯(lián)問題研究 在實際應(yīng)用中,離差平方和法應(yīng)用比較廣泛,分類效果較好,但要求樣本之間的距離必須為歐氏距離。 第 頁 11 167。 ② 也可將相似系數(shù)轉(zhuǎn)化為距離,以維持距離越小,關(guān)系越密切的含義。記 (0)DD。但這些公式在 1967 年由蘭斯( Lance)和威廉姆斯( Williams)統(tǒng)一起來。 結(jié)論: ( 1) 各種聚類方法具有共同步驟 首先定義類與類之間的距離;其次找到類與新類之間距離的遞推公式; ( 2)以上類與類之間的
點擊復(fù)制文檔內(nèi)容
研究報告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1