freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

sas系統(tǒng)和數(shù)據(jù)分析聚類(lèi)分析-展示頁(yè)

2024-08-31 17:31本頁(yè)面
  

【正文】 2/))(/1)(/1(),(* () ③ Wong混合法 Wong混合法初始聚類(lèi)時(shí)采用 k 最近鄰估計(jì)法,得到初始分類(lèi) pG 、 qG 和 mG ,也可從輸入數(shù)據(jù)集得到類(lèi)的均值 px 、 qx 和 mx ,樣品數(shù) p 、 q 和 m ??紤]以點(diǎn) x 為中心 r 為半徑的封閉球,在 x 點(diǎn)的密度估計(jì)函數(shù) )(xf 等于球內(nèi)的觀察數(shù)目除以球的體積 的 所得比值。這樣,新的非相似測(cè)度距離 *d 為: 否則如果 ))(),(m a x(),(2/))(/1)(/1(),(* jkikjijiji xrxrxxdxfxfxxd ???? ? ?? () k 最近鄰估計(jì)法適用于樣品數(shù)目較多且密度較高的類(lèi)。令 )(xrk 為點(diǎn) x 到第 k 個(gè)最近觀察的距離。包括兩個(gè)步驟: 第一步, 使用一種基于密度估計(jì)的新的非相似測(cè)度 *d 來(lái)計(jì)算樣品 ix 和 jx 的近鄰關(guān)系; 第二步, 根據(jù)基于 *d 方法計(jì)算的距離,采用最小距離法進(jìn)行聚類(lèi)。 ( 6) 密度估計(jì)法: 密度估計(jì)法是一類(lèi)使用非參數(shù)概率密度的聚類(lèi)方法。 Ward方法對(duì)異常值也很敏感( Milligan , 1980)。所以, Ward 方法趨向于合并 具有少量觀察的類(lèi),并傾向于形成具有大約相同數(shù)目觀察的類(lèi)。合并后增加的最小方差 ? ?qpDw , 除以合并后總的離差平 方和 TS 的比值(即半偏 2R )的統(tǒng)計(jì)意義是容易解釋的。用離差平方和法定義 pG 和 qG 之間的距離為兩個(gè)類(lèi)對(duì)所有變量的 ANOVA平方和,即 : qpqpw DDDqpD ??? ?),( () 可以證明 , 這種定義是有意義的,并且 : 上海財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息管理系 IS/SHUFE Page 6 of 62 ? ? ? ?qpqpqpqp xxxxqp pqDDD ???????? () 那么 : ? ? ? ? ? ?qpqpw xxxxqp pqqpD ?????, () 如果樣品間的距離采用歐氏距離,上式可表 示 為 : ? ? ? ?qpDqp pqqpD w , ?? () 這表明, ? ?qpDw , 與重心法的距離(式 ) ? ?qpD , 只差一個(gè)常數(shù) )/( qppq ? 倍,這個(gè)倍數(shù)顯然與這兩類(lèi)的樣品數(shù) p 和 q 有關(guān)。類(lèi)平均距離法首先由 Sokal和 Michener( 1958)提出。類(lèi)平均距離法趨向于合并具有較小偏差的類(lèi),而且稍微有點(diǎn)傾向 于產(chǎn)生相同方差的類(lèi)。重心法由 Sokal和 Michener( 1958)提出。 ( 3) 重心法距離: ? ? ? ? ? ?qpqp xxxxqpD ????, () 類(lèi)與類(lèi)之間 的 距離定義為兩個(gè)重心或均值 px 和 qx 之間歐氏距離的平方。例如,圖 中的( a)形式的類(lèi)。 上海財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息管理系 IS/SHUFE Page 5 of 62 ( 2) 最長(zhǎng)距離: ? ? ? ?qpjk GkGjdqpD ??? ,m a x, () 類(lèi)與類(lèi)之間 的 距離定義為 pG 和 qG 中最遠(yuǎn)的兩個(gè)樣品的距離。它不對(duì)類(lèi)的形狀加以限制,保證了對(duì)拉長(zhǎng)和不規(guī)則類(lèi)的檢測(cè),例如,圖 ( b)、( c)、( e)( d)形式的類(lèi)。下面給出一些常用的類(lèi)與類(lèi)之間 的 距離定義,用? ?qpD , 表示: ( 1) 最短距離: ? ? ? ?qpjk GkGjdqpD ??? ,m i n, () 類(lèi)與類(lèi)之間距離定義為 pG 和 qG 中 最鄰近的兩個(gè)樣品的距離。由于類(lèi)的形狀是多種多樣的, 因此, 類(lèi)與類(lèi)之間的距離也有多種計(jì)算方法。常用的特征有如下三種: ( 1) 均值 Gx (或稱為 G 的重心): ??? mi iG xmx 11 () ( 2) 樣品協(xié)方差陣: ? ?? ?GGmiGiGiGAmSxxxxA111?????? ?? () ( 3) G 的直徑。此外,凡符合定義 2 的類(lèi),也一定是定義 3 的類(lèi)。 定義 3 T 為一給定的閾值,如果對(duì)任意一個(gè) Gi? ,一定存在 ,Gj? 使得 ,Tdij? 則稱 G 為一個(gè)類(lèi)。 定義 1 T 為一給定的閾值,如果對(duì)任意的 Gji ?, ,有 Tdij? ( ijd 為 i 和 j 的距離 ),則稱 G 為一個(gè)類(lèi)。下面給出類(lèi)的幾個(gè)定義,不同的定義適用于不同的場(chǎng)合。 圖 表現(xiàn) 的 是五種不同類(lèi)型的類(lèi)。另外,還有其他一些定義相似系數(shù)的方法。 借助于相似系數(shù),可以定義變量之間的距離。常用的相似系數(shù)有: ( 1) 夾角余弦 夾角余弦作為變量間的相似關(guān)系,它忽視各變量的絕對(duì)長(zhǎng)度,著重從形狀方面反映它們之間的關(guān)系。 2. 相似系數(shù) 聚類(lèi)分析有時(shí)也需要對(duì)變量進(jìn)行聚類(lèi)。 最常用的距離有歐幾里德距離、閔可夫斯基和馬氏距離: ( 1) 歐幾 里德( Euclid)距離: ? ? 2112 ???????? ?? ??pk jkikijxxd () ( 2) 閔可夫斯基( Minkowski)距離: gpkgjkikij xxd11 ???????? ?? ?? () g 一般為 1 或 2,如果 g=1 時(shí)也稱之為絕對(duì)值距離, g=2 時(shí)即為歐幾里德距離。 1. 距離 設(shè)有 n 組 樣品,每組樣品有 p 個(gè)變量, n 組樣品數(shù)據(jù)如表 所示 。距離一般用于對(duì)樣品分類(lèi)。 聚類(lèi)根據(jù)實(shí)際的需要有兩個(gè)方向,一是對(duì)樣品的聚類(lèi),一是對(duì)變量的聚類(lèi)。 一、 距離和相似系數(shù) 什么是“類(lèi)”呢?粗略地說(shuō),相似物體的集合稱作類(lèi);聚類(lèi)分析的目的就是把相似的東西歸類(lèi)。因此 , 盡管聚類(lèi)方法有很多種,但不管哪一種都不能說(shuō)得到的分類(lèi)是準(zhǔn)確的。關(guān)于聚類(lèi)分析的任何通則必定是含糊的、不明確的,因?yàn)樵诒姸嗟母鞣N不同領(lǐng)域里聚類(lèi)方法已經(jīng) 得到發(fā)展 ,類(lèi)和對(duì)象間的相似性具有不同定義。 聚類(lèi)分析把分類(lèi)對(duì)象按一定規(guī)則分成組或類(lèi),這些組或類(lèi)不是事先給定的而是根據(jù)數(shù)據(jù)特征而 定的。在判別分析中必須事先知道各種判別的類(lèi)型和數(shù)目,并且要有一批來(lái)自各判別類(lèi)型的樣本,才能建立判別函數(shù)來(lái)對(duì)未知屬性的樣本進(jìn)行判別和歸類(lèi)。上海財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息管理系 IS/SHUFE Page 1 of 62 第三十九課 聚類(lèi)分析 聚類(lèi)分析是多元統(tǒng)計(jì)分析中研究“物以類(lèi)聚”的一種方法,用于對(duì)事物的類(lèi)別面貌尚不清楚,甚至在事前連總共有幾類(lèi)都不能確定的情況下進(jìn)行分類(lèi)的場(chǎng)合。 聚類(lèi)分析 的 主要目的是研究事物的分類(lèi),而不同于判別分析。若對(duì)一批樣品劃分的類(lèi)型和分類(lèi)的數(shù)目事先并不知道,這時(shí)對(duì)數(shù)據(jù)的分類(lèi)就需借助聚類(lèi)分析方法來(lái)解決。在一個(gè)給定的類(lèi)里的這些對(duì)象在某種意義上傾向于彼此相似,而在不同類(lèi)里的這些對(duì)象傾向于不相似。各種聚類(lèi)分析方法通過(guò)用于聚類(lèi)分析的各種各樣的領(lǐng)域反映出來(lái)。 下面我們介紹聚類(lèi)分析中常用的一些方法。其次“相似”是什么含意 ?怎樣度量“相似”?我們必須給出度量“相似”的統(tǒng)計(jì)指標(biāo)。相應(yīng)的聚類(lèi)統(tǒng)計(jì)量有兩類(lèi):一種統(tǒng)計(jì)指標(biāo)是類(lèi)與類(lèi)之間 的 距離,它是把每一個(gè)樣品看成高維空間中的一個(gè)點(diǎn),類(lèi)與類(lèi)之間用某種原則規(guī)定它們的距離,將距離近的點(diǎn)聚合成一類(lèi),距離遠(yuǎn)的點(diǎn)聚合成另一類(lèi)。 另一種是相似系數(shù),根據(jù)這個(gè)統(tǒng)計(jì)指標(biāo)將比較相似的變量歸為一類(lèi),而把不怎么相似的變量歸為另一類(lèi),用它可以把變量的親疏關(guān)系直觀地表示出來(lái)。 表 p 個(gè)變量的 n 組樣品數(shù)據(jù) 樣品號(hào) 變量 1 2 ? n 1X 2X ? pX 11x 21x ? 1nx 12x 22x ? 2nx ? ? ? ? px1 px2 ? npx 上海財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息管理系 IS/SHUFE Page 2 of 62 第 i 個(gè)與第 j 個(gè)樣品之間 的 距離用 ijd 表示, ijd 一般應(yīng)滿足下面的條件: ? 0?ijd 當(dāng)?shù)?i 個(gè)樣品與第 j 個(gè)樣品相等; ? 0?ijd 對(duì)一切 i, j; ? jiij dd ? 對(duì)一切 i, j; ? kjikij ddd ?? 對(duì)一切對(duì)一切 i, j , k。 ( 3) 馬氏( Mathalanobis) 距離 : )()( 1 jijiij xxSxxd ???? ? () 其中 , ix 為第 i 個(gè)樣品的 p 個(gè)元素組成的向量, jx 為 第 j 個(gè)樣品的 p個(gè)元素組成的向量,1?S 為 n 個(gè)樣品的 pp? 的協(xié)方差矩陣的逆矩陣。在對(duì)變量進(jìn)行聚類(lèi)時(shí),也可以定義變量間的距離,通常使用變量間的相似系數(shù)。記變量 ix 與 jx 的夾角余弦為 ijc ,其中 pji ?,2,1, ? ,則有 : 2112121?????????????nkjknkiknkjkikijxxxxc () 上海財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息管理系 IS/SHUFE Page 3 of 62 ( 2) 相關(guān)系數(shù) 變量 ix 與 jx 的相關(guān)系數(shù)為 : 211 1221)()())((?????? ?????? ??? ??nknkjjkiiknkjjkiikijxxxxxxxxr () ix 表示第 i 個(gè)指標(biāo)的平均值。例如,采用非相似測(cè)度距離為 21 ijij cd ?? ,或 21 ijij rd ?? 。 二、 類(lèi)的特征和類(lèi)與類(lèi)之間距離及統(tǒng)計(jì)量 我們的目的是聚類(lèi),那么什么叫類(lèi)呢 ?由于客觀事物的千差萬(wàn)別,在不同的問(wèn)題中類(lèi)的含義是不盡相同的。 圖 各種形式的類(lèi) 試 圖給類(lèi)一個(gè)嚴(yán)格的定義,絕非一件簡(jiǎn)單的事。用 G 表示類(lèi),假設(shè) G 中有 k 個(gè)元素,用 i 、 j 表示 G 中第 i 、 j 個(gè)因素。 定義 2 T為一給定的閾值,如果對(duì)每個(gè) Gi? ,有 ∑∈11Gj ij Tdk ?,則稱 G為一個(gè)類(lèi)。 易見(jiàn),定義 1 的要求是最高的,凡符合它 的類(lèi),一定也是后兩種定義的類(lèi)。 上海財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息管理系 IS/SHUFE Page 4 of 62 1. 類(lèi)的特征 現(xiàn)在類(lèi) G 的元素用 mxx ,1 ? 表示, m 為 G 內(nèi)的樣品數(shù),可以從不同的角度來(lái)刻畫(huà) G 的特征。它有多種定義,例如: ? ? ? ? ? ?Gmi GiGiG AtrxxxxD ????? ?? 1 () ijGjiG dD ?? ,max () 2. 類(lèi)的距離 在聚類(lèi)分析中,不僅要考慮各個(gè)類(lèi)的特征,而且還要計(jì)算類(lèi)與類(lèi)之間的距離。令 pG 和 qG 中 分別有 p 和q 個(gè)樣品,它們的重心分別記為 px 和 qx 。最短距離法有許多理想的理論性質(zhì),但在蒙特卡洛( Monto Carlo)模擬研究中( Milligan, 1980)進(jìn)行得很不順利。但它卻犧牲了恢復(fù)壓縮類(lèi)的性能,另外 , 它也趨向于在分開(kāi)主要類(lèi)之前去掉分布的尾部( Hartigan, 1981)。最長(zhǎng)距離法嚴(yán)重地傾向于產(chǎn)生直徑粗略相等的類(lèi),而且可能被異常值嚴(yán)重地扭曲。最長(zhǎng)距離法由 Sorensen( 1948)提出。重心法在處理異常值上比其他譜系方法更穩(wěn)健,但是 在其他方 面 便不如 Ward 或類(lèi)平均距離法的效果好( Milligan 1980)。 ( 4) 類(lèi)平均距離 : ? ? ? ?? ??p qGi GjijdpqqpD 1, () 類(lèi)與類(lèi)之間 的 距離定義為 pG 和 qG 中所有兩個(gè)樣品對(duì)之間距離的平均。例如, 圖 中的( a)形式的類(lèi)。 ( 5) Ward 最小方差法或 Ward 離差平方和距離: 若采用直徑( 式 )的定義方法,用 pD 、 qD 分別表示 pG 和 qG 的直徑,用 qpD? 表示大類(lèi) qp DD ? 的直徑,則 : ? ? ? ??? ????pGipipip xxxxD, ? ? ? ??? ????qGiqjqjq xxxxD () ? ? ? ???? ????qp GGiiiqp xxxxD ? () 其中 , ???? qp GGi ixqpx ?1 。 Ward離差平方和距離 法在每次合并 pG 類(lèi)和 qG 類(lèi)為 qpG? 類(lèi)時(shí),總是選擇這樣兩個(gè) pG 類(lèi)和 qG 類(lèi),使它們合并成 qpG? 類(lèi)后的 ? ?qpDw , 值最小,故也稱為 Ward 最小方差法。 Ward 最小方差法一般是在多元正態(tài)混合型、等球形協(xié)方差、等抽樣概率假設(shè)下合并類(lèi)。例如, 圖 ( a)形式的類(lèi)。最小方差法或離差平方和由 Ward( 1963)提出。例 如, 圖 中的( b)形式的類(lèi)。有三種不同的密度估計(jì)法: ① k 最近鄰估計(jì)法 k 最近鄰估計(jì)法( Wong和 Lane , 1983)使用 k 最近鄰密度估計(jì)來(lái)計(jì)算距離??紤]以點(diǎn) x 為中心 )(xrk 為半徑的封閉球,在 x 點(diǎn)的密度估計(jì)函數(shù) )(xf 等于球內(nèi)的觀察數(shù) 目除以球的體積所得比值。 ② 均勻核估計(jì)法 上海財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息管理系 IS/SHUFE Page 7 of 62 均勻核估計(jì)使用了均勻核密度估計(jì)來(lái)計(jì)算
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1