freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

sas系統(tǒng)和數(shù)據(jù)分析聚類分析-文庫(kù)吧

2025-07-16 17:31 本頁(yè)面


【正文】 ) ③ Wong混合法 Wong混合法初始聚類時(shí)采用 k 最近鄰估計(jì)法,得到初始分類 pG 、 qG 和 mG ,也可從輸入數(shù)據(jù)集得到類的均值 px 、 qx 和 mx ,樣品數(shù) p 、 q 和 m 。判斷這三個(gè)初始分類中某 兩 個(gè)初始分類是近鄰的標(biāo)準(zhǔn)為:(假設(shè)判斷類 pG 和 qG ) ),(),(),( 222 mqmpqp xxdxxdxxd ?? () 那么,新的非相似測(cè)度距離 *d 為 : 否則是近鄰和如果 qPv vqpqpqpGGqp xxdqpDDxxd??????????? ? 2/12/2* )()4/),()((),( () 其中, pD 和 qD 是初始分類 pG 和 qG 的直徑,計(jì)算公式見式 ()。 v 為觀察樣品的變量維數(shù)。 Wong混合法適用于大的數(shù)據(jù)集而不適用于小的數(shù)據(jù)集。 ( 7) 兩階段密度估計(jì)法: 兩階段密度估計(jì)法是 SAS 研究所的 發(fā)展的。使用密度估計(jì)法時(shí),眾數(shù)類( modal clusters)經(jīng)常在尾部所有點(diǎn)聚類之前就已經(jīng)被合并掉了。兩階段密度估計(jì)法對(duì)密度估計(jì)法這一缺點(diǎn)進(jìn)行了修正,以確保眾數(shù)類被合并之前,所有點(diǎn)能被分配到眾數(shù)類中去。同樣,兩階段密度估計(jì)法支持密度估計(jì)法的三種形式: k 最近鄰估計(jì)法、均勻核 估計(jì)和 Wong 混合法。兩階段密度估計(jì)法的兩階段是指: 在第一階段中,互不相交的眾數(shù)類被生成。密度估計(jì)法中的類合并使用與最短距離算法相同的合并方法。但有一個(gè)例外,只有在兩個(gè)類中至少有一個(gè)類中的樣品個(gè)數(shù)少于 proc cluster過(guò)程的選項(xiàng) mode=值時(shí)才能合并。在第一階段結(jié)束時(shí)每個(gè)樣品點(diǎn)屬于一個(gè)眾數(shù)類。 在第二階段中,把第一階段中形成的眾數(shù)類再按最短距離法譜系地(某一類能夠完全地包含在別的類里,但在類之間不允許其他形式的重迭)合并。 ( 8) 最大似然估計(jì)法: 最大似然估計(jì)法 EML 是 SAS 研究所的 發(fā)展 Symans( 1981)對(duì)不相交的類的研究,由最大似然公式得到。類 pG 和類 qG 合并成類 mG , pG 和 qG 兩類之間的距離公式為: 上海財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息管理系 IS/SHUFE Page 8 of 62 )l n ()l n ())l n ((2)/),(1l n (),( qqppmmDqpDnvxxd iwqp ????? ? () 其中, n 為觀察總數(shù), v 為觀察樣品的變量維數(shù), ? ?qpDw , 為公式 (), ?iD 為在譜系的第 G 層對(duì) G 個(gè)類的直徑求和。最大似然估計(jì)法是在三個(gè)基本假設(shè):多元正態(tài)混合分布、等球面協(xié)方差和不等抽樣概率的前提下,使得在譜系的每個(gè)水平上似然值最大。 EML 除了偏向于生成不等大小的類外,與 Ward 最小方差法很相似。 proc cluster 過(guò)程的偏度選項(xiàng) penalty=p 值可用于調(diào) 整偏向的程度。修正公式為對(duì)式 ()中的 2 改為 p 值。 3. 類的各種統(tǒng)計(jì)量 ( 1) 類 pG 的均方根標(biāo)準(zhǔn)差 ))1(/( ?? pvDR M S S T D G () 其中, GD 為類 pG 的直徑,定義見式 (),即類內(nèi)的離差平方和。把一個(gè)類的離差平方和定義為直徑是非常形象化的,例如,如果一個(gè)類的離差平方和等于 0,那么類內(nèi)的所有點(diǎn)都集中在一個(gè)點(diǎn)上,所以類的直徑為 0;如果一個(gè)類的離差平方 和逐漸變大,那么類內(nèi)的所有點(diǎn)就越來(lái)越分散,包含所有點(diǎn)的一個(gè)圓或球就會(huì)越來(lái)越大,相應(yīng)地這個(gè)圓或球的直徑就越來(lái)越大。 v 為觀察樣品的變量維數(shù), p 為類 pG 中的觀察數(shù)目。 ( 2) 2R 統(tǒng)計(jì)量 T S SDR i /12 ??? () 其中, ?iD 為在譜系的第 G 層對(duì) G 個(gè)類的直徑求和, TS 為所有觀察的總離差平方和。一般來(lái)說(shuō), 2R 統(tǒng)計(jì)量用于評(píng)價(jià)每次合并成 G 個(gè)類時(shí)的聚類效果。當(dāng) TSSDi /? 值越?。ㄒ布?2R 統(tǒng)計(jì)量越大,越接近 1),表示類內(nèi)離差平方和 ?iD 在總離差平方和 TS 中所占的比例越小,說(shuō)明了這 G 個(gè)類越分開,故聚類效果越好。 2R 的值總是在 0 和 1 之間,當(dāng) n 個(gè)樣品各自為一類時(shí), 12?R ,說(shuō)明類被完全分開;當(dāng) n 個(gè)樣品最后合并成一類時(shí), 02?R ,說(shuō)明類被完全混合在一起了,分不清楚了。而且 2R的值總是隨著分類個(gè)數(shù)的減少而變小。那么如何根據(jù) 2R 的值來(lái)確定 n 個(gè)樣品應(yīng)分為幾類最合適呢?首先,最合適分類的 2R 的值不能太小,最好能達(dá)到 ;其次,不能孤立地看合并后 2R 值的大小,應(yīng)該看 2R 值的變化。類的合并總是使 2R 值 變小,如果這種變小是均勻的,合并是應(yīng)該的,但當(dāng)某次合并使 2R 值減少很多,這次合并就不應(yīng)該,即我們找到了最合適的上海財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息管理系 IS/SHUFE Page 9 of 62 分類數(shù)。例如,從 10 類合并到 5 類時(shí), 2R 值每次減少大約在 到 之間, 2R 值減小到 ,從 5 類合并到 4 類時(shí), 2R 值減少了 ,即 2R =- =,這時(shí),我們就可以得出 分 5 類是最合適的。 ( 3) 半偏 2R 統(tǒng)計(jì)量 合并類 pG 和類 qG 為類 mG 時(shí),可以用半偏 2R 統(tǒng)計(jì)量評(píng)價(jià)這次合并的效果,半偏( Semipartial) 2R 計(jì)算公式為 : T S SqpDR w /),(2 ?半偏 () 其中, ),( qpDw 的計(jì)算公式見式 (),表示合并類 pG 和類 qG 為新類 mG 后,類內(nèi)離差平方和的增量。顯然,半偏 2R 值 =上次合并后 2R 值-這次合并后 2R 值,例如,以上例的數(shù)據(jù)為例,合并到 4 類時(shí)的半偏 2R 值 =。故這次 合并后的半偏 2R 值越大,說(shuō)明上次合并后停止合并的效果最好。 ( 4) 偽 F 統(tǒng)計(jì)量 ? ? ? ????? )/( )1/()())(),1(( GnD GDT SSGnvGvF i i偽 () 其中, G 為聚類的個(gè)數(shù), n 為觀察總數(shù), v 為觀察樣品的變量維數(shù)。自由度為 )1( ?Gv 和)( Gnv ? 。在給定顯著水平上該偽( pseduo) F 統(tǒng)計(jì)量用于評(píng)價(jià)分為 G 個(gè)聚類的效果。偽 F值越大越表示這些觀察可顯著地分為 G 個(gè)類。 ( 5) 偽 2t 統(tǒng)計(jì)量 )2/()())2(,(2 ??? ????? qpDD DDDqpvvt qp qpm偽 () 該統(tǒng)計(jì)量用以評(píng)價(jià)合并類 pG 和類 qG 的效果。該值很大說(shuō)明合并類 pG 和類 qG 為類 mG后,使得離差平方和的增加量( qpm DDD ?? )相對(duì)于原來(lái) pG 和 qG 兩類的類內(nèi)離差平方和很大。這表明上一次合并的兩個(gè)類 pG 和 qG 是很分開的,也就是說(shuō)上一次聚類的效果是很好的。否則,這兩個(gè)類應(yīng)該在再合并時(shí)的離差平方和的增加量很小。 上面的兩個(gè)偽 F 和偽 2t 統(tǒng)計(jì)量都可以作為確定類個(gè)數(shù)的有用指標(biāo),但是它們不是真正具上海財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息管理系 IS/SHUFE Page 10 of 62 有像隨機(jī)變量一樣的 F 分布和 2t 分布。因?yàn)橹挥性谟^察數(shù)據(jù)來(lái)自具有標(biāo)量協(xié)方差矩陣的多元正態(tài)分布的獨(dú)立樣本,且聚類方法將觀察隨機(jī)分類的假設(shè)前提下,偽 F 和偽 2t 統(tǒng)計(jì)量才具有真正的 F 分布和 2t 分布。而上述的兩個(gè)假設(shè)前提在實(shí)際應(yīng)用中是很難 達(dá) 到的,故稱這兩個(gè)統(tǒng)計(jì)量為偽統(tǒng)計(jì)量。 4. 類的個(gè)數(shù) 對(duì)于 確定各種形式的聚類分析總體中的類的個(gè)數(shù)問(wèn)題,至今 未找 到 令人 滿意的方法。在聚類過(guò)程中到底把分類對(duì)象分成多少類適宜是一個(gè)十分困難的問(wèn)題。一般情況下,是看每個(gè)變量的 2R 值及 所有變量的累積 2R 值,觀察這些 2R 值與聚類個(gè)數(shù)所畫的折線圖形對(duì)判斷分成幾類是有幫助的。 檢查數(shù)據(jù)的散點(diǎn)圖對(duì)于確定聚類的個(gè)數(shù)也是一個(gè)很好的主意。對(duì)于觀察數(shù)據(jù)只有二維或三維變量,使用 proc plot 或 proc gplot 過(guò)程來(lái)畫二維數(shù)據(jù)的散點(diǎn)圖,使用 proc g3d 過(guò)程來(lái)畫三維數(shù)據(jù)的散點(diǎn)圖。對(duì)于更多維數(shù)( 3)的變量數(shù)據(jù),首先使用 proc candisc 典型判別分析過(guò)程對(duì)原始變量進(jìn)行降維,計(jì)算出典型變量 can can can3 等。一般情況下, 3 個(gè)或 3 個(gè)以內(nèi)的典型變量就已經(jīng)能很好地概括原始數(shù)據(jù)的變異了。然后,對(duì)這些典型變量作散點(diǎn)圖。 通常的顯著性檢驗(yàn),比如方差分析的 F 檢驗(yàn),對(duì)于檢驗(yàn)類之間的差異是無(wú)效的。 Arnold( 1979)使用模擬的方法導(dǎo)出了有關(guān)確定類的個(gè)數(shù)準(zhǔn)則的有用信息。 Sarle( 1983)在應(yīng)用廣泛的模擬基礎(chǔ)上,發(fā)展提出立方聚類準(zhǔn)則 CCC( Cubic Clustering Criterion)。這個(gè)準(zhǔn)則可以用于原始的假設(shè)檢驗(yàn)及估計(jì)總體分類的數(shù)目。 CCC 是基于這樣的假設(shè):在超 矩形上的均勻分布將粗略地被分為形狀像超正方體一樣的類。如果在大樣本時(shí)有可能分成合適數(shù)目的超正方體,那么這個(gè)假設(shè)將給出很準(zhǔn)確的結(jié)果。但在其他情況下, CCC 將給出比較保守的結(jié)果。 Milligan( 1984)和 Cooper( 1985)使用 4 種譜系聚類方法比較了 30 種不同總體類型的聚類個(gè)數(shù)確定。在對(duì)樣本數(shù)據(jù)的模擬研究中,找出了以下三個(gè)最好的準(zhǔn)則: ① 偽 F 統(tǒng)計(jì)量;② 偽 2t 統(tǒng) 計(jì)量; ③ 立方聚類準(zhǔn)則 CCC。在 cluster 過(guò)程中這三個(gè)準(zhǔn)則都被應(yīng)用和輸出,而在fastclus 過(guò)程中僅偽 F 統(tǒng)計(jì)量和 CCC 統(tǒng)計(jì)量被應(yīng)用和輸出。我們建議尋找這三種統(tǒng)計(jì)量之間的一致性,即 CCC 統(tǒng)計(jì)量和 F 統(tǒng)計(jì)量的局部峰值所對(duì)應(yīng)的聚類數(shù),與這個(gè)聚類數(shù)偽 2t 統(tǒng)計(jì)量的一個(gè)較小值和下一個(gè)聚類數(shù)的一個(gè)較大偽 2t 統(tǒng)計(jì)量相吻合。 還必須強(qiáng)調(diào)這些準(zhǔn)則僅僅適用于緊湊的或略微拉長(zhǎng)的類,也較好地適合于略微正態(tài)分布的類。 或許,研究類的個(gè)數(shù)的最好方法是 Wong等人在 1983年提供的 k 最近鄰估計(jì)法同變化的k 值一起被應(yīng)用的方法。如果 k 值在一個(gè)很寬的范圍內(nèi)所得到的聚類估計(jì)數(shù)都是常數(shù),則這個(gè)常數(shù)是一個(gè)很好的聚類數(shù)結(jié)論。通常應(yīng)該畫出聚類估計(jì)數(shù)對(duì) k 值的圖形,這樣還可能從圖形中獲得很 多 的 有用信息。 三、 聚類方法 1. 系統(tǒng)聚類法 上海財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息管理系 IS/SHUFE Page 11 of 62 系統(tǒng)聚類法 ( Hierarchical clustering method) 是目前使用最多的一種方法。其基本思想是首先將 n個(gè)樣品看成 n類(即一類包括一個(gè)樣品),然后規(guī)定樣品之間的距離和類與類之間的距離。將距離最近的兩類合并為一個(gè)新類,在計(jì)算新類和其他類之間的距離,再?gòu)闹姓页鲎罱膬深惡喜?,繼續(xù)下去,最后所有的樣品全在一類。將上述并類過(guò)程畫成聚類圖,便可以決定分多少類,每類各有什么樣品。 系統(tǒng)聚類法的步驟為: ① 首先各樣品自成一類,這樣對(duì) n 組樣品就相當(dāng)于有 n 類; ② 計(jì)算各類間的距離,將其中最近的兩類進(jìn)行合并; ③ 計(jì)算新類與其余各類的距離,再將距離最近的兩類合并; ④ 重復(fù)上述的步驟,直到所有的樣品都聚為一類時(shí)為止。下面我們以最短距離法為例來(lái)說(shuō)明系統(tǒng)聚類法的過(guò)程。最短距離法的聚類步驟如下: ① 規(guī)定樣品之間的距離,計(jì)算樣品的兩兩距離,距離矩陣記為 ??0S ,開始視每個(gè)樣品分別為一類,這時(shí)顯然應(yīng)有 pqdqpD ?),( ; ② 選擇距離矩陣 ??0S 中的最小元素,不失一般性,記其為 ),( qpD ,則將 pG 與 qG 合并為一新類,記為 mG ,有 qpm GGG ?? ; ③ 計(jì)算新類 mG 與其他各類 的距離,得到新的距離矩陣記為 ??1S ; ④ 對(duì) ??1S 重復(fù)開始進(jìn)行第 ② 步,?,直到所有樣本成為一類為止。 值得注意的是 , 在整個(gè)聚類的過(guò)程中,如果在某一步的距離矩陣中最小元素不止一個(gè)時(shí),則可以將其同時(shí)合并。 2. 動(dòng)態(tài)聚類法 開始將 n個(gè)樣品粗略地分成若干類,然后用某種最優(yōu)準(zhǔn)則進(jìn)行調(diào)整,一次又一次地調(diào)整,直至不能調(diào)整了為止。此法非常類似于計(jì)算方法的迭代法。 3. 分解法 它的程序正好和系統(tǒng)聚類相反,開始時(shí)所有的樣本都在一類 ,然后用某種最優(yōu)準(zhǔn)則將它分成兩類。再用同樣準(zhǔn)則將這兩類各自試圖分裂為兩類,從中選出一個(gè)使目標(biāo)函數(shù)較好者,這樣由兩類變成了三類。如此下去,一直分裂到每類只有一個(gè)樣品為止(或用其他停止規(guī)則)。 4. 加入法 將樣品依次輸入,每次輸入后將它放到當(dāng)前聚類圖的應(yīng)有位置上,全部輸入后,即得聚類圖。 四、 應(yīng)注意的幾個(gè)問(wèn)題 ? 判別分析和聚類分析是兩種不同的分類方法,它們所起的作用是不同的。判別分析方法假定類已事先分好,判別新樣品應(yīng)歸屬哪一類,對(duì)類的事先劃分常常通過(guò)聚類分析得到。聚類分析方法是按樣品的數(shù)據(jù)特征,把相似的樣品傾向于分在同一 類中,把不相似的樣品傾向干分在不同類中。 上海財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息管理系 IS/SHUFE Page 12 of 62 ? 聚類的幾種類型:不相交聚類、譜系聚類、重迭聚類、模糊聚類。 ? 通常測(cè)量變量有三種尺度:間隔尺度、有序尺度和名義尺度,其中間隔尺度使用得最多,本章主要討論這種尺度。 ? 距離和相似系數(shù)這兩個(gè)概念反映了樣品(或變量)之間的相似程度。相似程度越高,一般兩個(gè)樣品(或變量)間的距離就越小或相似系數(shù)的絕對(duì)值就越大;反之,相似程度越低,一般兩個(gè)樣品(或變量)間的距離就越大或相似系數(shù)的絕對(duì)值就越小。 ? 系統(tǒng)聚類法是最常用的一種聚類方法,常用的系統(tǒng)聚類方法有最短距離法、最長(zhǎng)距離法 、 中間距離法 、類平均法、重心法、 Ward 最小方差法、密度估計(jì)法、兩階段密度估計(jì)法、最大似然估計(jì)法、相似分析法和
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1