freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

sas系統(tǒng)和數(shù)據(jù)分析聚類分析(留存版)

  

【正文】 AFGHANISTAN 52 30 ALGERIA 50 16 ? ? ? ZAIRE 45 18 。 name變量同 parent 變量聯(lián)合確定樹(shù)的結(jié)構(gòu)。 ? tickpos=n—— 指定在高度軸上每個(gè)刻度間隔打 印位置的個(gè)數(shù)。 ? out=輸出數(shù)據(jù)集 —— 輸出繪制樹(shù)形結(jié)構(gòu)圖的有關(guān)數(shù)據(jù)到指定數(shù)據(jù)集。 ( 2) 其他語(yǔ)句。 ? outtree=輸出數(shù)據(jù)集 —— 包含聚類過(guò)程的樹(shù)狀結(jié)構(gòu)信息,供 tree 過(guò)程調(diào)用。通過(guò)迭代,變量被重新分配到這些類里,使得由這些類分量所解釋的方差最大。 ( 2) 其他語(yǔ)句。 ② 有關(guān)控制聚類的初始中心點(diǎn)選項(xiàng): maxclusters=n(或 maxc=n) —— 指定所允許的最大聚類數(shù)(缺省值為 100)。該步可以一直進(jìn)行到類中的“凝聚點(diǎn)”的改變很小或?yàn)?0 時(shí)停止; ④ 最終的分類由分配每一個(gè)觀 察到最近的“凝聚點(diǎn)”而形成。 ? simple—— 打印簡(jiǎn)單統(tǒng)計(jì)數(shù)。如果數(shù)據(jù)是坐標(biāo)數(shù)據(jù),缺省值為變量的個(gè)數(shù);如果是距離 數(shù)據(jù),缺省值為 1。通過(guò)選項(xiàng) type=可以接受距離矩陣或非相似類型的距離。 SAS 軟件主要有以下 5 個(gè)聚類過(guò)程,即 cluster, fastclus, modeclus、 varclus 和 tree 過(guò)程。 ? 大多數(shù)的研究表明:最好綜合特性的聚類方法為類平均法或 Ward 最小方差法,而最差的則為最短距離法。最短距離法的聚類步驟如下: ① 規(guī)定樣品之間的距離,計(jì)算樣品的兩兩距離,距離矩陣記為 ??0S ,開(kāi)始視每個(gè)樣品分別為一類,這時(shí)顯然應(yīng)有 pqdqpD ?),( ; ② 選擇距離矩陣 ??0S 中的最小元素,不失一般性,記其為 ),( qpD ,則將 pG 與 qG 合并為一新類,記為 mG ,有 qpm GGG ?? ; ③ 計(jì)算新類 mG 與其他各類 的距離,得到新的距離矩陣記為 ??1S ; ④ 對(duì) ??1S 重復(fù)開(kāi)始進(jìn)行第 ② 步,?,直到所有樣本成為一類為止。如果在大樣本時(shí)有可能分成合適數(shù)目的超正方體,那么這個(gè)假設(shè)將給出很準(zhǔn)確的結(jié)果。 上面的兩個(gè)偽 F 和偽 2t 統(tǒng)計(jì)量都可以作為確定類個(gè)數(shù)的有用指標(biāo),但是它們不是真正具上海財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息管理系 IS/SHUFE Page 10 of 62 有像隨機(jī)變量一樣的 F 分布和 2t 分布。 2R 的值總是在 0 和 1 之間,當(dāng) n 個(gè)樣品各自為一類時(shí), 12?R ,說(shuō)明類被完全分開(kāi);當(dāng) n 個(gè)樣品最后合并成一類時(shí), 02?R ,說(shuō)明類被完全混合在一起了,分不清楚了。密度估計(jì)法中的類合并使用與最短距離算法相同的合并方法。有三種不同的密度估計(jì)法: ① k 最近鄰估計(jì)法 k 最近鄰估計(jì)法( Wong和 Lane , 1983)使用 k 最近鄰密度估計(jì)來(lái)計(jì)算距離。 ( 4) 類平均距離 : ? ? ? ?? ??p qGi GjijdpqqpD 1, () 類與類之間 的 距離定義為 pG 和 qG 中所有兩個(gè)樣品對(duì)之間距離的平均。 上海財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息管理系 IS/SHUFE Page 4 of 62 1. 類的特征 現(xiàn)在類 G 的元素用 mxx ,1 ? 表示, m 為 G 內(nèi)的樣品數(shù),可以從不同的角度來(lái)刻畫 G 的特征。在對(duì)變量進(jìn)行聚類時(shí),也可以定義變量間的距離,通常使用變量間的相似系數(shù)。在一個(gè)給定的類里的這些對(duì)象在某種意義上傾向于彼此相似,而在不同類里的這些對(duì)象傾向于不相似。 一、 距離和相似系數(shù) 什么是“類”呢?粗略地說(shuō),相似物體的集合稱作類;聚類分析的目的就是把相似的東西歸類。另外,還有其他一些定義相似系數(shù)的方法。下面給出一些常用的類與類之間 的 距離定義,用? ?qpD , 表示: ( 1) 最短距離: ? ? ? ?qpjk GkGjdqpD ??? ,m i n, () 類與類之間距離定義為 pG 和 qG 中 最鄰近的兩個(gè)樣品的距離。用離差平方和法定義 pG 和 qG 之間的距離為兩個(gè)類對(duì)所有變量的 ANOVA平方和,即 : qpqpw DDDqpD ??? ?),( () 可以證明 , 這種定義是有意義的,并且 : 上海財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息管理系 IS/SHUFE Page 6 of 62 ? ? ? ?qpqpqpqp xxxxqp pqDDD ???????? () 那么 : ? ? ? ? ? ?qpqpw xxxxqp pqqpD ?????, () 如果樣品間的距離采用歐氏距離,上式可表 示 為 : ? ? ? ?qpDqp pqqpD w , ?? () 這表明, ? ?qpDw , 與重心法的距離(式 ) ? ?qpD , 只差一個(gè)常數(shù) )/( qppq ? 倍,這個(gè)倍數(shù)顯然與這兩類的樣品數(shù) p 和 q 有關(guān)??紤]以點(diǎn) x 為中心 r 為半徑的封閉球,在 x 點(diǎn)的密度估計(jì)函數(shù) )(xf 等于球內(nèi)的觀察數(shù)目除以球的體積 的 所得比值。類 pG 和類 qG 合并成類 mG , pG 和 qG 兩類之間的距離公式為: 上海財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息管理系 IS/SHUFE Page 8 of 62 )l n ()l n ())l n ((2)/),(1l n (),( qqppmmDqpDnvxxd iwqp ????? ? () 其中, n 為觀察總數(shù), v 為觀察樣品的變量維數(shù), ? ?qpDw , 為公式 (), ?iD 為在譜系的第 G 層對(duì) G 個(gè)類的直徑求和。 ( 3) 半偏 2R 統(tǒng)計(jì)量 合并類 pG 和類 qG 為類 mG 時(shí),可以用半偏 2R 統(tǒng)計(jì)量評(píng)價(jià)這次合并的效果,半偏( Semipartial) 2R 計(jì)算公式為 : T S SqpDR w /),(2 ?半偏 () 其中, ),( qpDw 的計(jì)算公式見(jiàn)式 (),表示合并類 pG 和類 qG 為新類 mG 后,類內(nèi)離差平方和的增量。一般情況下,是看每個(gè)變量的 2R 值及 所有變量的累積 2R 值,觀察這些 2R 值與聚類個(gè)數(shù)所畫的折線圖形對(duì)判斷分成幾類是有幫助的。我們建議尋找這三種統(tǒng)計(jì)量之間的一致性,即 CCC 統(tǒng)計(jì)量和 F 統(tǒng)計(jì)量的局部峰值所對(duì)應(yīng)的聚類數(shù),與這個(gè)聚類數(shù)偽 2t 統(tǒng)計(jì)量的一個(gè)較小值和下一個(gè)聚類數(shù)的一個(gè)較大偽 2t 統(tǒng)計(jì)量相吻合。再用同樣準(zhǔn)則將這兩類各自試圖分裂為兩類,從中選出一個(gè)使目標(biāo)函數(shù)較好者,這樣由兩類變成了三類。最沒(méi)有偏見(jiàn)的聚類方法為密度估計(jì)法。 cluster 過(guò)程、fastclus 過(guò)程和 modeclus過(guò)程用于對(duì)樣品聚類, varclus 過(guò)程用于對(duì)變量聚類。 ? nosquare—— 阻止過(guò)程在 method= average、 centroid、 median、 ward 方法中距離數(shù)據(jù)被平方。 ? r=n—— 指明均勻核密度估計(jì)法的支撐球半徑。 ? copy 語(yǔ)句 —— 指明輸入數(shù)據(jù)集中的一些變量拷貝到 outtree=的輸出數(shù)據(jù)集中。 var 變量表 。 注意用戶必須規(guī)定說(shuō)明 maxclusters=或 radius =中的一個(gè)。 3. Varclus 方差聚類過(guò)程 varclus 過(guò)程基于相關(guān)矩陣或協(xié)方差矩陣,對(duì)數(shù)值變量進(jìn)行不相交或譜系分類。 varclus 過(guò)程一般由下列語(yǔ)句控制: proc varclus 選項(xiàng)列表 。 ③ 有關(guān)控制聚類方法 的 選項(xiàng)主要有: ? centroid—— 使用重心成 分 法而不是主成 分 法。 tree 過(guò)程一般由下列語(yǔ)句控制: proc tree 選項(xiàng)列表 。 ? root =“名稱值” —— 如果不想輸出整個(gè)樹(shù)狀圖,規(guī)定想輸出的子樹(shù)根的 name變量的值。 ? leafchar=“字母” —— 規(guī)定表示沒(méi)有子輩的類的打印字符。高度變量由選項(xiàng) height=規(guī)定。 run。 proc plot formchar=39。 值得注意的是,許多 SAS 過(guò)程都編寫成與上面類似的宏程序調(diào)用情況,可以模仿改寫上面的程序。宏過(guò)程 %macro analyze(method,ncl)中 有兩個(gè)輸入?yún)?shù)變量 mm 和 nn,分別取 %analyze 的宏命令中逗號(hào)前的參數(shù)值和逗號(hào)后的參數(shù)值,代表將采用的聚類方法和確定的聚類個(gè)數(shù)。mm print=15 ccc pseudo。 cards 。 ? name語(yǔ)句 —— 規(guī)定一個(gè)字符或數(shù)值變量,用以標(biāo)識(shí)每個(gè)觀察代表的節(jié)點(diǎn)。 ? spaces=n—— 規(guī)定在打印輸出中對(duì)象之間的空格數(shù)。 ① 有關(guān)輸入輸出數(shù)據(jù)集的選項(xiàng): ? data=輸入數(shù)據(jù)集 —— 輸入由 cluster過(guò)程和 varclus 過(guò)程生成的數(shù)據(jù)集。 ? trace—— 列出在迭代過(guò)程中每個(gè)變量所歸入的類。 ? outstat=輸出數(shù)據(jù) 集 —— 存儲(chǔ)均值、標(biāo)準(zhǔn)差、相關(guān)系數(shù)、類得分系數(shù)和聚類結(jié)構(gòu)。 ③ 變量重新分類。 list—— 要求列出所有觀察的 id 變量值,觀察所歸入類的類號(hào),及觀察與最終“凝聚點(diǎn)”之間的距離。 out=輸出數(shù)據(jù)集 —— 將含有原始數(shù)據(jù)和分類標(biāo)志的聚類結(jié)果輸出到指定數(shù)據(jù)集。每次對(duì)一個(gè)觀察進(jìn)行分類,同時(shí)對(duì)加入新觀察的“凝聚點(diǎn)”更新為這一類目前的均值; ③ 重復(fù)步驟 ② 直到所有觀察分配完成之后,這些類的“凝聚點(diǎn)”用臨時(shí)類的均值替代。當(dāng)分類數(shù)目不同時(shí),它們有不同的取 值。 n 的值必須大于等于 1。 ? data=輸入數(shù)據(jù)集 —— 命名包含進(jìn)行聚類的觀察的輸入數(shù)據(jù)集。若能減少樣本對(duì)于各自中心的離差之和,則把此兩類的中心同時(shí)移到新的重心,并以重新計(jì)算的重心取代原來(lái)的重心,如此反復(fù)迭代,直到再也無(wú)法降低樣本與重心離差之和為止,移動(dòng)終止,分成 G 類。 ? 系統(tǒng)聚類法是最常用的一種聚類方法,常用的系統(tǒng)聚類方法有最短距離法、最長(zhǎng)距離法 、 中間距離法 、類平均法、重心法、 Ward 最小方差法、密度估計(jì)法、兩階段密度估計(jì)法、最大似然估計(jì)法、相似分析法和可變類平均法。下面我們以最短距離法為例來(lái)說(shuō)明系統(tǒng)聚類法的過(guò)程。 CCC 是基于這樣的假設(shè):在超 矩形上的均勻分布將粗略地被分為形狀像超正方體一樣的類。否則,這兩個(gè)類應(yīng)該在再合并時(shí)的離差平方和的增加量很小。當(dāng) TSSDi /? 值越?。ㄒ布?2R 統(tǒng)計(jì)量越大,越接近 1),表示類內(nèi)離差平方和 ?iD 在總離差平方和 TS 中所占的比例越小,說(shuō)明了這 G 個(gè)類越分開(kāi),故聚類效果越好。兩階段密度估計(jì)法的兩階段是指: 在第一階段中,互不相交的眾數(shù)類被生成。包括兩個(gè)步驟: 第一步, 使用一種基于密度估計(jì)的新的非相似測(cè)度 *d 來(lái)計(jì)算樣品 ix 和 jx 的近鄰關(guān)系; 第二步, 根據(jù)基于 *d 方法計(jì)算的距離,采用最小距離法進(jìn)行聚類。重心法由 Sokal和 Michener( 1958)提出。此外,凡符合定義 2 的類,也一定是定義 3 的類。 2. 相似系數(shù) 聚類分析有時(shí)也需要對(duì)變量進(jìn)行聚類。 聚類分析把分類對(duì)象按一定規(guī)則分成組或類,這些組或類不是事先給定的而是根據(jù)數(shù)據(jù)特征而 定的。其次“相似”是什么含意 ?怎樣度量“相似”?我們必須給出度量“相似”的統(tǒng)計(jì)指標(biāo)。 二、 類的特征和類與類之間距離及統(tǒng)計(jì)量 我們的目的是聚類,那么什么叫類呢 ?由于客觀事物的千差萬(wàn)別,在不同的問(wèn)題中類的含義是不盡相同的。最短距離法有許多理想的理論性質(zhì),但在蒙特卡洛( Monto Carlo)模擬研究中( Milligan, 1980)進(jìn)行得很不順利。 Ward離差平方和距離 法在每次合并 pG 類和 qG 類為 qpG? 類時(shí),總是選擇這樣兩個(gè) pG 類和 qG 類,使它們合并成 qpG? 類后的 ? ?qpDw , 值最小,故也稱為 Ward 最小方差法。它與 k 最近鄰估計(jì)法的主要區(qū)別為半徑是一個(gè)指定的值,即封閉球大小是一樣的(均勻核)。最大似然估計(jì)法是在三個(gè)基本假設(shè):多元正態(tài)混合分布、等球面協(xié)方差和不等抽樣概率的前提下,使得在譜系的每個(gè)水平上似然值最大。顯然,半偏 2R 值 =上次合并后 2R 值-這次合并后 2R 值,例如,以上例的數(shù)據(jù)為例,合并到 4 類時(shí)的半偏 2R 值 =。 檢查數(shù)據(jù)的散點(diǎn)圖對(duì)于確定聚類的個(gè)數(shù)也是一個(gè)很好的主意。 還必須強(qiáng)調(diào)這些準(zhǔn)則僅僅適用于緊湊的或略微拉長(zhǎng)的類,也較好地適合于略微正態(tài)分布的類。如此下去,一直分裂到每類只有一個(gè)樣品為止(或用其他停止規(guī)則)。 五、 SAS 的聚類分析過(guò)程 SAS 的聚類過(guò)程能夠被用來(lái)對(duì)某個(gè) SAS 數(shù)據(jù)集中的觀察進(jìn)行分類。 tree 過(guò)程將 cluster或 varclus 過(guò)程的聚類結(jié)果畫出樹(shù)形結(jié)構(gòu)圖或譜系圖。 ? mode=n—— 當(dāng)合并兩個(gè)類時(shí),規(guī)定對(duì)被指定的眾數(shù)類中的每個(gè)類至少有 n個(gè)成員。 n 的值必須大于 0。 ? rmsstd語(yǔ)句 —— 當(dāng)輸入數(shù)據(jù)集中的坐標(biāo)數(shù)據(jù)代表類的均值時(shí),定義表示均方根標(biāo)準(zhǔn)差變量,通常與 freq 語(yǔ)句中的變量配合使用。 id 變量 。 replace = full | part | none |random—— 指定“凝聚點(diǎn)”的替換方式。類的劃分通過(guò)計(jì)算每類第一主 成分 或重心 成分 的最大方差而確定,因此,同每一類有聯(lián)系的是該類中這些變量的線性組合。 var 變量表 。 ? maxiter= n—— 規(guī)定在交替最小二乘法階段中的最大迭代次 數(shù)。 name 變量 。 ? hor—— 要
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1