freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

sas系統(tǒng)和數(shù)據(jù)分析聚類分析-wenkub.com

2024-08-15 17:31 本頁面
   

【正文】 cluster 過程的結(jié)果輸出包括協(xié)方差陣的特征值( Eigenvalue),兩相鄰特征值之差( Difference),各特征值占總方差的百分比( Proportion)和累計(jì)百分比( Cumulative)。mm,而不是 method=mm。例如,針對(duì)于 %analyze(two k=6,3) 宏命令,輸入?yún)?shù)變量 mm=“ two k=6”, nn=“ 3”。 %mend。 title2 PLOT OF amp。 copy birth death。 var birth death。CLUSTER ANALYSIS OF BIRTH AND DEATH RATES IN 74 COUNTRIES39。從圖 ,按出 生 率和死亡率來區(qū)分 74 個(gè)國(guó)家 (地區(qū)) ,直觀上可以區(qū)分成三類:低出 生 率和低死亡率的國(guó)家 (地區(qū)) (富裕發(fā)達(dá)的國(guó)家 或地區(qū) ),高出 生 率和高死亡率的國(guó)家 (地區(qū)) (貧窮落后的國(guó)家 或地區(qū) ),中出 生 率和低死亡率的國(guó)家 (地區(qū)) (中等發(fā)展中的國(guó)家 或地區(qū) )。 plot death*birth / hpos=86 vpos=26 。 AFGHANISTAN 52 30 ALGERIA 50 16 ? ? ? ZAIRE 45 18 。 title 39。 六、 實(shí)例分析 例 試對(duì) 1976 年 74 個(gè)國(guó)家 (地區(qū)) 每 100000 人口的出 生 率和死亡率數(shù)據(jù)進(jìn)行聚類分析(使用 cluster 和 tree 過程)。 ? height語句 —— 規(guī)定一個(gè)數(shù)值變量用于定義這個(gè)樹中每個(gè)節(jié) 點(diǎn)(類)的高度。 name變量同 parent 變量聯(lián)合確定樹的結(jié)構(gòu)。 ? noprint—— 只創(chuàng)建 out=的輸出數(shù)據(jù)集而不繪制樹狀圖。缺省值為“ X”。缺省值為 X。 ? tickpos=n—— 指定在高度軸上每個(gè)刻度間隔打 印位置的個(gè)數(shù)。 ? ntich=n—— 指定在高度軸上刻度之間的間隔個(gè)數(shù)。 ③ 有關(guān)樹高度和樹葉控制的選項(xiàng): ? height=常規(guī)變量 —— 規(guī)定在樹狀圖中用以確定高度軸的常規(guī)變量。 n 的缺省值為 0。 ? out=輸出數(shù)據(jù)集 —— 輸出繪制樹形結(jié)構(gòu)圖的有關(guān)數(shù)據(jù)到指定數(shù)據(jù)集。 by 變量表 。 height 變量 。 tree 過程可以把輸入數(shù)據(jù)集中的任何數(shù)值變量都能夠用來規(guī)定這些類的高度,還可根據(jù)用戶的要求生成一個(gè)輸出數(shù)據(jù)集,其中包含一個(gè)變量,其值用以標(biāo)識(shí)在這個(gè)樹里指定水平上不相交的類。 ( 2) 其他語句。 上海財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息管理系 IS/SHUFE Page 17 of 62 ? simple—— 打印均值和標(biāo)準(zhǔn)差。 ? cov—— 用協(xié)方差矩陣聚類。 ? percent=n —— 指定類分量必須解釋的方差百分比。 ? outtree=輸出數(shù)據(jù)集 —— 包含聚類過程的樹狀結(jié)構(gòu)信息,供 tree 過程調(diào)用。 run; ( 1) proc varclus 語句 選項(xiàng)列表 。 seed 變量表 。準(zhǔn)則缺省時(shí),每類只要有一個(gè)特征值大于 1,則過程停止。通過迭代,變量被重新分配到這些類里,使得由這些類分量所解釋的方差最大。根據(jù)規(guī)定的選項(xiàng),選中的類應(yīng)該是:或者用它的類分量所解釋的方差百分比最小,或者同第二主 成分 有關(guān) 的特征值為最大 。對(duì)于含有很多變量的變量集,常常用信息損失很少的類分量集替代。)或由 factor 過程產(chǎn)生因子得分,然后由 fastclus 過程加以聚類。 ( 2) 其他語句。 maxiter= n—— 指定重新計(jì)算“凝聚點(diǎn)”所需的最大迭代次數(shù),缺省值為1。 ③ 有關(guān)控制最終聚類“凝聚點(diǎn)”的計(jì)算選項(xiàng): drift—— 每當(dāng)一個(gè)觀察歸入最靠近的“凝聚點(diǎn)”所在類后,此類的“凝聚點(diǎn)”都要被該類中現(xiàn)有觀察的均值所替代。要注意,選擇一個(gè)好的 t 值,可以得到好的分類結(jié)果。 ② 有關(guān)控制聚類的初始中心點(diǎn)選項(xiàng): maxclusters=n(或 maxc=n) —— 指定所允許的最大聚類數(shù)(缺省值為 100)。 ① 有關(guān)輸入輸出數(shù)據(jù)集選項(xiàng): data=輸入數(shù)據(jù)集 —— 原始輸入數(shù)據(jù)集。 weight 變量 。 fastclus 過程一般由下列語句控制: proc fastclus 選項(xiàng)列表 。該步可以一直進(jìn)行到類中的“凝聚點(diǎn)”的改變很小或?yàn)?0 時(shí)停止; ④ 最終的分類由分配每一個(gè)觀 察到最近的“凝聚點(diǎn)”而形成。此時(shí) , 使用 fastclus 過程就能很快地和很好地將大量樣品數(shù)聚類成兩類或 三類。 2. Fastclus 快速聚類過程 Fastclus 過程稱為快速聚類過程或動(dòng)態(tài)聚類過程。 ( 2) 其他語句。 ? simple—— 打印簡(jiǎn)單統(tǒng)計(jì)數(shù)。同時(shí) , 打印輸出選項(xiàng) rsquare有關(guān)的 R2和半偏 R2??梢砸?guī)定這個(gè)選項(xiàng)以便減少過程執(zhí)行的時(shí)間和空間。近鄰個(gè)數(shù) n 必須大于等于 2 且小于觀察數(shù)。如果數(shù)據(jù)是坐標(biāo)數(shù)據(jù),缺省值為變量的個(gè)數(shù);如果是距離 數(shù)據(jù),缺省值為 1。在使用 method= ward 或 plete時(shí),因類可能被異常值嚴(yán)重地歪曲,最好使用這個(gè)選項(xiàng)。 ? penalty=p—— 指定用于 method= eml中的懲罰系數(shù)。 ? nonorm—— 阻止距離被正態(tài)化成均數(shù)為 1 或均方根為 1。通過選項(xiàng) type=可以接受距離矩陣或非相似類型的距離。 rmsstd 變量 。 var 變量表 。 varclus 過程可用于系統(tǒng)或動(dòng)態(tài)聚類, 通過斜交多組分量分析對(duì)變量作譜系的和不相交的這兩種聚類。 SAS 軟件主要有以下 5 個(gè)聚類過程,即 cluster, fastclus, modeclus、 varclus 和 tree 過程。如此反復(fù)進(jìn)行,直到所有樣本合并為一類。 SAS 聚類分析用于將一批樣本按各變量(指標(biāo))的親疏程度進(jìn)行分類。拉長(zhǎng)的或無規(guī)則的類使用最短距離法比其他方法好。 ? 大多數(shù)的研究表明:最好綜合特性的聚類方法為類平均法或 Ward 最小方差法,而最差的則為最短距離法。 ? 通常測(cè)量變量有三種尺度:間隔尺度、有序尺度和名義尺度,其中間隔尺度使用得最多,本章主要討論這種尺度。 四、 應(yīng)注意的幾個(gè)問題 ? 判別分析和聚類分析是兩種不同的分類方法,它們所起的作用是不同的。 3. 分解法 它的程序正好和系統(tǒng)聚類相反,開始時(shí)所有的樣本都在一類 ,然后用某種最優(yōu)準(zhǔn)則將它分成兩類。最短距離法的聚類步驟如下: ① 規(guī)定樣品之間的距離,計(jì)算樣品的兩兩距離,距離矩陣記為 ??0S ,開始視每個(gè)樣品分別為一類,這時(shí)顯然應(yīng)有 pqdqpD ?),( ; ② 選擇距離矩陣 ??0S 中的最小元素,不失一般性,記其為 ),( qpD ,則將 pG 與 qG 合并為一新類,記為 mG ,有 qpm GGG ?? ; ③ 計(jì)算新類 mG 與其他各類 的距離,得到新的距離矩陣記為 ??1S ; ④ 對(duì) ??1S 重復(fù)開始進(jìn)行第 ② 步,?,直到所有樣本成為一類為止。將距離最近的兩類合并為一個(gè)新類,在計(jì)算新類和其他類之間的距離,再從中找出最近的兩類合并,繼續(xù)下去,最后所有的樣品全在一類。如果 k 值在一個(gè)很寬的范圍內(nèi)所得到的聚類估計(jì)數(shù)都是常數(shù),則這個(gè)常數(shù)是一個(gè)很好的聚類數(shù)結(jié)論。在 cluster 過程中這三個(gè)準(zhǔn)則都被應(yīng)用和輸出,而在fastclus 過程中僅偽 F 統(tǒng)計(jì)量和 CCC 統(tǒng)計(jì)量被應(yīng)用和輸出。如果在大樣本時(shí)有可能分成合適數(shù)目的超正方體,那么這個(gè)假設(shè)將給出很準(zhǔn)確的結(jié)果。 Arnold( 1979)使用模擬的方法導(dǎo)出了有關(guān)確定類的個(gè)數(shù)準(zhǔn)則的有用信息。對(duì)于更多維數(shù)( 3)的變量數(shù)據(jù),首先使用 proc candisc 典型判別分析過程對(duì)原始變量進(jìn)行降維,計(jì)算出典型變量 can can can3 等。在聚類過程中到底把分類對(duì)象分成多少類適宜是一個(gè)十分困難的問題。 上面的兩個(gè)偽 F 和偽 2t 統(tǒng)計(jì)量都可以作為確定類個(gè)數(shù)的有用指標(biāo),但是它們不是真正具上海財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息管理系 IS/SHUFE Page 10 of 62 有像隨機(jī)變量一樣的 F 分布和 2t 分布。 ( 5) 偽 2t 統(tǒng)計(jì)量 )2/()())2(,(2 ??? ????? qpDD DDDqpvvt qp qpm偽 () 該統(tǒng)計(jì)量用以評(píng)價(jià)合并類 pG 和類 qG 的效果。 ( 4) 偽 F 統(tǒng)計(jì)量 ? ? ? ????? )/( )1/()())(),1(( GnD GDT SSGnvGvF i i偽 () 其中, G 為聚類的個(gè)數(shù), n 為觀察總數(shù), v 為觀察樣品的變量維數(shù)。例如,從 10 類合并到 5 類時(shí), 2R 值每次減少大約在 到 之間, 2R 值減小到 ,從 5 類合并到 4 類時(shí), 2R 值減少了 ,即 2R =- =,這時(shí),我們就可以得出 分 5 類是最合適的。 2R 的值總是在 0 和 1 之間,當(dāng) n 個(gè)樣品各自為一類時(shí), 12?R ,說明類被完全分開;當(dāng) n 個(gè)樣品最后合并成一類時(shí), 02?R ,說明類被完全混合在一起了,分不清楚了。 v 為觀察樣品的變量維數(shù), p 為類 pG 中的觀察數(shù)目。 proc cluster 過程的偏度選項(xiàng) penalty=p 值可用于調(diào) 整偏向的程度。 ( 8) 最大似然估計(jì)法: 最大似然估計(jì)法 EML 是 SAS 研究所的 發(fā)展 Symans( 1981)對(duì)不相交的類的研究,由最大似然公式得到。密度估計(jì)法中的類合并使用與最短距離算法相同的合并方法。使用密度估計(jì)法時(shí),眾數(shù)類( modal clusters)經(jīng)常在尾部所有點(diǎn)聚類之前就已經(jīng)被合并掉了。判斷這三個(gè)初始分類中某 兩 個(gè)初始分類是近鄰的標(biāo)準(zhǔn)為:(假設(shè)判斷類 pG 和 qG ) ),(),(),( 222 mqmpqp xxdxxdxxd ?? () 那么,新的非相似測(cè)度距離 *d 為 : 否則是近鄰和如果 qPv vqpqpqpGGqp xxdqpDDxxd??????????? ? 2/12/2* )()4/),()((),( () 其中, pD 和 qD 是初始分類 pG 和 qG 的直徑,計(jì)算公式見式 ()。 ② 均勻核估計(jì)法 上海財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息管理系 IS/SHUFE Page 7 of 62 均勻核估計(jì)使用了均勻核密度估計(jì)來計(jì)算距離。有三種不同的密度估計(jì)法: ① k 最近鄰估計(jì)法 k 最近鄰估計(jì)法( Wong和 Lane , 1983)使用 k 最近鄰密度估計(jì)來計(jì)算距離。最小方差法或離差平方和由 Ward( 1963)提出。 Ward 最小方差法一般是在多元正態(tài)混合型、等球形協(xié)方差、等抽樣概率假設(shè)下合并類。 ( 5) Ward 最小方差法或 Ward 離差平方和距離: 若采用直徑( 式 )的定義方法,用 pD 、 qD 分別表示 pG 和 qG 的直徑,用 qpD? 表示大類 qp DD ? 的直徑,則 : ? ? ? ??? ????pGipipip xxxxD, ? ? ? ??? ????qGiqjqjq xxxxD () ? ? ? ???? ????qp GGiiiqp xxxxD ? () 其中 , ???? qp GGi ixqpx ?1 。 ( 4) 類平均距離 : ? ? ? ?? ??p qGi GjijdpqqpD 1, () 類與類之間 的 距離定義為 pG 和 qG 中所有兩個(gè)樣品對(duì)之間距離的平均。最長(zhǎng)距離法由 Sorensen( 1948)提出。但它卻犧牲了恢復(fù)壓縮類的性能,另外 , 它也趨向于在分開主要類之前去掉分布的尾部( Hartigan, 1981)。令 pG 和 qG 中 分別有 p 和q 個(gè)樣品,它們的重心分別記為 px 和 qx 。 上海財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息管理系 IS/SHUFE Page 4 of 62 1. 類的特征 現(xiàn)在類 G 的元素用 mxx ,1 ? 表示, m 為 G 內(nèi)的樣品數(shù),可以從不同的角度來刻畫 G 的特征。 定義 2 T為一給定的閾值,如果對(duì)每個(gè) Gi? ,有 ∑∈11Gj ij Tdk ?,則稱 G為一個(gè)類。 圖 各種形式的類 試 圖給類一個(gè)嚴(yán)格的定義,絕非一件簡(jiǎn)單的事。例如,采用非相似測(cè)度距離為 21 ijij cd ?? ,或 21 ijij rd ?? 。在對(duì)變量進(jìn)行聚類時(shí),也可以定義變量間的距離,通常使用變量間的相似系數(shù)。 表 p 個(gè)變量的 n 組樣品數(shù)據(jù) 樣品號(hào) 變量 1 2 ? n 1X 2X ? pX 11x 21x ? 1nx 12x 22x ? 2nx ? ? ? ? px1 px2 ? npx 上海財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息管理系 IS/SHUFE Page 2 of 62 第 i 個(gè)與第 j 個(gè)樣品之間 的 距離用 ijd 表示,
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1