freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

sas系統(tǒng)和數(shù)據(jù)分析聚類分析-預(yù)覽頁

2025-09-19 17:31 上一頁面

下一頁面
 

【正文】 SAS 的聚類過程能夠被用來對某個 SAS 數(shù)據(jù)集中的觀察進(jìn)行分類。聚類方法很多,但 SAS 系統(tǒng)使用系統(tǒng)聚類法( Hierarchical cluster)和動態(tài)聚類法( Disjoint cluster)這兩種方法。 SAS 的動態(tài)聚類法基于 上限-中心點(diǎn)-重心的原理,首先將 n 個樣本初步分為 G 類,作為聚類個數(shù)的“上限”,從中確定其“中心點(diǎn)”,用作迭代的起點(diǎn),然后每考察一個樣本觀察值,就把它移到最靠近的類,并算出每一類的“重心”,再考察一個觀察點(diǎn)移到另一類。 fastclus 過程為動態(tài)聚類過程,使用 Kmeans 算法尋找不相交的聚類,適宜于大樣本分析,觀察值可多達(dá)10萬個。 tree 過程將 cluster或 varclus 過程的聚類結(jié)果畫出樹形結(jié)構(gòu)圖或譜系圖。 上海財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息管理系 IS/SHUFE Page 13 of 62 freq 變量 。 run; ( 1) proc cluster 語句 選項(xiàng)列表 。 ? method=算法 —— 包括 ward(離差平方和法), average(類平均法), centroid(重心法), plete(最長距離法), single(最短距離法), median(中間距離法), density(密 度法), flexible(可變類平均法), twostage(兩階段密度法), eml(最大似然法),mcquitty(相似分析法)。 ? mode=n—— 當(dāng)合并兩個類時,規(guī)定對被指定的眾數(shù)類中的每個類至少有 n個成員。 ? trim=p—— 要求從分析中刪去那些概率密度估計(jì)較小的點(diǎn)。 ? dim=n—— 當(dāng)規(guī)定 method= density 或 twostage 時指定使用的維數(shù)。這個選項(xiàng)只能在規(guī)定 method= density 或 twostage 時使用。 n 的值必須大于 0。 ? rmsstd—— 打印輸出每一類的均方根標(biāo)準(zhǔn)差。 ? pseudo—— 要求打印輸出偽 F 統(tǒng)計(jì)量 (標(biāo)志為 PSF)和偽 2t 統(tǒng)計(jì)量 (標(biāo)志為 PST2)。 在輸出報(bào)表中,可以根據(jù)輸出的 ccc、 psf 和 pst2 統(tǒng)計(jì)量確定多少分類數(shù)較合適。 ? rmsstd語句 —— 當(dāng)輸入數(shù)據(jù)集中的坐標(biāo)數(shù)據(jù)代表類的均值時,定義表示均方根標(biāo)準(zhǔn)差變量,通常與 freq 語句中的變量配合使用。當(dāng)需要聚類的樣品數(shù)較多時,如果采用 cluster過程就需要計(jì)算很長時間,因?yàn)樗獜囊粋€樣品一類依 次 聚類到所有樣品作為一類。 Fastclus 過程的聚類步驟如下: ① 選擇若干個觀察作為“凝聚點(diǎn)”或稱類的中心點(diǎn),作為這些類均值的第一次猜測值; ② 通過可選擇地分配,把每一個觀察分配到與這些“凝聚點(diǎn)”中最近距離的類里來形成臨時類。用戶還可以指定最大的“凝聚點(diǎn)”個數(shù),及“凝聚點(diǎn)”之間的必須分隔開的最小距離。 id 變量 。 run; ( 1) proc fastclus 語句 選項(xiàng)列表 。 mean=輸出數(shù)據(jù)集 —— 生成一個輸出數(shù)據(jù)集,其中包含每個類的均值和一些統(tǒng)計(jì)量。當(dāng)一個觀察點(diǎn)與已有“凝聚點(diǎn)”的最小距離都大于 t 值時,該觀察可考慮用來作為一個新的“凝聚點(diǎn)”。 replace = full | part | none |random—— 指定“凝聚點(diǎn)”的替換方式。 convergec=c(或 conv= c) —— 指定收斂的判斷準(zhǔn)則, c 為任意非負(fù)值,缺省值為0 .02。 ④ 有關(guān)控制打印輸出的選項(xiàng): distance—— 要求打印類均值之間的距離。 另外,在 采用 fastclus 過程之前,若變量值的單位不一致則必須對變量預(yù)先用 standard過程轉(zhuǎn)換成標(biāo)準(zhǔn)分(例如: proc standard mean=0 std=1 out=abc。類的劃分通過計(jì)算每類第一主 成分 或重心 成分 的最大方差而確定,因此,同每一類有聯(lián)系的是該類中這些變量的線性組合。 varclus 過程生成的輸出數(shù)據(jù)集,可由 score 過程計(jì)算出每類的得分。先計(jì)算出開頭兩個主 成分 ,再進(jìn)行斜交旋轉(zhuǎn),并把每個變量分配到旋轉(zhuǎn)分量對應(yīng)的類里,分配原則為使變量與這個主 成分 的相關(guān)系數(shù)最大。 ④ 當(dāng)每一類滿足用戶規(guī)定的準(zhǔn)則時,過程停止迭代。 var 變量表 。 weight 變量 。 ① 有關(guān)輸入輸出數(shù)據(jù)集選項(xiàng)有: ? data=輸入數(shù)據(jù)集 —— 可以是原始數(shù)據(jù)或 type =corr、 ucorr、 cov、 ucor、 sscp或 factor類型的數(shù)據(jù)集。 ? maxc=n —— 最大聚類個數(shù)。 ? maxiter= n—— 規(guī)定在交替最小二乘法階段中的最大迭代次 數(shù)。 ? initial= group| input|random|seed—— 規(guī)定初始化類的方法。 ? summary—— 只打印最后的匯總表。 4. Tree 聚類樹型輸出過程 本過程利用 cluster過程和 varclus 過程生成的數(shù)據(jù)集來繪制樹狀結(jié)構(gòu)圖。 name 變量 。 copy 變量表 。 按選項(xiàng)控制的性質(zhì)可以分成以下 3 類。 ? ncl =n—— 規(guī)定在 out=的輸出數(shù)據(jù)集中所希望的類個數(shù)。 ? hor—— 要求樹狀圖的取向?yàn)樗椒较?,且樹根在左邊? ? maxh=n—— 指定在高度軸上打印的最大值。 ? pos=n—— 指定在高度軸上打印位置的個數(shù)。缺省值為空格。缺省值為“ .”。 ? des—— 把選項(xiàng) sort 的排列順序反過來。 ( 2) 其他語句。 ? parent語句 —— 規(guī)定一個字符或數(shù)值變量,用以標(biāo)識每個觀察的父輩節(jié)點(diǎn)。 ? copy 語句 —— 把語句中列出的一個或幾個變量復(fù)制到 out=的輸出數(shù)據(jù)集中。 表 1976 年 74 個國家 (地區(qū)) 的出 生 率和死亡率 country birth death country birth death AFGHANISTAN 52 30 KOREA,DEM PEO REP 43 12 LGERIA 50 16 KOREA,REPUBLIC OF 26 6 ANGOLA 47 23 MADAGASCAR 47 22 ARGENTINA 22 10 MALAYSIA 30 6 AUSTRALIA 16 8 MEXICO 40 7 AUSTRIA 12 13 MOROCCO 47 16 BANGLADESH 47 19 MOZAMBIQUE 45 18 BELGIUM 12 12 NEPAL 46 20 上海財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息管理系 IS/SHUFE Page 19 of 62 BRAZIL 36 10 NETHERLANDS 13 8 BULGARIA 17 10 NIGERIA 49 22 BURMA 38 15 PAKISTAN 44 14 CAMEROON 42 22 PERU 40 13 CANADA 16 7 PHILIPPINES 34 10 CHILE 22 7 POLAND 20 9 CHINA 31 11 PORTUGAL 19 10 CHINESE TAIWAN 26 5 RHODESIA 48 14 COLOMBIA 34 10 ROMANIA 19 10 CUBA 20 6 SAUDI ARABIA 49 19 CZECHOSLOVAKIA 19 11 SOUTH AFRICA 36 12 ECUADOR 42 11 SPAIN 18 8 EQYPT 39 13 SRI LANKA 26 9 ETHIOPIA 48 23 SUDAN 49 17 FRANCE 14 11 SWEDEN 12 11 GERMAN DEM REP 12 14 SWITZERLAND 12 9 GERMANY, FED REP OF 10 12 SYRIA 47 14 GHANA 46 14 TANZANIA 47 17 GREECE 16 9 THAILAND 34 10 GUATEMALA 40 14 TURKEY 34 12 HUNGARY 18 12 USSR 18 9 INDIA 36 15 UGANDA 48 17 INDONESIA 38 16 UNITED KINGDOM 12 12 IRAN 42 12 UNITED STATES 15 9 IRAQ 48 14 UPPER VOLTA 50 28 ITALY 14 10 VENEZUELA 36 6 IVORY COAST 48 23 VIETNAM 42 17 JAPAN 16 6 YUGOSLAVIA 18 8 KENYA 50 14 ZAIRE 45 18 1. 建立數(shù)據(jù),并繪制原始數(shù)據(jù)散點(diǎn)圖。 input country $20. birth death 。||39。 提交運(yùn)行程序后,輸出結(jié)果 如 圖 所示。 菜單方法,選擇菜單命令 Globals/SAS/Assist/Data analysis/Multivariate/Cluster analysis(聚類分析 )。 proc cluster data=vital out=tree method=amp。 proc tree data=tree noprint out=out ncl=amp。||39。mm。 每個聚類分析由名為 %analyze 的宏命令實(shí)現(xiàn)?!辈僮鞣硎救〕鲎兞恐械闹?。下面我們僅給出了用 average 法聚類的輸出結(jié)果及選擇 8 類后的散點(diǎn)圖, 如 表 和圖 所示。用 average 法聚類的結(jié)果表明( print=15,只輸出顯示聚類成 15 類后各合并過程), ncl列為聚類數(shù); Clusters Joined 標(biāo)題下的兩列為每一次聚類成 1 個新類的 2個樣品,標(biāo)有 obn 表示是原始樣品中的第 n 號樣品,標(biāo)有 cln 表示是在上面聚類過程中已經(jīng)聚成的第 n 類; freq列為新類中所含的樣品數(shù); sprsq列為半偏 R2,表示每一次合并對信息的損失程度; rsq 列為 R2,表示累計(jì)聚類結(jié)果,即 rsqn=rsqn1- sprsqn; ersq 列為在均勻零假設(shè) CLUSTER ANALYSIS OF BIRTH AND DEATH RATES IN 74 COUNTRIES PLOT OF 8 CLUSTERS FROM METHOD=AVERAGE Plot of DEATH*BIRTH. Symbol is value of CLUSTER. DEATH 30 | 8 29 | 28 | 8 27 | 26 | 25 | 24 | 23 | 11 22 | 1 1 1 21 | 20 | 3 19 | 3 3 18 | 3 17 | 6 33 3 16 | 6 3 3 15 | 6 6 14 | 5 6 6 3 33 3 13 | 5 66 12 | 5 5 4 2 2 66 11 | 5 4 4 2 6 10 | 4 4 4 4 2 2 9 | 4 44 4 4 7 8 | 4 4 4 7 | 4 4 2 6 |
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1