freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

sas系統(tǒng)和數(shù)據(jù)分析聚類分析(更新版)

2025-10-14 17:31上一頁面

下一頁面
  

【正文】 不能確定的情況下進行分類的場合。各種聚類分析方法通過用于聚類分析的各種各樣的領域反映出來。 另一種是相似系數(shù),根據(jù)這個統(tǒng)計指標將比較相似的變量歸為一類,而把不怎么相似的變量歸為另一類,用它可以把變量的親疏關(guān)系直觀地表示出來。記變量 ix 與 jx 的夾角余弦為 ijc ,其中 pji ?,2,1, ? ,則有 : 2112121?????????????nkjknkiknkjkikijxxxxc () 上海財經(jīng)大學經(jīng)濟信息管理系 IS/SHUFE Page 3 of 62 ( 2) 相關(guān)系數(shù) 變量 ix 與 jx 的相關(guān)系數(shù)為 : 211 1221)()())((?????? ?????? ??? ??nknkjjkiiknkjjkiikijxxxxxxxxr () ix 表示第 i 個指標的平均值。用 G 表示類,假設 G 中有 k 個元素,用 i 、 j 表示 G 中第 i 、 j 個因素。它有多種定義,例如: ? ? ? ? ? ?Gmi GiGiG AtrxxxxD ????? ?? 1 () ijGjiG dD ?? ,max () 2. 類的距離 在聚類分析中,不僅要考慮各個類的特征,而且還要計算類與類之間的距離。最長距離法嚴重地傾向于產(chǎn)生直徑粗略相等的類,而且可能被異常值嚴重地扭曲。例如, 圖 中的( a)形式的類。例如, 圖 ( a)形式的類。考慮以點 x 為中心 )(xrk 為半徑的封閉球,在 x 點的密度估計函數(shù) )(xf 等于球內(nèi)的觀察數(shù) 目除以球的體積所得比值。 Wong混合法適用于大的數(shù)據(jù)集而不適用于小的數(shù)據(jù)集。在第一階段結(jié)束時每個樣品點屬于一個眾數(shù)類。 3. 類的各種統(tǒng)計量 ( 1) 類 pG 的均方根標準差 ))1(/( ?? pvDR M S S T D G () 其中, GD 為類 pG 的直徑,定義見式 (),即類內(nèi)的離差平方和。那么如何根據(jù) 2R 的值來確定 n 個樣品應分為幾類最合適呢?首先,最合適分類的 2R 的值不能太小,最好能達到 ;其次,不能孤立地看合并后 2R 值的大小,應該看 2R 值的變化。在給定顯著水平上該偽( pseduo) F 統(tǒng)計量用于評價分為 G 個聚類的效果。而上述的兩個假設前提在實際應用中是很難 達 到的,故稱這兩個統(tǒng)計量為偽統(tǒng)計量。然后,對這些典型變量作散點圖。 Milligan( 1984)和 Cooper( 1985)使用 4 種譜系聚類方法比較了 30 種不同總體類型的聚類個數(shù)確定。 三、 聚類方法 1. 系統(tǒng)聚類法 上海財經(jīng)大學經(jīng)濟信息管理系 IS/SHUFE Page 11 of 62 系統(tǒng)聚類法 ( Hierarchical clustering method) 是目前使用最多的一種方法。 2. 動態(tài)聚類法 開始將 n個樣品粗略地分成若干類,然后用某種最優(yōu)準則進行調(diào)整,一次又一次地調(diào)整,直至不能調(diào)整了為止。聚類分析方法是按樣品的數(shù)據(jù)特征,把相似的樣品傾向于分在同一 類中,把不相似的樣品傾向干分在不同類中。類平均法偏向?qū)ふ业确讲畹念?。聚類方法很多,?SAS 系統(tǒng)使用系統(tǒng)聚類法( Hierarchical cluster)和動態(tài)聚類法( Disjoint cluster)這兩種方法。 fastclus 過程為動態(tài)聚類過程,使用 Kmeans 算法尋找不相交的聚類,適宜于大樣本分析,觀察值可多達10萬個。 上海財經(jīng)大學經(jīng)濟信息管理系 IS/SHUFE Page 13 of 62 freq 變量 。 ? method=算法 —— 包括 ward(離差平方和法), average(類平均法), centroid(重心法), plete(最長距離法), single(最短距離法), median(中間距離法), density(密 度法), flexible(可變類平均法), twostage(兩階段密度法), eml(最大似然法),mcquitty(相似分析法)。 ? trim=p—— 要求從分析中刪去那些概率密度估計較小的點。這個選項只能在規(guī)定 method= density 或 twostage 時使用。 ? rmsstd—— 打印輸出每一類的均方根標準差。 在輸出報表中,可以根據(jù)輸出的 ccc、 psf 和 pst2 統(tǒng)計量確定多少分類數(shù)較合適。當需要聚類的樣品數(shù)較多時,如果采用 cluster過程就需要計算很長時間,因為它要從一個樣品一類依 次 聚類到所有樣品作為一類。用戶還可以指定最大的“凝聚點”個數(shù),及“凝聚點”之間的必須分隔開的最小距離。 run; ( 1) proc fastclus 語句 選項列表 。當一個觀察點與已有“凝聚點”的最小距離都大于 t 值時,該觀察可考慮用來作為一個新的“凝聚點”。 convergec=c(或 conv= c) —— 指定收斂的判斷準則, c 為任意非負值,缺省值為0 .02。 另外,在 采用 fastclus 過程之前,若變量值的單位不一致則必須對變量預先用 standard過程轉(zhuǎn)換成標準分(例如: proc standard mean=0 std=1 out=abc。 varclus 過程生成的輸出數(shù)據(jù)集,可由 score 過程計算出每類的得分。 ④ 當每一類滿足用戶規(guī)定的準則時,過程停止迭代。 weight 變量 。 ? maxc=n —— 最大聚類個數(shù)。 ? initial= group| input|random|seed—— 規(guī)定初始化類的方法。 4. Tree 聚類樹型輸出過程 本過程利用 cluster過程和 varclus 過程生成的數(shù)據(jù)集來繪制樹狀結(jié)構(gòu)圖。 copy 變量表 。 ? ncl =n—— 規(guī)定在 out=的輸出數(shù)據(jù)集中所希望的類個數(shù)。 ? maxh=n—— 指定在高度軸上打印的最大值。缺省值為空格。 ? des—— 把選項 sort 的排列順序反過來。 ? parent語句 —— 規(guī)定一個字符或數(shù)值變量,用以標識每個觀察的父輩節(jié)點。 表 1976 年 74 個國家 (地區(qū)) 的出 生 率和死亡率 country birth death country birth death AFGHANISTAN 52 30 KOREA,DEM PEO REP 43 12 LGERIA 50 16 KOREA,REPUBLIC OF 26 6 ANGOLA 47 23 MADAGASCAR 47 22 ARGENTINA 22 10 MALAYSIA 30 6 AUSTRALIA 16 8 MEXICO 40 7 AUSTRIA 12 13 MOROCCO 47 16 BANGLADESH 47 19 MOZAMBIQUE 45 18 BELGIUM 12 12 NEPAL 46 20 上海財經(jīng)大學經(jīng)濟信息管理系 IS/SHUFE Page 19 of 62 BRAZIL 36 10 NETHERLANDS 13 8 BULGARIA 17 10 NIGERIA 49 22 BURMA 38 15 PAKISTAN 44 14 CAMEROON 42 22 PERU 40 13 CANADA 16 7 PHILIPPINES 34 10 CHILE 22 7 POLAND 20 9 CHINA 31 11 PORTUGAL 19 10 CHINESE TAIWAN 26 5 RHODESIA 48 14 COLOMBIA 34 10 ROMANIA 19 10 CUBA 20 6 SAUDI ARABIA 49 19 CZECHOSLOVAKIA 19 11 SOUTH AFRICA 36 12 ECUADOR 42 11 SPAIN 18 8 EQYPT 39 13 SRI LANKA 26 9 ETHIOPIA 48 23 SUDAN 49 17 FRANCE 14 11 SWEDEN 12 11 GERMAN DEM REP 12 14 SWITZERLAND 12 9 GERMANY, FED REP OF 10 12 SYRIA 47 14 GHANA 46 14 TANZANIA 47 17 GREECE 16 9 THAILAND 34 10 GUATEMALA 40 14 TURKEY 34 12 HUNGARY 18 12 USSR 18 9 INDIA 36 15 UGANDA 48 17 INDONESIA 38 16 UNITED KINGDOM 12 12 IRAN 42 12 UNITED STATES 15 9 IRAQ 48 14 UPPER VOLTA 50 28 ITALY 14 10 VENEZUELA 36 6 IVORY COAST 48 23 VIETNAM 42 17 JAPAN 16 6 YUGOSLAVIA 18 8 KENYA 50 14 ZAIRE 45 18 1. 建立數(shù)據(jù),并繪制原始數(shù)據(jù)散點圖。||39。 菜單方法,選擇菜單命令 Globals/SAS/Assist/Data analysis/Multivariate/Cluster analysis(聚類分析 )。 proc tree data=tree noprint out=out ncl=amp。mm?!辈僮鞣硎救〕鲎兞恐械闹?。用 average 法聚類的結(jié)果表明( print=15,只輸出顯示聚類成 15 類后各合并過程), ncl列為聚類數(shù); Clusters Joined 標題下的兩列為每一次聚類成 1 個新類的 2個樣品,標有 obn 表示是原始樣品中的第 n 號樣品,標有 cln 表示是在上面聚類過程中已經(jīng)聚成的第 n 類; freq列為新類中所含的樣品數(shù); sprsq列為半偏 R2,表示每一次合并對信息的損失程度; rsq 列為 R2,表示累計聚類結(jié)果,即 rsqn=rsqn1- sprsqn; ersq 列為在均勻零假設 CLUSTER ANALYSIS OF BIRTH AND DEATH RATES IN 74 COUNTRIES PLOT OF 8 CLUSTERS FROM METHOD=AVERAGE Plot of DEATH*BIRTH. Symbol is value of CLUSTER. DEATH 30 | 8 29 | 28 | 8 27 | 26 | 25 | 24 | 23 | 11 22 | 1 1 1 21 | 20 | 3 19 | 3 3 18 | 3 17 | 6 33 3 16 | 6 3 3 15 | 6 6 14 | 5 6 6 3 33 3 13 | 5 66 12 | 5 5 4 2 2 66 11 | 5 4 4 2 6 10 | 4 4 4 4 2 2 9 | 4 44 4 4 7 8 | 4 4 4 7 | 4 4 2 6 |
點擊復制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1