freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

sas系統(tǒng)和數(shù)據(jù)分析聚類分析-文庫吧在線文庫

2025-10-04 17:31上一頁面

下一頁面
  

【正文】 ????? )/( )1/()())(),1(( GnD GDT SSGnvGvF i i偽 () 其中, G 為聚類的個數(shù), n 為觀察總數(shù), v 為觀察樣品的變量維數(shù)。 上面的兩個偽 F 和偽 2t 統(tǒng)計量都可以作為確定類個數(shù)的有用指標(biāo),但是它們不是真正具上海財經(jīng)大學(xué)經(jīng)濟(jì)信息管理系 IS/SHUFE Page 10 of 62 有像隨機(jī)變量一樣的 F 分布和 2t 分布。對于更多維數(shù)( 3)的變量數(shù)據(jù),首先使用 proc candisc 典型判別分析過程對原始變量進(jìn)行降維,計算出典型變量 can can can3 等。如果在大樣本時有可能分成合適數(shù)目的超正方體,那么這個假設(shè)將給出很準(zhǔn)確的結(jié)果。如果 k 值在一個很寬的范圍內(nèi)所得到的聚類估計數(shù)都是常數(shù),則這個常數(shù)是一個很好的聚類數(shù)結(jié)論。最短距離法的聚類步驟如下: ① 規(guī)定樣品之間的距離,計算樣品的兩兩距離,距離矩陣記為 ??0S ,開始視每個樣品分別為一類,這時顯然應(yīng)有 pqdqpD ?),( ; ② 選擇距離矩陣 ??0S 中的最小元素,不失一般性,記其為 ),( qpD ,則將 pG 與 qG 合并為一新類,記為 mG ,有 qpm GGG ?? ; ③ 計算新類 mG 與其他各類 的距離,得到新的距離矩陣記為 ??1S ; ④ 對 ??1S 重復(fù)開始進(jìn)行第 ② 步,?,直到所有樣本成為一類為止。 四、 應(yīng)注意的幾個問題 ? 判別分析和聚類分析是兩種不同的分類方法,它們所起的作用是不同的。 ? 大多數(shù)的研究表明:最好綜合特性的聚類方法為類平均法或 Ward 最小方差法,而最差的則為最短距離法。 SAS 聚類分析用于將一批樣本按各變量(指標(biāo))的親疏程度進(jìn)行分類。 SAS 軟件主要有以下 5 個聚類過程,即 cluster, fastclus, modeclus、 varclus 和 tree 過程。 var 變量表 。通過選項 type=可以接受距離矩陣或非相似類型的距離。 ? penalty=p—— 指定用于 method= eml中的懲罰系數(shù)。如果數(shù)據(jù)是坐標(biāo)數(shù)據(jù),缺省值為變量的個數(shù);如果是距離 數(shù)據(jù),缺省值為 1??梢砸?guī)定這個選項以便減少過程執(zhí)行的時間和空間。 ? simple—— 打印簡單統(tǒng)計數(shù)。 2. Fastclus 快速聚類過程 Fastclus 過程稱為快速聚類過程或動態(tài)聚類過程。該步可以一直進(jìn)行到類中的“凝聚點”的改變很小或為 0 時停止; ④ 最終的分類由分配每一個觀 察到最近的“凝聚點”而形成。 weight 變量 。 ② 有關(guān)控制聚類的初始中心點選項: maxclusters=n(或 maxc=n) —— 指定所允許的最大聚類數(shù)(缺省值為 100)。 ③ 有關(guān)控制最終聚類“凝聚點”的計算選項: drift—— 每當(dāng)一個觀察歸入最靠近的“凝聚點”所在類后,此類的“凝聚點”都要被該類中現(xiàn)有觀察的均值所替代。 ( 2) 其他語句。對于含有很多變量的變量集,常常用信息損失很少的類分量集替代。通過迭代,變量被重新分配到這些類里,使得由這些類分量所解釋的方差最大。 seed 變量表 。 ? outtree=輸出數(shù)據(jù)集 —— 包含聚類過程的樹狀結(jié)構(gòu)信息,供 tree 過程調(diào)用。 ? cov—— 用協(xié)方差矩陣聚類。 ( 2) 其他語句。 height 變量 。 ? out=輸出數(shù)據(jù)集 —— 輸出繪制樹形結(jié)構(gòu)圖的有關(guān)數(shù)據(jù)到指定數(shù)據(jù)集。 ③ 有關(guān)樹高度和樹葉控制的選項: ? height=常規(guī)變量 —— 規(guī)定在樹狀圖中用以確定高度軸的常規(guī)變量。 ? tickpos=n—— 指定在高度軸上每個刻度間隔打 印位置的個數(shù)。缺省值為“ X”。 name變量同 parent 變量聯(lián)合確定樹的結(jié)構(gòu)。 六、 實例分析 例 試對 1976 年 74 個國家 (地區(qū)) 每 100000 人口的出 生 率和死亡率數(shù)據(jù)進(jìn)行聚類分析(使用 cluster 和 tree 過程)。 AFGHANISTAN 52 30 ALGERIA 50 16 ? ? ? ZAIRE 45 18 。從圖 ,按出 生 率和死亡率來區(qū)分 74 個國家 (地區(qū)) ,直觀上可以區(qū)分成三類:低出 生 率和低死亡率的國家 (地區(qū)) (富裕發(fā)達(dá)的國家 或地區(qū) ),高出 生 率和高死亡率的國家 (地區(qū)) (貧窮落后的國家 或地區(qū) ),中出 生 率和低死亡率的國家 (地區(qū)) (中等發(fā)展中的國家 或地區(qū) )。 var birth death。 title2 PLOT OF amp。例如,針對于 %analyze(two k=6,3) 宏命令,輸入?yún)?shù)變量 mm=“ two k=6”, nn=“ 3”。 cluster 過程的結(jié)果輸出包括協(xié)方差陣的特征值( Eigenvalue),兩相鄰特征值之差( Difference),各特征值占總方差的百分比( Proportion)和累計百分比( Cumulative)。mm,而不是 method=mm。 %mend。 copy birth death。CLUSTER ANALYSIS OF BIRTH AND DEATH RATES IN 74 COUNTRIES39。 plot death*birth / hpos=86 vpos=26 。 title 39。 ? height語句 —— 規(guī)定一個數(shù)值變量用于定義這個樹中每個節(jié) 點(類)的高度。 ? noprint—— 只創(chuàng)建 out=的輸出數(shù)據(jù)集而不繪制樹狀圖。缺省值為 X。 ? ntich=n—— 指定在高度軸上刻度之間的間隔個數(shù)。 n 的缺省值為 0。 by 變量表 。 tree 過程可以把輸入數(shù)據(jù)集中的任何數(shù)值變量都能夠用來規(guī)定這些類的高度,還可根據(jù)用戶的要求生成一個輸出數(shù)據(jù)集,其中包含一個變量,其值用以標(biāo)識在這個樹里指定水平上不相交的類。 上海財經(jīng)大學(xué)經(jīng)濟(jì)信息管理系 IS/SHUFE Page 17 of 62 ? simple—— 打印均值和標(biāo)準(zhǔn)差。 ? percent=n —— 指定類分量必須解釋的方差百分比。 run; ( 1) proc varclus 語句 選項列表 。準(zhǔn)則缺省時,每類只要有一個特征值大于 1,則過程停止。根據(jù)規(guī)定的選項,選中的類應(yīng)該是:或者用它的類分量所解釋的方差百分比最小,或者同第二主 成分 有關(guān) 的特征值為最大 。)或由 factor 過程產(chǎn)生因子得分,然后由 fastclus 過程加以聚類。 maxiter= n—— 指定重新計算“凝聚點”所需的最大迭代次數(shù),缺省值為1。要注意,選擇一個好的 t 值,可以得到好的分類結(jié)果。 ① 有關(guān)輸入輸出數(shù)據(jù)集選項: data=輸入數(shù)據(jù)集 —— 原始輸入數(shù)據(jù)集。 fastclus 過程一般由下列語句控制: proc fastclus 選項列表 。此時 , 使用 fastclus 過程就能很快地和很好地將大量樣品數(shù)聚類成兩類或 三類。 ( 2) 其他語句。同時 , 打印輸出選項 rsquare有關(guān)的 R2和半偏 R2。近鄰個數(shù) n 必須大于等于 2 且小于觀察數(shù)。在使用 method= ward 或 plete時,因類可能被異常值嚴(yán)重地歪曲,最好使用這個選項。 ? nonorm—— 阻止距離被正態(tài)化成均數(shù)為 1 或均方根為 1。 rmsstd 變量 。 varclus 過程可用于系統(tǒng)或動態(tài)聚類, 通過斜交多組分量分析對變量作譜系的和不相交的這兩種聚類。如此反復(fù)進(jìn)行,直到所有樣本合并為一類。拉長的或無規(guī)則的類使用最短距離法比其他方法好。 ? 通常測量變量有三種尺度:間隔尺度、有序尺度和名義尺度,其中間隔尺度使用得最多,本章主要討論這種尺度。 3. 分解法 它的程序正好和系統(tǒng)聚類相反,開始時所有的樣本都在一類 ,然后用某種最優(yōu)準(zhǔn)則將它分成兩類。將距離最近的兩類合并為一個新類,在計算新類和其他類之間的距離,再從中找出最近的兩類合并,繼續(xù)下去,最后所有的樣品全在一類。在 cluster 過程中這三個準(zhǔn)則都被應(yīng)用和輸出,而在fastclus 過程中僅偽 F 統(tǒng)計量和 CCC 統(tǒng)計量被應(yīng)用和輸出。 Arnold( 1979)使用模擬的方法導(dǎo)出了有關(guān)確定類的個數(shù)準(zhǔn)則的有用信息。在聚類過程中到底把分類對象分成多少類適宜是一個十分困難的問題。 ( 5) 偽 2t 統(tǒng)計量 )2/()())2(,(2 ??? ????? qpDD DDDqpvvt qp qpm偽 () 該統(tǒng)計量用以評價合并類 pG 和類 qG 的效果。例如,從 10 類合并到 5 類時, 2R 值每次減少大約在 到 之間, 2R 值減小到 ,從 5 類合并到 4 類時, 2R 值減少了 ,即 2R =- =,這時,我們就可以得出 分 5 類是最合適的。 v 為觀察樣品的變量維數(shù), p 為類 pG 中的觀察數(shù)目。 ( 8) 最大似然估計法: 最大似然估計法 EML 是 SAS 研究所的 發(fā)展 Symans( 1981)對不相交的類的研究,由最大似然公式得到。使用密度估計法時,眾數(shù)類( modal clusters)經(jīng)常在尾部所有點聚類之前就已經(jīng)被合并掉了。 ② 均勻核估計法 上海財經(jīng)大學(xué)經(jīng)濟(jì)信息管理系 IS/SHUFE Page 7 of 62 均勻核估計使用了均勻核密度估計來計算距離。最小方差法或離差平方和由 Ward( 1963)提出。 ( 5) Ward 最小方差法或 Ward 離差平方和距離: 若采用直徑( 式 )的定義方法,用 pD 、 qD 分別表示 pG 和 qG 的直徑,用 qpD? 表示大類 qp DD ? 的直徑,則 : ? ? ? ??? ????pGipipip xxxxD, ? ? ? ??? ????qGiqjqjq xxxxD () ? ? ? ???? ????qp GGiiiqp xxxxD ? () 其中 , ???? qp GGi ixqpx ?1 。最長距離法由 Sorensen( 1948)提出。令 pG 和 qG 中 分別有 p 和q 個樣品,它們的重心分別記為 px 和 qx 。 定義 2 T為一給定的閾值,如果對每個 Gi? ,有 ∑∈11Gj ij Tdk ?,則稱 G為一個類。例如,采用非相似測度距離為 21 ijij cd ?? ,或 21 ijij rd ?? 。 表 p 個變量的 n 組樣品數(shù)據(jù) 樣品號 變量 1 2 ? n 1X 2X ? pX 11x 21x ? 1nx 12x 22x ? 2nx ? ? ? ? px1 px2 ? npx 上海財經(jīng)大學(xué)經(jīng)濟(jì)信息管理系 IS/SHUFE Page 2 of 62 第 i 個與第 j 個樣品之間 的 距離用 ijd 表示, ijd 一般應(yīng)滿足下面的條件: ? 0?ijd 當(dāng)?shù)?i 個樣品與第 j 個樣品相等; ? 0?ijd 對一切 i, j; ? jiij dd ? 對一切 i, j; ? kjikij ddd ?? 對一切對一切 i, j , k。 下面我們介紹聚類分析中常用的一些方法。 聚類分析 的 主要目的是研究事物的分類,而不同于判別分析。關(guān)于聚類分析的任何通則必定是含糊的、不明確的,因為在眾多的各種不同領(lǐng)域里聚類方法已經(jīng) 得到發(fā)展 ,類和對象間的相似性具有不同定義。距離一般用于對樣品分類。常用的相似系數(shù)有: ( 1) 夾角余弦 夾角余弦作為變量間的相似關(guān)系,它忽視各變量的絕對長度,著重從形狀方面反映它們之間的關(guān)系。下面給出類的幾個定義,不同的定義適用于不同的場合。常用的特征有如下三種: ( 1) 均值 Gx (或稱為 G 的重心): ??? mi iG xmx 11 () ( 2) 樣品協(xié)方差陣: ? ?? ?GGmiGiGiGAmSxxxxA111?????? ?? () ( 3) G 的直徑。 上海財經(jīng)大學(xué)經(jīng)濟(jì)信息管理系 IS/SHUFE Page 5 of 62 ( 2) 最長距離: ? ? ? ?qpjk GkGjdqpD ??? ,m a x, () 類與類之間 的 距離定義為 pG 和 qG 中最遠(yuǎn)的兩個樣品的距離。類平均距離法趨向于合并具有較小偏差的類,而且稍微有點傾向 于產(chǎn)生相同方差的類。所以, Ward 方法趨向于合并 具有少量觀察的類,并傾向于形成具有大約相同數(shù)目觀察的類。令 )(xrk 為點 x 到第 k 個最近觀察的距離。 v 為觀察樣品的變量維數(shù)。但有一個例外,只有在兩個類中至少有一個類中的樣品個數(shù)少于 proc cluster過程的選項 mode=值時才能合并。修正公式為對式 ()中的 2 改為 p 值。而且 2R的值總是隨著分類個數(shù)的減少而變小。自由度為 )1( ?Gv 和)( Gnv ? 。因為只有在觀
點擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1