freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

sas系統(tǒng)和數(shù)據(jù)分析聚類分析(編輯修改稿)

2024-09-24 17:31 本頁面
 

【文章內(nèi)容簡介】 可變類平均法。 ? 大多數(shù)的研究表明:最好綜合特性的聚類方法為類平均法或 Ward 最小方差法,而最差的則為最短距離法。 Ward 最小方差法傾向于尋找觀察數(shù)相同的類。類平均法偏向?qū)ふ业确讲畹念?。具有最小偏差的聚類方法為最短距離法和密度估計法。拉長的或無規(guī)則的類使用最短距離法比其他方法好。最沒有偏見的聚類方法為密度估計法。 五、 SAS 的聚類分析過程 SAS 的聚類過程能夠被用來對某個 SAS 數(shù)據(jù)集中的觀察進行分類。能得到譜系的和不 相交的這兩種分類。 SAS 聚類分析用于將一批樣本按各變量(指標(biāo))的親疏程度進行分類。親疏程度依樣本間的距離或相似系數(shù)進行計算。聚類方法很多,但 SAS 系統(tǒng)使用系統(tǒng)聚類法( Hierarchical cluster)和動態(tài)聚類法( Disjoint cluster)這兩種方法。 SAS 的系統(tǒng)聚類法按樣本距離定義類間距離,將 n 個樣本各自看作一類,對兩類距離最小的樣本合并,重新計算類間距離。如此反復(fù)進行,直到所有樣本合并為一類。最后結(jié)果用聚類系譜圖反映。 SAS 的動態(tài)聚類法基于 上限-中心點-重心的原理,首先將 n 個樣本初步分為 G 類,作為聚類個數(shù)的“上限”,從中確定其“中心點”,用作迭代的起點,然后每考察一個樣本觀察值,就把它移到最靠近的類,并算出每一類的“重心”,再考察一個觀察點移到另一類。若能減少樣本對于各自中心的離差之和,則把此兩類的中心同時移到新的重心,并以重新計算的重心取代原來的重心,如此反復(fù)迭代,直到再也無法降低樣本與重心離差之和為止,移動終止,分成 G 類。 SAS 軟件主要有以下 5 個聚類過程,即 cluster, fastclus, modeclus、 varclus 和 tree 過程。這 5 個過程的比較和選擇為: cluster 過程 為系統(tǒng)聚類過程,可使用十一種聚類方法進行譜系聚類,包括重心法、 Ward 離差平方和法和歐氏平均距離法等 。 fastclus 過程為動態(tài)聚類過程,使用 Kmeans 算法尋找不相交的聚類,適宜于大樣本分析,觀察值可多達10萬個。 modeclus過程為動態(tài)聚類過程,使用非參數(shù)密度估計法尋找不相交的聚類。 varclus 過程可用于系統(tǒng)或動態(tài)聚類, 通過斜交多組分量分析對變量作譜系的和不相交的這兩種聚類。 cluster 過程、fastclus 過程和 modeclus過程用于對樣品聚類, varclus 過程用于對變量聚類。 tree 過程將 cluster或 varclus 過程的聚類結(jié)果畫出樹形結(jié)構(gòu)圖或譜系圖。 1. Cluster 系統(tǒng)聚類過程 cluster 過程一般由下列語句控制: proc cluster 選項列表 。 var 變量表 。 id 變量 。 上海財經(jīng)大學(xué)經(jīng)濟信息管理系 IS/SHUFE Page 13 of 62 freq 變量 。 copy 變量表 。 rmsstd 變量 。 by 變量表 。 run; ( 1) proc cluster 語句 選項列表 。 ? data=輸入數(shù)據(jù)集 —— 命名包含進行聚類的觀察的輸入數(shù)據(jù)集。通過選項 type=可以接受距離矩陣或非相似類型的距離。 ? outtree=輸出數(shù)據(jù)集 —— 供 tree 過程調(diào)用,用來輸出聚類結(jié)果的樹狀圖。 ? method=算法 —— 包括 ward(離差平方和法), average(類平均法), centroid(重心法), plete(最長距離法), single(最短距離法), median(中間距離法), density(密 度法), flexible(可變類平均法), twostage(兩階段密度法), eml(最大似然法),mcquitty(相似分析法)。 ? standard—— 對變量實施標(biāo)準(zhǔn)化。 ? nonorm—— 阻止距離被正態(tài)化成均數(shù)為 1 或均方根為 1。 ? nosquare—— 阻止過程在 method= average、 centroid、 median、 ward 方法中距離數(shù)據(jù)被平方。 ? mode=n—— 當(dāng)合并兩個類時,規(guī)定對被指定的眾數(shù)類中的每個類至少有 n個成員。這個選項只能在 method= density 或 twostage 時一起使用。 ? penalty=p—— 指定用于 method= eml中的懲罰系數(shù)。 p的值必須大于 0,缺省時為2。 ? trim=p—— 要求從分析中刪去那些概率密度估計較小的點。 p 的有效值為大于等于0 到小于 100之間,被當(dāng)作百分比。在使用 method= ward 或 plete時,因類可能被異常值嚴(yán)重地歪曲,最好使用這個選項。也可用于 method= single 中。 ? dim=n—— 當(dāng)規(guī)定 method= density 或 twostage 時指定使用的維數(shù)。 n 的值必須大于等于 1。如果數(shù)據(jù)是坐標(biāo)數(shù)據(jù),缺省值為變量的個數(shù);如果是距離 數(shù)據(jù),缺省值為 1。 ? hybrid—— 要求用 Wong 混合聚類方法,其中密度用 k 均值法的初始聚類分析中的均值計算得到。這個選項只能在規(guī)定 method= density 或 twostage 時使用。 ? k=n—— 指明 k 最近鄰估計法中近鄰的個數(shù)。近鄰個數(shù) n 必須大于等于 2 且小于觀察數(shù)。 ? r=n—— 指明均勻核密度估計法的支撐球半徑。 n 的值必須大于 0。 ? notie—— 阻止 cluster 過程在聚類歷史過程中檢查每次產(chǎn)生的類間最小距離連結(jié)( ties)的情況??梢砸?guī)定這個選項以便減少過程執(zhí)行的時間和空間。 ? rsquare—— 打印輸 出 R2和半偏 R2。 ? rmsstd—— 打印輸出每一類的均方根標(biāo)準(zhǔn)差。 ? ccc—— 要求打印輸出在均勻的原假設(shè)下判斷聚類分成幾類合適的一種立方聚類準(zhǔn)則統(tǒng)計量 ccc和近似期望值 R2。同時 , 打印輸出選項 rsquare有關(guān)的 R2和半偏 R2。此選項不適合于 method=single,因為該方法容易刪掉分布的結(jié)尾部分。 ? pseudo—— 要求打印輸出偽 F 統(tǒng)計量 (標(biāo)志為 PSF)和偽 2t 統(tǒng)計量 (標(biāo)志為 PST2)。當(dāng)分類數(shù)目不同時,它們有不同的取 值。 ? simple—— 打印簡單統(tǒng)計數(shù)。 上海財經(jīng)大學(xué)經(jīng)濟信息管理系 IS/SHUFE Page 14 of 62 ? std—— 變量標(biāo)準(zhǔn)化。 在輸出報表中,可以根據(jù)輸出的 ccc、 psf 和 pst2 統(tǒng)計量確定多少分類數(shù)較合適。當(dāng) ccc和 psf 值出現(xiàn)峰值 時 所對應(yīng)的分類數(shù)較合適,而 pst2 值是在出現(xiàn)峰值 時 所對應(yīng)的分類數(shù)減 1較合適。 ( 2) 其他語句。 ? copy 語句 —— 指明輸入數(shù)據(jù)集中的一些變量拷貝到 outtree=的輸出數(shù)據(jù)集中。 ? rmsstd語句 —— 當(dāng)輸入數(shù)據(jù)集中的坐標(biāo)數(shù)據(jù)代表類的均值時,定義表示均方根標(biāo)準(zhǔn)差變量,通常與 freq 語句中的變量配合使用。 cluster 過程的輸出結(jié)果包括觀察值間均方根 距離、聚類數(shù)目等。 2. Fastclus 快速聚類過程 Fastclus 過程稱為快速聚類過程或動態(tài)聚類過程。它是根據(jù)由一個或幾個定量變量計算的歐氏距離和 k 均值聚類方法對數(shù)據(jù)進行分類,該過程只須對這組數(shù)據(jù)掃描二次或三次就能尋找出很好的分類結(jié)果,這些類之間互不相交。當(dāng)需要聚類的樣品數(shù)較多時,如果采用 cluster過程就需要計算很長時間,因為它要從一個樣品一類依 次 聚類到所有樣品作為一類。而在實際問題中,常常只需要知道聚類到有實用價值的幾類結(jié)果即可。此時 , 使用 fastclus 過程就能很快地和很好地將大量樣品數(shù)聚類成兩類或 三類。聚類的結(jié)果是將每個樣品加上所屬的類別標(biāo)記。 Fastclus 過程的聚類步驟如下: ① 選擇若干個觀察作為“凝聚點”或稱類的中心點,作為這些類均值的第一次猜測值; ② 通過可選擇地分配,把每一個觀察分配到與這些“凝聚點”中最近距離的類里來形成臨時類。每次對一個觀察進行分類,同時對加入新觀察的“凝聚點”更新為這一類目前的均值; ③ 重復(fù)步驟 ② 直到所有觀察分配完成之后,這些類的“凝聚點”用臨時類的均值替代。該步可以一直進行到類中的“凝聚點”的改變很小或為 0 時停止; ④ 最終的分類由分配每一個觀 察到最近的“凝聚點”而形成。 初始類的“凝聚點”必須是沒有丟失值的觀察,用戶可以選擇這些“凝聚點”,或讓過程自己去選擇。用戶還可以指定最大的“凝聚點”個數(shù),及“凝聚點”之間的必須分隔開的最小距離。特別要注意, fastclus 過程對異常點很敏感,通常會把異常點分配為單獨的一個類,因此也是檢測異常點的有效過程。 fastclus 過程一般由下列語句控制: proc fastclus 選項列表 。 var 變量表 。 id 變量 。 freq 變量 。 weight 變量 。 by 變量表 。 run; ( 1) proc fastclus 語句 選項列表 。 上海財經(jīng)大學(xué)經(jīng)濟信息管理系 IS/SHUFE Page 15 of 62 按選項控制的性質(zhì)可以分成以下 4 類。 ① 有關(guān)輸入輸出數(shù)據(jù)集選項: data=輸入數(shù)據(jù)集 —— 原始輸入數(shù)據(jù)集。 seed=輸入數(shù)據(jù)集 —— 指定一個 SAS 數(shù)據(jù)集,其中含有初始的“凝聚點”,但無原始數(shù)據(jù)。 mean=輸出數(shù)據(jù)集 —— 生成一個輸出數(shù)據(jù)集,其中包含每個類的均值和一些統(tǒng)計量。 out=輸出數(shù)據(jù)集 —— 將含有原始數(shù)據(jù)和分類標(biāo)志的聚類結(jié)果輸出到指定數(shù)據(jù)集。 ② 有關(guān)控制聚類的初始中心點選項: maxclusters=n(或 maxc=n) —— 指定所允許的最大聚類數(shù)(缺省值為 100)。 radius =t—— 為選擇新的“凝聚點”指定最小距離準(zhǔn)則。當(dāng)一個觀察點與已有“凝聚點”的最小距離都大于 t 值時,該觀察可考慮用來作為一個新的“凝聚點”。 t 的缺省值為 0。要注意,選擇一個好的 t 值,可以得到好的分類結(jié)果。 注意用戶必須規(guī)定說明 maxclusters=或 radius =中的一個。 replace = full | part | none |random—— 指定“凝聚點”的替換方式。 full為用統(tǒng)計方法替換,缺省值; part 為僅當(dāng)觀 察點與最近的“凝聚點”距離大于“凝聚點”之間的最小距離時,那么有一個老的“凝聚點”被替換; none 為禁止“凝聚點”的替換; random 為從完整的觀察樣本中隨機地選擇一組樣本作為初始“凝聚點”。 ③ 有關(guān)控制最終聚類“凝聚點”的計算選項: drift—— 每當(dāng)一個觀察歸入最靠近的“凝聚點”所在類后,此類的“凝聚點”都要被該類中現(xiàn)有觀察的均值所替代。因而“凝聚點”不斷發(fā)生變化。 convergec=c(或 conv= c) —— 指定收斂的判斷準(zhǔn)則, c 為任意非負值,缺省值為0 .02。當(dāng)“凝聚點”改變的最大距離小于或等于初始 “凝聚點”之間的最小距離乘以 c 值時,循環(huán)過程結(jié)束。 maxiter= n—— 指定重新計算“凝聚點”所需的最大迭代次數(shù),缺省值為1。 strict= s—— 當(dāng)一個觀察同其最近“凝聚點”之間的距離大于 s 值時,此觀察不歸入此類。 ④ 有關(guān)控制打印輸出的選項: distance—— 要求打印類均值之間的距離。 list—— 要求列出所有觀察的 id 變量值,觀察所歸入類的類號,及觀察與最終“凝聚點”之間的距離。 ( 2) 其他語句。 主要有 var、 id、 freq、 weight、 by 等語句,意義同其他聚類過程中的語句,不再贅述。 另外,在 采用 fastclus 過程之前,若變量值的單位不一致則必須對變量預(yù)先用 standard過程轉(zhuǎn)換成標(biāo)準(zhǔn)分(例如: proc standard mean=0 std=1 out=abc。var x1 x2。)或由 factor 過程產(chǎn)生因子得分,然后由 fastclus 過程加以聚類。 3. Varclus 方差聚類過程 varclus 過程基于相關(guān)矩陣或協(xié)方差矩陣,對數(shù)值變量進行不相交或譜系分類。類的劃分通過計算每類第一主 成分 或重心 成分 的最大方差而確定,因此,同每一類有聯(lián)系的是該類中這些變量的線性組合。 varclus 過程能夠被用來 作為變量壓縮的方法。對于含有很多變量的變量集,常常用信息損失很少的類分量集替代。若采用相關(guān)矩陣的信息,則所有變量都平等;當(dāng)引用協(xié)方差矩陣分析時.某變量有較大方差,該變量則較為重要。 varclus 過程生成的輸出數(shù)據(jù)集,可由 score 過程計算出每類的得分。 varclus 過程的變量聚類步驟如下: 如果沒有為過程提供初始分類的情況(缺省情況),該過程開始把所有變量看成一個類,上海財經(jīng)大學(xué)經(jīng)濟信息管理系 IS/SHUFE Page 16 of 62 然后它重復(fù)以下步驟: ① 首先挑選一個將被分裂的類。根據(jù)規(guī)定的選項,選中的類應(yīng)該是:或者用它的類分量所解釋的方差百分比最小,或者同第二主 成分 有關(guān) 的特征值為最大 。 ② 把選中的類分裂成兩個類。先計算出開頭兩個主 成分 ,再進行斜交旋轉(zhuǎn),并把每個變量分配到旋轉(zhuǎn)分量對應(yīng)的類里,分配原則為使變量與這個主 成分 的相關(guān)系數(shù)最大。 ③ 變量重新分類。通
點擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1