freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

sas系統(tǒng)和數(shù)據(jù)分析聚類分析(編輯修改稿)

2024-09-24 17:31 本頁(yè)面
 

【文章內(nèi)容簡(jiǎn)介】 可變類平均法。 ? 大多數(shù)的研究表明:最好綜合特性的聚類方法為類平均法或 Ward 最小方差法,而最差的則為最短距離法。 Ward 最小方差法傾向于尋找觀察數(shù)相同的類。類平均法偏向?qū)ふ业确讲畹念?。具有最小偏差的聚類方法為最短距離法和密度估計(jì)法。拉長(zhǎng)的或無(wú)規(guī)則的類使用最短距離法比其他方法好。最沒有偏見的聚類方法為密度估計(jì)法。 五、 SAS 的聚類分析過(guò)程 SAS 的聚類過(guò)程能夠被用來(lái)對(duì)某個(gè) SAS 數(shù)據(jù)集中的觀察進(jìn)行分類。能得到譜系的和不 相交的這兩種分類。 SAS 聚類分析用于將一批樣本按各變量(指標(biāo))的親疏程度進(jìn)行分類。親疏程度依樣本間的距離或相似系數(shù)進(jìn)行計(jì)算。聚類方法很多,但 SAS 系統(tǒng)使用系統(tǒng)聚類法( Hierarchical cluster)和動(dòng)態(tài)聚類法( Disjoint cluster)這兩種方法。 SAS 的系統(tǒng)聚類法按樣本距離定義類間距離,將 n 個(gè)樣本各自看作一類,對(duì)兩類距離最小的樣本合并,重新計(jì)算類間距離。如此反復(fù)進(jìn)行,直到所有樣本合并為一類。最后結(jié)果用聚類系譜圖反映。 SAS 的動(dòng)態(tài)聚類法基于 上限-中心點(diǎn)-重心的原理,首先將 n 個(gè)樣本初步分為 G 類,作為聚類個(gè)數(shù)的“上限”,從中確定其“中心點(diǎn)”,用作迭代的起點(diǎn),然后每考察一個(gè)樣本觀察值,就把它移到最靠近的類,并算出每一類的“重心”,再考察一個(gè)觀察點(diǎn)移到另一類。若能減少樣本對(duì)于各自中心的離差之和,則把此兩類的中心同時(shí)移到新的重心,并以重新計(jì)算的重心取代原來(lái)的重心,如此反復(fù)迭代,直到再也無(wú)法降低樣本與重心離差之和為止,移動(dòng)終止,分成 G 類。 SAS 軟件主要有以下 5 個(gè)聚類過(guò)程,即 cluster, fastclus, modeclus、 varclus 和 tree 過(guò)程。這 5 個(gè)過(guò)程的比較和選擇為: cluster 過(guò)程 為系統(tǒng)聚類過(guò)程,可使用十一種聚類方法進(jìn)行譜系聚類,包括重心法、 Ward 離差平方和法和歐氏平均距離法等 。 fastclus 過(guò)程為動(dòng)態(tài)聚類過(guò)程,使用 Kmeans 算法尋找不相交的聚類,適宜于大樣本分析,觀察值可多達(dá)10萬(wàn)個(gè)。 modeclus過(guò)程為動(dòng)態(tài)聚類過(guò)程,使用非參數(shù)密度估計(jì)法尋找不相交的聚類。 varclus 過(guò)程可用于系統(tǒng)或動(dòng)態(tài)聚類, 通過(guò)斜交多組分量分析對(duì)變量作譜系的和不相交的這兩種聚類。 cluster 過(guò)程、fastclus 過(guò)程和 modeclus過(guò)程用于對(duì)樣品聚類, varclus 過(guò)程用于對(duì)變量聚類。 tree 過(guò)程將 cluster或 varclus 過(guò)程的聚類結(jié)果畫出樹形結(jié)構(gòu)圖或譜系圖。 1. Cluster 系統(tǒng)聚類過(guò)程 cluster 過(guò)程一般由下列語(yǔ)句控制: proc cluster 選項(xiàng)列表 。 var 變量表 。 id 變量 。 上海財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息管理系 IS/SHUFE Page 13 of 62 freq 變量 。 copy 變量表 。 rmsstd 變量 。 by 變量表 。 run; ( 1) proc cluster 語(yǔ)句 選項(xiàng)列表 。 ? data=輸入數(shù)據(jù)集 —— 命名包含進(jìn)行聚類的觀察的輸入數(shù)據(jù)集。通過(guò)選項(xiàng) type=可以接受距離矩陣或非相似類型的距離。 ? outtree=輸出數(shù)據(jù)集 —— 供 tree 過(guò)程調(diào)用,用來(lái)輸出聚類結(jié)果的樹狀圖。 ? method=算法 —— 包括 ward(離差平方和法), average(類平均法), centroid(重心法), plete(最長(zhǎng)距離法), single(最短距離法), median(中間距離法), density(密 度法), flexible(可變類平均法), twostage(兩階段密度法), eml(最大似然法),mcquitty(相似分析法)。 ? standard—— 對(duì)變量實(shí)施標(biāo)準(zhǔn)化。 ? nonorm—— 阻止距離被正態(tài)化成均數(shù)為 1 或均方根為 1。 ? nosquare—— 阻止過(guò)程在 method= average、 centroid、 median、 ward 方法中距離數(shù)據(jù)被平方。 ? mode=n—— 當(dāng)合并兩個(gè)類時(shí),規(guī)定對(duì)被指定的眾數(shù)類中的每個(gè)類至少有 n個(gè)成員。這個(gè)選項(xiàng)只能在 method= density 或 twostage 時(shí)一起使用。 ? penalty=p—— 指定用于 method= eml中的懲罰系數(shù)。 p的值必須大于 0,缺省時(shí)為2。 ? trim=p—— 要求從分析中刪去那些概率密度估計(jì)較小的點(diǎn)。 p 的有效值為大于等于0 到小于 100之間,被當(dāng)作百分比。在使用 method= ward 或 plete時(shí),因類可能被異常值嚴(yán)重地歪曲,最好使用這個(gè)選項(xiàng)。也可用于 method= single 中。 ? dim=n—— 當(dāng)規(guī)定 method= density 或 twostage 時(shí)指定使用的維數(shù)。 n 的值必須大于等于 1。如果數(shù)據(jù)是坐標(biāo)數(shù)據(jù),缺省值為變量的個(gè)數(shù);如果是距離 數(shù)據(jù),缺省值為 1。 ? hybrid—— 要求用 Wong 混合聚類方法,其中密度用 k 均值法的初始聚類分析中的均值計(jì)算得到。這個(gè)選項(xiàng)只能在規(guī)定 method= density 或 twostage 時(shí)使用。 ? k=n—— 指明 k 最近鄰估計(jì)法中近鄰的個(gè)數(shù)。近鄰個(gè)數(shù) n 必須大于等于 2 且小于觀察數(shù)。 ? r=n—— 指明均勻核密度估計(jì)法的支撐球半徑。 n 的值必須大于 0。 ? notie—— 阻止 cluster 過(guò)程在聚類歷史過(guò)程中檢查每次產(chǎn)生的類間最小距離連結(jié)( ties)的情況??梢砸?guī)定這個(gè)選項(xiàng)以便減少過(guò)程執(zhí)行的時(shí)間和空間。 ? rsquare—— 打印輸 出 R2和半偏 R2。 ? rmsstd—— 打印輸出每一類的均方根標(biāo)準(zhǔn)差。 ? ccc—— 要求打印輸出在均勻的原假設(shè)下判斷聚類分成幾類合適的一種立方聚類準(zhǔn)則統(tǒng)計(jì)量 ccc和近似期望值 R2。同時(shí) , 打印輸出選項(xiàng) rsquare有關(guān)的 R2和半偏 R2。此選項(xiàng)不適合于 method=single,因?yàn)樵摲椒ㄈ菀讋h掉分布的結(jié)尾部分。 ? pseudo—— 要求打印輸出偽 F 統(tǒng)計(jì)量 (標(biāo)志為 PSF)和偽 2t 統(tǒng)計(jì)量 (標(biāo)志為 PST2)。當(dāng)分類數(shù)目不同時(shí),它們有不同的取 值。 ? simple—— 打印簡(jiǎn)單統(tǒng)計(jì)數(shù)。 上海財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息管理系 IS/SHUFE Page 14 of 62 ? std—— 變量標(biāo)準(zhǔn)化。 在輸出報(bào)表中,可以根據(jù)輸出的 ccc、 psf 和 pst2 統(tǒng)計(jì)量確定多少分類數(shù)較合適。當(dāng) ccc和 psf 值出現(xiàn)峰值 時(shí) 所對(duì)應(yīng)的分類數(shù)較合適,而 pst2 值是在出現(xiàn)峰值 時(shí) 所對(duì)應(yīng)的分類數(shù)減 1較合適。 ( 2) 其他語(yǔ)句。 ? copy 語(yǔ)句 —— 指明輸入數(shù)據(jù)集中的一些變量拷貝到 outtree=的輸出數(shù)據(jù)集中。 ? rmsstd語(yǔ)句 —— 當(dāng)輸入數(shù)據(jù)集中的坐標(biāo)數(shù)據(jù)代表類的均值時(shí),定義表示均方根標(biāo)準(zhǔn)差變量,通常與 freq 語(yǔ)句中的變量配合使用。 cluster 過(guò)程的輸出結(jié)果包括觀察值間均方根 距離、聚類數(shù)目等。 2. Fastclus 快速聚類過(guò)程 Fastclus 過(guò)程稱為快速聚類過(guò)程或動(dòng)態(tài)聚類過(guò)程。它是根據(jù)由一個(gè)或幾個(gè)定量變量計(jì)算的歐氏距離和 k 均值聚類方法對(duì)數(shù)據(jù)進(jìn)行分類,該過(guò)程只須對(duì)這組數(shù)據(jù)掃描二次或三次就能尋找出很好的分類結(jié)果,這些類之間互不相交。當(dāng)需要聚類的樣品數(shù)較多時(shí),如果采用 cluster過(guò)程就需要計(jì)算很長(zhǎng)時(shí)間,因?yàn)樗獜囊粋€(gè)樣品一類依 次 聚類到所有樣品作為一類。而在實(shí)際問題中,常常只需要知道聚類到有實(shí)用價(jià)值的幾類結(jié)果即可。此時(shí) , 使用 fastclus 過(guò)程就能很快地和很好地將大量樣品數(shù)聚類成兩類或 三類。聚類的結(jié)果是將每個(gè)樣品加上所屬的類別標(biāo)記。 Fastclus 過(guò)程的聚類步驟如下: ① 選擇若干個(gè)觀察作為“凝聚點(diǎn)”或稱類的中心點(diǎn),作為這些類均值的第一次猜測(cè)值; ② 通過(guò)可選擇地分配,把每一個(gè)觀察分配到與這些“凝聚點(diǎn)”中最近距離的類里來(lái)形成臨時(shí)類。每次對(duì)一個(gè)觀察進(jìn)行分類,同時(shí)對(duì)加入新觀察的“凝聚點(diǎn)”更新為這一類目前的均值; ③ 重復(fù)步驟 ② 直到所有觀察分配完成之后,這些類的“凝聚點(diǎn)”用臨時(shí)類的均值替代。該步可以一直進(jìn)行到類中的“凝聚點(diǎn)”的改變很小或?yàn)?0 時(shí)停止; ④ 最終的分類由分配每一個(gè)觀 察到最近的“凝聚點(diǎn)”而形成。 初始類的“凝聚點(diǎn)”必須是沒有丟失值的觀察,用戶可以選擇這些“凝聚點(diǎn)”,或讓過(guò)程自己去選擇。用戶還可以指定最大的“凝聚點(diǎn)”個(gè)數(shù),及“凝聚點(diǎn)”之間的必須分隔開的最小距離。特別要注意, fastclus 過(guò)程對(duì)異常點(diǎn)很敏感,通常會(huì)把異常點(diǎn)分配為單獨(dú)的一個(gè)類,因此也是檢測(cè)異常點(diǎn)的有效過(guò)程。 fastclus 過(guò)程一般由下列語(yǔ)句控制: proc fastclus 選項(xiàng)列表 。 var 變量表 。 id 變量 。 freq 變量 。 weight 變量 。 by 變量表 。 run; ( 1) proc fastclus 語(yǔ)句 選項(xiàng)列表 。 上海財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息管理系 IS/SHUFE Page 15 of 62 按選項(xiàng)控制的性質(zhì)可以分成以下 4 類。 ① 有關(guān)輸入輸出數(shù)據(jù)集選項(xiàng): data=輸入數(shù)據(jù)集 —— 原始輸入數(shù)據(jù)集。 seed=輸入數(shù)據(jù)集 —— 指定一個(gè) SAS 數(shù)據(jù)集,其中含有初始的“凝聚點(diǎn)”,但無(wú)原始數(shù)據(jù)。 mean=輸出數(shù)據(jù)集 —— 生成一個(gè)輸出數(shù)據(jù)集,其中包含每個(gè)類的均值和一些統(tǒng)計(jì)量。 out=輸出數(shù)據(jù)集 —— 將含有原始數(shù)據(jù)和分類標(biāo)志的聚類結(jié)果輸出到指定數(shù)據(jù)集。 ② 有關(guān)控制聚類的初始中心點(diǎn)選項(xiàng): maxclusters=n(或 maxc=n) —— 指定所允許的最大聚類數(shù)(缺省值為 100)。 radius =t—— 為選擇新的“凝聚點(diǎn)”指定最小距離準(zhǔn)則。當(dāng)一個(gè)觀察點(diǎn)與已有“凝聚點(diǎn)”的最小距離都大于 t 值時(shí),該觀察可考慮用來(lái)作為一個(gè)新的“凝聚點(diǎn)”。 t 的缺省值為 0。要注意,選擇一個(gè)好的 t 值,可以得到好的分類結(jié)果。 注意用戶必須規(guī)定說(shuō)明 maxclusters=或 radius =中的一個(gè)。 replace = full | part | none |random—— 指定“凝聚點(diǎn)”的替換方式。 full為用統(tǒng)計(jì)方法替換,缺省值; part 為僅當(dāng)觀 察點(diǎn)與最近的“凝聚點(diǎn)”距離大于“凝聚點(diǎn)”之間的最小距離時(shí),那么有一個(gè)老的“凝聚點(diǎn)”被替換; none 為禁止“凝聚點(diǎn)”的替換; random 為從完整的觀察樣本中隨機(jī)地選擇一組樣本作為初始“凝聚點(diǎn)”。 ③ 有關(guān)控制最終聚類“凝聚點(diǎn)”的計(jì)算選項(xiàng): drift—— 每當(dāng)一個(gè)觀察歸入最靠近的“凝聚點(diǎn)”所在類后,此類的“凝聚點(diǎn)”都要被該類中現(xiàn)有觀察的均值所替代。因而“凝聚點(diǎn)”不斷發(fā)生變化。 convergec=c(或 conv= c) —— 指定收斂的判斷準(zhǔn)則, c 為任意非負(fù)值,缺省值為0 .02。當(dāng)“凝聚點(diǎn)”改變的最大距離小于或等于初始 “凝聚點(diǎn)”之間的最小距離乘以 c 值時(shí),循環(huán)過(guò)程結(jié)束。 maxiter= n—— 指定重新計(jì)算“凝聚點(diǎn)”所需的最大迭代次數(shù),缺省值為1。 strict= s—— 當(dāng)一個(gè)觀察同其最近“凝聚點(diǎn)”之間的距離大于 s 值時(shí),此觀察不歸入此類。 ④ 有關(guān)控制打印輸出的選項(xiàng): distance—— 要求打印類均值之間的距離。 list—— 要求列出所有觀察的 id 變量值,觀察所歸入類的類號(hào),及觀察與最終“凝聚點(diǎn)”之間的距離。 ( 2) 其他語(yǔ)句。 主要有 var、 id、 freq、 weight、 by 等語(yǔ)句,意義同其他聚類過(guò)程中的語(yǔ)句,不再贅述。 另外,在 采用 fastclus 過(guò)程之前,若變量值的單位不一致則必須對(duì)變量預(yù)先用 standard過(guò)程轉(zhuǎn)換成標(biāo)準(zhǔn)分(例如: proc standard mean=0 std=1 out=abc。var x1 x2。)或由 factor 過(guò)程產(chǎn)生因子得分,然后由 fastclus 過(guò)程加以聚類。 3. Varclus 方差聚類過(guò)程 varclus 過(guò)程基于相關(guān)矩陣或協(xié)方差矩陣,對(duì)數(shù)值變量進(jìn)行不相交或譜系分類。類的劃分通過(guò)計(jì)算每類第一主 成分 或重心 成分 的最大方差而確定,因此,同每一類有聯(lián)系的是該類中這些變量的線性組合。 varclus 過(guò)程能夠被用來(lái) 作為變量壓縮的方法。對(duì)于含有很多變量的變量集,常常用信息損失很少的類分量集替代。若采用相關(guān)矩陣的信息,則所有變量都平等;當(dāng)引用協(xié)方差矩陣分析時(shí).某變量有較大方差,該變量則較為重要。 varclus 過(guò)程生成的輸出數(shù)據(jù)集,可由 score 過(guò)程計(jì)算出每類的得分。 varclus 過(guò)程的變量聚類步驟如下: 如果沒有為過(guò)程提供初始分類的情況(缺省情況),該過(guò)程開始把所有變量看成一個(gè)類,上海財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息管理系 IS/SHUFE Page 16 of 62 然后它重復(fù)以下步驟: ① 首先挑選一個(gè)將被分裂的類。根據(jù)規(guī)定的選項(xiàng),選中的類應(yīng)該是:或者用它的類分量所解釋的方差百分比最小,或者同第二主 成分 有關(guān) 的特征值為最大 。 ② 把選中的類分裂成兩個(gè)類。先計(jì)算出開頭兩個(gè)主 成分 ,再進(jìn)行斜交旋轉(zhuǎn),并把每個(gè)變量分配到旋轉(zhuǎn)分量對(duì)應(yīng)的類里,分配原則為使變量與這個(gè)主 成分 的相關(guān)系數(shù)最大。 ③ 變量重新分類。通
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1