freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

sas系統(tǒng)和數(shù)據(jù)分析聚類分析-文庫吧資料

2024-08-27 17:31本頁面
  

【正文】 法而不是主成 分 法。 ? maxeigen=n —— 規(guī)定每一類中第二特征值所允許的最大值。 ② 有關(guān)控制聚類數(shù) 的 選項(xiàng)主要有: ? minc =n —— 最小聚類個數(shù)(默認(rèn)為l)。 ? outstat=輸出數(shù)據(jù) 集 —— 存儲均值、標(biāo)準(zhǔn)差、相關(guān)系數(shù)、類得分系數(shù)和聚類結(jié)構(gòu)。 根據(jù)選項(xiàng)所控制的類型,可以把選項(xiàng)列表分成以下 4 類。 by 變量表 。 freq 變量 。 partial 變量表 。 varclus 過程一般由下列語句控制: proc varclus 選項(xiàng)列表 。用戶準(zhǔn)則:或者是每個類分量所解釋的方差百分比,或者是每一類的第二特征值。重新分配可能要求保持譜系結(jié)構(gòu)。 ③ 變量重新分類。 ② 把選中的類分裂成兩個類。 varclus 過程的變量聚類步驟如下: 如果沒有為過程提供初始分類的情況(缺省情況),該過程開始把所有變量看成一個類,上海財經(jīng)大學(xué)經(jīng)濟(jì)信息管理系 IS/SHUFE Page 16 of 62 然后它重復(fù)以下步驟: ① 首先挑選一個將被分裂的類。若采用相關(guān)矩陣的信息,則所有變量都平等;當(dāng)引用協(xié)方差矩陣分析時.某變量有較大方差,該變量則較為重要。 varclus 過程能夠被用來 作為變量壓縮的方法。 3. Varclus 方差聚類過程 varclus 過程基于相關(guān)矩陣或協(xié)方差矩陣,對數(shù)值變量進(jìn)行不相交或譜系分類。var x1 x2。 主要有 var、 id、 freq、 weight、 by 等語句,意義同其他聚類過程中的語句,不再贅述。 list—— 要求列出所有觀察的 id 變量值,觀察所歸入類的類號,及觀察與最終“凝聚點(diǎn)”之間的距離。 strict= s—— 當(dāng)一個觀察同其最近“凝聚點(diǎn)”之間的距離大于 s 值時,此觀察不歸入此類。當(dāng)“凝聚點(diǎn)”改變的最大距離小于或等于初始 “凝聚點(diǎn)”之間的最小距離乘以 c 值時,循環(huán)過程結(jié)束。因而“凝聚點(diǎn)”不斷發(fā)生變化。 full為用統(tǒng)計方法替換,缺省值; part 為僅當(dāng)觀 察點(diǎn)與最近的“凝聚點(diǎn)”距離大于“凝聚點(diǎn)”之間的最小距離時,那么有一個老的“凝聚點(diǎn)”被替換; none 為禁止“凝聚點(diǎn)”的替換; random 為從完整的觀察樣本中隨機(jī)地選擇一組樣本作為初始“凝聚點(diǎn)”。 注意用戶必須規(guī)定說明 maxclusters=或 radius =中的一個。 t 的缺省值為 0。 radius =t—— 為選擇新的“凝聚點(diǎn)”指定最小距離準(zhǔn)則。 out=輸出數(shù)據(jù)集 —— 將含有原始數(shù)據(jù)和分類標(biāo)志的聚類結(jié)果輸出到指定數(shù)據(jù)集。 seed=輸入數(shù)據(jù)集 —— 指定一個 SAS 數(shù)據(jù)集,其中含有初始的“凝聚點(diǎn)”,但無原始數(shù)據(jù)。 上海財經(jīng)大學(xué)經(jīng)濟(jì)信息管理系 IS/SHUFE Page 15 of 62 按選項(xiàng)控制的性質(zhì)可以分成以下 4 類。 by 變量表 。 freq 變量 。 var 變量表 。特別要注意, fastclus 過程對異常點(diǎn)很敏感,通常會把異常點(diǎn)分配為單獨(dú)的一個類,因此也是檢測異常點(diǎn)的有效過程。 初始類的“凝聚點(diǎn)”必須是沒有丟失值的觀察,用戶可以選擇這些“凝聚點(diǎn)”,或讓過程自己去選擇。每次對一個觀察進(jìn)行分類,同時對加入新觀察的“凝聚點(diǎn)”更新為這一類目前的均值; ③ 重復(fù)步驟 ② 直到所有觀察分配完成之后,這些類的“凝聚點(diǎn)”用臨時類的均值替代。聚類的結(jié)果是將每個樣品加上所屬的類別標(biāo)記。而在實(shí)際問題中,常常只需要知道聚類到有實(shí)用價值的幾類結(jié)果即可。它是根據(jù)由一個或幾個定量變量計算的歐氏距離和 k 均值聚類方法對數(shù)據(jù)進(jìn)行分類,該過程只須對這組數(shù)據(jù)掃描二次或三次就能尋找出很好的分類結(jié)果,這些類之間互不相交。 cluster 過程的輸出結(jié)果包括觀察值間均方根 距離、聚類數(shù)目等。 ? copy 語句 —— 指明輸入數(shù)據(jù)集中的一些變量拷貝到 outtree=的輸出數(shù)據(jù)集中。當(dāng) ccc和 psf 值出現(xiàn)峰值 時 所對應(yīng)的分類數(shù)較合適,而 pst2 值是在出現(xiàn)峰值 時 所對應(yīng)的分類數(shù)減 1較合適。 上海財經(jīng)大學(xué)經(jīng)濟(jì)信息管理系 IS/SHUFE Page 14 of 62 ? std—— 變量標(biāo)準(zhǔn)化。當(dāng)分類數(shù)目不同時,它們有不同的取 值。此選項(xiàng)不適合于 method=single,因?yàn)樵摲椒ㄈ菀讋h掉分布的結(jié)尾部分。 ? ccc—— 要求打印輸出在均勻的原假設(shè)下判斷聚類分成幾類合適的一種立方聚類準(zhǔn)則統(tǒng)計量 ccc和近似期望值 R2。 ? rsquare—— 打印輸 出 R2和半偏 R2。 ? notie—— 阻止 cluster 過程在聚類歷史過程中檢查每次產(chǎn)生的類間最小距離連結(jié)( ties)的情況。 ? r=n—— 指明均勻核密度估計法的支撐球半徑。 ? k=n—— 指明 k 最近鄰估計法中近鄰的個數(shù)。 ? hybrid—— 要求用 Wong 混合聚類方法,其中密度用 k 均值法的初始聚類分析中的均值計算得到。 n 的值必須大于等于 1。也可用于 method= single 中。 p 的有效值為大于等于0 到小于 100之間,被當(dāng)作百分比。 p的值必須大于 0,缺省時為2。這個選項(xiàng)只能在 method= density 或 twostage 時一起使用。 ? nosquare—— 阻止過程在 method= average、 centroid、 median、 ward 方法中距離數(shù)據(jù)被平方。 ? standard—— 對變量實(shí)施標(biāo)準(zhǔn)化。 ? outtree=輸出數(shù)據(jù)集 —— 供 tree 過程調(diào)用,用來輸出聚類結(jié)果的樹狀圖。 ? data=輸入數(shù)據(jù)集 —— 命名包含進(jìn)行聚類的觀察的輸入數(shù)據(jù)集。 by 變量表 。 copy 變量表 。 id 變量 。 1. Cluster 系統(tǒng)聚類過程 cluster 過程一般由下列語句控制: proc cluster 選項(xiàng)列表 。 cluster 過程、fastclus 過程和 modeclus過程用于對樣品聚類, varclus 過程用于對變量聚類。 modeclus過程為動態(tài)聚類過程,使用非參數(shù)密度估計法尋找不相交的聚類。這 5 個過程的比較和選擇為: cluster 過程 為系統(tǒng)聚類過程,可使用十一種聚類方法進(jìn)行譜系聚類,包括重心法、 Ward 離差平方和法和歐氏平均距離法等 。若能減少樣本對于各自中心的離差之和,則把此兩類的中心同時移到新的重心,并以重新計算的重心取代原來的重心,如此反復(fù)迭代,直到再也無法降低樣本與重心離差之和為止,移動終止,分成 G 類。最后結(jié)果用聚類系譜圖反映。 SAS 的系統(tǒng)聚類法按樣本距離定義類間距離,將 n 個樣本各自看作一類,對兩類距離最小的樣本合并,重新計算類間距離。親疏程度依樣本間的距離或相似系數(shù)進(jìn)行計算。能得到譜系的和不 相交的這兩種分類。最沒有偏見的聚類方法為密度估計法。具有最小偏差的聚類方法為最短距離法和密度估計法。 Ward 最小方差法傾向于尋找觀察數(shù)相同的類。 ? 系統(tǒng)聚類法是最常用的一種聚類方法,常用的系統(tǒng)聚類方法有最短距離法、最長距離法 、 中間距離法 、類平均法、重心法、 Ward 最小方差法、密度估計法、兩階段密度估計法、最大似然估計法、相似分析法和可變類平均法。 ? 距離和相似系數(shù)這兩個概念反映了樣品(或變量)之間的相似程度。 上海財經(jīng)大學(xué)經(jīng)濟(jì)信息管理系 IS/SHUFE Page 12 of 62 ? 聚類的幾種類型:不相交聚類、譜系聚類、重迭聚類、模糊聚類。判別分析方法假定類已事先分好,判別新樣品應(yīng)歸屬哪一類,對類的事先劃分常常通過聚類分析得到。 4. 加入法 將樣品依次輸入,每次輸入后將它放到當(dāng)前聚類圖的應(yīng)有位置上,全部輸入后,即得聚類圖。再用同樣準(zhǔn)則將這兩類各自試圖分裂為兩類,從中選出一個使目標(biāo)函數(shù)較好者,這樣由兩類變成了三類。此法非常類似于計算方法的迭代法。 值得注意的是 , 在整個聚類的過程中,如果在某一步的距離矩陣中最小元素不止一個時,則可以將其同時合并。下面我們以最短距離法為例來說明系統(tǒng)聚類法的過程。將上述并類過程畫成聚類圖,便可以決定分多少類,每類各有什么樣品。其基本思想是首先將 n個樣品看成 n類(即一類包括一個樣品),然后規(guī)定樣品之間的距離和類與類之間的距離。通常應(yīng)該畫出聚類估計數(shù)對 k 值的圖形,這樣還可能從圖形中獲得很 多 的 有用信息。 或許,研究類的個數(shù)的最好方法是 Wong等人在 1983年提供的 k 最近鄰估計法同變化的k 值一起被應(yīng)用的方法。我們建議尋找這三種統(tǒng)計量之間的一致性,即 CCC 統(tǒng)計量和 F 統(tǒng)計量的局部峰值所對應(yīng)的聚類數(shù),與這個聚類數(shù)偽 2t 統(tǒng)計量的一個較小值和下一個聚類數(shù)的一個較大偽 2t 統(tǒng)計量相吻合。在對樣本數(shù)據(jù)的模擬研究中,找出了以下三個最好的準(zhǔn)則: ① 偽 F 統(tǒng)計量;② 偽 2t 統(tǒng) 計量; ③ 立方聚類準(zhǔn)則 CCC。但在其他情況下, CCC 將給出比較保守的結(jié)果。 CCC 是基于這樣的假設(shè):在超 矩形上的均勻分布將粗略地被分為形狀像超正方體一樣的類。 Sarle( 1983)在應(yīng)用廣泛的模擬基礎(chǔ)上,發(fā)展提出立方聚類準(zhǔn)則 CCC( Cubic Clustering Criterion)。 通常的顯著性檢驗(yàn),比如方差分析的 F 檢驗(yàn),對于檢驗(yàn)類之間的差異是無效的。一般情況下, 3 個或 3 個以內(nèi)的典型變量就已經(jīng)能很好地概括原始數(shù)據(jù)的變異了。對于觀察數(shù)據(jù)只有二維或三維變量,使用 proc plot 或 proc gplot 過程來畫二維數(shù)據(jù)的散點(diǎn)圖,使用 proc g3d 過程來畫三維數(shù)據(jù)的散點(diǎn)圖。一般情況下,是看每個變量的 2R 值及 所有變量的累積 2R 值,觀察這些 2R 值與聚類個數(shù)所畫的折線圖形對判斷分成幾類是有幫助的。 4. 類的個數(shù) 對于 確定各種形式的聚類分析總體中的類的個數(shù)問題,至今 未找 到 令人 滿意的方法。因?yàn)橹挥性谟^察數(shù)據(jù)來自具有標(biāo)量協(xié)方差矩陣的多元正態(tài)分布的獨(dú)立樣本,且聚類方法將觀察隨機(jī)分類的假設(shè)前提下,偽 F 和偽 2t 統(tǒng)計量才具有真正的 F 分布和 2t 分布。否則,這兩個類應(yīng)該在再合并時的離差平方和的增加量很小。該值很大說明合并類 pG 和類 qG 為類 mG后,使得離差平方和的增加量( qpm DDD ?? )相對于原來 pG 和 qG 兩類的類內(nèi)離差平方和很大。偽 F值越大越表示這些觀察可顯著地分為 G 個類。自由度為 )1( ?Gv 和)( Gnv ? 。故這次 合并后的半偏 2R 值越大,說明上次合并后停止合并的效果最好。 ( 3) 半偏 2R 統(tǒng)計量 合并類 pG 和類 qG 為類 mG 時,可以用半偏 2R 統(tǒng)計量評價這次合并的效果,半偏( Semipartial) 2R 計算公式為 : T S SqpDR w /),(2 ?半偏 () 其中, ),( qpDw 的計算公式見式 (),表示合并類 pG 和類 qG 為新類 mG 后,類內(nèi)離差平方和的增量。類的合并總是使 2R 值 變小,如果這種變小是均勻的,合并是應(yīng)該的,但當(dāng)某次合并使 2R 值減少很多,這次合并就不應(yīng)該,即我們找到了最合適的上海財經(jīng)大學(xué)經(jīng)濟(jì)信息管理系 IS/SHUFE Page 9 of 62 分類數(shù)。而且 2R的值總是隨著分類個數(shù)的減少而變小。當(dāng) TSSDi /? 值越?。ㄒ布?2R 統(tǒng)計量越大,越接近 1),表示類內(nèi)離差平方和 ?iD 在總離差平方和 TS 中所占的比例越小,說明了這 G 個類越分開,故聚類效果越好。 ( 2) 2R 統(tǒng)計量 T S SDR i /12 ??? () 其中, ?iD 為在譜系的第 G 層對 G 個類的直徑求和, TS 為所有觀察的總離差平方和。把一個類的離差平方和定義為直徑是非常形象化的,例如,如果一個類的離差平方和等于 0,那么類內(nèi)的所有點(diǎn)都集中在一個點(diǎn)上,所以類的直徑為 0;如果一個類的離差平方 和逐漸變大,那么類內(nèi)的所有點(diǎn)就越來越分散,包含所有點(diǎn)的一個圓或球就會越來越大,相應(yīng)地這個圓或球的直徑就越來越大。修正公式為對式 ()中的 2 改為 p 值。 EML 除了偏向于生成不等大小的類外,與 Ward 最小方差法很相似。類 pG 和類 qG 合并成類 mG , pG 和 qG 兩類之間的距離公式為: 上海財經(jīng)大學(xué)經(jīng)濟(jì)信息管理系 IS/SHUFE Page 8 of 62 )l n ()l n ())l n ((2)/),(1l n (),( qqppmmDqpDnvxxd iwqp ????? ? () 其中, n 為觀察總數(shù), v 為觀察樣品的變量維數(shù), ? ?qpDw , 為公式 (), ?iD 為在譜系的第 G 層對 G 個類的直徑求和。 在第二階段中,把第一階段中形成的眾數(shù)類再按最短距離法譜系地(某一類能夠完全地包含在別的類里,但在類之間不允許其他形式的重迭)合并。但有一個例外,只有在兩個類中至少有一個類中的樣品個數(shù)少于 proc cluster過程的選項(xiàng) mode=值時才能合并。兩階段密度估計法的兩階段是指: 在第一階段中,互不相交的眾數(shù)類被生成。兩階段密度估計法對密度估計法這一缺點(diǎn)進(jìn)行了修正,以確保眾數(shù)類被合并之前,所有點(diǎn)能被分配到眾數(shù)類中去。 ( 7) 兩階段密度估計法: 兩階段密度估計法是 SAS 研究所的 發(fā)展的。 v 為觀察樣品的變量維數(shù)。這樣,新的非相似測度距離 *d 為: 否則如果 rxxdxfxfxxd jijiji ???? ? ?? ),(
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1