freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

sas系統(tǒng)和數(shù)據(jù)分析聚類分析(存儲版)

2025-09-29 17:31上一頁面

下一頁面
  

【正文】 Pseudo Pseudo RMS i NCL Clusters Joined FREQ SPRSQ RSQ ERSQ CCC F t**2 Dist e 15 CL18 CL34 11 . . 14 CL20 OB41 4 13 CL24 CL23 15 12 CL22 OB72 7 11 CL12 CL26 11 10 CL15 CL19 21 9 CL41 OB12 6 8 CL17 CL16 9 7 CL13 CL9 21 6 CL10 CL32 27 5 CL8 CL11 20 4 CL27 CL7 23 3 CL6 CL14 31 2 CL4 CL5 43 1 CL2 CL3 74 . 上海財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息管理系 IS/SHUFE Page 23 of 62 圖 74 個國家(地區(qū))按 average 法聚成八類后的散點(diǎn)圖 3. 主要結(jié)果分析。 值得注意的是,許多 SAS 過程都編寫成與上面類似的宏程序調(diào)用情況,可以模仿改寫上面的程序。 %analyze(average,2) %analyze(average,3) %analyze(average,4) %analyze(average,8) %analyze(centroid,3) %analyze(plete,3) %analyze(plete,8) %analyze(eml,3) %analyze(eml,8) %analyze(flexible,4) %analyze(mcquitty,9) %analyze(median,3) %analyze(single,3) %analyze(single,3) %analyze(two k=6,3) %analyze(two k=10,2) %analyze(two r=5,3) %analyze(ward,8) 程序說明:由于系統(tǒng)聚類法對樣品進(jìn)行聚類時,可根據(jù)距離的不同定義方法采用不同的聚類形式,且同一種聚類方法還可根據(jù)聚類結(jié)果再結(jié)合專業(yè)知識選擇不同的合適聚類數(shù),為簡化程序便于調(diào)用,我們將聚類過程編寫成宏程序,再使用不同參數(shù)的宏命令來調(diào)用。 proc plot formchar=39。 %macro analyze(mm,nn)。 run。CRUDE BIRTH AND DEATH RATES IN 197639。高度變量由選項(xiàng) height=規(guī)定。 ? graphics—— 要求在 graph 窗口中輸出高分辨率的樹狀圖,類的合并用連接線歸納表示。 ? leafchar=“字母” —— 規(guī)定表示沒有子輩的類的打印字符。 ? pages=n—— 規(guī)定這個樹狀圖被展開的頁數(shù)。 ? root =“名稱值” —— 如果不想輸出整個樹狀圖,規(guī)定想輸出的子樹根的 name變量的值。 run; ( 1) proc tree 語句 選項(xiàng)列表 。 tree 過程一般由下列語句控制: proc tree 選項(xiàng)列表 。 ? short—— 不打印類結(jié)構(gòu)、得分系數(shù)和類間相關(guān)陣。 ③ 有關(guān)控制聚類方法 的 選項(xiàng)主要有: ? centroid—— 使用重心成 分 法而不是主成 分 法。 根據(jù)選項(xiàng)所控制的類型,可以把選項(xiàng)列表分成以下 4 類。 varclus 過程一般由下列語句控制: proc varclus 選項(xiàng)列表 。 ② 把選中的類分裂成兩個類。 3. Varclus 方差聚類過程 varclus 過程基于相關(guān)矩陣或協(xié)方差矩陣,對數(shù)值變量進(jìn)行不相交或譜系分類。 strict= s—— 當(dāng)一個觀察同其最近“凝聚點(diǎn)”之間的距離大于 s 值時,此觀察不歸入此類。 注意用戶必須規(guī)定說明 maxclusters=或 radius =中的一個。 seed=輸入數(shù)據(jù)集 —— 指定一個 SAS 數(shù)據(jù)集,其中含有初始的“凝聚點(diǎn)”,但無原始數(shù)據(jù)。 var 變量表 。聚類的結(jié)果是將每個樣品加上所屬的類別標(biāo)記。 ? copy 語句 —— 指明輸入數(shù)據(jù)集中的一些變量拷貝到 outtree=的輸出數(shù)據(jù)集中。此選項(xiàng)不適合于 method=single,因?yàn)樵摲椒ㄈ菀讋h掉分布的結(jié)尾部分。 ? r=n—— 指明均勻核密度估計(jì)法的支撐球半徑。也可用于 method= single 中。 ? nosquare—— 阻止過程在 method= average、 centroid、 median、 ward 方法中距離數(shù)據(jù)被平方。 by 變量表 。 cluster 過程、fastclus 過程和 modeclus過程用于對樣品聚類, varclus 過程用于對變量聚類。最后結(jié)果用聚類系譜圖反映。最沒有偏見的聚類方法為密度估計(jì)法。 ? 距離和相似系數(shù)這兩個概念反映了樣品(或變量)之間的相似程度。再用同樣準(zhǔn)則將這兩類各自試圖分裂為兩類,從中選出一個使目標(biāo)函數(shù)較好者,這樣由兩類變成了三類。將上述并類過程畫成聚類圖,便可以決定分多少類,每類各有什么樣品。我們建議尋找這三種統(tǒng)計(jì)量之間的一致性,即 CCC 統(tǒng)計(jì)量和 F 統(tǒng)計(jì)量的局部峰值所對應(yīng)的聚類數(shù),與這個聚類數(shù)偽 2t 統(tǒng)計(jì)量的一個較小值和下一個聚類數(shù)的一個較大偽 2t 統(tǒng)計(jì)量相吻合。 Sarle( 1983)在應(yīng)用廣泛的模擬基礎(chǔ)上,發(fā)展提出立方聚類準(zhǔn)則 CCC( Cubic Clustering Criterion)。一般情況下,是看每個變量的 2R 值及 所有變量的累積 2R 值,觀察這些 2R 值與聚類個數(shù)所畫的折線圖形對判斷分成幾類是有幫助的。該值很大說明合并類 pG 和類 qG 為類 mG后,使得離差平方和的增加量( qpm DDD ?? )相對于原來 pG 和 qG 兩類的類內(nèi)離差平方和很大。 ( 3) 半偏 2R 統(tǒng)計(jì)量 合并類 pG 和類 qG 為類 mG 時,可以用半偏 2R 統(tǒng)計(jì)量評價這次合并的效果,半偏( Semipartial) 2R 計(jì)算公式為 : T S SqpDR w /),(2 ?半偏 () 其中, ),( qpDw 的計(jì)算公式見式 (),表示合并類 pG 和類 qG 為新類 mG 后,類內(nèi)離差平方和的增量。 ( 2) 2R 統(tǒng)計(jì)量 T S SDR i /12 ??? () 其中, ?iD 為在譜系的第 G 層對 G 個類的直徑求和, TS 為所有觀察的總離差平方和。類 pG 和類 qG 合并成類 mG , pG 和 qG 兩類之間的距離公式為: 上海財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息管理系 IS/SHUFE Page 8 of 62 )l n ()l n ())l n ((2)/),(1l n (),( qqppmmDqpDnvxxd iwqp ????? ? () 其中, n 為觀察總數(shù), v 為觀察樣品的變量維數(shù), ? ?qpDw , 為公式 (), ?iD 為在譜系的第 G 層對 G 個類的直徑求和。兩階段密度估計(jì)法對密度估計(jì)法這一缺點(diǎn)進(jìn)行了修正,以確保眾數(shù)類被合并之前,所有點(diǎn)能被分配到眾數(shù)類中去。考慮以點(diǎn) x 為中心 r 為半徑的封閉球,在 x 點(diǎn)的密度估計(jì)函數(shù) )(xf 等于球內(nèi)的觀察數(shù)目除以球的體積 的 所得比值。 ( 6) 密度估計(jì)法: 密度估計(jì)法是一類使用非參數(shù)概率密度的聚類方法。用離差平方和法定義 pG 和 qG 之間的距離為兩個類對所有變量的 ANOVA平方和,即 : qpqpw DDDqpD ??? ?),( () 可以證明 , 這種定義是有意義的,并且 : 上海財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息管理系 IS/SHUFE Page 6 of 62 ? ? ? ?qpqpqpqp xxxxqp pqDDD ???????? () 那么 : ? ? ? ? ? ?qpqpw xxxxqp pqqpD ?????, () 如果樣品間的距離采用歐氏距離,上式可表 示 為 : ? ? ? ?qpDqp pqqpD w , ?? () 這表明, ? ?qpDw , 與重心法的距離(式 ) ? ?qpD , 只差一個常數(shù) )/( qppq ? 倍,這個倍數(shù)顯然與這兩類的樣品數(shù) p 和 q 有關(guān)。 ( 3) 重心法距離: ? ? ? ? ? ?qpqp xxxxqpD ????, () 類與類之間 的 距離定義為兩個重心或均值 px 和 qx 之間歐氏距離的平方。下面給出一些常用的類與類之間 的 距離定義,用? ?qpD , 表示: ( 1) 最短距離: ? ? ? ?qpjk GkGjdqpD ??? ,m i n, () 類與類之間距離定義為 pG 和 qG 中 最鄰近的兩個樣品的距離。 定義 3 T 為一給定的閾值,如果對任意一個 Gi? ,一定存在 ,Gj? 使得 ,Tdij? 則稱 G 為一個類。另外,還有其他一些定義相似系數(shù)的方法。 最常用的距離有歐幾里德距離、閔可夫斯基和馬氏距離: ( 1) 歐幾 里德( Euclid)距離: ? ? 2112 ???????? ?? ??pk jkikijxxd () ( 2) 閔可夫斯基( Minkowski)距離: gpkgjkikij xxd11 ???????? ?? ?? () g 一般為 1 或 2,如果 g=1 時也稱之為絕對值距離, g=2 時即為歐幾里德距離。 一、 距離和相似系數(shù) 什么是“類”呢?粗略地說,相似物體的集合稱作類;聚類分析的目的就是把相似的東西歸類。在判別分析中必須事先知道各種判別的類型和數(shù)目,并且要有一批來自各判別類型的樣本,才能建立判別函數(shù)來對未知屬性的樣本進(jìn)行判別和歸類。在一個給定的類里的這些對象在某種意義上傾向于彼此相似,而在不同類里的這些對象傾向于不相似。相應(yīng)的聚類統(tǒng)計(jì)量有兩類:一種統(tǒng)計(jì)指標(biāo)是類與類之間 的 距離,它是把每一個樣品看成高維空間中的一個點(diǎn),類與類之間用某種原則規(guī)定它們的距離,將距離近的點(diǎn)聚合成一類,距離遠(yuǎn)的點(diǎn)聚合成另一類。在對變量進(jìn)行聚類時,也可以定義變量間的距離,通常使用變量間的相似系數(shù)。 圖 各種形式的類 試 圖給類一個嚴(yán)格的定義,絕非一件簡單的事。 上海財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息管理系 IS/SHUFE Page 4 of 62 1. 類的特征 現(xiàn)在類 G 的元素用 mxx ,1 ? 表示, m 為 G 內(nèi)的樣品數(shù),可以從不同的角度來刻畫 G 的特征。但它卻犧牲了恢復(fù)壓縮類的性能,另外 , 它也趨向于在分開主要類之前去掉分布的尾部( Hartigan, 1981)。 ( 4) 類平均距離 : ? ? ? ?? ??p qGi GjijdpqqpD 1, () 類與類之間 的 距離定義為 pG 和 qG 中所有兩個樣品對之間距離的平均。 Ward 最小方差法一般是在多元正態(tài)混合型、等球形協(xié)方差、等抽樣概率假設(shè)下合并類。有三種不同的密度估計(jì)法: ① k 最近鄰估計(jì)法 k 最近鄰估計(jì)法( Wong和 Lane , 1983)使用 k 最近鄰密度估計(jì)來計(jì)算距離。判斷這三個初始分類中某 兩 個初始分類是近鄰的標(biāo)準(zhǔn)為:(假設(shè)判斷類 pG 和 qG ) ),(),(),( 222 mqmpqp xxdxxdxxd ?? () 那么,新的非相似測度距離 *d 為 : 否則是近鄰和如果 qPv vqpqpqpGGqp xxdqpDDxxd??????????? ? 2/12/2* )()4/),()((),( () 其中, pD 和 qD 是初始分類 pG 和 qG 的直徑,計(jì)算公式見式 ()。密度估計(jì)法中的類合并使用與最短距離算法相同的合并方法。 proc cluster 過程的偏度選項(xiàng) penalty=p 值可用于調(diào) 整偏向的程度。 2R 的值總是在 0 和 1 之間,當(dāng) n 個樣品各自為一類時, 12?R ,說明類被完全分開;當(dāng) n 個樣品最后合并成一類時, 02?R ,說明類被完全混合在一起了,分不清楚了。 ( 4) 偽 F 統(tǒng)計(jì)量 ? ? ?
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1