freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

sas系統(tǒng)和數(shù)據(jù)分析聚類分析-wenkub

2022-08-30 17:31:51 本頁(yè)面
 

【正文】 ijd 一般應(yīng)滿足下面的條件: ? 0?ijd 當(dāng)?shù)?i 個(gè)樣品與第 j 個(gè)樣品相等; ? 0?ijd 對(duì)一切 i, j; ? jiij dd ? 對(duì)一切 i, j; ? kjikij ddd ?? 對(duì)一切對(duì)一切 i, j , k。相應(yīng)的聚類統(tǒng)計(jì)量有兩類:一種統(tǒng)計(jì)指標(biāo)是類與類之間 的 距離,它是把每一個(gè)樣品看成高維空間中的一個(gè)點(diǎn),類與類之間用某種原則規(guī)定它們的距離,將距離近的點(diǎn)聚合成一類,距離遠(yuǎn)的點(diǎn)聚合成另一類。 下面我們介紹聚類分析中常用的一些方法。在一個(gè)給定的類里的這些對(duì)象在某種意義上傾向于彼此相似,而在不同類里的這些對(duì)象傾向于不相似。 聚類分析 的 主要目的是研究事物的分類,而不同于判別分析。在判別分析中必須事先知道各種判別的類型和數(shù)目,并且要有一批來(lái)自各判別類型的樣本,才能建立判別函數(shù)來(lái)對(duì)未知屬性的樣本進(jìn)行判別和歸類。關(guān)于聚類分析的任何通則必定是含糊的、不明確的,因?yàn)樵诒姸嗟母鞣N不同領(lǐng)域里聚類方法已經(jīng) 得到發(fā)展 ,類和對(duì)象間的相似性具有不同定義。 一、 距離和相似系數(shù) 什么是“類”呢?粗略地說,相似物體的集合稱作類;聚類分析的目的就是把相似的東西歸類。距離一般用于對(duì)樣品分類。 最常用的距離有歐幾里德距離、閔可夫斯基和馬氏距離: ( 1) 歐幾 里德( Euclid)距離: ? ? 2112 ???????? ?? ??pk jkikijxxd () ( 2) 閔可夫斯基( Minkowski)距離: gpkgjkikij xxd11 ???????? ?? ?? () g 一般為 1 或 2,如果 g=1 時(shí)也稱之為絕對(duì)值距離, g=2 時(shí)即為歐幾里德距離。常用的相似系數(shù)有: ( 1) 夾角余弦 夾角余弦作為變量間的相似關(guān)系,它忽視各變量的絕對(duì)長(zhǎng)度,著重從形狀方面反映它們之間的關(guān)系。另外,還有其他一些定義相似系數(shù)的方法。下面給出類的幾個(gè)定義,不同的定義適用于不同的場(chǎng)合。 定義 3 T 為一給定的閾值,如果對(duì)任意一個(gè) Gi? ,一定存在 ,Gj? 使得 ,Tdij? 則稱 G 為一個(gè)類。常用的特征有如下三種: ( 1) 均值 Gx (或稱為 G 的重心): ??? mi iG xmx 11 () ( 2) 樣品協(xié)方差陣: ? ?? ?GGmiGiGiGAmSxxxxA111?????? ?? () ( 3) G 的直徑。下面給出一些常用的類與類之間 的 距離定義,用? ?qpD , 表示: ( 1) 最短距離: ? ? ? ?qpjk GkGjdqpD ??? ,m i n, () 類與類之間距離定義為 pG 和 qG 中 最鄰近的兩個(gè)樣品的距離。 上海財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息管理系 IS/SHUFE Page 5 of 62 ( 2) 最長(zhǎng)距離: ? ? ? ?qpjk GkGjdqpD ??? ,m a x, () 類與類之間 的 距離定義為 pG 和 qG 中最遠(yuǎn)的兩個(gè)樣品的距離。 ( 3) 重心法距離: ? ? ? ? ? ?qpqp xxxxqpD ????, () 類與類之間 的 距離定義為兩個(gè)重心或均值 px 和 qx 之間歐氏距離的平方。類平均距離法趨向于合并具有較小偏差的類,而且稍微有點(diǎn)傾向 于產(chǎn)生相同方差的類。用離差平方和法定義 pG 和 qG 之間的距離為兩個(gè)類對(duì)所有變量的 ANOVA平方和,即 : qpqpw DDDqpD ??? ?),( () 可以證明 , 這種定義是有意義的,并且 : 上海財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息管理系 IS/SHUFE Page 6 of 62 ? ? ? ?qpqpqpqp xxxxqp pqDDD ???????? () 那么 : ? ? ? ? ? ?qpqpw xxxxqp pqqpD ?????, () 如果樣品間的距離采用歐氏距離,上式可表 示 為 : ? ? ? ?qpDqp pqqpD w , ?? () 這表明, ? ?qpDw , 與重心法的距離(式 ) ? ?qpD , 只差一個(gè)常數(shù) )/( qppq ? 倍,這個(gè)倍數(shù)顯然與這兩類的樣品數(shù) p 和 q 有關(guān)。所以, Ward 方法趨向于合并 具有少量觀察的類,并傾向于形成具有大約相同數(shù)目觀察的類。 ( 6) 密度估計(jì)法: 密度估計(jì)法是一類使用非參數(shù)概率密度的聚類方法。令 )(xrk 為點(diǎn) x 到第 k 個(gè)最近觀察的距離??紤]以點(diǎn) x 為中心 r 為半徑的封閉球,在 x 點(diǎn)的密度估計(jì)函數(shù) )(xf 等于球內(nèi)的觀察數(shù)目除以球的體積 的 所得比值。 v 為觀察樣品的變量維數(shù)。兩階段密度估計(jì)法對(duì)密度估計(jì)法這一缺點(diǎn)進(jìn)行了修正,以確保眾數(shù)類被合并之前,所有點(diǎn)能被分配到眾數(shù)類中去。但有一個(gè)例外,只有在兩個(gè)類中至少有一個(gè)類中的樣品個(gè)數(shù)少于 proc cluster過程的選項(xiàng) mode=值時(shí)才能合并。類 pG 和類 qG 合并成類 mG , pG 和 qG 兩類之間的距離公式為: 上海財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息管理系 IS/SHUFE Page 8 of 62 )l n ()l n ())l n ((2)/),(1l n (),( qqppmmDqpDnvxxd iwqp ????? ? () 其中, n 為觀察總數(shù), v 為觀察樣品的變量維數(shù), ? ?qpDw , 為公式 (), ?iD 為在譜系的第 G 層對(duì) G 個(gè)類的直徑求和。修正公式為對(duì)式 ()中的 2 改為 p 值。 ( 2) 2R 統(tǒng)計(jì)量 T S SDR i /12 ??? () 其中, ?iD 為在譜系的第 G 層對(duì) G 個(gè)類的直徑求和, TS 為所有觀察的總離差平方和。而且 2R的值總是隨著分類個(gè)數(shù)的減少而變小。 ( 3) 半偏 2R 統(tǒng)計(jì)量 合并類 pG 和類 qG 為類 mG 時(shí),可以用半偏 2R 統(tǒng)計(jì)量評(píng)價(jià)這次合并的效果,半偏( Semipartial) 2R 計(jì)算公式為 : T S SqpDR w /),(2 ?半偏 () 其中, ),( qpDw 的計(jì)算公式見式 (),表示合并類 pG 和類 qG 為新類 mG 后,類內(nèi)離差平方和的增量。自由度為 )1( ?Gv 和)( Gnv ? 。該值很大說明合并類 pG 和類 qG 為類 mG后,使得離差平方和的增加量( qpm DDD ?? )相對(duì)于原來(lái) pG 和 qG 兩類的類內(nèi)離差平方和很大。因?yàn)橹挥性谟^察數(shù)據(jù)來(lái)自具有標(biāo)量協(xié)方差矩陣的多元正態(tài)分布的獨(dú)立樣本,且聚類方法將觀察隨機(jī)分類的假設(shè)前提下,偽 F 和偽 2t 統(tǒng)計(jì)量才具有真正的 F 分布和 2t 分布。一般情況下,是看每個(gè)變量的 2R 值及 所有變量的累積 2R 值,觀察這些 2R 值與聚類個(gè)數(shù)所畫的折線圖形對(duì)判斷分成幾類是有幫助的。一般情況下, 3 個(gè)或 3 個(gè)以內(nèi)的典型變量就已經(jīng)能很好地概括原始數(shù)據(jù)的變異了。 Sarle( 1983)在應(yīng)用廣泛的模擬基礎(chǔ)上,發(fā)展提出立方聚類準(zhǔn)則 CCC( Cubic Clustering Criterion)。但在其他情況下, CCC 將給出比較保守的結(jié)果。我們建議尋找這三種統(tǒng)計(jì)量之間的一致性,即 CCC 統(tǒng)計(jì)量和 F 統(tǒng)計(jì)量的局部峰值所對(duì)應(yīng)的聚類數(shù),與這個(gè)聚類數(shù)偽 2t 統(tǒng)計(jì)量的一個(gè)較小值和下一個(gè)聚類數(shù)的一個(gè)較大偽 2t 統(tǒng)計(jì)量相吻合。通常應(yīng)該畫出聚類估計(jì)數(shù)對(duì) k 值的圖形,這樣還可能從圖形中獲得很 多 的 有用信息。將上述并類過程畫成聚類圖,便可以決定分多少類,每類各有什么樣品。 值得注意的是 , 在整個(gè)聚類的過程中,如果在某一步的距離矩陣中最小元素不止一個(gè)時(shí),則可以將其同時(shí)合并。再用同樣準(zhǔn)則將這兩類各自試圖分裂為兩類,從中選出一個(gè)使目標(biāo)函數(shù)較好者,這樣由兩類變成了三類。判別分析方法假定類已事先分好,判別新樣品應(yīng)歸屬哪一類,對(duì)類的事先劃分常常通過聚類分析得到。 ? 距離和相似系數(shù)這兩個(gè)概念反映了樣品(或變量)之間的相似程度。 Ward 最小方差法傾向于尋找觀察數(shù)相同的類。最沒有偏見的聚類方法為密度估計(jì)法。親疏程度依樣本間的距離或相似系數(shù)進(jìn)行計(jì)算。最后結(jié)果用聚類系譜圖反映。這 5 個(gè)過程的比較和選擇為: cluster 過程 為系統(tǒng)聚類過程,可使用十一種聚類方法進(jìn)行譜系聚類,包括重心法、 Ward 離差平方和法和歐氏平均距離法等 。 cluster 過程、fastclus 過程和 modeclus過程用于對(duì)樣品聚類, varclus 過程用于對(duì)變量聚類。 id 變量 。 by 變量表 。 ? outtree=輸出數(shù)據(jù)集 —— 供 tree 過程調(diào)用,用來(lái)輸出聚類結(jié)果的樹狀圖。 ? nosquare—— 阻止過程在 method= average、 centroid、 median、 ward 方法中距離數(shù)據(jù)被平方。 p的值必須大于 0,缺省時(shí)為2。也可用于 method= single 中。 ? hybrid—— 要求用 Wong 混合聚類方法,其中密度用 k 均值法的初始聚類分析中的均值計(jì)算得到。 ? r=n—— 指明均勻核密度估計(jì)法的支撐球半徑。 ? rsquare—— 打印輸 出 R2和半偏 R2。此選項(xiàng)不適合于 method=single,因?yàn)樵摲椒ㄈ菀讋h掉分布的結(jié)尾部分。 上海財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息管理系 IS/SHUFE Page 14 of 62 ? std—— 變量標(biāo)準(zhǔn)化。 ? copy 語(yǔ)句 —— 指明輸入數(shù)據(jù)集中的一些變量拷貝到 outtree=的輸出數(shù)據(jù)集中。它是根據(jù)由一個(gè)或幾個(gè)定量變量計(jì)算的歐氏距離和 k 均值聚類方法對(duì)數(shù)據(jù)進(jìn)行分類,該過程只須對(duì)這組數(shù)據(jù)掃描二次或三次就能尋找出很好的分類結(jié)果,這些類之間互不相交。聚類的結(jié)果是將每個(gè)樣品加上所屬的類別標(biāo)記。 初始類的“凝聚點(diǎn)”必須是沒有丟失值的觀察,用戶可以選擇這些“凝聚點(diǎn)”,或讓過程自己去選擇。 var 變量表 。 by 變量表 。 seed=輸入數(shù)據(jù)集 —— 指定一個(gè) SAS 數(shù)據(jù)集,其中含有初始的“凝聚點(diǎn)”,但無(wú)原始數(shù)據(jù)。 radius =t—— 為選擇新的“凝聚點(diǎn)”指定最小距離準(zhǔn)則。 注意用戶必須規(guī)定說明 maxclusters=或 radius =中的一個(gè)。因而“凝聚點(diǎn)”不斷發(fā)生變化。 strict= s—— 當(dāng)一個(gè)觀察同其最近“凝聚點(diǎn)”之間的距離大于 s 值時(shí),此觀察不歸入此類。 主要有 var、 id、 freq、 weight、 by 等語(yǔ)句,意義同其他聚類過程中的語(yǔ)句,不再贅述。 3. Varclus 方差聚類過程 varclus 過程基于相關(guān)矩陣或協(xié)方差矩陣,對(duì)數(shù)值變量進(jìn)行不相交或譜系分類。若采用相關(guān)矩陣的信息,則所有變量都平等;當(dāng)引用協(xié)方差矩陣分析時(shí).某變量有較大方差,該變量則較為重要。 ② 把選中的類分裂成兩個(gè)類。重新分配可能要求保持譜系結(jié)構(gòu)。 varclus 過程一般由下列語(yǔ)句控制: proc varclus 選項(xiàng)列表 。 freq 變量 。 根據(jù)選項(xiàng)所控制的類型,可以把選項(xiàng)列表分成以下 4 類。 ② 有關(guān)控制聚類數(shù) 的 選項(xiàng)主要有: ? minc =n —— 最小聚類個(gè)數(shù)(默認(rèn)為l)。 ③ 有關(guān)控制聚類方法 的 選項(xiàng)主要有: ? centroid—— 使用重心成 分 法而不是主成 分 法。 ? hi—— 要求在不同層次的類構(gòu)成譜系聚類結(jié)構(gòu)。 ? short—— 不打印類結(jié)構(gòu)、得分系數(shù)和類間相關(guān)陣。 主要有 var、 partial、 seed、 freq、 weight、 by 語(yǔ)句,意義同其他聚類過程中的語(yǔ)句,不再贅述。 tree 過程一般由下列語(yǔ)句控制: proc tree 選項(xiàng)列表 。 id 變量 。 run; ( 1) proc tree 語(yǔ)句 選項(xiàng)列表 。 ② 有關(guān)樹狀結(jié)構(gòu)控制的選項(xiàng): ? level =n—— 對(duì)于 out=的輸出數(shù)據(jù)集,規(guī)定確定 不相交類的樹狀圖水平(層次)。 ? root =“名稱值” —— 如果不想輸出整個(gè)樹狀圖,規(guī)定想輸出的子樹根的 name變量的值。常規(guī)變量為上海財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息管理系 IS/SHUFE Page 18 of 62 h/l/m/n,分別指 _height_變量、根到自己節(jié)點(diǎn)的路徑長(zhǎng)度、 _mode_變量、 _ncl_變量。 ? pages=n—— 規(guī)定這個(gè)樹狀圖被展開的頁(yè)數(shù)。 ? fillchar=“字母” —— 規(guī)定沒有連成一類的樹葉之間的打印字符。 ? leafchar=“字母” —— 規(guī)定表示沒有子輩的類的打印字符。 ④ 其他選項(xiàng) ? sort—— 按照類的形成順序,用 height 變量對(duì)每個(gè)節(jié)點(diǎn)的子輩排序。 ? graphics—— 要求在 graph 窗口中輸出高分辨率的樹狀圖,類的合并用連接線歸納表示。語(yǔ)句缺省時(shí)尋找 _name_變量。高度變量由選項(xiàng) height=規(guī)定。數(shù)據(jù)見表 。CRUDE BIRTH AND DEATH RATES IN 197639。 上海財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息管理系 IS/SHUFE Page 20 of 62 proc plot formchar=39。 run。 CRUDE BIRTH AND DEATH RATES IN 1976 Plot of DEAT
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1