freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

sas系統(tǒng)和數(shù)據(jù)分析聚類分析-免費(fèi)閱讀

  

【正文】 下面我們僅給出了用 average 法聚類的輸出結(jié)果及選擇 8 類后的散點(diǎn)圖, 如 表 和圖 所示。 每個(gè)聚類分析由名為 %analyze 的宏命令實(shí)現(xiàn)。||39。 proc cluster data=vital out=tree method=amp。 提交運(yùn)行程序后,輸出結(jié)果 如 圖 所示。 input country $20. birth death 。 ? copy 語(yǔ)句 —— 把語(yǔ)句中列出的一個(gè)或幾個(gè)變量復(fù)制到 out=的輸出數(shù)據(jù)集中。 ( 2) 其他語(yǔ)句。缺省值為“ .”。 ? pos=n—— 指定在高度軸上打印位置的個(gè)數(shù)。 ? hor—— 要求樹(shù)狀圖的取向?yàn)樗椒较?,且?shù)根在左邊。 按選項(xiàng)控制的性質(zhì)可以分成以下 3 類。 name 變量 。 ? summary—— 只打印最后的匯總表。 ? maxiter= n—— 規(guī)定在交替最小二乘法階段中的最大迭代次 數(shù)。 ① 有關(guān)輸入輸出數(shù)據(jù)集選項(xiàng)有: ? data=輸入數(shù)據(jù)集 —— 可以是原始數(shù)據(jù)或 type =corr、 ucorr、 cov、 ucor、 sscp或 factor類型的數(shù)據(jù)集。 var 變量表 。先計(jì)算出開(kāi)頭兩個(gè)主 成分 ,再進(jìn)行斜交旋轉(zhuǎn),并把每個(gè)變量分配到旋轉(zhuǎn)分量對(duì)應(yīng)的類里,分配原則為使變量與這個(gè)主 成分 的相關(guān)系數(shù)最大。類的劃分通過(guò)計(jì)算每類第一主 成分 或重心 成分 的最大方差而確定,因此,同每一類有聯(lián)系的是該類中這些變量的線性組合。 ④ 有關(guān)控制打印輸出的選項(xiàng): distance—— 要求打印類均值之間的距離。 replace = full | part | none |random—— 指定“凝聚點(diǎn)”的替換方式。 mean=輸出數(shù)據(jù)集 —— 生成一個(gè)輸出數(shù)據(jù)集,其中包含每個(gè)類的均值和一些統(tǒng)計(jì)量。 id 變量 。 Fastclus 過(guò)程的聚類步驟如下: ① 選擇若干個(gè)觀察作為“凝聚點(diǎn)”或稱類的中心點(diǎn),作為這些類均值的第一次猜測(cè)值; ② 通過(guò)可選擇地分配,把每一個(gè)觀察分配到與這些“凝聚點(diǎn)”中最近距離的類里來(lái)形成臨時(shí)類。 ? rmsstd語(yǔ)句 —— 當(dāng)輸入數(shù)據(jù)集中的坐標(biāo)數(shù)據(jù)代表類的均值時(shí),定義表示均方根標(biāo)準(zhǔn)差變量,通常與 freq 語(yǔ)句中的變量配合使用。 ? pseudo—— 要求打印輸出偽 F 統(tǒng)計(jì)量 (標(biāo)志為 PSF)和偽 2t 統(tǒng)計(jì)量 (標(biāo)志為 PST2)。 n 的值必須大于 0。 ? dim=n—— 當(dāng)規(guī)定 method= density 或 twostage 時(shí)指定使用的維數(shù)。 ? mode=n—— 當(dāng)合并兩個(gè)類時(shí),規(guī)定對(duì)被指定的眾數(shù)類中的每個(gè)類至少有 n個(gè)成員。 run; ( 1) proc cluster 語(yǔ)句 選項(xiàng)列表 。 tree 過(guò)程將 cluster或 varclus 過(guò)程的聚類結(jié)果畫(huà)出樹(shù)形結(jié)構(gòu)圖或譜系圖。 SAS 的動(dòng)態(tài)聚類法基于 上限-中心點(diǎn)-重心的原理,首先將 n 個(gè)樣本初步分為 G 類,作為聚類個(gè)數(shù)的“上限”,從中確定其“中心點(diǎn)”,用作迭代的起點(diǎn),然后每考察一個(gè)樣本觀察值,就把它移到最靠近的類,并算出每一類的“重心”,再考察一個(gè)觀察點(diǎn)移到另一類。 五、 SAS 的聚類分析過(guò)程 SAS 的聚類過(guò)程能夠被用來(lái)對(duì)某個(gè) SAS 數(shù)據(jù)集中的觀察進(jìn)行分類。相似程度越高,一般兩個(gè)樣品(或變量)間的距離就越小或相似系數(shù)的絕對(duì)值就越大;反之,相似程度越低,一般兩個(gè)樣品(或變量)間的距離就越大或相似系數(shù)的絕對(duì)值就越小。如此下去,一直分裂到每類只有一個(gè)樣品為止(或用其他停止規(guī)則)。 系統(tǒng)聚類法的步驟為: ① 首先各樣品自成一類,這樣對(duì) n 組樣品就相當(dāng)于有 n 類; ② 計(jì)算各類間的距離,將其中最近的兩類進(jìn)行合并; ③ 計(jì)算新類與其余各類的距離,再將距離最近的兩類合并; ④ 重復(fù)上述的步驟,直到所有的樣品都聚為一類時(shí)為止。 還必須強(qiáng)調(diào)這些準(zhǔn)則僅僅適用于緊湊的或略微拉長(zhǎng)的類,也較好地適合于略微正態(tài)分布的類。這個(gè)準(zhǔn)則可以用于原始的假設(shè)檢驗(yàn)及估計(jì)總體分類的數(shù)目。 檢查數(shù)據(jù)的散點(diǎn)圖對(duì)于確定聚類的個(gè)數(shù)也是一個(gè)很好的主意。這表明上一次合并的兩個(gè)類 pG 和 qG 是很分開(kāi)的,也就是說(shuō)上一次聚類的效果是很好的。顯然,半偏 2R 值 =上次合并后 2R 值-這次合并后 2R 值,例如,以上例的數(shù)據(jù)為例,合并到 4 類時(shí)的半偏 2R 值 =。一般來(lái)說(shuō), 2R 統(tǒng)計(jì)量用于評(píng)價(jià)每次合并成 G 個(gè)類時(shí)的聚類效果。最大似然估計(jì)法是在三個(gè)基本假設(shè):多元正態(tài)混合分布、等球面協(xié)方差和不等抽樣概率的前提下,使得在譜系的每個(gè)水平上似然值最大。同樣,兩階段密度估計(jì)法支持密度估計(jì)法的三種形式: k 最近鄰估計(jì)法、均勻核 估計(jì)和 Wong 混合法。它與 k 最近鄰估計(jì)法的主要區(qū)別為半徑是一個(gè)指定的值,即封閉球大小是一樣的(均勻核)。例 如, 圖 中的( b)形式的類。 Ward離差平方和距離 法在每次合并 pG 類和 qG 類為 qpG? 類時(shí),總是選擇這樣兩個(gè) pG 類和 qG 類,使它們合并成 qpG? 類后的 ? ?qpDw , 值最小,故也稱為 Ward 最小方差法。重心法在處理異常值上比其他譜系方法更穩(wěn)健,但是 在其他方 面 便不如 Ward 或類平均距離法的效果好( Milligan 1980)。最短距離法有許多理想的理論性質(zhì),但在蒙特卡洛( Monto Carlo)模擬研究中( Milligan, 1980)進(jìn)行得很不順利。 易見(jiàn),定義 1 的要求是最高的,凡符合它 的類,一定也是后兩種定義的類。 二、 類的特征和類與類之間距離及統(tǒng)計(jì)量 我們的目的是聚類,那么什么叫類呢 ?由于客觀事物的千差萬(wàn)別,在不同的問(wèn)題中類的含義是不盡相同的。 ( 3) 馬氏( Mathalanobis) 距離 : )()( 1 jijiij xxSxxd ???? ? () 其中 , ix 為第 i 個(gè)樣品的 p 個(gè)元素組成的向量, jx 為 第 j 個(gè)樣品的 p個(gè)元素組成的向量,1?S 為 n 個(gè)樣品的 pp? 的協(xié)方差矩陣的逆矩陣。其次“相似”是什么含意 ?怎樣度量“相似”?我們必須給出度量“相似”的統(tǒng)計(jì)指標(biāo)。若對(duì)一批樣品劃分的類型和分類的數(shù)目事先并不知道,這時(shí)對(duì)數(shù)據(jù)的分類就需借助聚類分析方法來(lái)解決。 聚類分析把分類對(duì)象按一定規(guī)則分成組或類,這些組或類不是事先給定的而是根據(jù)數(shù)據(jù)特征而 定的。 聚類根據(jù)實(shí)際的需要有兩個(gè)方向,一是對(duì)樣品的聚類,一是對(duì)變量的聚類。 2. 相似系數(shù) 聚類分析有時(shí)也需要對(duì)變量進(jìn)行聚類。 圖 表現(xiàn) 的 是五種不同類型的類。此外,凡符合定義 2 的類,也一定是定義 3 的類。它不對(duì)類的形狀加以限制,保證了對(duì)拉長(zhǎng)和不規(guī)則類的檢測(cè),例如,圖 ( b)、( c)、( e)( d)形式的類。重心法由 Sokal和 Michener( 1958)提出。合并后增加的最小方差 ? ?qpDw , 除以合并后總的離差平 方和 TS 的比值(即半偏 2R )的統(tǒng)計(jì)意義是容易解釋的。包括兩個(gè)步驟: 第一步, 使用一種基于密度估計(jì)的新的非相似測(cè)度 *d 來(lái)計(jì)算樣品 ix 和 jx 的近鄰關(guān)系; 第二步, 根據(jù)基于 *d 方法計(jì)算的距離,采用最小距離法進(jìn)行聚類。這樣,新的非相似測(cè)度距離 *d 為: 否則如果 rxxdxfxfxxd jijiji ???? ? ?? ),(2/))(/1)(/1(),(* () ③ Wong混合法 Wong混合法初始聚類時(shí)采用 k 最近鄰估計(jì)法,得到初始分類 pG 、 qG 和 mG ,也可從輸入數(shù)據(jù)集得到類的均值 px 、 qx 和 mx ,樣品數(shù) p 、 q 和 m 。兩階段密度估計(jì)法的兩階段是指: 在第一階段中,互不相交的眾數(shù)類被生成。 EML 除了偏向于生成不等大小的類外,與 Ward 最小方差法很相似。當(dāng) TSSDi /? 值越小(也即 2R 統(tǒng)計(jì)量越大,越接近 1),表示類內(nèi)離差平方和 ?iD 在總離差平方和 TS 中所占的比例越小,說(shuō)明了這 G 個(gè)類越分開(kāi),故聚類效果越好。故這次 合并后的半偏 2R 值越大,說(shuō)明上次合并后停止合并的效果最好。否則,這兩個(gè)類應(yīng)該在再合并時(shí)的離差平方和的增加量很小。對(duì)于觀察數(shù)據(jù)只有二維或三維變量,使用 proc plot 或 proc gplot 過(guò)程來(lái)畫(huà)二維數(shù)據(jù)的散點(diǎn)圖,使用 proc g3d 過(guò)程來(lái)畫(huà)三維數(shù)據(jù)的散點(diǎn)圖。 CCC 是基于這樣的假設(shè):在超 矩形上的均勻分布將粗略地被分為形狀像超正方體一樣的類。 或許,研究類的個(gè)數(shù)的最好方法是 Wong等人在 1983年提供的 k 最近鄰估計(jì)法同變化的k 值一起被應(yīng)用的方法。下面我們以最短距離法為例來(lái)說(shuō)明系統(tǒng)聚類法的過(guò)程。 4. 加入法 將樣品依次輸入,每次輸入后將它放到當(dāng)前聚類圖的應(yīng)有位置上,全部輸入后,即得聚類圖。 ? 系統(tǒng)聚類法是最常用的一種聚類方法,常用的系統(tǒng)聚類方法有最短距離法、最長(zhǎng)距離法 、 中間距離法 、類平均法、重心法、 Ward 最小方差法、密度估計(jì)法、兩階段密度估計(jì)法、最大似然估計(jì)法、相似分析法和可變類平均法。能得到譜系的和不 相交的這兩種分類。若能減少樣本對(duì)于各自中心的離差之和,則把此兩類的中心同時(shí)移到新的重心,并以重新計(jì)算的重心取代原來(lái)的重心,如此反復(fù)迭代,直到再也無(wú)法降低樣本與重心離差之和為止,移動(dòng)終止,分成 G 類。 1. Cluster 系統(tǒng)聚類過(guò)程 cluster 過(guò)程一般由下列語(yǔ)句控制: proc cluster 選項(xiàng)列表 。 ? data=輸入數(shù)據(jù)集 —— 命名包含進(jìn)行聚類的觀察的輸入數(shù)據(jù)集。這個(gè)選項(xiàng)只能在 method= density 或 twostage 時(shí)一起使用。 n 的值必須大于等于 1。 ? notie—— 阻止 cluster 過(guò)程在聚類歷史過(guò)程中檢查每次產(chǎn)生的類間最小距離連結(jié)( ties)的情況。當(dāng)分類數(shù)目不同時(shí),它們有不同的取 值。 cluster 過(guò)程的輸出結(jié)果包括觀察值間均方根 距離、聚類數(shù)目等。每次對(duì)一個(gè)觀察進(jìn)行分類,同時(shí)對(duì)加入新觀察的“凝聚點(diǎn)”更新為這一類目前的均值; ③ 重復(fù)步驟 ② 直到所有觀察分配完成之后,這些類的“凝聚點(diǎn)”用臨時(shí)類的均值替代。 freq 變量 。 out=輸出數(shù)據(jù)集 —— 將含有原始數(shù)據(jù)和分類標(biāo)志的聚類結(jié)果輸出到指定數(shù)據(jù)集。 full為用統(tǒng)計(jì)方法替換,缺省值; part 為僅當(dāng)觀 察點(diǎn)與最近的“凝聚點(diǎn)”距離大于“凝聚點(diǎn)”之間的最小距離時(shí),那么有一個(gè)老的“凝聚點(diǎn)”被替換; none 為禁止“凝聚點(diǎn)”的替換; random 為從完整的觀察樣本中隨機(jī)地選擇一組樣本作為初始“凝聚點(diǎn)”。 list—— 要求列出所有觀察的 id 變量值,觀察所歸入類的類號(hào),及觀察與最終“凝聚點(diǎn)”之間的距離。 varclus 過(guò)程能夠被用來(lái) 作為變量壓縮的方法。 ③ 變量重新分類。 partial 變量表 。 ? outstat=輸出數(shù)據(jù) 集 —— 存儲(chǔ)均值、標(biāo)準(zhǔn)差、相關(guān)系數(shù)、類得分系數(shù)和聚類結(jié)構(gòu)。 ? maxsearch= n—— 指定在搜索階段最大迭代次數(shù)。 ? trace—— 列出在迭代過(guò)程中每個(gè)變量所歸入的類。 parent 變量 。 ① 有關(guān)輸入輸出數(shù)據(jù)集的選項(xiàng): ? data=輸入數(shù)據(jù)集 —— 輸入由 cluster過(guò)程和 varclus 過(guò)程生成的數(shù)據(jù)集。如果沒(méi)有指明此選項(xiàng),則其為垂直方向,樹(shù)根在上部。 ? spaces=n—— 規(guī)定在打印輸出中對(duì)象之間的空格數(shù)。 ? treechar=“字母” —— 規(guī)定表示有子輩的類的打印字符。 ? name語(yǔ)句 —— 規(guī)定一個(gè)字符或數(shù)值變量,用以標(biāo)識(shí)每個(gè)觀察代表的節(jié)點(diǎn)。 ? id 語(yǔ)句 —— id 變量可以是字符或數(shù)值變量,用以在打印輸出樹(shù)狀圖中識(shí)別對(duì)象。 cards 。 圖 74 個(gè)國(guó)家 (地區(qū)) 出 生 率和死亡率的散點(diǎn)圖 注 意低分辨率的散點(diǎn)圖中的 A 表示此處有一個(gè)散點(diǎn),而 B 表示此處有二個(gè)重疊散點(diǎn), C表示此處有三個(gè)重疊散點(diǎn)。mm print=15 ccc pseudo。 plot death*birth=cluster / hpos=86 vpos=26。宏過(guò)程 %macro analyze(method,ncl)中 有兩個(gè)輸入?yún)?shù)變量 mm 和 nn,分別取 %analyze 的宏命令中逗號(hào)前的參數(shù)值和逗號(hào)后的參數(shù)值,代表將采用的聚類方法和確定的聚類個(gè)數(shù)。 表 average 平均法的聚類分析結(jié)果 Average Linkage Cluster Analysis Eigenvalues of the Covariance Matrix Eigenvalue Difference Proportion Cumulative 1 2 . RootMeanSquare TotalSample Standard Deviation = RootMeanSquare Distance Between Observations = Norm T
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1