freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

sas系統(tǒng)和數(shù)據(jù)分析聚類分析-在線瀏覽

2024-10-22 17:31本頁面
  

【正文】 距離。它與 k 最近鄰估計法的主要區(qū)別為半徑是一個指定的值,即封閉球大小是一樣的(均勻核)。判斷這三個初始分類中某 兩 個初始分類是近鄰的標(biāo)準(zhǔn)為:(假設(shè)判斷類 pG 和 qG ) ),(),(),( 222 mqmpqp xxdxxdxxd ?? () 那么,新的非相似測度距離 *d 為 : 否則是近鄰和如果 qPv vqpqpqpGGqp xxdqpDDxxd??????????? ? 2/12/2* )()4/),()((),( () 其中, pD 和 qD 是初始分類 pG 和 qG 的直徑,計算公式見式 ()。 Wong混合法適用于大的數(shù)據(jù)集而不適用于小的數(shù)據(jù)集。使用密度估計法時,眾數(shù)類( modal clusters)經(jīng)常在尾部所有點聚類之前就已經(jīng)被合并掉了。同樣,兩階段密度估計法支持密度估計法的三種形式: k 最近鄰估計法、均勻核 估計和 Wong 混合法。密度估計法中的類合并使用與最短距離算法相同的合并方法。在第一階段結(jié)束時每個樣品點屬于一個眾數(shù)類。 ( 8) 最大似然估計法: 最大似然估計法 EML 是 SAS 研究所的 發(fā)展 Symans( 1981)對不相交的類的研究,由最大似然公式得到。最大似然估計法是在三個基本假設(shè):多元正態(tài)混合分布、等球面協(xié)方差和不等抽樣概率的前提下,使得在譜系的每個水平上似然值最大。 proc cluster 過程的偏度選項 penalty=p 值可用于調(diào) 整偏向的程度。 3. 類的各種統(tǒng)計量 ( 1) 類 pG 的均方根標(biāo)準(zhǔn)差 ))1(/( ?? pvDR M S S T D G () 其中, GD 為類 pG 的直徑,定義見式 (),即類內(nèi)的離差平方和。 v 為觀察樣品的變量維數(shù), p 為類 pG 中的觀察數(shù)目。一般來說, 2R 統(tǒng)計量用于評價每次合并成 G 個類時的聚類效果。 2R 的值總是在 0 和 1 之間,當(dāng) n 個樣品各自為一類時, 12?R ,說明類被完全分開;當(dāng) n 個樣品最后合并成一類時, 02?R ,說明類被完全混合在一起了,分不清楚了。那么如何根據(jù) 2R 的值來確定 n 個樣品應(yīng)分為幾類最合適呢?首先,最合適分類的 2R 的值不能太小,最好能達到 ;其次,不能孤立地看合并后 2R 值的大小,應(yīng)該看 2R 值的變化。例如,從 10 類合并到 5 類時, 2R 值每次減少大約在 到 之間, 2R 值減小到 ,從 5 類合并到 4 類時, 2R 值減少了 ,即 2R =- =,這時,我們就可以得出 分 5 類是最合適的。顯然,半偏 2R 值 =上次合并后 2R 值-這次合并后 2R 值,例如,以上例的數(shù)據(jù)為例,合并到 4 類時的半偏 2R 值 =。 ( 4) 偽 F 統(tǒng)計量 ? ? ? ????? )/( )1/()())(),1(( GnD GDT SSGnvGvF i i偽 () 其中, G 為聚類的個數(shù), n 為觀察總數(shù), v 為觀察樣品的變量維數(shù)。在給定顯著水平上該偽( pseduo) F 統(tǒng)計量用于評價分為 G 個聚類的效果。 ( 5) 偽 2t 統(tǒng)計量 )2/()())2(,(2 ??? ????? qpDD DDDqpvvt qp qpm偽 () 該統(tǒng)計量用以評價合并類 pG 和類 qG 的效果。這表明上一次合并的兩個類 pG 和 qG 是很分開的,也就是說上一次聚類的效果是很好的。 上面的兩個偽 F 和偽 2t 統(tǒng)計量都可以作為確定類個數(shù)的有用指標(biāo),但是它們不是真正具上海財經(jīng)大學(xué)經(jīng)濟信息管理系 IS/SHUFE Page 10 of 62 有像隨機變量一樣的 F 分布和 2t 分布。而上述的兩個假設(shè)前提在實際應(yīng)用中是很難 達 到的,故稱這兩個統(tǒng)計量為偽統(tǒng)計量。在聚類過程中到底把分類對象分成多少類適宜是一個十分困難的問題。 檢查數(shù)據(jù)的散點圖對于確定聚類的個數(shù)也是一個很好的主意。對于更多維數(shù)( 3)的變量數(shù)據(jù),首先使用 proc candisc 典型判別分析過程對原始變量進行降維,計算出典型變量 can can can3 等。然后,對這些典型變量作散點圖。 Arnold( 1979)使用模擬的方法導(dǎo)出了有關(guān)確定類的個數(shù)準(zhǔn)則的有用信息。這個準(zhǔn)則可以用于原始的假設(shè)檢驗及估計總體分類的數(shù)目。如果在大樣本時有可能分成合適數(shù)目的超正方體,那么這個假設(shè)將給出很準(zhǔn)確的結(jié)果。 Milligan( 1984)和 Cooper( 1985)使用 4 種譜系聚類方法比較了 30 種不同總體類型的聚類個數(shù)確定。在 cluster 過程中這三個準(zhǔn)則都被應(yīng)用和輸出,而在fastclus 過程中僅偽 F 統(tǒng)計量和 CCC 統(tǒng)計量被應(yīng)用和輸出。 還必須強調(diào)這些準(zhǔn)則僅僅適用于緊湊的或略微拉長的類,也較好地適合于略微正態(tài)分布的類。如果 k 值在一個很寬的范圍內(nèi)所得到的聚類估計數(shù)都是常數(shù),則這個常數(shù)是一個很好的聚類數(shù)結(jié)論。 三、 聚類方法 1. 系統(tǒng)聚類法 上海財經(jīng)大學(xué)經(jīng)濟信息管理系 IS/SHUFE Page 11 of 62 系統(tǒng)聚類法 ( Hierarchical clustering method) 是目前使用最多的一種方法。將距離最近的兩類合并為一個新類,在計算新類和其他類之間的距離,再從中找出最近的兩類合并,繼續(xù)下去,最后所有的樣品全在一類。 系統(tǒng)聚類法的步驟為: ① 首先各樣品自成一類,這樣對 n 組樣品就相當(dāng)于有 n 類; ② 計算各類間的距離,將其中最近的兩類進行合并; ③ 計算新類與其余各類的距離,再將距離最近的兩類合并; ④ 重復(fù)上述的步驟,直到所有的樣品都聚為一類時為止。最短距離法的聚類步驟如下: ① 規(guī)定樣品之間的距離,計算樣品的兩兩距離,距離矩陣記為 ??0S ,開始視每個樣品分別為一類,這時顯然應(yīng)有 pqdqpD ?),( ; ② 選擇距離矩陣 ??0S 中的最小元素,不失一般性,記其為 ),( qpD ,則將 pG 與 qG 合并為一新類,記為 mG ,有 qpm GGG ?? ; ③ 計算新類 mG 與其他各類 的距離,得到新的距離矩陣記為 ??1S ; ④ 對 ??1S 重復(fù)開始進行第 ② 步,?,直到所有樣本成為一類為止。 2. 動態(tài)聚類法 開始將 n個樣品粗略地分成若干類,然后用某種最優(yōu)準(zhǔn)則進行調(diào)整,一次又一次地調(diào)整,直至不能調(diào)整了為止。 3. 分解法 它的程序正好和系統(tǒng)聚類相反,開始時所有的樣本都在一類 ,然后用某種最優(yōu)準(zhǔn)則將它分成兩類。如此下去,一直分裂到每類只有一個樣品為止(或用其他停止規(guī)則)。 四、 應(yīng)注意的幾個問題 ? 判別分析和聚類分析是兩種不同的分類方法,它們所起的作用是不同的。聚類分析方法是按樣品的數(shù)據(jù)特征,把相似的樣品傾向于分在同一 類中,把不相似的樣品傾向干分在不同類中。 ? 通常測量變量有三種尺度:間隔尺度、有序尺度和名義尺度,其中間隔尺度使用得最多,本章主要討論這種尺度。相似程度越高,一般兩個樣品(或變量)間的距離就越小或相似系數(shù)的絕對值就越大;反之,相似程度越低,一般兩個樣品(或變量)間的距離就越大或相似系數(shù)的絕對值就越小。 ? 大多數(shù)的研究表明:最好綜合特性的聚類方法為類平均法或 Ward 最小方差法,而最差的則為最短距離法。類平均法偏向?qū)ふ业确讲畹念?。拉長的或無規(guī)則的類使用最短距離法比其他方法好。 五、 SAS 的聚類分析過程 SAS 的聚類過程能夠被用來對某個 SAS 數(shù)據(jù)集中的觀察進行分類。 SAS 聚類分析用于將一批樣本按各變量(指標(biāo))的親疏程度進行分類。聚類方法很多,但 SAS 系統(tǒng)使用系統(tǒng)聚類法( Hierarchical cluster)和動態(tài)聚類法( Disjoint cluster)這兩種方法。如此反復(fù)進行,直到所有樣本合并為一類。 SAS 的動態(tài)聚類法基于 上限-中心點-重心的原理,首先將 n 個樣本初步分為 G 類,作為聚類個數(shù)的“上限”,從中確定其“中心點”,用作迭代的起點,然后每考察一個樣本觀察值,就把它移到最靠近的類,并算出每一類的“重心”,再考察一個觀察點移到另一類。 SAS 軟件主要有以下 5 個聚類過程,即 cluster, fastclus, modeclus、 varclus 和 tree 過程。 fastclus 過程為動態(tài)聚類過程,使用 Kmeans 算法尋找不相交的聚類,適宜于大樣本分析,觀察值可多達10萬個。 varclus 過程可用于系統(tǒng)或動態(tài)聚類, 通過斜交多組分量分析對變量作譜系的和不相交的這兩種聚類。 tree 過程將 cluster或 varclus 過程的聚類結(jié)果畫出樹形結(jié)構(gòu)圖或譜系圖。 var 變量表 。 上海財經(jīng)大學(xué)經(jīng)濟信息管理系 IS/SHUFE Page 13 of 62 freq 變量 。 rmsstd 變量 。 run; ( 1) proc cluster 語句 選項列表 。通過選項 type=可以接受距離矩陣或非相似類型的距離。 ? method=算法 —— 包括 ward(離差平方和法), average(類平均法), centroid(重心法), plete(最長距離法), single(最短距離法), median(中間距離法), density(密 度法), flexible(可變類平均法), twostage(兩階段密度法), eml(最大似然法),mcquitty(相似分析法)。 ? nonorm—— 阻止距離被正態(tài)化成均數(shù)為 1 或均方根為 1。 ? mode=n—— 當(dāng)合并兩個類時,規(guī)定對被指定的眾數(shù)類中的每個類至少有 n個成員。 ? penalty=p—— 指定用于 method= eml中的懲罰系數(shù)。 ? trim=p—— 要求從分析中刪去那些概率密度估計較小的點。在使用 method= ward 或 plete時,因類可能被異常值嚴(yán)重地歪曲,最好使用這個選項。 ? dim=n—— 當(dāng)規(guī)定 method= density 或 twostage 時指定使用的維數(shù)。如果數(shù)據(jù)是坐標(biāo)數(shù)據(jù),缺省值為變量的個數(shù);如果是距離 數(shù)據(jù),缺省值為 1。這個選項只能在規(guī)定 method= density 或 twostage 時使用。近鄰個數(shù) n 必須大于等于 2 且小于觀察數(shù)。 n 的值必須大于 0??梢砸?guī)定這個選項以便減少過程執(zhí)行的時間和空間。 ? rmsstd—— 打印輸出每一類的均方根標(biāo)準(zhǔn)差。同時 , 打印輸出選項 rsquare有關(guān)的 R2和半偏 R2。 ? pseudo—— 要求打印輸出偽 F 統(tǒng)計量 (標(biāo)志為 PSF)和偽 2t 統(tǒng)計量 (標(biāo)志為 PST2)。 ? simple—— 打印簡單統(tǒng)計數(shù)。 在輸出報表中,可以根據(jù)輸出的 ccc、 psf 和 pst2 統(tǒng)計量確定多少分類數(shù)較合適。 ( 2) 其他語句。 ? rmsstd語句 —— 當(dāng)輸入數(shù)據(jù)集中的坐標(biāo)數(shù)據(jù)代表類的均值時,定義表示均方根標(biāo)準(zhǔn)差變量,通常與 freq 語句中的變量配合使用。 2. Fastclus 快速聚類過程 Fastclus 過程稱為快速聚類過程或動態(tài)聚類過程。當(dāng)需要聚類的樣品數(shù)較多時,如果采用 cluster過程就需要計算很長時間,因為它要從一個樣品一類依 次 聚類到所有樣品作為一類。此時 , 使用 fastclus 過程就能很快地和很好地將大量樣品數(shù)聚類成兩類或 三類。 Fastclus 過程的聚類步驟如下: ① 選擇若干個觀察作為“凝聚點”或稱類的中心點,作為這些類均值的第一次猜測值; ② 通過可選擇地分配,把每一個觀察分配到與這些“凝聚點”中最近距離的類里來形成臨時類。該步可以一直進行到類中的“凝聚點”的改變很小或為 0 時停止; ④ 最終的分類由分配每一個觀 察到最近的“凝聚點”而形成。用戶還可以指定最大的“凝聚點”個數(shù),及“凝聚點”之間的必須分隔開的最小距離。 fastclus 過程一般由下列語句控制: proc fastclus 選項列表 。 id 變量 。 weight 變量 。 run; ( 1) proc fastclus 語句 選項列表 。 ① 有關(guān)輸入輸出數(shù)據(jù)集選項: data=輸入數(shù)據(jù)集 —— 原始輸入數(shù)據(jù)集。 mean=輸出數(shù)據(jù)集 —— 生成一個輸出數(shù)據(jù)集,其中包含每個類的均值和一些統(tǒng)計量。 ② 有關(guān)控制聚類的初始中心點選項: maxclusters=n(或 maxc=n) —— 指定所允許的最大聚類數(shù)(缺省值為 100)。當(dāng)一個觀察點與已有“凝聚點”的最小距離都大于 t 值時,該觀察可考慮用來作為一個新的“凝聚點”。要注意,選擇一個好的 t 值,可以得到好的分類結(jié)果。 replace = full | part | none |random—— 指定“凝聚點”的替換方式。 ③ 有關(guān)控制最終聚類“凝聚點”的計算選項: drift—— 每當(dāng)一個觀察歸入最靠近的“凝聚點”所在類后,此類的“凝聚點”都要被該類中現(xiàn)有觀察的均值所替代。 convergec=c(或 conv= c) —— 指定收斂的判斷準(zhǔn)則, c 為任意非負(fù)值,缺省值為0 .02。 maxiter= n—— 指定重新計算“凝聚點”所需的最大迭代次數(shù),缺省值為1。 ④ 有關(guān)控制打印輸出的選項: distance—— 要求打印類均值之間的距離。 ( 2) 其他語句。 另外,在 采用 fastclus 過程之前,若變量值的單位不一致則必須對變量預(yù)先用 standard過程轉(zhuǎn)換成標(biāo)準(zhǔn)分(例如: pr
點擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1