freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

統(tǒng)計(jì)學(xué)聚類分析-展示頁

2024-09-01 11:10本頁面
  

【正文】 s c r i mi n an t F u n c t i o n sF u n ct io n 1100 1 0Function 243210123G R O U PG r o u p Ce n t r o id s321321 ?從上圖可以看出 , 第一個(gè)投影 ( 相應(yīng)于來自于第一個(gè)典則判別函數(shù)橫坐標(biāo)值 ) 已經(jīng)能夠很好地分辨出三個(gè)企業(yè)類型了 。 把這兩個(gè)數(shù)目當(dāng)成該觀測(cè)值的坐標(biāo) , 這樣數(shù)據(jù)中的 150個(gè)觀測(cè)值就是二維平面上的 150個(gè)點(diǎn) 。 用 x1,x2, x3, x4,x5, x6, x7分別表示標(biāo)準(zhǔn)化后的變量 is, se, sa, prr, ms, msr,cs , 得 到 兩 個(gè) 典 則 判 別 函 數(shù) ( Canonical Discriminant Function Coefficients) : 這兩個(gè)函數(shù)實(shí)際上是由 Fisher判別法得到的向兩個(gè)方向的投影 。 逐步判別的其他方面和前面的無異 。 一個(gè)變量的判別能力的判斷方法有很多種 , 主要利用各種檢驗(yàn) , 例如Wilks’ Lambda 、 Rao’s V 、 The Squared Mahalanobis Distance、 Smallest F ratio或 The Sum of Unexplained Variations等檢驗(yàn) 。 4 2 0 2 4 643210123Fisher判別法的數(shù)學(xué) (僅僅是在前面的方法中加入變量選擇的功能 ) ?有時(shí) , 一些變量對(duì)于判別并沒有什么作用 , 為了得到對(duì)判別最合適的變量 , 可以使用逐步判別 。 ?有了投影之后 , 再用前面講到的距離遠(yuǎn)近的方法得到判別準(zhǔn)則 。 4 2 0 2 4 6432101232. Fisher判別法 (先進(jìn)行投影 ) ?于是就尋找一個(gè)方向 , 即圖上的虛線方向 , 沿該方向朝和這個(gè)虛線垂直的一條直線進(jìn)行投影會(huì)使得這兩類分得最清楚 。一類有 38個(gè)點(diǎn) (用 “ o”表示 ),另一類有44個(gè)點(diǎn) (用 “ *” 表示 )。 見圖 。 ?假定只有兩類 。 為判別分析的基礎(chǔ) 2. Fisher判別法 (先進(jìn)行投影 ) ?Fisher判別法就是一種先投影的方法 。 ?一個(gè)常用距離是 Mahalanobis距離 。 這樣只要定義了距離 , 就可以得到任何給定的點(diǎn) ( 企業(yè) ) 到這三個(gè)中心的三個(gè)距離 。 1. 根據(jù)距離判別的思想 ? 8個(gè)用來建立判別標(biāo)準(zhǔn) (或判別函數(shù) )的 (預(yù)測(cè) )變量 ,另一個(gè) (group)是類別 ?每一個(gè)企業(yè)的打分在這 8個(gè)變量所構(gòu)成的 8維空間中是一個(gè)點(diǎn) 。 ?該數(shù)據(jù)有 90個(gè)企業(yè) ( 90個(gè)觀測(cè)值 ) ,其中 30個(gè)屬于上升型 , 30個(gè)屬于穩(wěn)定型 , 30個(gè)屬于下降型 。 ?指標(biāo)有 :企業(yè)規(guī)模 ( is) 、 服務(wù) (se)、雇員工資比例 (sa)、 利潤增長 (prr)、 市場(chǎng)份額 (ms)、 市場(chǎng)份額增長 (msr)、 流動(dòng)資金比例 (cp)、 資金周轉(zhuǎn)速度 (cs)等 . ?另外 , 有一些企業(yè)已經(jīng)被某雜志劃分為上升企業(yè) 、 穩(wěn)定企業(yè)和下降企業(yè) 。 判別分析例子 ?數(shù)據(jù) :企圖用一套打分體系來描繪企業(yè)的狀況 。 此即判別分析 判別分析 (discriminant analysis) ?判別分析和聚類分析有何不同 ? ?在聚類分析中 , 人們一般事先并不知道應(yīng)該分成幾類及哪幾類 , 全根據(jù)數(shù)據(jù)確定 。人們就根據(jù)已知雌雄的昆蟲體表度量(這些用作度量的變量亦稱為預(yù)測(cè)變量)得到一個(gè)標(biāo)準(zhǔn),并以此標(biāo)準(zhǔn)來判別其他未知性別的昆蟲。 SPSS實(shí)現(xiàn) (聚類分析 ) ?分層聚類 ?對(duì) SPSS中選擇 Analyze- Classify- Hierarchical Cluster, ?然后把 calorie( 熱量 ) 、 caffeine( 咖啡因 ) 、 sodium( 鈉 ) 、 price( 價(jià)格 ) 選入 Variables, ?在 Cluster選 Cases( 這是 Q型聚類:對(duì)觀測(cè)值聚類 ) , 如果要對(duì)變量聚類 ( R型聚類 )則選 Variables, ?為了畫出樹狀圖 , 選 Plots , 再點(diǎn)Dendrogram等 。 ?但是 , 聚類的目的是要使各類之間的距離盡可能地遠(yuǎn) , 而類中點(diǎn)的距離盡可能的近 , 并且分類結(jié)果還要有令人信服的解釋 。 聚類要注意的問題 ?另外就分成多少類來說 , 也要有道理 。 ?相比之下 , 聚類方法的選擇則不那么重要了 。 SPSS輸出為 A g g l o m e r a t i o n S c h e d u l e5 15 1 3 . 1 3 0 0 0 74 13 2 5 . 9 7 0 0 0 32 4 3 6 . 4 8 5 0 2 86 9 6 9 . 1 3 0 0 0 101 10 1 0 2 . 6 3 0 0 0 158 11 1 5 0 . 3 3 0 0 0 85 16 1 9 8 . 3 7 5 1 0 112 8 3 1 9 . 7 7 8 3 6 1212 14 3 2 2 . 5 4 0 0 0 123 6 4 5 8 . 7 9 5 0 4 135 7 1 0 0 6 . 8 6 3 7 0 132 12 1 4 3 5 . 0 7 6 8 9 143 5 1 7 5 5 . 6 5 4 10 11 142 3 6 2 8 7 . 1 7 5 12 13 151 2 1 9 4 0 6 . 6 8 4 5 14 0S t a g e123456789101112131415C lu s t e r 1 C lu s t e r 2C lu s t e r C o m b i n e dC o e f f ic i e n t s C lu s t e r 1 C lu s t e r 2S t a g e C l u s t e r F i r s tA p p e a r sN e x t S t a g eV e r t i c a l I c i c l eX X X X X X X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X XN u m b e r o f c l u s t e r s1234567891011121314157 16 15 5 9 6 3 14 12 11 8 13 4 2 10 1C a s e“冰柱圖” (icicle) 例 :5個(gè)樣品距離陣 令 Dk為系統(tǒng)聚類法種第 k次合并時(shí)的距離 ,如 {Dk}為單調(diào)的 ,則稱具有單調(diào)性 .前面只有重心和中間距離法不具有單調(diào)性 . 0070() 1 6 09 3 8 08 5 7 4 0ijDd??????????????????步驟 : 最短距離法 最長距離法 階段 bk(第 k階段類的集合 ) Dk Dk D(0) (1)(2)(3)(4)(5) 0 0 D(1) (1,3)(2)(4)(5) 1 1 D(2) (1,3)(2,4)(5) 3 3 D(3) (1,3)(2,4,5) 4 5 D(4) (1,3,2,4,5) 6 9 注 :最短和最長距離法結(jié)果一樣 (一般不一定一樣 ) 聚類要注意的問題 ?聚類結(jié)果主要受所選擇的變量影響 。 越是后來合并的類 ,距離就越遠(yuǎn) 。 開始時(shí) ,有多少點(diǎn)就是多少類 。 ?注意 k均值聚類只能做 Q型聚類 , 如要做 R型聚類 , 需要把數(shù)據(jù)陣進(jìn)行轉(zhuǎn)置 。結(jié)果是:第一類為飲料 10;第二類為飲料 1 1 1 14;第三類為剩下的飲料 1 16。利用 SPSS,只疊代了三次就達(dá)到目標(biāo)了(計(jì)算機(jī)選的種子還可以)。下面用飲料例的數(shù)據(jù)來做 k均值聚類 。 ?如此疊代下去 , 直到達(dá)到停止疊代的要求 ( 比如 , 各類最后變化不大了 ,或者疊代次數(shù)太多了 ) 。 事先要確定分多少類: k均值聚類 ?然后 , 根據(jù)和這三個(gè)點(diǎn)的距離遠(yuǎn)近 ,把所有點(diǎn)分成三類 。 事先要確定分多少類: k均值聚類 ?前面說過 , 聚類可以走著瞧 , 不一定事先確定有多少類;但是這里的 k均值聚類 ( kmeans cluster, 也叫快速聚類 , quick cluster) 卻要求你先說好要分多少類 。 有了上面的點(diǎn)間距離和類間距離的概念,就可以介紹聚類的方法了。( ) ,( ) 39。 向量 x=(x1,…, x p)與 y=(y1,…, y p)之間的距離或相似系數(shù) : 2()iiixy??歐氏距離 : Euclidean 平方歐氏距離 : Squared Euclidean 2()iiixy??夾角余弦 (相似系數(shù) 1) : cosine 22( 1 ) c osiiix y x yiiiixyCxy??????Pearson correlation (相似系數(shù) 2): Chebychev: Maxi|xiyi| Block(絕對(duì)距離 ): Si|xiyi| Minkowski: 1()qqiiixy????????當(dāng)變量的測(cè)量值相差懸殊時(shí) ,要先進(jìn)行標(biāo)準(zhǔn)化 . 如 R為極差 , s 為標(biāo)準(zhǔn)差 , 則標(biāo)準(zhǔn)化的數(shù)據(jù)為每個(gè)觀測(cè)值減去均值后再除以 R或 s. 當(dāng)觀測(cè)值大于 0時(shí) , 有人采用 Lance和 Williams的距離 ||1 iii iixyp x y???22( ) ( )( 2)( ) ( )iiix y x yiiiix x y yCrx x y y?????????類 Gp與類 Gq之間的距離 Dpq (d(xi,xj)表示點(diǎn) xi∈ Gp和 xj ∈ Gq之間的距離 ) m in ( , )pq i jD d x x?最短距離法 : 最長距離法 : 重心法 : 離差平方和 : (Wald) 類平均法 : (中間距離 , 可變平均法 ,可變法等可參考各書 ). 在用歐氏距離時(shí) , 有統(tǒng)一的遞推公式 121 2 1 2 1 2( ) 39。 兩個(gè)距離概念 ?在計(jì)算時(shí) , 各種點(diǎn)間距離和類間距離的選擇是通過統(tǒng)計(jì)軟件的選項(xiàng)實(shí)現(xiàn)的 。 兩個(gè)距離概念 ?由一個(gè)點(diǎn)組成的類是最基本的類;如果每一類都由一個(gè)點(diǎn)組成 , 那么點(diǎn)間的距離就是類間距離 。 最簡單的是歐氏距離 。 兩個(gè)距離概念 ?按照遠(yuǎn)近程度來聚類需要明確兩個(gè)概念:一個(gè)是 點(diǎn)和點(diǎn)之間 的距離 , 一個(gè)是 類和類之間 的距離 。 ?在飲料數(shù)據(jù)中 , 每種飲料都有四個(gè)變量值 。 ?如果還知道他們的物理成績 , 這樣數(shù)學(xué)和物理成績就形成二維平面上的 100個(gè)點(diǎn) , 也可以按照距離遠(yuǎn)近來分類 。 飲料數(shù)據(jù)( ) ? 16種飲料的熱量
點(diǎn)擊復(fù)制文檔內(nèi)容
高考資料相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1