freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

awvaaa聚類分析new(存儲版)

2024-09-02 09:35上一頁面

下一頁面
  

【正文】 年人民生活達(dá)到小康標(biāo)準(zhǔn) , 因此 , 了解各地區(qū)目前對小康生活質(zhì)量的實(shí)現(xiàn)程度 。 設(shè) 是樣本點(diǎn)構(gòu)成的集合 , 樣本點(diǎn) 在函數(shù) 上的取值為 。 若將其分為兩類 , 其結(jié)果應(yīng)該是 對應(yīng)中的點(diǎn)是 。 90 (二)有序聚類的步驟 設(shè)有序樣品 x(1),x(2),…, x(n)。有如下的資料是 111歲的男孩平均每年的增重: 問男孩的發(fā)育可分為幾個(gè)階段。(具有系統(tǒng)聚類和 K-均值聚類的優(yōu)點(diǎn)) : 1)變量類型:連續(xù)型,離散型(或數(shù)量型,質(zhì)量型) 2)通過對觀測的 “ 兩層 ” 聚類,有效的降低了樣本容量太大對層次聚類的限制;同時(shí),進(jìn)一步提高了聚類的效果,使組間的差異較組內(nèi)差異更加顯著。 3)確定合理的類數(shù) . 。 在側(cè)重于應(yīng)用的模糊數(shù)學(xué)分析中 , 經(jīng)常應(yīng)用到聚類分析 、 模式識別和綜合評判等方法 。一次可以得到所有類 G1, G2, …G k, 這就是所求得最優(yōu)解。 合理的分類應(yīng)該把發(fā)展情況最近似的地區(qū)劃入同一類 。每次分類都要求產(chǎn)生的離差平方和的增量最小。 它主要適用于樣本由一個(gè)變量描述的情況 。 所有的觀測值點(diǎn)分配完后 , 這些類的 “凝聚點(diǎn) ” 用臨時(shí)類的均值代替 。 80 確定初始分類常用的方法有: (1) 人為分類,憑經(jīng)驗(yàn)將樣品進(jìn)行初步分類. (2) 選擇凝聚點(diǎn)后,每個(gè)樣品按與其距離最近的凝聚點(diǎn)歸類。計(jì)算所有樣品點(diǎn)的密度后,首先選擇密度最大的樣品作為第一凝聚點(diǎn),并且人為地確定一個(gè)正數(shù) D(一般 D> d,常取 D= 2d)。 對于任何點(diǎn) ,分別計(jì)算 若 ,則將 劃為第一類,否則劃給第二類。 然而當(dāng)樣本點(diǎn)數(shù)量十分龐大時(shí) , 則是一件非常繁重的工作 ,且聚類的計(jì)算速度也比較慢 。 2ij?k12????kRji iji?2iR)( ji ? ),2,1( ki ??ix66 8G12G3G 例 某公司下屬 30個(gè)企業(yè) , 公司為了考核下屬企業(yè)的經(jīng)濟(jì)效益 , 設(shè)計(jì)了 8個(gè)指標(biāo) 。 方法的比較 D( 短 ) D( 平 ) , D( 重 ) D( 平 ) ; D( 長 ) D( 平 ) ; 當(dāng) , D( 變平 ) D( 平 ) ; 當(dāng) , D( 變平 ) D( 平 ) 。 TPR G?? 12GP2R2R2R2R2R57 偽 F統(tǒng)計(jì)量的定義為 偽 F統(tǒng)計(jì)量用于評價(jià)聚為 G類的效果 。 給定閾值 —— 通過觀測聚類圖 , 給出一個(gè)合適的閾值 T。 離差平方和法定義類間的平方距離為 46 1G2G3G 4G 5G1G2G3G 0 0 0 18 0 32 2 0 4G5G47 2222 qprpq SSSD ???的增量:定義距離為離差平方和其中 是由 Gp和 Gq合并成的 Gr類的類內(nèi)離差平方和 。 用最短距離法對 5個(gè)樣品進(jìn)行分類 。 實(shí)踐中 , 在開始進(jìn)行聚類分析時(shí) , 不妨試探性地多選擇幾個(gè)親疏測度指標(biāo) , 分別進(jìn)行聚類 , 然后對聚類分析的結(jié)果進(jìn)行對比分析 , 以確定出合適的親疏測度指標(biāo) 。 如在經(jīng)濟(jì)變量分析中 , 常用相關(guān)系數(shù)表示經(jīng)濟(jì)變量之間的親疏程度 。 211 12))((1 ?????? ???? ?? ?phpk hkjkikjhihijxxxxpd ?25 四、變量間親疏程度的測度 準(zhǔn)則 當(dāng)對變量進(jìn)行聚類時(shí) , 最常見的相似系數(shù)是樣本相關(guān)系數(shù) 。 例如 , 假設(shè)有一個(gè)二維正態(tài)總體 , 它的分布為: 22 ?????? ????????????,002N ?????????? ?11兩點(diǎn)。 ? ? 211 2)()( ?? ?? pk jkikij xxJd?? ??? pkjkikjkikij xxxxLd1)(20 (4)馬氏距離 這是印度著名統(tǒng)計(jì)學(xué)家馬哈拉諾比斯(P. C. ’ Mahalanobis)所定義的一種距離 ,其計(jì)算公式為: )()(2 ji1ji xxxx ????? ?ijd 分別表示第 i個(gè)樣品和第 j樣品的 p指標(biāo)觀測值所組成的列向量 , 即樣本數(shù)據(jù)矩陣中第 i個(gè)和第 j個(gè)行向量的轉(zhuǎn)置 , ?表示觀測變量之間的協(xié)方差短陣 。 16 定義距離的準(zhǔn)則 定義距離要求滿足第 i個(gè)和第 j個(gè)樣品之間的距離如下四個(gè)條件 : 。 首先對每個(gè)變量進(jìn)行中心化變換 , 然后用該變量的標(biāo)準(zhǔn)差進(jìn)行標(biāo)準(zhǔn)化 。 10 二 、 數(shù)據(jù)的變換處理 所謂數(shù)據(jù)變換,就是將原始數(shù)據(jù)矩陣中的每個(gè)元素,按照某種特定的運(yùn)算把它變成為一個(gè)新值,而且數(shù)值的變化不依賴于原始數(shù)據(jù)集合中其它數(shù)據(jù)的新值。 2 相似系數(shù)和距離 9 (2)順序尺度 。 8 一 、 變量測量尺度的類型 為了將樣本進(jìn)行分類 , 就需要研究樣品之間的關(guān)系;而為了將變量進(jìn)行分類 , 就需要研究變量之間的關(guān)系 。1 第一講 聚類分析 2 系統(tǒng)聚類分析 快速聚類 有序聚類 其它聚類分析 3 例 對 10位應(yīng)聘者做智能檢驗(yàn)。又例如當(dāng)我們對企業(yè)的經(jīng)濟(jì)效益進(jìn)行評價(jià)時(shí),建立了一個(gè)由多個(gè)指標(biāo)組成的指標(biāo)體系,由于信息的重疊,一些指標(biāo)之間存在很強(qiáng)的相關(guān)性,所以需要將相似的指標(biāo)聚為一類,從而達(dá)到簡化指標(biāo)體系的目的。 167。 顯然 , 對于具有多個(gè)特性狀態(tài)的變量 , 可通過并類的方法將其轉(zhuǎn)化為二性狀態(tài)變量 。 標(biāo)準(zhǔn)化變換 標(biāo)準(zhǔn)化變換也是對變量的數(shù)值和量綱進(jìn)行類似于規(guī)格化變換的一種數(shù)據(jù)處理方法 。 而樣品之間的聚類即 Q型聚類分析 , 則常用距離來測度樣品之間的親疏程度 。 雖然這個(gè)距離有助于克服明氏距離的第一個(gè)缺點(diǎn) , 但它也沒有考慮指標(biāo)之間的相關(guān)性 。 為了對馬氏距離和歐氏距離進(jìn)行一下比較 , 以便更清楚地看清二者的區(qū)別和聯(lián)系 , 現(xiàn)考慮一個(gè)例子 。 當(dāng)各變量之間不相關(guān)時(shí),斜交空間退化為歐氏距離。 通常 , 選擇親疏測度指標(biāo)時(shí) , 應(yīng)注意遵循的基本原則主要有: (1)所選擇的親疏測度指標(biāo)在實(shí)際應(yīng)用中應(yīng)有明確的意義 。 樣品間或變量間親疏測度指標(biāo)的選擇是一個(gè)比較復(fù)雜且?guī)е饕?guī)性的問題 , 我們應(yīng)根據(jù)研究對象的特點(diǎn)作具體分折 , 以選擇出合適的親疏測度指標(biāo) 。 2nCijd(一)方法 33 0 0 0 pGqG 1G 2G nG?1G2GnG? ?12d nd121d1nd? ? ????2ndnd234 (二)常用的種類 最短距離法 設(shè)抽取五個(gè)樣品 , 每個(gè)樣品只有一個(gè)變量 , 它們 是 1, 2, , 7, 9。 先讓 n個(gè)樣品各自成一類 , 然后縮小一類 ,每縮小一類離差平方和就要增大 , 選擇使 S2增加最小的兩類合并 , 直到所有的樣品歸為一類為止 。 下面我們介紹幾種方法 。比如,假定分 4類時(shí), =;下一次合并分三類時(shí),下降了許多, =,則分 4 類是合適的。 )()( BDAD ?61 空間的濃縮和擴(kuò)張 設(shè)有兩種系統(tǒng)聚類法 A和 B, 他們在第 i步的距離矩陣分別為 Ai和 Bi( I=1, 2, 3… ) , 若 AiBi ,則稱第一種方法 A比第二種方法 B使空間擴(kuò)張 , 或第二種方法比第一種方法濃縮 。 這就需要在每類中選出一個(gè)代表指標(biāo) , 具體做法是:假設(shè)某類中有 個(gè)指標(biāo) , 首先分別 計(jì) 算 類 內(nèi) 指 標(biāo) 之 間 的 相 關(guān) 指數(shù) , 然后計(jì)算某個(gè)指標(biāo)與類內(nèi)其他指標(biāo)之間相關(guān)指數(shù)的平均數(shù) , 即 取 最大的 , 做為該類的代表 。 2 動(dòng)態(tài)聚類 一 、 思想 系統(tǒng)聚類法是一種比較成功的聚類方法 。 快速聚類的步驟: 隨機(jī)選取兩個(gè)點(diǎn) 和 作為聚核。 78 (3) 用密度法選擇凝聚點(diǎn):以某個(gè)正數(shù) d為半徑,以每個(gè)樣品為球心,落在這個(gè)球內(nèi)的樣品數(shù) (不包括作為球心的樣品 )就叫做這個(gè)樣品的密度。然后依次考察每個(gè)樣品,若某樣品與已選定的凝聚點(diǎn)的距 離均大于 d,該樣品作為新的凝聚點(diǎn),否則考察下一個(gè)樣品。 每一次對一個(gè)觀測值點(diǎn)進(jìn)行歸類 , “ 凝聚點(diǎn) ” 更新為這一類目前的均值; 第三 , 可選擇地 , 通過分配每個(gè) “ 凝聚點(diǎn) ” 最近的類里來形成臨時(shí)分類 。 該方法是由費(fèi)歇在 1958年提出的 。而有序聚類則相反,開始所有的樣品為一類,然后分為二類、三類等,直到分成 n類。 這種行政上的規(guī)定往往是不客觀 、 不合理的 。 94 最優(yōu)解的求法 若分類數(shù) k是已知的,求分類法 b(n,k),使它在損失函數(shù)意義下達(dá)到最小,其求法如下: 首先, 找出分點(diǎn) jk,使 ),()]1,1([)],([ njDkjPLknPL kk ???? 于是得第 k類 ? ?njjG kkk ,1, ??? 然后, 找出 jk- 1,使它滿足 )1,()]2,1([)]1,([ 111 ?????? ??? kkkk jjDkjPLkjPL 于是得第 k1類 ? ?1,1, 111 ??? ??? kkkk jjjG ?95 類推。 這些通常是本來就屬于模糊的概念 , 為處理分析這些 “ 模糊 ” 概念的數(shù)據(jù) , 便產(chǎn)生了模糊集合論 。 (這里程序建議使用赤池或 schwarts準(zhǔn)則) 2)在給定閾值( pass)(也可根據(jù)其他標(biāo)準(zhǔn)確定類數(shù))的條件下,對初始類(如果在( 1)中采用了對異端值、類的處理,這里的初始類將不包括它們)進(jìn)行層次聚類 —— 類間距離將采用重心距離(程序默認(rèn))。 103 ,類與樣品間,類與類間的相互聯(lián)系程度的量度: 1)對數(shù)似然距離 —— 實(shí)質(zhì)是概率,注意:這里有關(guān)變量的原始假定 : ( 1)連續(xù)型變量服從正態(tài)分布 ( 2)類別型變量服從多項(xiàng)分布 ( 3)變量相互獨(dú)立 2)歐氏距離 —— 這里程序默認(rèn):類與類,類與樣品間的距離采用重心距離。 年齡 1 2 3 4 5 6 7 8 9 10 11 增加重量(公斤) 96 1 2 3 4
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1