freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

應(yīng)用多元統(tǒng)計分析講稿-資料下載頁

2025-06-25 02:34本頁面
  

【正文】 法00可變類平均法0可變法0離差平方和法0第四節(jié) K均值聚類分析系統(tǒng)聚類法需要計算出不同樣品或變量的距離,還要在聚類的每一步都要計算“類間距離”,相應(yīng)的計算量自然比較大;特別是當(dāng)樣本的容量很大時,需要占據(jù)非常大的計算機(jī)內(nèi)存空間,這給應(yīng)用帶來一定的困難。而K—均值法是一種快速聚類法,采用該方法得到的結(jié)果比較簡單易懂,對計算機(jī)的性能要求不高,因此應(yīng)用也比較廣泛。K均值法是麥奎因(MacQueen,1967)提出的,這種算法的基本思想是將每一個樣品分配給最近中心(均值)的類中,具體的算法至少包括以下三個步驟:1.將所有的樣品分成K個初始類;2.通過歐氏距離將某個樣品劃入離中心最近的類中,并對獲得樣品與失去樣品的類,重新計算中心坐標(biāo);3.重復(fù)步驟2,直到所有的樣品都不能再分配時為止。K均值法和系統(tǒng)聚類法一樣,都是以距離的遠(yuǎn)近親疏為標(biāo)準(zhǔn)進(jìn)行聚類的,但是兩者的不同之處也是明顯的:系統(tǒng)聚類對不同的類數(shù)產(chǎn)生一系列的聚類結(jié)果,而K—均值法只能產(chǎn)生指定類數(shù)的聚類結(jié)果。具體類數(shù)的確定,離不開實(shí)踐經(jīng)驗(yàn)的積累;有時也可以借助系統(tǒng)聚類法以一部分樣品為對象進(jìn)行聚類,其結(jié)果作為K—均值法確定類數(shù)的參考。下面通過一個具體問題說明K均值法的計算過程?!尽考俣ㄎ覀儗、B、C、。樣品變量A53B11C12D32試將以上的樣品聚成兩類。 第一步:按要求取K=2,為了實(shí)施均值法聚類,我們將這些樣品隨意分成兩類,比如(A、B)和(C、D),然后計算這兩個聚類的中心坐標(biāo)。聚類中心坐標(biāo)(A、B)22(C、D)12,比如(A、B)類的,等等。第二步:計算某個樣品到各類中心的歐氏平方距離,然后將該樣品分配給最近的一類。對于樣品有變動的類,重新計算它們的中心坐標(biāo),為下一步聚類做準(zhǔn)備。先計算A到兩個類的平方距離:, 由于A到(A、B)的距離小于到(C、D)的距離,因此A不用重新分配。計算B到兩類的平方距離:,由于B到(A、B)的距離大于到(C、D)的距離,因此B要分配給(C、D)類,得到新的聚類是(A)和(B、C、D)。聚類中心坐標(biāo)(A)53(B、C、D)11第三步:再次檢查每個樣品,以決定是否需要重新分類。計算各樣品到各中心的距離平方。聚類樣品到中心的距離平方ABCD(A)0404189(B、C、D)52455到現(xiàn)在為止,每個樣品都已經(jīng)分配給距離中心最近的類,因此聚類過程到此結(jié)束。最終得到K=2的聚類結(jié)果是A獨(dú)自成一類,B、C、D聚成一類。第五節(jié) 有序樣品的聚類分析法 以上的系統(tǒng)聚類和K—均值聚類中,樣品的地位是彼此獨(dú)立的,沒有考慮樣品的次序。但在實(shí)際應(yīng)用中,有時樣品的次序是不能變動的,這就產(chǎn)生了有序樣品的聚類分析問題。例如對動植物按生長的年齡段進(jìn)行分類,年齡的順序是不能改變的,否則就沒有實(shí)際意義了;又例如在地質(zhì)勘探中,需要通過巖心了解地層結(jié)構(gòu),此時按深度順序取樣,樣品的次序也不能打亂。如果用X(1) , X(2) , …,X(n)表示n個有序的樣品,則每一類必須是這樣的形式,即X(i) , X(i+1),…,X(j) ,其中1 163。 r 163。 n,且j 163。 n,簡記為Gi = {i,i+1,…,j}。在同一類中的樣品是次序相鄰的。這類問題稱為有序樣品的聚類分析。一、有序樣品可能的分類數(shù)目 n個有序樣品分成k類,則一切可能的分法有種。實(shí)際上,n個有序樣品共有(n 1)個間隔,分成k類相當(dāng)于在這(n 1)個間隔中插入k 1根“棍子”。由于不考慮棍子的插入順序,是一個組合問題,共有種插法。這就是n個有序樣品分成k類的一切可能分法。因此,對于有限的n和k,有序樣品的所有可能分類結(jié)果是有限的,可以在某種損失函數(shù)意義下,求得最優(yōu)解。所以有序樣品聚類分析又稱為最優(yōu)分割,該算法是費(fèi)希爾(Fisher)最先提出來的,故也稱之為費(fèi)希爾最優(yōu)求解法。二、費(fèi)希爾最優(yōu)求解法2.定義分類的損失函數(shù)。費(fèi)希爾最優(yōu)求解法定義的分類損失函數(shù)的思想類似于系統(tǒng)聚類分析中的Ward法,即要求分類后產(chǎn)生的離差平方和的增量最小。用表示將個有序樣品分為類的某一種分法:,,其中。定義上述分類法的損失函數(shù)為 ()上式中的。對于固定的和,越小,表示各類的離差平方和越小,分類就是越有效的。因此,要求尋找一種分法,使分類的損失函數(shù)最小,這種最優(yōu)分類法記為。3.求最優(yōu)分類法的遞推公式。具體計算最優(yōu)分類的過程是通過遞推公式獲得的。先考慮的情形對所有的考慮使得,最小的。得到最優(yōu)分類:。 時的情形進(jìn)一步考慮對于,求。這里需要注意,若要尋找將n個樣品分為k類的最優(yōu)分割,則對于任意的j(k 163。 j 163。 n),先將前面j 1個樣品最優(yōu)分割為k 1類,得到p(j 1,k 1),否則從j到n這最后一類就不可能構(gòu)成k類的最優(yōu)分割。再考慮使L[b(n,k)]最小的j*,得到p(n,k)。因此我們得到費(fèi)希爾最優(yōu)求解法的遞推公式為4.費(fèi)希爾最優(yōu)求解法的實(shí)際計算。從遞推公式()可知,要得到分點(diǎn),使得從而獲得第類:,必須先計算使得從而獲得第類:。依此類推,…,要得到分點(diǎn),使得從而獲得第3類:,必須先計算從而獲得第2類:。這時自然獲得。最后獲得最優(yōu)分割:。因此,實(shí)際計算過程中是從計算開始的,一直到最后計算出為止??傊?,為了求最優(yōu)解,主要是計算和,}。三、一個典型例子【】為了了解兒童的生長發(fā)育規(guī)律,試問男孩發(fā)育可分為幾個階段?年齡(歲)123增重(公斤)在分析這是一個有序樣品的聚類問題時,我們通過圖形可以看到男孩增重隨年齡順序變化的規(guī)律。 下面通過有序樣品的聚類分析確定男孩發(fā)育分成幾個階段較合適。步驟如下:(1)計算直徑{}。例如計算,此類包含兩個樣品{,},故有:=, =其它依此計算。 12345678910234567891011(2)計算最小分類損失函數(shù)}。23456789103(2)4(2)(4)5(2)(5)(5)6(2)(5)(6)(6)7(2)(5)(6)(6)(6)8(2)(8)(8)(8)(8)(8)9(2)(8)(8)(8)(8)(3)(8)10(2)(8)(8)(10)(10)(10)(10)(8)11(2)(8)(8)(10)(11)(11)(11)(11)(11)首先計算{}(即表中的列),例如計算:極小值是在處達(dá)到,故記,其它類似計算。再計算{}(即表中的列),例如計算: ,括弧內(nèi)的數(shù)字表示最優(yōu)分割處的序號。(3)分類個數(shù)的確定。如果能從生理角度事先確定k當(dāng)然最好;有時不能事先確定k時,可以從L[p(l,k)]隨k的變化趨勢圖中找到拐點(diǎn)處,作為確定k的根據(jù)。當(dāng)曲線拐點(diǎn)很平緩時,可選擇的k很多,這時需要用其它的辦法來確定,比如均方比和特征根法,限于篇幅此略,有興趣的讀者可以查看其它資料。 =3,4處有拐點(diǎn),即分成3類或4類都是較合適的。(4)求最優(yōu)分類。例如我們把兒童生長分成4個階段,(即行)得,最后的最優(yōu)分割在第8個元素處,因此或。進(jìn)一步從表中查,因此或,再從表中查得最后或,剩下的。第六章 主成分分析第一節(jié) 引言多元統(tǒng)計分析處理的是多變量(多指標(biāo))問題。由于變量較多,增加了分析問題的復(fù)雜性。但在實(shí)際問題中,變量之間可能存在一定的相關(guān)性,因此,多變量中可能存在信息的重疊。人們自然希望通過克服相關(guān)性、重疊性,用較少的變量來代替原來較多的變量,而這種代替可以反映原來多個變量的大部分信息,這實(shí)際上是一種“降維”的思想。主成分分析也稱主分量分析,是由Hotelling于1933年首先提出的。由于多個變量之間往往存在著一定程度的相關(guān)性。人們自然希望通過線性組合的方式,從這些指標(biāo)中盡可能快地提取信息。當(dāng)?shù)谝粋€線性組合不能提取更多的信息時,再考慮用第二個線性組合繼續(xù)這個快速提取的過程,……,直到所提取的信息與原指標(biāo)相差不多時為止。這就是主成分分析的思想。一般說來,在主成分分析適用的場合,用較少的主成分就可以得到較多的信息量。以各個主成分為分量,就得到一個更低維的隨機(jī)向量;因此,通過主成分既可以降低數(shù)據(jù)“維數(shù)”又保留了原數(shù)據(jù)的大部分信息。我們知道,當(dāng)一個變量只取一個數(shù)據(jù)時,這個變量(數(shù)據(jù))提供的信息量是非常有限的,當(dāng)這個變量取一系列不同數(shù)據(jù)時,我們可以從中讀出最大值、最小值、平均數(shù)等信息。變量的變異性越大,說明它對各種場景的“遍歷性”越強(qiáng),提供的信息就更加充分,信息量就越大。主成分分析中的信息,就是指標(biāo)的變異性,用標(biāo)準(zhǔn)差或方差表示它。主成分分析的數(shù)學(xué)模型是,設(shè)p個變量構(gòu)成的p維隨機(jī)向量為X = (X1,…,Xp)′。對X作正交變換,令Y = T′X,其中T為正交陣,要求Y的各分量是不相關(guān)的,并且Y的第一個分量的方差是最大的,第二個分量的方差次之,……,等等。為了保持信息不丟失,Y的各分量方差和與X的各分量方差和相等。第二節(jié) 主成分的幾何意義及數(shù)學(xué)推導(dǎo) 一、主成分的幾何意義主成分分析數(shù)學(xué)模型中的正交變換,在幾何上就是作一個坐標(biāo)旋轉(zhuǎn)。因此,主成分分析在二維空間中有明顯的幾何意義。假設(shè)共有n個樣品,每個樣品都測量了兩個指標(biāo)(X1,X2)。事實(shí)上,散點(diǎn)的分布總有可能沿著某一個方向略顯擴(kuò)張,這個方向就把它看作橢圓的長軸方向。顯然,在坐標(biāo)系x1Ox2中,單獨(dú)看這n個點(diǎn)的分量X1和X2,它們沿著x1方向和x2方向都具有較大的離散性,其離散的程度可以分別用的X1方差和X2的方差測定。如果僅考慮X1或X2中的任何一個分量,那么包含在另一分量中的信息將會損失,因此,直接舍棄某個分量不是“降維”的有效辦法。如果我們將該坐標(biāo)系按逆時針方向旋轉(zhuǎn)某個角度變成新坐標(biāo)系,這里是橢圓的長軸方向,是橢圓的短軸方向。旋轉(zhuǎn)公式為 ()我們看到新變量和是原變量和的線性組合,它的矩陣表示形式為: ()其中,為旋轉(zhuǎn)變換矩陣,它是正交矩陣,即有或。易見,n個點(diǎn)在新坐標(biāo)系下的坐標(biāo)Y1和Y2幾乎不相關(guān)。稱它們?yōu)樵甲兞縓1和X2的綜合變量,n個點(diǎn)y1在軸上的方差達(dá)到最大,即在此方向上包含了有關(guān)n個樣品的最大量信息。因此,欲將二維空間的點(diǎn)投影到某個一維方向上,則選擇y1軸方向能使信息的損失最小。我們稱Y1為第一主成分,稱Y2為第二主成分。第一主成分的效果與橢圓的形狀有很大的關(guān)系,橢圓越是扁平,n個點(diǎn)在y1軸上的方差就相對越大,在y2軸上的方差就相對越小,用第一主成分代替所有樣品所造成的信息損失也就越小。 考慮兩種極端的情形:一種橢圓的長軸與短軸的長度相等,即橢圓變成圓,第一主成分只含有二維空間點(diǎn)的約一半信息,若僅用這一個綜合變量,則將損失約50%的信息,這顯然是不可取的。造成它的原因是,原始變量X1和X2的相關(guān)程度幾乎為零,也就是說,它們所包含的信息幾乎不重迭,因此無法用一個一維的綜合變量來代替。另一種是橢圓扁平到了極限,變成y1軸上的一條線,第一主成分包含有二維空間點(diǎn)的全部信息,僅用這一個綜合變量代替原始數(shù)據(jù)不會有任何的信息損失,此時的主成分分析效果是非常理想的,其原因是,第二主成分不包含任何信息,舍棄它當(dāng)然沒有信息損失。二、主成分的數(shù)學(xué)推導(dǎo)設(shè)為一個維隨機(jī)向量,并假定存在二階矩,其均值向量與協(xié)差陣分別記為:, ()考慮如下的線性變換 ()用矩陣表示為 ,其中。我們希望尋找一組新的變量(),這組新的變量要求充分地反映原變量的信息,而且相互獨(dú)立。這里我們應(yīng)該注意到,對于有 這樣,我們所要解決的問題就轉(zhuǎn)化為,在新的變量相互獨(dú)立的條件下,求使得,,達(dá)到最大。我們下面將借助投影尋蹤(Projection Pursuit)的思想來解決這一問題。首先應(yīng)該注意到,使得達(dá)到最大的線性組合,顯然用常數(shù)乘以后,也隨之增大,為了消除這種不確定性,不妨假設(shè)滿足或者。那么,問題可以更加明確。第一主成分為,滿足,使得達(dá)到最大的。第二主成分為,滿足,且,使得達(dá)到最大的。一般情形,第主成分為,滿足,且(),使得達(dá)到最大的。求第一主成分,構(gòu)造目標(biāo)函數(shù)為: ()對目標(biāo)函數(shù)求導(dǎo)數(shù)(),即 () ()由于的協(xié)差陣為非負(fù)定的,其特征方程()的根均大于零,不妨設(shè)。由()知道的方差為。那么,的最大方差值為,其相應(yīng)的單位化特征向量為。在求第二主成分之前,我們首先明確,由()知 。那么,如果與相互獨(dú)立,即有或。這時,我們可以構(gòu)造求第二主成分的目標(biāo)函數(shù),即 ()對目標(biāo)函數(shù)求導(dǎo)數(shù)有: ()用左乘()式有 由于,那么,即有。從而 ()而且 ()這樣說明,如果的協(xié)
點(diǎn)擊復(fù)制文檔內(nèi)容
物理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1