【正文】
主成分分析。他曾利用美國 1929一 1938年各年的數(shù)據(jù),得到了 17個反映國民收入與支出的變量要素,例如雇主補貼、消費資料和生產(chǎn)資料、純公共支出、凈增庫存、股息、利息外貿(mào)平衡等等。如果第一主成分還不能反映原指標的全部信息,再考慮選取第二主成分 y2, y2在剩余的線性組合中方差最大,并且與 y1不相關,如若第一、第二主成分仍然不能反映原變量的全部信息,再考慮選取第三主成分 y3, y3在剩余的線性組合中方差最大,并且與 y y2不相關,依次可求出全部 p個主成分,它們的方差是依次遞減的。多數(shù)情況下提取出前 2~3個主成分已包含了90%以上的信息,其他的可以忽略不計。這些綜合指標就稱為主成分。 基本思想 ? 在社會經(jīng)濟的研究中,為了全面系統(tǒng)的分析和研究問題,必須考慮許多經(jīng)濟指標,這些指標能從不同的側面反映我們所研究對象的特征,但在某種程度上存在信息的重疊,具有一定的相關性。當?shù)谝粋€線性組合不能提取更多的信息時,再考慮用第二個線性組合繼續(xù)這個快速提取的過程, …… ,直到所提取的信息與原指標相差不多時為止。人們自然希望通過克服相關性、重疊性,用較少的變量來代替原來較多的變量,而這種代替可以反映原來多個變量的大部分信息,這實際上是一種“降維”的思想。第六章 主成分分析 第一節(jié) 引言 第二節(jié) 主成分的幾何意義及數(shù)學 推導 第三節(jié) 主成分的性質 第四節(jié) 主成分方法應用中應注意 的問題 第五節(jié) 實例分析與計算機實現(xiàn) 第一節(jié) 引言 ? 多元統(tǒng)計分析處理的是多變量(多指標)問題。 ? 主成分分析也稱主分量分析,是由 Hotelling于 1933年首先提出的。這就是主成分分析的思想。 ? 主成分分析是把各變量之間互相關聯(lián)的復雜關系進行 簡化 分析的方法。 ? 將原來眾多具有一定相關性的指標重新組合成一組新的相互無關的綜合指標來代替原來指標。 ? 二維空間: 其中 y y2分別都是 x x2的線性組合,并且信息盡可能地集中在 y1上。 ? 在實際工作中,在不損失較多信息的情況下, 通常選取前幾個主成分來進行分析,達到簡化數(shù)據(jù)結構的目的。 ? 在進行主成分分析后,竟以 %的精度,用三新變量就取代了原 17個變量。當分析中所選擇的經(jīng)濟變量具有不同的量綱,變量水平差異很大,應該選擇基于相關系數(shù)矩陣的主成分分析。 ? 如何解釋主成分所包含的經(jīng)濟意義。 ? 主成分分析的數(shù)學模型是,設 p個變量構成的 p維隨機向量為X = ( X1, … , Xp) ′。 ??????????????npnnppxxxxxxxxx. . . . . .. . . . . .. . . . . . .. . . . . .. . . . . .. . . . . . .. . . . . .212222111211 1 1 1 1 1 2 2 12 2 1 1 2 2 2 21 1 2 2................................ppppp p p p p pF u x u x u xF u x u x u xF u x u x u x? ? ? ?? ? ? ?? ? ? ?這種由討論多個指標降為少數(shù)幾個綜合指標的過程在數(shù)學上就叫做降維。事實上,散點的分布總有可能沿著某一個方向略顯擴張,這個方向就把它看作橢圓的長軸方向。旋轉公式為 1 1 22 1 2c o s s i ns i n c o sY X XY X X????????? ? ?? ( 6 . 1 ) 我們看到新變量1Y和2Y是原變量1X和2X的線性組合,它的 矩陣表示形 式為: 1122c os sinsin c osYXYX????? ? ? ????????? ? ? ????? ? ? ?TX ( 6 . 2 ) 其中, ?T 為旋轉變換矩陣,它是正交矩陣,即有 1?? ?TT 或 ? ?T T I 。我們稱 Y1為第一主成分,稱 Y2 為第二主成分。 ? 另一種是橢圓扁平到了極限,變成 y1軸上的一條線,第一主成分包含有二維空間點的全部信息,僅用這一個綜合變量代替原始數(shù)據(jù)不會有任何的信息損失,此時的主成分分析效果是非常理想的,其原因是,第二主成分不包含任何信息,舍棄它當然沒有信息損失。 ? ? 我們下面將借助投影尋蹤( P r oj e c t i on P u r s u i t )的思想來解決這一問題。 第二主成分為,滿足22 1TT? ?,且2 1 2 1( , ) ( , ) 0Cov Y Y Cov T T???? XX,使得2 2 2()D Y T T?? Σ達到最大的22YT?? X。那么,1Y的最大方差值為1?,其相應的單位化特征向量為1T。從而 2( ) 0T???Σ I ( 6 . 1 1 ) 而且 22TT ?? ?Σ ( 6 . 1 2 ) (二)第二主成分 在約束條件 下,尋找第二主成分 12c o v ( , ) 0FF ?2 1 2 1 2ppF u X u X? ? ?因為 1 2 1 2 2 1 1 2 1c o v ( , ) c o v ( , ) 0F F u x u x u u u u?? ? ? ?? ? ? ? ?012 ??uu所以 則 , 對 p維向量 , 有 2u?? ?? ??????? pi iipi iiiuuFV 1 221 22222 )()( uuuuuu ?????? pi i222 )( uu 2??? ??? pi ii1 22 uuuu 2? 22 uUUu ??? 2? 222u? ? ??所以如果取線性變換: 則 的方差次大 。這樣我們構造目標函數(shù)為 11( , , ) ( 1 ) 2 ( )kk k i k k k k i i kiT T T T T T T? ? ? ? ???? ? ?? ? ? ? ?Σ ( 6 . 13) 對目標函數(shù)( , , )k k iT? ? ?求導數(shù)有: 112 2 2 0kkk k i iikT T TT??????? ? ? ???Σ ( 6 . 14) ? ? 用iT?左乘 ( 6 . 14) 式有 11( ) 0ki k i k i i iiT T T T T T????? ? ?? ? ??Σ 即有0i i iTT? ? ?,那么,0i? ?(1 , 2 , 1ik??)。那么,由此所確定的主成分為11YT?? X,22YT?? X, ,mmYT?? X,其方差分別為Σ的特征根。 證明:事實上 ( , ) ( , )( , )( ) ( )k i k ikik i k iiCov Y X Cov T eYXD Y D X??????XX 其中的( 0 , , 0 , 1 , 0 , , 0 )ie ?,它是除第i個元素為 1 外其他元素均為 0 的單位向量。 二、主成分的方差貢獻率 ? 由主成分的性質 2 可以看出,主成分分析把p個原始變量12, , , pX X X的總方差()tr Σ分解成了p個相互獨立的變量12, , , pY Y Y的方差之和1pkk???。若只取()mp ?個主成分,則稱 11pmm k kkk? ? ???? ?? ( ) 為主成分1 , mYY的累計貢獻率,累計貢獻率表明1 , mYY綜合12, , , pX X X的能力。不同的變量往往有不同的單位,對同一變量單位的改變會產(chǎn)生不同的主成分,主成分傾向于多歸納方差大的變量的信息,對于方差小的變量就可能體現(xiàn)得不夠,也存在“大數(shù)吃小數(shù)”的問題。實際表明,這種差異有時很大。一般情況下,選擇評價指標體系后通過對各指標加權的辦法來進行綜合。這個方法是根據(jù)指標間的相對重要性進行客觀加權,可以避免綜合評價者的主觀影響,在實際應用中越來越受到人們的重視。 ? 設12, , , pY Y Y是所求出的p個主成分, 它們的特征根分別是12, , , p? ? ?,將特征根“歸一化”即有 ???miiiiw1?? 1 , 2 , ,ip? 記為12( , , )pW w w w ??,由??Y T X,構造綜合 評價函數(shù)為 1 1 2 2 ()ppZ w Y w Y w Y W W W? ? ? ?? ? ? ? ? ? ?