【正文】
實際上,主成分解釋總方差的百分比也可以由 Communalities表中計算得出,即 ( ++++) /5=%。 輸出結果 51( 3) C o m p o n e n t M a t r i xa.846 . 1 9 4 . 0 1 4.940 .104 .029.917 .264 . 0 7 7.068 . 0 5 2 .996 . 1 7 8 .965 .069E d u c a t i o n a l L e v e l( y e a r s )C u r r e n t S a l a r yB e g i n n i n g S a l a r yM o n t h s s i n c e H i r eP r e v i o u s E x p e r i e n c e( m o n t h s )1 2 3C o m p o n e n tE x t r a c t i o n M e t h o d : P r i n c i p a l C o m p o n e n t A n a l y s i s .3 c o m p o n e n t s e x t r a c t e d .a. 2022/3/13 中國人民大學六西格瑪質量管理研究中心 74 目錄 上頁 下頁 返回 結束 167。此時,數(shù)據集 Employee 中,依次選中變量 educ、 salary、 salbegin、 jobtime、prevexp并點向右的箭頭按鈕,這五個變量便進入 variables窗口(此時若選中 variables窗口中的變量,則窗口左側的箭頭按鈕即轉向左側,點此按鈕即可剔除所選中變量)。 2022/3/13 中國人民大學六西格瑪質量管理研究中心 71 目錄 上頁 下頁 返回 結束 167。下面我們用主成分分析方法處理該數(shù)據,以期用少數(shù)變量來描述該地區(qū)居民的雇傭情況。 主成分分析的邏輯框圖 2022/3/13 中國人民大學六西格瑪質量管理研究中心 68 目錄 上頁 下頁 返回 結束 167。因此,在進行主成分分析得出協(xié)方差陣或是相關陣發(fā)現(xiàn)最小特征根接近于零時,應該注意對主成分的解釋,或者考慮對最初納入分析的指標進行篩選,由此可以看出,雖然主成分分析不能有效地剔除重疊信息,但它至少可以發(fā)現(xiàn)原始變量是否存在著重疊信息,這對我們減少分析中的失誤是有幫助的。 2022/3/13 中國人民大學六西格瑪質量管理研究中心 66 目錄 上頁 下頁 返回 結束 167。這一點是尤其應該引起注意的,這意味著主成分分析對重疊信息的剔除是無能為力的,同時主成分分析還損失了一部分信息。 的行列式的值為零但仍滿足非負定,只不過其最小的特征值為 0,由 出發(fā)求解主成分,其方差總和不再是 而是變?yōu)? ,也就是說,第一個指標在分析過程中起到了加倍的作用,其重疊信息完全象其他指標提供的信息一樣在起作用。 為說明這個問題,我們有必要再回顧一下主成分的求解過程,我們僅就從協(xié)方差矩陣出發(fā)求主成分的過程予以說明,對相關陣有類似的情況。一般認為當原始數(shù)據大部分變量的相關系數(shù)都小于 ,運用主成分分析不會取得很好的效果。同時,由主成分分析的幾何意義可以看到,對來自多元正態(tài)總體的數(shù)據,我們得到了合理的幾何解釋,即主成分就是按數(shù)據離散程度最大的方向進行坐標軸旋轉。 主成分分析不要求數(shù)據來自于正態(tài)總體 由上面的討論可知,無論是從原始變量協(xié)方差矩陣出發(fā)求解主成分,還是從相關矩陣出發(fā)求解主成分,均沒有涉及到總體分布的問題。 2022/3/13 中國人民大學六西格瑪質量管理研究中心 60 目錄 上頁 下頁 返回 結束 167。 關于由協(xié)方差矩陣或相關矩陣出發(fā)求解主成分 但是,對原始數(shù)據進行標準化處理后傾向于各個指標的作用在主成分的構成中相等。 關于由協(xié)方差矩陣或相關矩陣出發(fā)求解主成分 此時所得主成分的表達式為: )(9 9 90 2 )(0 4 40 6 )(0 4 40 6 )(9 9 90 2 2211222111XXXXYXXXXY????????其中,第一主成分保留了原始變量 %的信息,第一主成分 與原始變量的因子負荷量分別為: 9 9 9 9 5 5 8 9 5 0/5 6 0 0 2 ),( 1111111 ???????? XY3 3 0 4 ),( 2211221 ?????????? XY由此可知,第一主成分保留原始變量的信息與主成分與原始變量的關系式均與上兩種情況有很大差別,那么,究竟哪種方法得到的結果更為可信呢,在實際研究中我們應該作何選擇呢? 2022/3/13 中國人民大學六西格瑪質量管理研究中心 58 目錄 上頁 下頁 返回 結束 167。 關于由協(xié)方差矩陣或相關矩陣出發(fā)求解主成分 由此可以看出,由協(xié)方差陣出發(fā)求解主成分所得的結果及由相關陣出發(fā)求解主成分所得的結果有很大不同,所得主成分解釋原始變量方差比例與主成分表達式均有顯著差別,且兩者之間不存在簡單的線性關系。 關于由協(xié)方差矩陣或相關矩陣出發(fā)求解主成分 由相關矩陣求解主成分的結果見表 53: 表 53 對應兩特征值的標準正交特征向量為: 表 54 2022/3/13 中國人民大學六西格瑪質量管理研究中心 54 目錄 上頁 下頁 返回 結束 167。 關于由協(xié)方差矩陣或相關矩陣出發(fā)求解主成分 表 51 對應兩特征值的標準正交特征向量為: 表 52 2022/3/13 中國人民大學六西格瑪質量管理研究中心 52 目錄 上頁 下頁 返回 結束 167。下面我們舉例說明這個問題,為了敘述方便,我們以二維數(shù)據為例。 主成分分析與重疊信息 2022/3/13 中國人民大學六西格瑪質量管理研究中心 49 目錄 上頁 下頁 返回 結束 167。 2211 ppYYY ??? ?pRR2022/3/13 中國人民大學六西格瑪質量管理研究中心 48 目錄 上頁 下頁 返回 結束 167。 這樣 , 我們在利用樣本數(shù)據求解主成分的過程實際上就轉化為求相關陣或協(xié)方差陣的特征值和特征向量的過程 。γ( )( ji?2022/3/13 中國人民大學六西格瑪質量管理研究中心 46 目錄 上頁 下頁 返回 結束 167。c o v (),c o v ( jijiji YY R γγXγXγ ??????????pji1γ)39。v a r ()v a r ( Xγ即對于 有最大方差, 有次大方差, …… ,并且,協(xié)方差為 : 1Y 2Y39。 樣本主成分的導出 把上式全部展開得到 個方程,這里只考慮在矩陣乘積中由第一列得出的 個方程: 2pp???????????????????11112211111212122211211111112121111 ???ppppppppppuurururuurururuururur??????整理得到: ??????????????????????0)( 0)(0)(111221111212122112111121211111pppppppppururururururururur?????????2022/3/13 中國人民大學六西格瑪質量管理研究中心 45 目錄 上頁 下頁 返回 結束 167。39。 根據總體主成分的定義,主成分 的協(xié)方差是: S Σ RX XS RRY,Λ39。設有 個樣品,每個樣品有 個指標,這樣共得到 個數(shù)據,原始資料矩陣如下: Σ Rnp np???????????????npnnppxxxxxxxxx??????212222111211X 2022/3/13 中國人民大學六西格瑪質量管理研究中心 42 目錄 上頁 下頁 返回 結束 167。雖然主成分的性質在這里有更簡單的形式,但應注意其實質與前面的結論并沒有區(qū)別;需要注意的一點是判斷主成分的成因或是原始變量(這里原始變量指的是標準化以后的隨機向量 )對主成分的重要性有更簡單的方法,因為由上面第 4條知這里因子負荷量僅依賴于由 到 的轉換向量系數(shù) (因為對不同的 ,因子負荷量表達式的后半部分 是固定的)。 總體主成分 (四)由相關陣求主成分時主成分性質的簡單形式 由相關陣出發(fā)所求得主成分依然具有上面所述的各種性質,不同的是在形式上要簡單,這是由相關陣 的特性決定的。 總體主成分 經過上述標準化后,顯然有 0Z ?)(E? ? ? ??? 12/112/1 )()()c o v ( Z Rpppp??????????????????????11121212112?????? 由于上面的變換過程,原始變量 的相關陣實際上就是對原始變量標準化后的協(xié)方差矩陣,因此,由相關矩陣求主成分的過程與主成分個數(shù)的確定準則實際上是與由協(xié)方差矩陣出發(fā)求主成分的過程與主成分個數(shù)的確定準則是相一致的,在此不再贅述。 總體主成分 定義 與前 個主成分 的全相關系數(shù)平方和稱為 對原始變量 的方差貢獻率 ,即 iX m mYYY , 21 ?mYYY , 21 ? iviX???mkkikiii uv121 ?? pi ,2,1 ?? ( ) 這一定義說明了前 個主成分提取了原始變量 中 的信息,由此我們可以判斷我們提取的主成分說明原始的能力。 ), ik XY(? kiu iXi kkY iXkiu2022/3/13 中國人民大學六西格瑪質量管理研究中心 35 目錄 上頁 下頁 返回 結束 167。? ??? kikkikki u?? ueue 39。kkY ?又 2022/3/13 中國人民大學六西格瑪質量管理研究中心 34 目錄 上頁 下頁 返回 結束 167。 k kY iX ), ik XY(? iikkiik uXY ??? /), ?( pik ,2,1, ?? 性質 3 ( ) 證明: kkY ??)v a r( iiiX ??)v a r ( 令: 為單位向量。 總體主成分 定義 第 個主成分 與原始變量 的相關系數(shù) 稱做因子負荷量。這種方法確定的主成分個數(shù)與按累積貢獻率確定的主成分個數(shù)往往是一致的。另外,選取主成分還可根據特征值的變化來確定。 總體主成分 正因如此,才把 稱為 的主成分。這個值越大,表明 這個新變量綜合 信息的能力越強,也即由 的差異來解釋隨機向量 的差異的能力越強。PP2022/3/13 中國人民大學六西格瑪質量管理研究中心 30 目錄 上頁 下頁 返回 結束 167。 這一性質可由上述結論容易得到,證明略。( ) 注:無論 的各特征根是否存在相等的情況,對應的標準化特征向量 總是存在的,我們總可以找到對應各特征根的彼此正交的特征向量。uX39。 , u pYY p2022/3/13 中國人民大學六西格瑪質量管理研究中心 28 目錄 上頁 下頁 返回 結束 167。39。),c o v (1ijipkjkkikjiji YY ??? γγγγγγ2022/3/13 中國人民大學六西格瑪質量管理研究中心 27 目錄 上頁 下頁 返回 結束 167。m a x111111,...,2,1?????????????? kkkkkkkiYγγ γγuu uu0γu39。