【正文】
基于主成分分析的免費師范生生源多因素分析高玉梁(陜西師范大學計算機科學學院, 陜西 西安710062)摘 要:應用主成分分析原理,以少數的綜合變量取代原有的多維變量,使數據結構簡化,把原指標綜合成幾個主成分,再以這幾個主成分的貢獻率為權數進行加權平均,構造出一個綜合評價函數。本文以目前國家正在實施的免費師范生政策為背景,對陜西師范大學的免費師范生進行了系統(tǒng)性的問卷式抽樣調查,并對調查結果進行整理統(tǒng)計和主成分分析,從而提取出免費師范生生源變化的主要影響因素(即特征)。本文所應用的學科為模式識別,涉及到的理論方法是特征選擇與特征提取,同時深刻理解KL變換的定義、概念,以及在特征提取中的應用。關鍵詞:主成分分析 綜合評估 特征選擇 特征提取Based on Principal Component Analysis in the Various Source of Tuitionfree Normal College StudentGao Yuliang(College of Computer Science,Shaanxi Normal University,Xi′an 710062,Shaanxi, China)Abstract: The theory of principle ponent analysis can use less prehensive variables to instead of the multivariate variables, this method can simplify the structure of the data and aggregate the original index into several principal the contribution rate of this principal ponent as right, count weighted average and make up a prehensive assessment function. The paper take the present country policy of Tuitionfree Normal College Student as a background,then the students in the Shaanxi Normal University has been carried on a systematic questionnaire and it uses the theory to analysis the statistical results, thus extract the major effect factors(That is characteristic) to the changing source of tuitionfree Normal College Student. The related subjects is Pattern Recognition, in this process, the feature selection and extraction are also used. At the same time , according to the analysis, it needs to understand something as definitions, concepts of KarhunenLoeve Transform and its application in feature extraction. Key words: principle ponent analysis prehensive assessmentfeature selection feature extraction 4 課題的背景及提出的意義 4 4 4 研究現(xiàn)狀 4 主成分分析理論簡介 4 理論原理及基本思想 5 主成分分析理論在實驗研究的應用情況 5 6 6 6 6 7 KL變換 7 7 7 8 10 10 12 13 13 14 14 15 16 16 17 195 結論 21結束語 21附錄 【參考文獻】 21致 謝 22 課題的背景及提出的意義 2007年國家決定在六所教育部直屬的師范大學進行師范生免費教育,在這一政策實施三年以來,事實已經證明這六所大學(北京師范大學、華東師范大學、東北師范大學、華中師范大學、陜西師范大學、西南大學)的生源較之以前發(fā)生了明顯的變化,至于是什么原因引起了這個變化呢?不外乎是個人、家庭、社會等諸多方面的因素直接或間接導致的,在這些因素中,大多數人也肯定是由于同樣的某些理由使他們選擇了報讀上述院校,鑒于這個事實,本文就選用主成分分析方法去探討免費師范生生源多因素這一問題。免費師范生生源因素眾多,而基于主成分分析的免費師范生生源多因素分析的目的則在于在我們對這種分析方法的原理充分理解下,靈活地運用一種科學理論去解釋現(xiàn)實問題,培養(yǎng)理論聯(lián)系實際的能力。同時,在免費師范生生源問題日益得到社會各界重視的前提下,運用一種科學理論去分析這一熱門話題,一方面得出的結論具有較高的可信度,反之,另一方面如果結論和人們的直觀感覺相一致,也同時對主成分分析方法的科學性和合理性進行了驗證。 研究現(xiàn)狀 主成分分析理論簡介主成分分析是將多個變量通過線性變換以選出較少個數重要變量的一種多元統(tǒng)計分析方法,又稱主分量分析。在實際課題中,為了全面分析問題,往往提出很多與此有關的變量(或因素),因為每個變量都在不同程度上反映這個課題的某些信息。但是,在用統(tǒng)計分析方法研究這個多變量的問題時,變量個數太多自然就增加課題的復雜性。在很多情形,變量之間是有一定的相關關系的,可以解釋為這兩個變量反映此課題的信息有一定的重疊。主成分分析是對于原先提出的所有變量,建立盡可能少的新變量,使得這些新變量是兩兩不相關的,而且這些新變量在反映的信息方面盡可能保持原有的信息。它是模式識別學科中特征選擇所運用到的方法之一。 理論原理及基本思想 設法將原來眾多具有一定相關性變量重新組合成一組新的互相無關的幾個綜合變量,同時根據實際需要從中可以取出幾個較少的綜合變量盡可能多地反映原來變量的信息的統(tǒng)計方法,這即是主成分分析理論的原理之所在,它也是數學上處理降維的一種方法。 通常數學上的處理就是將原來P個指標作線性組合,作為新的綜合指標。最經典的做法就是用F1(選取的第一個線性組合,即第一個綜合指標)的方差來表達,即Var(F1)越大,表示F1包含的信息越多。因此在所有的線性組合中選取的F1應該是方差最大的,故稱F1為第一主成分。如果第一主成分不足以代表原來P個指標的信息,再考慮選取F2即選第二個線性組合,為了有效地反映原來信息,F(xiàn)1已有的信息就不需要再出現(xiàn)再F2中,用數學語言表達就是要求Cov(F1, F2)=0,則稱F2為第二主成分,依此類推可以構造出第三、第四,……,第m個主成分,這m個主成分包含原來P個指標的所有信息。 主成分分析理論在實驗研究的應用情況 “多元統(tǒng)計分析”是近幾十年來迅速發(fā)展起來的一門學科。隨著微機的普遍使用及統(tǒng)計軟件的推廣普及,回歸分析、判別分析、聚類分析因子分析、對應分析等等,各種多元統(tǒng)計方法已廣泛應用于自然科學各學科乃至社會科學各個領域。主成分分析是一種常用的多元統(tǒng)計分析方法,相對于其他統(tǒng)計學方法,它更強調用數據本身來指導分析過程,而不是依賴于事先給定的某些假設。 主成分分析在地震預測中的應用。根據主成分分析可以得到反應地震強度異常特征的綜合指標形,發(fā)現(xiàn)該指標在2次地震前出現(xiàn)明顯的異常變化,震后異?;謴停C合指標