【正文】
信息量準(zhǔn)則在品種區(qū)域試驗(yàn)的應(yīng)用信息量準(zhǔn)則AIC在玉米品種區(qū)域試驗(yàn)分析的應(yīng)用孫京波指導(dǎo)教師 胡希遠(yuǎn)摘 要:作物區(qū)域試驗(yàn)對育種和農(nóng)業(yè)生產(chǎn)具有非常重要的意義。關(guān)于作物區(qū)域試驗(yàn)數(shù)據(jù)分析的模型和方法在文獻(xiàn)中多種多樣,對于實(shí)際試驗(yàn)分析者,究竟選用什么樣的模型和方法分析作物區(qū)域試驗(yàn)才合理是目前必須解決的一個重要現(xiàn)實(shí)問題。本文通過SAS這一國際標(biāo)準(zhǔn)的分析軟件,基于混合線性模型擬合的信息量準(zhǔn)則(AIC)對玉米區(qū)域試驗(yàn)數(shù)據(jù)資料進(jìn)行了有關(guān)模型的構(gòu)建、篩選和處理,對各種模型在玉米品種區(qū)域試驗(yàn)數(shù)據(jù)擬合效果和穩(wěn)定性分析結(jié)果進(jìn)行了比較。結(jié)果發(fā)現(xiàn)不存在廣泛最適的玉米品種穩(wěn)定性分析模型,對不同的區(qū)域試驗(yàn)數(shù)據(jù)應(yīng)利用AIC準(zhǔn)則選用最佳的模型進(jìn)行穩(wěn)定性分析。關(guān)鍵詞:區(qū)域試驗(yàn),玉米,方差分析,混合模型,信息量準(zhǔn)則APPLICATION OF INFORMATION CRITERIA IN THE VARIETY REGIONAL TESTABSTRACTRegional trial production plays an important role in Agriculture, but data analysis methods of the experiment are varied with a bit confusing. In this paper , through SAS the analysis of the international standard software ,we will analyze the experimental data of corn for the model constructing ,slecting and treating. Meantime , the mixed model analysis is applied under the information criterion (AIC). The results showed thatthere is nooptimalmodel forstability analysisof maize varieties, but testsof differentvarietiesof regionalstability analysis havethe best model. Keywords: Regional Trial,cornvariance, mixed model, Information cretion目 錄第一章 緒論 4 研究背景 4 模型選擇方法及其研究現(xiàn)狀 4 擬研究的內(nèi)容 5 信息量準(zhǔn)則在品種穩(wěn)定性分析模型選擇應(yīng)用研究 5 本研究的創(chuàng)新點(diǎn) 6第二章 模型和模型選擇準(zhǔn)則 6 模型的概念 6 模型選擇的兩類標(biāo)準(zhǔn) 6 6 6 模型選擇的方法 7 AIC準(zhǔn)則 7 Cp統(tǒng)計量 7 基于 F 檢驗(yàn)的逐步回歸法 7 向前法 8 向后法 8 逐步法 8 準(zhǔn)則 8 校正準(zhǔn)則 8 準(zhǔn)則法和逐步回歸法的優(yōu)缺點(diǎn) 9第三章 信息量準(zhǔn)則在區(qū)域試驗(yàn)穩(wěn)定性分析模型選擇應(yīng)用研究 9 線性混合模型和模型選擇應(yīng)用于區(qū)試的必要性 10 區(qū)域試驗(yàn)品種穩(wěn)定性分析的發(fā)展 11 11 12 FinlayWilkinson回歸模型 12 12 AMMI1模型 13 13 穩(wěn)定性模型分析的程序 14 14 數(shù)據(jù)資料 14 材料和方法 14 試驗(yàn)數(shù)據(jù)初步分析 16 16 18第四章結(jié)論 32參考文獻(xiàn) 33致 謝 34附件1:SAS 程序以2004年01組為例 35第一章 緒論區(qū)域試驗(yàn)布點(diǎn)多、范圍廣,能在較多樣的生態(tài)環(huán)境和接近大田生產(chǎn)的條件下進(jìn)行試驗(yàn),有助于迅速明確新品種的推廣價值和適應(yīng)范圍。而與之配套的方差分析卻是工農(nóng)業(yè)生產(chǎn)和科學(xué)研究中對試驗(yàn)數(shù)據(jù)進(jìn)行分析的一種重要的數(shù)理統(tǒng)計方法,其應(yīng)用極其廣泛。但是,可供應(yīng)用統(tǒng)計方法和分析軟件等因素的限制,傳統(tǒng)上通常是依據(jù)一定試驗(yàn)設(shè)計中試驗(yàn)因子、環(huán)境因子及其之間互作等可能效應(yīng)的多少來確定ANOVA模型,極少考慮針對特定試驗(yàn)數(shù)據(jù)的最佳ANOVA模型選擇。因此ANOVA模型未必就一定能最佳體現(xiàn)所有試驗(yàn)數(shù)據(jù)的信息;即使偶爾有考慮ANOVA模型的選擇問題,多是采用傳統(tǒng)的具有一定局限性的F檢驗(yàn)結(jié)果進(jìn)行因子選擇[1]。傳統(tǒng)方差分析法分析結(jié)果的準(zhǔn)確性及其研究結(jié)論的可靠性會受到不同程度地限制。由于多環(huán)境下品種與環(huán)境互作效應(yīng)形成機(jī)理的復(fù)雜性,關(guān)于區(qū)域試驗(yàn)數(shù)據(jù)的分析目前還沒形成一個普遍認(rèn)可的最佳模型或方法。但是,Akaike于1973年從信息論的角度出發(fā)提出了AIC準(zhǔn)則,赤池弘次建議,當(dāng)要從一組可供選擇的模型中選出一個最佳模型時,選擇AIC為最小的模型是可取的。在理論結(jié)構(gòu)上看,AIC采用了最小限度的定義,具體化地采用了“吝嗇原理”。由此看來,數(shù)據(jù)的擬合既好而又盡可能節(jié)省參數(shù)數(shù)目的模型才是最佳的。SAS中的proc mixed 程序具有廣泛的實(shí)用性。胡希遠(yuǎn)已經(jīng)對多誤差試驗(yàn)分析的特點(diǎn)以及利用proc glm分析的局限性予以探討,闡述分析利用PROC MIXED分析試驗(yàn)數(shù)據(jù)的原理方法和優(yōu)點(diǎn)[1]。建立模型包括模型選擇和參數(shù)估計兩個方面。參數(shù)估計已經(jīng)發(fā)展到相當(dāng)完滿的程度,但是所有參數(shù)估計方法都是以給定模型為前提的,并沒有考慮到模型本身不確定的問題。模型選擇的過程和方法通常包括以下幾個步驟[35]:首先,根據(jù)所研究問題的特點(diǎn)和專業(yè)知識,以及樣本數(shù)據(jù)提供的明顯信息,提出若干可能的候選模型;其次,通過模型對樣本數(shù)據(jù)的擬合從中選出一個或幾個模型。為了充分利用樣本數(shù)據(jù)包含的信息,要求模型對數(shù)據(jù)擬合要好,但是擬合度越好,模型一般越復(fù)雜。復(fù)雜的模型不僅 計算量大而且不利于運(yùn)用模型解決實(shí)際問題。在進(jìn)行模型選擇時,以下三個方面的問題必須考慮:擬合度,復(fù)雜度和泛化能力。如果樣本中所有可以用的信息不足以使模型選擇的唯一性[15],那么模型選擇就是個不適定問題。為了進(jìn)行模型選擇,人們提出多種準(zhǔn)則,如包括向前法,向后法和逐步回歸選擇法(以F 測驗(yàn)為基礎(chǔ)的);復(fù)相關(guān)系數(shù)法(R2);均方誤差法(MSE)、修整的復(fù)相關(guān)系數(shù)準(zhǔn)則(Rc2);預(yù)報平方和準(zhǔn)則(交叉驗(yàn)證準(zhǔn)則)和Mallow’s Cp準(zhǔn)則等。模型選擇的方法很多,最簡單的就是比較所有備選模型的 。將最大的模型作為最優(yōu)模型,但這種方法的弊端是它往往不考慮變量的模型構(gòu)造的貢獻(xiàn)而導(dǎo)致的模型多余的復(fù)雜度,而通常隨著變量數(shù)目的增加而上升,因此將導(dǎo)致過度擬合的出現(xiàn)。其中F測驗(yàn)在農(nóng)業(yè)科學(xué)領(lǐng)域最為常用。該準(zhǔn)則的缺點(diǎn)是取不同的顯著水平和選擇方法所得到的模型選擇的結(jié)果不同,形成最佳模型的非客觀性,它最終只能提供一個“最佳”模型,不能將候選模型按照優(yōu)劣排序,此外,由于多次測量和變量相關(guān)性的問題, 最終得到的模型也不一定是最佳模型[6]。馬婁斯從預(yù)測的觀點(diǎn)基于殘差平方和準(zhǔn)則提出與AIC準(zhǔn)則相似的Cp統(tǒng)計量準(zhǔn)則。Cp準(zhǔn)則是現(xiàn)今在回歸模型中用得最普遍的模型選擇準(zhǔn)則。Cp準(zhǔn)則有一個優(yōu)點(diǎn)就是它不要假定分布類型是已知,然而在計算 Cp統(tǒng)計量時,怎樣來估計未知參數(shù)誤差方差沒有十分令人滿意的方法,而且誤差方差的不同估計值還會影響變量選擇的結(jié)果。所有這些模型除了各自的不足之外,共同的局限是:不能用于具有方差協(xié)方差結(jié)構(gòu)等較復(fù)雜模型的選擇[6,7]。上世紀(jì)70年代,赤池弘次將Kullback—leiber信息量和極大似然理論相結(jié)合,并利用似然估計漸進(jìn)性質(zhì),推導(dǎo)了最佳模型選擇的信息量準(zhǔn)則[8],稱作AIC(Akaike Information Criterion ) 。該準(zhǔn)則具有嚴(yán)密的理論依據(jù),使用簡單,適用范圍廣,受到學(xué)者們的廣泛關(guān)注。信息量準(zhǔn)則除用于模型均值結(jié)構(gòu)選擇外,人們還將其用于模型最佳方差協(xié)方差結(jié)構(gòu)的選擇[7,911]。胡希遠(yuǎn)[27]進(jìn)行的一些研究顯示,在田間變異較小或者樣本容量較小的條件下,從嚴(yán)格理論上講,空間協(xié)方差為真模型,但實(shí)際上,區(qū)組設(shè)計方差分析模型所得固定效應(yīng)估計及其差異顯著性測定驗(yàn)結(jié)果和空間協(xié)方差模型的結(jié)果幾乎無異。這時,如果運(yùn)用AIC進(jìn)行最佳模型選擇,它將較多的選擇區(qū)組設(shè)計方差分析模型,但這無妨有關(guān)效應(yīng)估計和測驗(yàn)結(jié)果的有效性。目前關(guān)于模型選擇的研究多是關(guān)于回歸模型問題的研究,包括線性多元回歸和曲線回歸的研究,而關(guān)于試驗(yàn)分析,特別是農(nóng)業(yè)試驗(yàn)分析模型選擇問題的研究目前仍鮮有研究報道。分析16組玉米品種多點(diǎn)試驗(yàn)數(shù)據(jù),通過SAS中PROC MIXED程序并應(yīng)用信息量準(zhǔn)則(AIC)評估以下五種品種穩(wěn)定性模型:穩(wěn)定性方差模型、FinlayWilkinson回歸模型、EberhartRussell回歸模型、穩(wěn)定性模型、AMMI1模型、環(huán)境方差模型。最后分析不同品種的穩(wěn)定應(yīng)。 本文創(chuàng)新點(diǎn)應(yīng)用模型選擇信息量準(zhǔn)則(AIC)對玉米田間試驗(yàn)品種穩(wěn)定性模型(或稱線性混合模型)進(jìn)行比較、篩選,證明信息量準(zhǔn)則對田間試驗(yàn)?zāi)P瓦x擇是必要的。第二章 模型和模型選擇準(zhǔn)則模型是對現(xiàn)實(shí)世界的一個特定對象,為了特定的目的,根據(jù)特有的內(nèi)在規(guī)律,做出一些必要的簡要假設(shè),運(yùn)用適當(dāng)?shù)臄?shù)學(xué)工具,得到的一個數(shù)學(xué)結(jié)構(gòu)。一個好的模型,除了能夠最大限度地發(fā)掘提取先驗(yàn)和測量數(shù)據(jù)中的信息,還應(yīng)該有較為簡單的形式。一個好的模型,當(dāng)然要很好的符合觀察數(shù)據(jù)。很明顯,模型設(shè)置的參數(shù)變量個數(shù)越多它對樣本數(shù)據(jù)的擬合程度就越好。但是,參數(shù)多了在理論上處理就很麻煩。模型是科學(xué)研究的基礎(chǔ),參數(shù)模型是一種重要的模型類。對參數(shù)模型而言,模型選擇和參數(shù)求解是數(shù)據(jù)處理中非常關(guān)鍵的問題,而參數(shù)模型的選擇及評價包括模型類的選擇和已知模型的階數(shù)確定[29]。好的模型設(shè)定大體有三種含義:包含變量不多,不少,函數(shù)形式正確。 有效準(zhǔn)則 當(dāng)真模型不屬于一組候選模型的時候,一種衡量準(zhǔn)則所表現(xiàn)的尺度就是測量被選擇模型和真模型之間的距離。在一組候選模型中總是存在一個和真模型最近的模型。定義被選擇模型和真模型之間的距離與最近模型與真模型之間的距離的比值被稱為觀測效率。真模型是無限維的模型,或者候選模型集合中不包含真模型是在回歸和時間序列中經(jīng)常出現(xiàn)的假設(shè)。前面提過模型選擇的目標(biāo)是從一組有限維的候選模型中選出真模型的最好的近似。與真模型的距離最近的候選模型則是一個合適的選擇。所要求的“最近”,需要有個定義好的距離或者信息測度來衡量,比如AIC準(zhǔn)則中用到的KullbackLeibler距離。 相合準(zhǔn)則很多研究人員假設(shè)真模型是有限維的,而且真模型是被包含在候選模型集合當(dāng)中的。在這樣的假設(shè)下,模型選擇的目的就是正確的從候選模型中選出真模型。如果一個模型選擇準(zhǔn)則漸進(jìn)的以概率1選出真模型,則該準(zhǔn)則被稱為相合的。在這里,研究人員假設(shè)所有的變量都是可以測量的,并且假設(shè)可以列出的所有重要變量即足以滿足所要了解的考察對象的性質(zhì)。對于統(tǒng)計學(xué)家來說,這是一個很強(qiáng)的假設(shè),但是在物理學(xué)領(lǐng)域當(dāng)中他們的確是成立的。 模型選擇方法 AIC準(zhǔn)則AIC = 2 lnL + 2q ..................................................................................................lnL為模型擬合極大似然值的自然對數(shù)值;q為模型中待估計方差協(xié)方差參數(shù)的數(shù)目。這是一個在統(tǒng)計分析特別是在統(tǒng)計模型的選擇中有著廣泛應(yīng)用的準(zhǔn)則。其顯著特點(diǎn)之一就是“吝嗇原理 (Principle of parsimony)”的具體化。對一組數(shù)據(jù),模型的擬和優(yōu)度是同程度時,采用參數(shù)數(shù)目最少的模型為最優(yōu)模型。AIC最小化模型法表明,由盡可能少的參數(shù)來表現(xiàn)模型是重要的。AIC在數(shù)學(xué)上并不復(fù)雜,但實(shí)踐表明這一準(zhǔn)則能夠處理復(fù)雜的模型問題。但是AIC有一定的缺點(diǎn),由AIC來進(jìn)行判斷的模型其分布類型必須是已知的。1973年,日本學(xué)者赤池Akaike(Akaike,1973)基于Fisher的極大對數(shù)似然準(zhǔn)則提出Akaike信息準(zhǔn)則(AIC),成為了70年代出現(xiàn)的信息理論方法的里程碑。AIC是通過真模型與擬合模型之間的Kullback—leiber距離在大樣本條件下導(dǎo)出來的,其復(fù)雜度只是考慮了參數(shù)個數(shù)。宋喜芳等[12]證明AIC信息量準(zhǔn)則方差分析模型選擇應(yīng)用形式的數(shù)學(xué)推導(dǎo)。 Cp統(tǒng)計量由 Mallows 提出的 Cp 統(tǒng)計量近年來受到廣泛重視[1318] ,Cp 統(tǒng)計量準(zhǔn)則主要用于多元線性回歸分析時回歸自變量的篩選。Cp統(tǒng)計量與AIC準(zhǔn)則是相似的,事實(shí)上可以證明Cp與AIC漸進(jìn)相等。在樣本數(shù)較少的情況下,Cp準(zhǔn)則可以節(jié)省參數(shù)。Cp準(zhǔn)則還有一個優(yōu)點(diǎn)就是它不需要假定分布類型是己知的。然而在計算Cp統(tǒng)計量時,怎樣來估計未知參數(shù)誤差方差仍沒有十分令人滿意的方法,而且誤差方差的不同估計值還會影響變量選擇的結(jié)果,這可以說是Cp準(zhǔn)則的一個缺點(diǎn)?!?.其中N為樣本觀察數(shù),P為模型的參數(shù)個數(shù),為p 個變量的殘差平方和,為協(xié)方差估計[19]。 基于 F 檢驗(yàn)的逐步回歸法 向前法在建立最優(yōu)回歸模型的逐步回歸法當(dāng)中,向前法是從回歸方程僅含常數(shù)項開始,把自變量逐個引入回歸方程。第一步,把與因變量Y有最大簡單相關(guān)系數(shù)的變量作回歸系數(shù)的顯著性檢驗(yàn),若它顯著的異于零,則把該自變量選入方程。而后在與余下的自變量中,考慮在消除了已選入變量的影響之后,對與Y由最大相關(guān)系數(shù)的變量,作回歸系數(shù)顯著性檢驗(yàn),己決定是否選入。這樣做下去,一直到在排除已選入變量Y的