【正文】
的從候選模型中選出真模型。所要求的“最近”,需要有個(gè)定義好的距離或者信息測(cè)度來衡量,比如AIC準(zhǔn)則中用到的KullbackLeibler距離。前面提過模型選擇的目標(biāo)是從一組有限維的候選模型中選出真模型的最好的近似。定義被選擇模型和真模型之間的距離與最近模型與真模型之間的距離的比值被稱為觀測(cè)效率。 有效準(zhǔn)則 當(dāng)真模型不屬于一組候選模型的時(shí)候,一種衡量準(zhǔn)則所表現(xiàn)的尺度就是測(cè)量被選擇模型和真模型之間的距離。對(duì)參數(shù)模型而言,模型選擇和參數(shù)求解是數(shù)據(jù)處理中非常關(guān)鍵的問題,而參數(shù)模型的選擇及評(píng)價(jià)包括模型類的選擇和已知模型的階數(shù)確定[29]。但是,參數(shù)多了在理論上處理就很麻煩。一個(gè)好的模型,當(dāng)然要很好的符合觀察數(shù)據(jù)。第二章 模型和模型選擇準(zhǔn)則模型是對(duì)現(xiàn)實(shí)世界的一個(gè)特定對(duì)象,為了特定的目的,根據(jù)特有的內(nèi)在規(guī)律,做出一些必要的簡(jiǎn)要假設(shè),運(yùn)用適當(dāng)?shù)臄?shù)學(xué)工具,得到的一個(gè)數(shù)學(xué)結(jié)構(gòu)。最后分析不同品種的穩(wěn)定應(yīng)。目前關(guān)于模型選擇的研究多是關(guān)于回歸模型問題的研究,包括線性多元回歸和曲線回歸的研究,而關(guān)于試驗(yàn)分析,特別是農(nóng)業(yè)試驗(yàn)分析模型選擇問題的研究目前仍鮮有研究報(bào)道。胡希遠(yuǎn)[27]進(jìn)行的一些研究顯示,在田間變異較小或者樣本容量較小的條件下,從嚴(yán)格理論上講,空間協(xié)方差為真模型,但實(shí)際上,區(qū)組設(shè)計(jì)方差分析模型所得固定效應(yīng)估計(jì)及其差異顯著性測(cè)定驗(yàn)結(jié)果和空間協(xié)方差模型的結(jié)果幾乎無異。該準(zhǔn)則具有嚴(yán)密的理論依據(jù),使用簡(jiǎn)單,適用范圍廣,受到學(xué)者們的廣泛關(guān)注。所有這些模型除了各自的不足之外,共同的局限是:不能用于具有方差協(xié)方差結(jié)構(gòu)等較復(fù)雜模型的選擇[6,7]。Cp準(zhǔn)則是現(xiàn)今在回歸模型中用得最普遍的模型選擇準(zhǔn)則。該準(zhǔn)則的缺點(diǎn)是取不同的顯著水平和選擇方法所得到的模型選擇的結(jié)果不同,形成最佳模型的非客觀性,它最終只能提供一個(gè)“最佳”模型,不能將候選模型按照優(yōu)劣排序,此外,由于多次測(cè)量和變量相關(guān)性的問題, 最終得到的模型也不一定是最佳模型[6]。將最大的模型作為最優(yōu)模型,但這種方法的弊端是它往往不考慮變量的模型構(gòu)造的貢獻(xiàn)而導(dǎo)致的模型多余的復(fù)雜度,而通常隨著變量數(shù)目的增加而上升,因此將導(dǎo)致過度擬合的出現(xiàn)。為了進(jìn)行模型選擇,人們提出多種準(zhǔn)則,如包括向前法,向后法和逐步回歸選擇法(以F 測(cè)驗(yàn)為基礎(chǔ)的);復(fù)相關(guān)系數(shù)法(R2);均方誤差法(MSE)、修整的復(fù)相關(guān)系數(shù)準(zhǔn)則(Rc2);預(yù)報(bào)平方和準(zhǔn)則(交叉驗(yàn)證準(zhǔn)則)和Mallow’s Cp準(zhǔn)則等。在進(jìn)行模型選擇時(shí),以下三個(gè)方面的問題必須考慮:擬合度,復(fù)雜度和泛化能力。為了充分利用樣本數(shù)據(jù)包含的信息,要求模型對(duì)數(shù)據(jù)擬合要好,但是擬合度越好,模型一般越復(fù)雜。參數(shù)估計(jì)已經(jīng)發(fā)展到相當(dāng)完滿的程度,但是所有參數(shù)估計(jì)方法都是以給定模型為前提的,并沒有考慮到模型本身不確定的問題。胡希遠(yuǎn)已經(jīng)對(duì)多誤差試驗(yàn)分析的特點(diǎn)以及利用proc glm分析的局限性予以探討,闡述分析利用PROC MIXED分析試驗(yàn)數(shù)據(jù)的原理方法和優(yōu)點(diǎn)[1]。由此看來,數(shù)據(jù)的擬合既好而又盡可能節(jié)省參數(shù)數(shù)目的模型才是最佳的。但是,Akaike于1973年從信息論的角度出發(fā)提出了AIC準(zhǔn)則,赤池弘次建議,當(dāng)要從一組可供選擇的模型中選出一個(gè)最佳模型時(shí),選擇AIC為最小的模型是可取的。傳統(tǒng)方差分析法分析結(jié)果的準(zhǔn)確性及其研究結(jié)論的可靠性會(huì)受到不同程度地限制。但是,可供應(yīng)用統(tǒng)計(jì)方法和分析軟件等因素的限制,傳統(tǒng)上通常是依據(jù)一定試驗(yàn)設(shè)計(jì)中試驗(yàn)因子、環(huán)境因子及其之間互作等可能效應(yīng)的多少來確定ANOVA模型,極少考慮針對(duì)特定試驗(yàn)數(shù)據(jù)的最佳ANOVA模型選擇。the best model. Keywords: Regional Trial,cornvariance, mixed model, Information cretion目 錄第一章 緒論 4 研究背景 4 模型選擇方法及其研究現(xiàn)狀 4 擬研究的內(nèi)容 5 信息量準(zhǔn)則在品種穩(wěn)定性分析模型選擇應(yīng)用研究 5 本研究的創(chuàng)新點(diǎn) 6第二章 模型和模型選擇準(zhǔn)則 6 模型的概念 6 模型選擇的兩類標(biāo)準(zhǔn) 6 6 6 模型選擇的方法 7 AIC準(zhǔn)則 7 Cp統(tǒng)計(jì)量 7 基于 F 檢驗(yàn)的逐步回歸法 7 向前法 8 向后法 8 逐步法 8 準(zhǔn)則 8 校正準(zhǔn)則 8 準(zhǔn)則法和逐步回歸法的優(yōu)缺點(diǎn) 9第三章 信息量準(zhǔn)則在區(qū)域試驗(yàn)穩(wěn)定性分析模型選擇應(yīng)用研究 9 線性混合模型和模型選擇應(yīng)用于區(qū)試的必要性 10 區(qū)域試驗(yàn)品種穩(wěn)定性分析的發(fā)展 11 11 12 FinlayWilkinson回歸模型 12 12 AMMI1模型 13 13 穩(wěn)定性模型分析的程序 14 14 數(shù)據(jù)資料 14 材料和方法 14 試驗(yàn)數(shù)據(jù)初步分析 16 16 18第四章結(jié)論 32參考文獻(xiàn) 33致 謝 34附件1:SAS 程序以2004年01組為例 35第一章 緒論區(qū)域試驗(yàn)布點(diǎn)多、范圍廣,能在較多樣的生態(tài)環(huán)境和接近大田生產(chǎn)的條件下進(jìn)行試驗(yàn),有助于迅速明確新品種的推廣價(jià)值和適應(yīng)范圍。of regionalof differentstability analysisoptimal關(guān)鍵詞:區(qū)域試驗(yàn),玉米,方差分析,混合模型,信息量準(zhǔn)則APPLICATION OF INFORMATION CRITERIA IN THE VARIETY REGIONAL TESTABSTRACTRegional trial production plays an important role in Agriculture, but data analysis methods of the experiment are varied with a bit confusing. In this paper , through SAS the analysis of the international standard software ,we will analyze the experimental data of corn for the model constructing ,slecting and treating. Meantime , the mixed model analysis is applied under the information criterion (AIC). The results showed that本文通過SAS這一國際標(biāo)準(zhǔn)的分析軟件,基于混合線性模型擬合的信息量準(zhǔn)則(AIC)對(duì)玉米區(qū)域試驗(yàn)數(shù)據(jù)資料進(jìn)行了有關(guān)模型的構(gòu)建、篩選和處理,對(duì)各種模型在玉米品種區(qū)域試驗(yàn)數(shù)據(jù)擬合效果和穩(wěn)定性分析結(jié)果進(jìn)行了比較。信息量準(zhǔn)則在品種區(qū)域試驗(yàn)的應(yīng)用信息量準(zhǔn)則AIC在玉米品種區(qū)域試驗(yàn)分析的應(yīng)用孫京波指導(dǎo)教師 胡希遠(yuǎn)摘 要:作物區(qū)域試驗(yàn)對(duì)育種和農(nóng)業(yè)生產(chǎn)具有非常重要的意義。關(guān)于作物區(qū)域試驗(yàn)數(shù)據(jù)分析的模型和方法在文獻(xiàn)中多種多樣,對(duì)于實(shí)際試驗(yàn)分析者,究竟選用什么樣的模型和方法分析作物區(qū)域試驗(yàn)才合理是目前必須解決的一個(gè)重要現(xiàn)實(shí)問題。結(jié)果發(fā)現(xiàn)不存在廣泛最適的玉米品種穩(wěn)定性分析模型,對(duì)不同的區(qū)域試驗(yàn)數(shù)據(jù)應(yīng)利用AIC準(zhǔn)則選用最佳的模型進(jìn)行穩(wěn)定性分析。there is nomodel forof maize varieties, but testsvarietiesstability analysis have而與之配套的方差分析卻是工農(nóng)業(yè)生產(chǎn)和科學(xué)研究中對(duì)試驗(yàn)數(shù)據(jù)進(jìn)行分析的一種重要的數(shù)理統(tǒng)計(jì)方法,其應(yīng)用極其廣泛。因此ANOVA模型未必就一定能最佳體現(xiàn)所有試驗(yàn)數(shù)據(jù)的信息;即使偶爾有考慮ANOVA模型的選擇問題,多是采用傳統(tǒng)的具有一定局限性的F檢驗(yàn)結(jié)果進(jìn)行因子選擇[1]。由于多環(huán)境下品種與環(huán)境互作效應(yīng)形成機(jī)理的復(fù)雜性,關(guān)于區(qū)域試驗(yàn)數(shù)據(jù)的分析目前還沒形成一個(gè)普遍認(rèn)可的最佳模型或方法。在理論結(jié)構(gòu)上看,AIC采用了最小限度的定義,具體化地采用了“吝嗇原理”。SAS中的proc mixed 程序具有廣泛的實(shí)用性。建立模型包括模型選擇和參數(shù)估計(jì)兩個(gè)方面。模型選擇的過程和方法通常包括以下幾個(gè)步驟[35]:首先,根據(jù)所研究問題的特點(diǎn)和專業(yè)知識(shí),以及樣本數(shù)據(jù)提供的明顯信息,提出若干可能的候選模型;其次,通過模型對(duì)樣本數(shù)據(jù)的擬合從中選出一個(gè)或幾個(gè)模型。復(fù)雜的模型不僅 計(jì)算量大而且不利于運(yùn)用模型解決實(shí)際問題。如果樣本中所有可以用的信息不足以使模型選擇的唯一性[15],那么模型選擇就是個(gè)不適定問題。模型選擇的方法很多,最簡(jiǎn)單的就是比較所有備選模型的 。其中F測(cè)驗(yàn)在農(nóng)業(yè)科學(xué)領(lǐng)域最為常用。馬婁斯從預(yù)測(cè)的觀點(diǎn)基于殘差平方和準(zhǔn)則提出與AIC準(zhǔn)則相似的Cp統(tǒng)計(jì)量準(zhǔn)則。Cp準(zhǔn)則有一個(gè)優(yōu)點(diǎn)就是它不要假定分布類型是已知,然而在計(jì)算 Cp統(tǒng)計(jì)量時(shí),怎樣來估計(jì)未知參數(shù)誤差方差沒有十分令人滿意的方法,而且誤差方差的不同估計(jì)值還會(huì)影響變量選擇的結(jié)果。上世紀(jì)70年代,赤池弘次將Kullback—leiber信息量和極大似然理論相結(jié)合,并利用似然估計(jì)漸進(jìn)性質(zhì),推導(dǎo)了最佳模型選擇的信息量準(zhǔn)則[8],稱作AIC(Akaike Information Criterion ) 。信息量準(zhǔn)則除用于模型均值結(jié)構(gòu)選擇外,人們還將其用于模型最佳方差協(xié)方差結(jié)構(gòu)的選擇[7,911]。這時(shí),如果運(yùn)用AIC進(jìn)行最佳模型選擇,它將較多的選擇區(qū)組設(shè)計(jì)方差分析模型,但這無妨有關(guān)效應(yīng)估計(jì)和測(cè)驗(yàn)結(jié)果的有效性。分析16組玉米品種多點(diǎn)試驗(yàn)數(shù)據(jù),通過SAS中PROC MIXED程序并應(yīng)用信息量準(zhǔn)則(AIC)評(píng)估以下五種品種穩(wěn)定性模型:穩(wěn)定性方差模型、FinlayWilkinson回歸模型、EberhartRussell回歸模型、穩(wěn)定性模型、AMMI1模型、環(huán)境方差模型。 本文創(chuàng)新點(diǎn)應(yīng)用模型選擇信息量準(zhǔn)則(AIC)對(duì)玉米田間試驗(yàn)品種穩(wěn)定性模型(或稱線性混合模型)進(jìn)行比較、篩選,證明信息量準(zhǔn)則對(duì)田間試驗(yàn)?zāi)P瓦x擇是必要的。一個(gè)好的模型,除了能夠最大限度地發(fā)掘提取先驗(yàn)和測(cè)量數(shù)據(jù)中的信息,還應(yīng)該有較為簡(jiǎn)單的形式。很明顯,模型設(shè)置的參數(shù)變量個(gè)數(shù)越多它對(duì)樣本數(shù)據(jù)的擬合程度就越好。模型是科學(xué)研究的基礎(chǔ),參數(shù)模型是一種重要的模型類。好的模型設(shè)定大體有三種含義:包含變量不多,不少,函數(shù)形式正確。在一組候選模型中總是存在一個(gè)和真模型最近的模型。真模型是無限維的模型,或者候選模型集合中不包含真模型是在回歸和時(shí)間序列中經(jīng)常出現(xiàn)的假設(shè)。與真模型的距離最近的候選模型則是一個(gè)合適的選擇。 相合準(zhǔn)則很多研究人員假設(shè)真模型是有限維的,而且真模型是被包含在候選模型集合當(dāng)中的。如果一個(gè)模型選擇準(zhǔn)則漸進(jìn)的以概率1選出真模型,則該準(zhǔn)則被稱為相合的。對(duì)于統(tǒng)計(jì)學(xué)家來說,這是一個(gè)很強(qiáng)的假設(shè),但是在物理學(xué)領(lǐng)域當(dāng)中他們的確是成立的。這是一個(gè)在統(tǒng)計(jì)分析特別是在統(tǒng)計(jì)模型的選擇中有著廣泛應(yīng)用的準(zhǔn)則。對(duì)一組數(shù)據(jù),模型的擬和優(yōu)度是同程度時(shí),采用參數(shù)數(shù)目最少的模型為最優(yōu)模型。AIC在數(shù)學(xué)上并不復(fù)雜,但實(shí)踐表明這一準(zhǔn)則能夠處理復(fù)雜的模型問題。1973年,日本學(xué)者赤池Akaike(Akaike,1973)基于Fisher的極大對(duì)數(shù)似然準(zhǔn)則提出Akaike信息準(zhǔn)則(AIC),成為了70年代出現(xiàn)的信息理論方法的里程碑。宋喜芳等[12]證明AIC信息量準(zhǔn)則方差分析模型選擇應(yīng)用形式的數(shù)學(xué)推導(dǎo)。Cp統(tǒng)計(jì)量與AIC準(zhǔn)則是相似的,事實(shí)上可以證明Cp與AIC漸進(jìn)相等。Cp準(zhǔn)則還有一個(gè)優(yōu)點(diǎn)就是它不需要假定分布類型是己知的?!?.其中N為樣本觀察數(shù),P為模型的參數(shù)個(gè)數(shù),為p 個(gè)變量的殘差平方和,為協(xié)方差估計(jì)[19]。第一步,把與因變量Y有最大簡(jiǎn)單相關(guān)系數(shù)的變量作回歸系數(shù)的顯著性檢驗(yàn),若它顯著的異于零,則把該自變量選入方程。這樣做下去,一直到在排除已選入變量Y的影響之后,為選入變量對(duì)Y的回歸系數(shù)的檢驗(yàn)都不顯著為止。這樣最后得到的“最優(yōu)”回歸方程可能會(huì)包含一些對(duì)Y影響不大的自變量。它是將全部變量選入回歸模型,即從全模型開始,然后逐個(gè)剔除對(duì)殘差平方和貢獻(xiàn)較小的變量。不然,如果有若干個(gè)F值不顯著,則剔除具有最小F值的變量。重復(fù)這個(gè)過程,直到剩下的自變量都不能剔除為止。前面己經(jīng)指出向前法有一個(gè)缺點(diǎn),就是后續(xù)變量的引入會(huì)使得一些己在回歸方程中的自變量變得不重要。也就是在每一步,經(jīng)F檢驗(yàn)選擇進(jìn)入方程的變量,而后又作F檢驗(yàn),看是否需要剔除某些自變量。 準(zhǔn)則對(duì)一個(gè)回歸模型的擬合優(yōu)度的度量指標(biāo)之一是 ,其定義為:…………………………………………………….......………..其中 ESS 是解釋平方和,RSS是殘差平方和,TSS是總平方和。不足之處:首先,它是度量的樣本數(shù)據(jù)內(nèi)擬合優(yōu)度,即度量了給定樣本中所估計(jì)的值與實(shí)際值有接近程度,并不能保證對(duì)樣本外也能很好地預(yù)測(cè)。 校正準(zhǔn)則作為對(duì)增加自變量個(gè)數(shù)來提高值的一種懲罰,為此亨利記為…………………………………….………..相比較而言,校正的準(zhǔn)則是一個(gè)比原來的更加優(yōu)良些的指標(biāo)。若顯著水平選得太大則最后得到的方程含較多的自變量;相反,若顯著水平選得太小,最后得到的方程所含的自變量則偏少。直觀上供選擇的自變量越多找出的最大值(或最小值) 也就越大 (或越小),也就是出現(xiàn)參數(shù)估計(jì)不準(zhǔn)確的問題。在一個(gè)大樣本中,如果一個(gè)模型選擇準(zhǔn)則具有最小的均方誤差,那么它就是漸近有效的。因此,模型擬合優(yōu)劣的比較既要考慮模型擬合效果,又要考慮模型參數(shù)數(shù)目的影響作用。信息量準(zhǔn)則AIC雖然可以用于最佳模型的選擇,但是它是一種描述性統(tǒng)計(jì)數(shù),具有不能進(jìn)行統(tǒng)計(jì)顯著性測(cè)驗(yàn)的特點(diǎn)。作物品種區(qū)域試驗(yàn)是作物品種選育中不可缺少的一個(gè)環(huán)節(jié),從