【正文】
檢驗分布擬合的 2?1 提出的.分類數(shù)據(jù)的檢驗問題中首先是在出來的.這個檢驗方法年提于統(tǒng)計學家檢驗是著名的英國分布擬合的1 90 0K. P ea rs on2χ2 檢驗一、分類數(shù)據(jù)的 2?3 19 世紀,偉大的生物學家 M e nde l 按照顏色與形狀把豌豆分為四類: 黃而圓的,青而圓的,黃而有角的,青而有角的 . M e nde l 根據(jù)遺傳學的理論指出, 這四類的豌豆個數(shù)之比應(yīng)當為 9 ︰ 3 ︰ 3 ︰ 1 . 他在556?n粒豌豆中,觀察到這四類豌豆的個數(shù)分別為: 315 , 108 ,101 , 32 .在實際觀察中,由于有隨機性,觀察數(shù)一般不會恰好呈現(xiàn) 9 ︰ 3 ︰ 3 ︰ 1 的比例,因此就需要根據(jù)這些觀察數(shù)據(jù),對 M e nde l的理論進行統(tǒng)計檢驗. 4 2?檢驗正是為了這種需要而產(chǎn)生的.除此之外, M e nde l 的其它許多數(shù)據(jù)都曾用2?檢驗法檢驗過.可見 P e a r s on 的2?檢驗對確立他的遺傳學說起了一定的作用.而 M e nde l的實踐向統(tǒng)計學家提出了一個很有意義的問題,也促進了統(tǒng)計學的發(fā)展. 5 上述這種分類數(shù)據(jù)的檢驗問題的一般提法如下:根據(jù)某項指標,總體被分成r類: rAAA , 21 ?. 對此,我們最關(guān)心的是其比例問題,即屬于各類的個體數(shù)在總體中所占的比例的大?。ǔN覀兛蓮睦碚撋稀⒔?jīng)驗上提出一個如下假設(shè): 0H:類iA所占的比例為ip, ? ?ri ,2,1 ??. 由于分類是完全的,所以11???riip. 6 我們進行觀察,從該總體中隨機抽取n個個體.假設(shè)其中屬于類iA的觀察個數(shù)為in,? ?ri ,2,1 ??.顯然,nnrii??? 1. 在0H成立時,n個個體中屬于iA類的 “ 期望個數(shù) ” 應(yīng)當為ipn ?,? ?ri ,2,1 ??.在統(tǒng)計學中,ipn ?稱為理論頻數(shù);in稱為實際頻數(shù).在假設(shè)0H為真時,實際頻數(shù)in應(yīng)接近于理論頻數(shù)ipn ?. 7 P e ar son 提出用 ? ???????ri iiipnpnn122? 作為衡量實際頻數(shù)與理論頻數(shù)的偏差的綜合指標.在假設(shè)0H為真時,2?的值傾向于較??;否則,就傾向于取較大的值.因此檢驗的拒絕域應(yīng)當為 ? ?? ?cxxxW n ?? 2211 :, ??. 8 P e ar s on 證明了下面的極限定理,根據(jù)這個2?定理,我們可以由給定的顯著性水平 ? ,近似地確定出臨界值 c . 定理 在假設(shè)0H成立時,有 ? ?122 ?? rL??. 9 注: ⑴ 分類數(shù)據(jù)的檢驗問題的顯著性水平近似等于?的檢驗的拒絕域為 ? ? ? ?? ?1:, 212211 ??? ? rxxxW n ????. ⑵ 在實際使用這個2?檢驗法時,樣本量n必須充分地大,并且在每個類中的實際頻數(shù)都不應(yīng)小于5. 10 例 在 M e n d e l 的豌豆試驗問題中,豌豆被分成了四類.按照 M e n d e l 的理論,這四類豌豆個數(shù)之比為 9 ︰ 3 ︰ 3 ︰ 1 . 這相當于說,任取一顆豌豆,它屬于這四類的概率分別為161,163,163,169.如果 M e n d e l 的理論是正確的,則在被觀察的556?n顆豌豆中,屬于這四類的“理論頻數(shù)”分別為 161556,163556,163556,169556 ????????. 取??,所以? ? ? ? 2 ???? ?? ? r,因此檢驗的拒絕域為 ? ?? ?:, 2211 ?? ?nxxxW ?. 11 而我們所觀察到的實際頻數(shù)分別為32,1 0 1,1 0 8,3 1 5,由此算得2?統(tǒng)計量的值為 ? ? ? ?? ? ? ?22222??????????. 由于? ? ? ? 2 ????? ?? ? r,所以不拒絕0H,可以認為 M e n d e l 的理論是正確的. 12 為方便計算,可列出如下的表格: 表 1 M e nde l 豌豆試驗的2?檢驗計算表 i in ipn ? ? ?iiipnpnn???2 1 3 1 5 1 2 2 1 0 8 0 4 3 1 0 1 0 4 1 0 1 4 32 ? ?? 13 檢驗χ的二、帶參數(shù)的分類數(shù)據(jù) 214 在上述所討論的分類數(shù)據(jù)的檢驗問題中,當原假設(shè)0H成立時,各類的比例(也就是所有的ip)都是完全已知的.但是在許多應(yīng)用問題中,它們有可能只是部分已知的,其中還包含著有限個未知的實參數(shù).看下面的例子: