【正文】
列聯(lián)表、 ?2檢驗(yàn)和對數(shù)線性模型 三維列聯(lián)表 (關(guān)于某項(xiàng)政策調(diào)查所得結(jié)果 :) op i ni o n * i nc o m e C r os s t a b ul a t i onC o u n t7 15 19 4145 25 12 8252 40 31 1 2 301o p i n i o nT o t a l1 2 3i n c o m eT o t a l 觀點(diǎn):贊成 (1) 觀點(diǎn) :不贊成 (0) 低收入 (1) 中等收 入 (2) 高收入 (3) 低收入 (1) 中等收 入 (2) 高收入 (3) 男1 20 10 5 5 8 10 女0 25 15 7 2 7 9 s e x * o p i n i o n C r o s s t a b u l a t i o nC o u n t18 47 6523 35 5841 82 1 2 301s e xT o t a l0 1o p i n i o nT o t a l列聯(lián)表 ? 前面就是一個(gè)所謂的三維 列聯(lián)表(contingency table). ? 這些變量中 每個(gè)都有兩個(gè)或更多的可能取值 。這些取值也稱為 水平 ;比如收入有三個(gè)水平,觀點(diǎn)有兩個(gè)水平,性別有兩個(gè)水平等。 該表為 3 2 2列聯(lián)表 ? 在 SPSS數(shù)據(jù)中,表就不和課本印的一樣,收入的“低”、“中”、“高”用代碼 3代表;性別的“女”、“男”用代碼 0、1代表;觀點(diǎn)“贊成”和“不贊成”用 0代表。有些計(jì)算機(jī)數(shù)據(jù)對于這些代碼的形式不限( 可以是數(shù)字,也可以是字符串 )。 數(shù)據(jù) 列聯(lián)表 ? 列聯(lián)表的中間各個(gè)變量不同水平的交匯處,就是這種水平組合出現(xiàn)的頻數(shù)或 計(jì)數(shù) ( count)。 ? 二維的列聯(lián)表又稱為 交叉表 ( cross table)。 ? 列聯(lián)表可以有很多維。維數(shù)多的叫做高維列聯(lián)表。 ? 注意前面這個(gè)列聯(lián)表的變量都是定性變量 。但列聯(lián)表也會帶有 定量變量作為協(xié)變量。 二維列聯(lián)表的檢驗(yàn) ?研究列聯(lián)表的一個(gè)主要目的是看這些變量是否相關(guān)。比如 前面例子中的 收入和觀點(diǎn) 是否相關(guān) 。 ?這需要形式上的檢驗(yàn) 二維列聯(lián)表的檢驗(yàn) ?下面表是把該例的三維表簡化成 只有收入和觀點(diǎn)的二維表 (這是 SPSS自動轉(zhuǎn)化的 :AnalyzeDescriptive StatisticsCrosstabs…..). O P I N I O N * I N C O M E C r o s s t a b u l a t i o nC o u n t7 15 19 4145 25 12 8252 40 31 1 2 301O P I N I O NT o t a l1 2 3I N C O M ET o t a l二維列聯(lián)表的檢驗(yàn) ? 對于上面那樣的二維表 。 我們檢驗(yàn)的零假設(shè)和備選假設(shè)為 ? H0:觀點(diǎn)和收入這兩個(gè)變量不相關(guān) 。H1:這兩個(gè)變量相關(guān)。 ? 這里的檢驗(yàn)統(tǒng)計(jì)量在零假設(shè)下有(大樣本時(shí))近似的 ?2分布。 ? 當(dāng)該統(tǒng)計(jì)量很大時(shí)或 p值很小時(shí),就可以拒絕零假設(shè),認(rèn)為兩個(gè)變量相關(guān)。 ? 實(shí)際上有不止一個(gè) ?2檢驗(yàn)統(tǒng)計(jì)量。包括Pearson ?2統(tǒng)計(jì)量 和 似然比 ( likelihood ratio)?2統(tǒng)計(jì)量 ;它們都有漸近的 ?2分布。 ? 根據(jù)計(jì)算可以得到(對于這兩個(gè)統(tǒng)計(jì)量均有)p值小于 。因此可以說,收入高低的確影響觀點(diǎn)。 ? ?21niii iOEQE??? ?12 l nniii iOTOE?? ?Pearson ?2統(tǒng)計(jì)量 似然比 ?2統(tǒng)計(jì)量 Oi代表第 i個(gè)格子的計(jì)數(shù), Ei代表按照零假設(shè)(行列無關(guān)) 對第 i格子的計(jì)數(shù)的期望值 二維列聯(lián)表的檢驗(yàn) ? 剛才說 , 這些 ?2統(tǒng)計(jì)量是近似的 , 那么 有沒有精確的統(tǒng)計(jì)量呢 ? ? 當(dāng)然有 。 這個(gè)檢驗(yàn)稱為 Fisher精確檢驗(yàn) ;它不是 ?2分布 , 而是 超幾何分布 。 ? 對本問題 ,計(jì)算 Fisher統(tǒng)計(jì)量得到的 p值也小于 。 ? 聰明的同學(xué)必然會問 , 既然有精確檢驗(yàn) 為什么 還要用近似的 ?2檢驗(yàn)?zāi)?? ? 這是因?yàn)楫?dāng)數(shù)目很大時(shí) , 超幾何分布計(jì)算相當(dāng)緩慢 ( 比近似計(jì)算會差很多倍的時(shí)間 ) ;而且在計(jì)算機(jī)速度不快時(shí) , 根本無法計(jì)算 。因此人們多用大樣本近似的 ?2統(tǒng)計(jì)量 。 而列聯(lián)表的有關(guān)檢驗(yàn)也和 ?2檢驗(yàn)聯(lián)系起來了 。 Fisher精確檢驗(yàn) C h i S q u a r e T e s t s1 0 . 2 8 8b1 . 0 0 1 . 0 0 2 . 0 0 19 . 1 0 7 1 . 0 0 31 0 . 4 9 6 1 . 0 0 1 . 0 0 2 . 0 0 1. 0 0 2 . 0 0 11 1 3P e a r s o n C h i S q u a r eC o n t i n u i t y C o r r e c t i o naL i k e l i h o o d R a t i oF i s h e r 39。 s E x a c t T e s tN o f V a l i d C a s e sV a l u e dfA s y m p . S i g .( 2 s i d e d )E x a c t S i g .( 2 s i d e d )E x a c t S i g .( 1 s i d e d )C o m p u t e d o n l y f o r a 2 x 2 t a b l ea . 0 c e l l s ( . 0 % ) h a v e e x p e c t e d c o u n t l e s s t h a n 5 . T h e m i n i m u m e x p e c t e d c o u n t i s2 3 . 4 5 .b . SPSS: WeightDescribcrosstabexact… [] 其中有變量性別 (sex)、觀點(diǎn) (opinion)和收入 (ine); 每一列相應(yīng)于其代表的變量的水平 。每一行為一種水平的組合 (共有 2 3 2= 12種組合 (12行 ), 而每種組合的數(shù)目 (也就是列聯(lián)表中的頻數(shù) )在number那一列上面,這就是每種組合的權(quán)重(weight),需要把這個(gè)數(shù)目考慮進(jìn)去 ,稱為加權(quán)(weight).如果不加權(quán),最后結(jié)果按照所有組合只出現(xiàn)一次來算 (也就是說,按照列聯(lián)表每一格的頻數(shù)為 1).由于在后面的選項(xiàng)中沒有加權(quán)的機(jī)會 ,因此在一開始就要加權(quán) .方法是點(diǎn)擊圖標(biāo)中的小天平(“權(quán) ”