【正文】
適當(dāng)?shù)臉颖窘y(tǒng)計(jì)量作為參數(shù)的估計(jì)量,并計(jì)算出估計(jì)值。 對于所選統(tǒng)計(jì)量是否適于作參數(shù)估計(jì)量,有無偏性、一致性和有效性三個(gè)評選標(biāo)準(zhǔn)。 無偏性 是指雖然估計(jì)量的值不全等于參數(shù),但應(yīng)在真實(shí)值附近擺動。 一致性 是指樣本容量越大,估計(jì)值離真實(shí)值的差異應(yīng)當(dāng)越小。 有效性 是指如果兩個(gè)統(tǒng)計(jì)量都符合上述要求,則應(yīng)當(dāng)選取誤差更小的一個(gè)作為估計(jì)值。 在許多種情況下,樣本統(tǒng)計(jì)量本身往往就是相應(yīng)的總體參數(shù)的最佳估計(jì),此時(shí)就可以直接取相應(yīng)的樣本統(tǒng)計(jì)量作為總體參數(shù)的點(diǎn)估計(jì)。 一、矩法 ? 二、極大似然估計(jì)法 ? 該方法的原理是在已知總體的分布,但未知其參數(shù)值時(shí),在待估參數(shù)的可能取值范圍內(nèi)進(jìn)行搜索,使似然函數(shù)值最大的那個(gè)數(shù)值為極大似然估計(jì)值。 ? 三、穩(wěn)健估計(jì)值 ? 穩(wěn)健估計(jì)值的是該統(tǒng)計(jì)量具有穩(wěn)健性,當(dāng)數(shù)據(jù)存在異常值時(shí)受影響較小,而且對大部分的分布而言都很好。 M E s t i m a t o r s1 7 4 . 6 6 1 7 4 . 7 4 1 7 4 . 7 0 1 7 4 . 7 51 6 2 . 8 0 1 6 2 . 8 1 1 6 2 . 8 2 1 6 2 . 8 1性別男女身高H u b e r 39。sM E s t i m a t o raT u k e y 39。sB i w e i g h tbH a m p e l 39。 sM E s t i m a t o rcA n d r e w s 39。W a v edT h e w e i g h t i n g c o n s t a n t i s 1 . 3 3 9 .a . T h e w e i g h t i n g c o n s t a n t i s 4 . 6 8 5 .b . T h e w e i g h t i n g c o n s t a n t s a r e 1 . 7 0 0 , 3 . 4 0 0 , a n d 8 . 5 0 0c . T h e w e i g h t i n g c o n s t a n t i s 1 . 3 4 0 * p i .d . 文件估計(jì)有 M估計(jì)、 R估計(jì)等不同方法。 SPSS中數(shù)出的 M估計(jì)量有 4種 , 它們分別是 Huber、 Andrews、 Hampel和 Tukey所提出的 , 實(shí)際上就是所用的函數(shù)不同 。 一般而言 , Huber適用于數(shù)據(jù)接近正態(tài)分布的情況 , 另外三種則適用于數(shù)據(jù)中許多異常值的情況 。 如果 M估計(jì)量里平均數(shù)和中位數(shù)較遠(yuǎn) , 則數(shù)據(jù)中可能存在異常值 。此時(shí) , 應(yīng)該用 M估計(jì)量替代平均數(shù)以反映集中趨勢 。 參數(shù)的區(qū)間估計(jì) 一、標(biāo)準(zhǔn)誤 標(biāo)準(zhǔn)誤就是用來描述參數(shù)估計(jì)值可能離真實(shí)值究竟有多遠(yuǎn)的統(tǒng)計(jì)量。 二、區(qū)間估計(jì)的計(jì)算 結(jié)合樣本統(tǒng)計(jì)量和標(biāo)準(zhǔn)誤可以確定一個(gè)具有較大的可信度包含總體參數(shù)的區(qū)間,該區(qū)間稱為總體參數(shù)的 1a可信區(qū)間或置信區(qū)間( Confidence Interval)。 對于任意可信度的區(qū)間情況,總體均值在 100( 1a) %可信區(qū)間為: nSuXnSuX 2/2/ ?? ? ????的正態(tài)分布。、方差為值為的抽樣分布近似服從均樣本通常要求充分大時(shí)的隨機(jī)樣本,當(dāng)為的總體中,抽取容量、方差為從均值這一定理可以表述為:中心極限定理。的。這就是統(tǒng)計(jì)學(xué)上著名總體方差的,方差為均值分布的數(shù)學(xué)期望為總體于正態(tài)分布,其均值的抽樣分布都將趨樣本從正態(tài)分布不論原來的總體是否服通常要求的增大隨著樣本容量nnnnnnn/X),30(/1,),30(22???????第 5章 分類變量的統(tǒng)計(jì)描述與參數(shù)估計(jì) ? ? ? 一、頻數(shù)分布情況描述 ? 各個(gè)類別的樣本數(shù)和所占比例分別稱為頻數(shù)(絕對頻數(shù))和百分比(構(gòu)成比)。 ? 累計(jì)頻數(shù)是指本類別及較低類別出現(xiàn)的次數(shù)之和,累計(jì)百分比則是指本類別及較低類別出現(xiàn)的次數(shù)之和占總次數(shù)的百分比。 ?根據(jù)類別的有序性,分類變量可以分為有序分類變量( Ordinal Variable)和無序分類變量( Nominal Variable)。 當(dāng)集中趨勢顯著時(shí),用眾數(shù)( Mode)作為總體的代表值。 二、集中趨勢的描述 所謂眾數(shù),使之出現(xiàn)次數(shù)最多的那個(gè)數(shù)。如果只有一個(gè)眾數(shù)稱為單眾數(shù),多于一個(gè)的稱為復(fù)眾數(shù)。 ( 1)比( Ratio):比指的是兩個(gè)有關(guān)指標(biāo)之比 A/B,用于反映兩個(gè)指標(biāo)在數(shù)量 /頻數(shù)上的大小關(guān)系。 三、使用相對數(shù)進(jìn)行深入描述 ( 2)構(gòu)成比( Proportion) 總樣本數(shù)某一組成部分的樣本數(shù)構(gòu)成比 ?象數(shù)該時(shí)期開始時(shí)的觀察對對象數(shù)觀察期內(nèi)發(fā)生某事件的某事件的發(fā)生率 ?率是一個(gè)時(shí)間概念,或者說具有速度、強(qiáng)度含義的指標(biāo),用于說明某個(gè)時(shí)間發(fā)生的頻率或強(qiáng)度。 分觀察對象為 K部分( A A …… Ak),其中某一個(gè) /多個(gè)部分的例數(shù)占總例的比例未構(gòu)成比,它描述某個(gè)事物內(nèi)部各構(gòu)成部分所占的比重。 ( 3)率( Rate) 分類變量的聯(lián)合描述 ? 當(dāng)一共有兩個(gè)分類變量時(shí),這匯總因分類變量的各類別交叉而成的復(fù)合頻數(shù)表被稱為行 *列表,也稱列聯(lián)表。 當(dāng)觀察的現(xiàn)象與兩個(gè)因素有關(guān)時(shí) , 如某種服裝的銷量受價(jià)格和居民收入影響;某種產(chǎn)品的生產(chǎn)成本受原材料價(jià)格和產(chǎn)量的影響等等 , 交叉列聯(lián)表分析可以比較好的反映出兩個(gè)因素之間有無關(guān)聯(lián)性 , 兩因素與現(xiàn)象之間的相關(guān)關(guān)系 。 因此 , 數(shù)據(jù)交叉列聯(lián)表分析主要包括兩個(gè)基本任務(wù): 根據(jù)收集的樣本數(shù)據(jù),產(chǎn)生二維或多維交叉列聯(lián)表; 在交叉列聯(lián)表的基礎(chǔ)上,對兩兩變量間是否存在關(guān)聯(lián)性進(jìn)行檢驗(yàn)。 B 1 B 2 ? B c 合計(jì)A 1 n 11 n 12 ? n 1c n 1.A 2 n 21 n 22 ? n 2c n 2.? ? ? ? ? ?A r n r1 n r2 ? n rc n r.合計(jì) n .1 n .2 ? n .c n???? ????jjiiiijjjiji nnnnnnn .... ,個(gè)。類的有于類又有屬個(gè)個(gè)體中既有屬于。,,類:有,屬性,,類:有進(jìn)行分類。屬性和個(gè)個(gè)體根據(jù)兩個(gè)屬性列聯(lián)表為例。假設(shè)有以二維的ijjic21r21nBAnBBBcBAAArABAncr??? ? Frequencies過程輸出頻數(shù)表 ? 具體操作 : ? Analysis Descriptive Statistics Frequencies S t a t i s t i c s219 2190 0V a l i dM i s s i n gN性別 血型性別72 3 2 . 9 3 2 . 9 3 2 . 9147 6 7 . 1 6 7 . 1 1 0 0 . 0219 1 0 0 . 0 1 0 0 . 0男女To t a lV a l i dFr e q u e n c y P e r c e n t V a l i d P e r c e n tC u m u l a t i v eP e r c e n t血型67 3 0 . 6 3 0 . 6 3 0 . 630 1 3 . 7 1 3 . 7 4 4 . 337 1 6 . 9 1 6 . 9 6 1 . 285 3 8 . 8 3 8 . 8 1 0 0 . 0219 1 0 0 . 0 1 0 0 . 0AABBOTo t a lV a l i dFr e q u e n c y P e r c e n t V a l i d P e r c e n tC u m u l a t i v eP e r c e n t打開數(shù)據(jù),單擊 Analyze?Descriptive Statistics? Crosstabs對話框。 如果是二維列聯(lián)表分析 ,可以將行變量選擇進(jìn)入Row(s)中 , 將列變量選擇進(jìn)入 Column(s)框中 。 如進(jìn)行三維以上的列聯(lián)表 , 可以將其它變量作為控制變量選到 Layer框中 。 多控制變量可以是同層次的也可以是逐層疊加的 。 使用 Crosstabs過程輸出列聯(lián)表 Display clustered bar chart選擇項(xiàng),可以指定繪制各變量交叉頻數(shù)分布柱形圖。 Suppress table表示不輸出列聯(lián)表,只有在分析行列變量間關(guān)系時(shí)選擇此項(xiàng)。此例中不選擇這一項(xiàng)。 單擊 Cell按紐 , 打開 Crosstabs:Cell Display對話框 , 如圖所示 。 從對話框中指定列聯(lián)表單元格中的輸出 內(nèi) 容 。 在 Counts 框 中 選 擇Observed 觀察值 (系統(tǒng)默認(rèn) )或Expected 期望頻數(shù) 。 在Percentages框內(nèi)選擇 Row行百分比 、 Column列百分比及 Total總百分比 。 在 Residuals框中選擇輸出殘差 。 其中 Standardize為標(biāo)準(zhǔn)化殘差 。 Adj. standardize 為修正的標(biāo)準(zhǔn)化殘差 。 C a s e P r o c e s s i ng S um m a r y219 1 0 0 . 0 % 0 . 0 % 219 1 0 0 . 0 %性別 * 血型N P e r c e n t N P e r c e n t N P e r c e n tV a l i d M i s s i n g To t a lC a s e s性別 * 血型 C r o s s t a b u l a t i o n16 8 17 31 722 2 . 2 % 1 1 . 1 % 2 3 . 6 % 4 3 . 1 % 1 0 0 . 0 %2 3 . 9 % 2 6 . 7 % 4 5 . 9 % 3 6 . 5 % 3 2 . 9 %7 . 3 % 3 . 7 % 7 . 8 % 1 4 . 2 % 3 2 . 9 %51 22 20 54 1473 4 . 7 % 1 5 . 0 % 1 3 . 6 % 3 6 . 7 % 1 0 0 . 0 %7 6 . 1 % 7 3 . 3 % 5 4 . 1 % 6 3 . 5 % 6 7 . 1 %2 3 . 3 % 1 0 . 0 % 9 . 1 % 2 4 . 7 % 6 7 . 1 %67 30 37 85 2193 0 . 6 % 1 3 . 7 % 1 6 . 9 % 3 8 . 8 % 1 0 0 . 0 %1 0 0 . 0 % 1 0 0 . 0 % 1 0 0 . 0 % 1 0 0 . 0 % 1 0 0 . 0 %3 0 . 6 % 1 3 . 7 % 1 6 . 9 % 3 8 . 8 % 1 0 0 . 0 %C o u n t% w i t h i n 性別% w i t h i n 血型% o f T o t a lC o u n t% w i t h i n 性別% w i t h i n 血型% o f T o t a lC o u n t% w i t h i n 性別% w i t h i n 血型% o f T o t a l男女性別T o t a lA AB B O血型T o t a l 多選題的統(tǒng)計(jì)描述 ? 多選題的描述指標(biāo)體系 在多選題分析中比較特別的描述指標(biāo)有: ( 1)應(yīng)答人數(shù):是指選擇了本項(xiàng)人數(shù)。 ( 2)應(yīng)答人數(shù)百分比( Percent of Cases):選擇該項(xiàng)的人占總?cè)藬?shù)的比例。 ( 3)應(yīng)答人次:選擇本選項(xiàng)的人次。 ( 4)應(yīng)答次數(shù)百分比( Percent of Responses):在作出的選擇中,選擇該項(xiàng)的人數(shù)占總次數(shù)的比例。 分析實(shí)例 操作步驟: Analyze Multiple Response Frequencies Define Sets過程 該過程指定變量組成一個(gè)多重響應(yīng)或多重兩分?jǐn)?shù)集,并應(yīng)用于頻數(shù)表和交叉列表。 Frequencies過程 該過程對定義的多重響應(yīng)或多重兩分?jǐn)?shù)提供一個(gè)頻數(shù)表。 Crosstabs過程 該過程提供帶有另一種變量的,已定義的多重或多重兩分?jǐn)?shù)據(jù)集交叉表。 分類變量的參數(shù)估計(jì) ? 二項(xiàng)分布的參數(shù)估計(jì) 一、二項(xiàng)分布 二項(xiàng)分布又稱為貝努里( Bernoulli)分布,是一種具有廣泛應(yīng)用的離散型隨機(jī)變量的概率分布。二項(xiàng)分布研究的是試驗(yàn)僅有兩種結(jié)果的分布(這種試驗(yàn)稱為貝努里試驗(yàn)),如某產(chǎn)品質(zhì)量合格與不合格等。其定義為:設(shè)有 n 次試驗(yàn),各次試驗(yàn)是相互獨(dú)立的,每次試驗(yàn)?zāi)呈录霈F(xiàn)的概率都是 p,某事件不出現(xiàn)的概率都是 1p,記為 q,則對于某事件出現(xiàn) k( k=0,1,2,?,n)次的概率分布為: 二、二項(xiàng)分布檢驗(yàn) (Binomial Test) 當(dāng)研究對象屬于二項(xiàng)總體時(shí),可以用二項(xiàng)分布來檢驗(yàn)假設(shè),判斷所抽取的樣本是否來自具有既定值的總體。其檢驗(yàn)步驟如下: 提出假設(shè) 計(jì)算統(tǒng)計(jì)量值和 p 值 3