【正文】
據(jù)上例的數(shù)據(jù),求 待產(chǎn)婦尿中雌三醇含量與產(chǎn)兒體重之間的回歸方程。 ? b0時,隨 X的增大而增大; ? b0時,隨 X的增大而減??; ? b=0時,直線與 X軸平行, Y與 X無直線關(guān)系 二、回歸系數(shù) ? 在數(shù)理統(tǒng)計中,用最小二乘法的原理可求出a、 b的計算公式。 a稱為截距 (intercept),表示 X取值為 0時 Y的平均水平。 一、回歸方程 ? 簡單直線回歸 (linear regression)是用來描述一個變量依賴于另一個變量的線性關(guān)系。 ? 但在實際生活當(dāng)中 , 由于其它因素的干擾 ,許多雙變量之間的關(guān)系并不是嚴格的函數(shù)關(guān)系 , 不能用函數(shù)方程反映 , 為了區(qū)別于兩變量間的函數(shù)方程 , 我們稱這種關(guān)系式為 直線回歸方程 , 這種關(guān)系為直線回歸 . ?直線回歸就是用來描述一個變量如何 依賴 于 另一個變量。 ? 那么,如果我們知道了一位待產(chǎn)婦的尿雌三醇含量,能推斷出產(chǎn)兒的體重嗎? 或產(chǎn)兒的體重可能在什么范圍內(nèi)呢? ? 這要用直線回歸的方法來解決。 當(dāng)控制一個變量時,偏相關(guān)系數(shù)的計算公式: )1)(1( 22|XZYZXZYZYXZYXrrrrrr????? 當(dāng)控制多個變量時,偏相關(guān)系數(shù)的計算公式較為復(fù)雜,此處省略。即控制了其它一個或多個變量的影響下,計算兩個變量的相關(guān)性。 C or r e la t ion s1 . 6 1 0 **. . 0 0 031 31. 6 1 0 ** 1. 0 0 0 .31 31P e a r s o n C o r r e la t io nS ig . (2 t a il e d )NP e a r s o n C o r r e la t io nS ig . (2 t a il e d )N尿雌三醇產(chǎn)兒體重尿雌三醇 產(chǎn)兒體重C o r r e la t io n is s ig n if ic a n t a t t h e 0 . 0 1 le v e l(2 t a il e d ) .* * . 另外的例子: ? 識字數(shù),鞋大小 ? 游泳票與冰激凌銷售量 需要排除其它變量的干擾! 例題:已知某地 29名 13歲男童身高 X1( cm) 、體重 X2( kg) 和肺活量 Y( ml) , 請計算身高與肺活量 , 體重與肺活量的相關(guān)關(guān)系 。 ? 這就要對 r進行假設(shè)檢驗,判斷 r不等于零是由于抽樣誤差所致,還是兩個變量之間確實存在相關(guān)關(guān)系。但是,這 31例只是總體 中的 一個樣本 ,由此得到的相關(guān)系數(shù)會存在抽樣誤差。 yyxxxylllyyxxyyxxr?????????? ??22)()()()(根據(jù)資料類型選擇不同的方法計算 r Pearson: 連續(xù)變量,雙變量正態(tài)分布資料Kendall: 資料不服從雙變量正態(tài)分布或 總體分布未知,等級資料。因此收集了 31例待產(chǎn)婦 24小時的尿,測量其中的雌三醇含量,同時記錄產(chǎn)兒的體重。 ? 一個產(chǎn)科醫(yī)師發(fā)現(xiàn)孕婦尿中 雌三醇含量 與產(chǎn)兒的體重 有關(guān)。 正相關(guān)時 , r值在 0和 1之間 , 這時一個變量增加 , 另一個變量也增加;負相關(guān)時 , r值在 1和 0之間 , 此時一個變量增加 , 另一個變量將減少 。 ? 它的形狀象一塊橄欖狀的云,中間的點密集,邊沿的點稀少,其主要部分是一個橢圓。 復(fù)習(xí): 直線相關(guān) Linear Correlation 一、相關(guān)的類型 二、相關(guān)系數(shù) 三、相關(guān)系數(shù)的假設(shè)檢驗 ? 為了研究父親與成年兒子身高之間的關(guān)系,卡爾 .皮爾遜測量了 1078對父子的身高。 ? 關(guān)系:可以說乙肝病毒感染是前因 , 得了乙肝是后果 , 乙肝病毒和乙肝之間是因果關(guān)系;但是 , 有的現(xiàn)象之間因果不清 , 只是伴隨關(guān)系 ,例如丈夫的身高和妻子的身高之間 , 就不能說有因果關(guān)系 。 多重線性回歸與相關(guān) 王??? 北京大學(xué)公共衛(wèi)生學(xué)院 主要內(nèi)容 第一節(jié) 偏相關(guān) 第二節(jié) 多元線性回歸 ? 醫(yī)學(xué)上 , 許多現(xiàn)象之間都有相互聯(lián)系 , 例如:身高與體重 、 父親身高與兒子身高 、體溫與脈搏 、 產(chǎn)前檢查與嬰兒體重 、 乙肝病毒與乙肝等 。 ? 在這些有關(guān)系的現(xiàn)象中 , 它們之間聯(lián)系的程度和性質(zhì)也各不相同 。 相關(guān)就是用于研究和解釋兩個變量之間 相互 關(guān)系的。把 1078對數(shù)字表示在坐標(biāo)上,如圖。 一、相關(guān)的類型 ★ 正相關(guān) ★ 負相關(guān) ★ 完全正相關(guān) ★ 完全負相關(guān) ★ 零相關(guān) 二、相關(guān)系數(shù) ◆ 樣本的相關(guān)系數(shù) 用 r (correlation coefficient) ◆ 相關(guān)系數(shù) r的值在 1和 1之間 。 ◆ r的絕對值越接近 1, 兩變量的關(guān)聯(lián)程度越強 , r的絕對值越接近 0, 兩變量的關(guān)聯(lián)程度越弱 。 ? 于是設(shè)想,通過測量待產(chǎn)婦尿中雌三醇含量,可以預(yù)測產(chǎn)兒體重,以便對低出生體重進行預(yù)防。 ? 問尿中雌三醇含量與產(chǎn)兒體重之間 相關(guān)系數(shù) 是多少?是正相關(guān)還是負相關(guān)? ? 分析問題:總體 樣本、 目的、變量、關(guān)系 編號 ( 1) 尿雌三醇 mg/24h( 2 產(chǎn)兒體重 kg( 3) 編號 ( 1) 尿雌三醇mg/24h( 2) 產(chǎn)兒體重 kg( 3) 1 7 17 17 2 9 18 25 3 9 19 27 4 12 20 15 5 14 21 15 6 16 22 15 7 16 23 16 8 14 24 19 9 16 25 18 10 16 26 17 11 17 27 18 12 19 28 20 13 21 29 22 14 24 30 25 15 15 31 24 16 16 待產(chǎn)婦尿雌三醇含量與產(chǎn)兒體重關(guān)系 SPSS計算程序 : GRAPHSSCATTERTSIMPLEDEFINE 2. 相關(guān)分析 : ANALYZECORRELATION –BIVARIATE VARIABLES 孕婦尿中雌三醇含量與產(chǎn)兒體重之間的關(guān)系尿雌三醇3020220產(chǎn)兒體重4 . 54 . 03 . 53 . 02 . 52 . 0C or r e la t ion s1 . 6 1 0 **. . 0 0 031 31. 6 1 0 ** 1. 0 0 0 .31 31P e a r s o n C o r r e la t io nS ig . (2 t a il e d )NP e a r s o n C o r r e la t io nS ig . (2 t a il e d )N尿雌三醇產(chǎn)兒體重尿雌三醇 產(chǎn)兒體重C o r r e la t io n is s ig n if ic a n t a t t h e 0 . 0 1 le v e l(2 t a il e d ) .* * . r ???41 20677 42 6 740 61.. ..從計算結(jié)果可以知道, 31例待產(chǎn)婦尿中雌三醇含量與產(chǎn)兒體重之間呈正相關(guān),相關(guān)系數(shù)是 。 Spearman:等級資料 問題: 我們能否得出結(jié)論: 待產(chǎn)婦尿中雌三醇含量與產(chǎn)兒體重之間成正相關(guān),相關(guān)系數(shù)是 ?為什么? 三、相關(guān)系數(shù)的假設(shè)檢驗 ? 上例中的相關(guān)系數(shù) r等于 ,說明了 31例樣本中雌三醇含量與出生體重之間存在相關(guān)關(guān)系。 ? 因為,總體相關(guān)系數(shù) ( ?) 為零時,由于抽樣誤差,從總體抽出的 31例,其 r可能不等于零。 對相關(guān)系數(shù)的假設(shè)檢驗,常用 t檢驗,選用統(tǒng)計量 t的計算公式如下: trs rrrnrnr????????0122122?=n2 H0 : ?=0 H1 : ?≠0 ?= r=, n=31, 代入公式 t= r nr??21 2?=n2=312=29 t= 查 t值表,