freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

sas系統(tǒng)和數(shù)據(jù)分析一元線性回歸分析(已修改)

2025-09-01 20:43 本頁面
 

【正文】 d42029e444b4fd2a2e5519415cc2aed7 商務(wù)數(shù)據(jù)分析 電子商務(wù)系列 上海財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息管理系 IS/SHUFE Page 1 of 44 第三十一課 一元線性 回歸分析 回歸分析是一種統(tǒng)計(jì)分析方法,它利用兩個(gè)或兩個(gè)以上變量之間的關(guān)系,由一個(gè)或幾個(gè)變量來預(yù)測(cè)另一個(gè)變量。在 SAS/STAT 中有多個(gè)進(jìn)行回歸的過程 ,如 REG、 GLM 等, REG 過程常用于進(jìn)行一般線性回歸模型分析 。 一、 回歸模型 1. 基本概念 回歸模型是一種正規(guī)工具,它表示統(tǒng)計(jì)關(guān)系中兩個(gè)基本的內(nèi)容: ① 用系統(tǒng)的形式表示因變量 Y 隨一個(gè)或幾個(gè)自變量 X 變化的趨勢(shì); ② 表現(xiàn)觀察值圍繞統(tǒng)計(jì)關(guān)系曲線的散布情況。 這兩個(gè)特點(diǎn)是由下列假設(shè)決定的: ? 在與抽樣過程相聯(lián)系的觀 察值總體中,對(duì)應(yīng)于每一個(gè) X值,存在 Y的一個(gè)概率分布;這些概率分布的均值以一些系統(tǒng)的方式隨 X 變化。 ? 圖 是用透視的方法來顯示回歸曲線。 Y 對(duì)給定 X 具有概率分布這一概念總是與統(tǒng)計(jì)關(guān)系中的經(jīng)驗(yàn)分布形式上相對(duì)應(yīng);同樣,描述概率分布的均值與 X之間關(guān)系的回歸曲線,與統(tǒng)計(jì)關(guān)系中 Y 系統(tǒng)地隨 X 變化的一般趨勢(shì)相對(duì)應(yīng)。 在回歸模型中, X 稱為“自變量”, Y稱為“因變量”;這只是傳統(tǒng)的稱法,并不表明在給定的情況下 Y因果地依賴于 X ,無論統(tǒng)計(jì)關(guān)系多么密切,回歸模型不一定是因果關(guān)系,在某些應(yīng)用中,比如我們由溫度表水銀柱高度(自 變量)來估計(jì)溫度(因變量)時(shí),自變量實(shí)際上依賴于因變量。此外,回歸模型的自變量可以多于一個(gè)。 2. 回歸模型的構(gòu)造 圖 線性回歸模型的圖示 d42029e444b4fd2a2e5519415cc2aed7 商務(wù)數(shù)據(jù)分析 電子商務(wù)系列 上海財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息管理系 IS/SHUFE Page 2 of 44 ( 1) 自變量的選擇 構(gòu)造回歸模型時(shí)必須考慮到易處理性,所以在有關(guān)的任何問題中,回歸模型只能(或只應(yīng)該)包括有限個(gè)自變量或預(yù)測(cè)變量。 ( 2) 回歸方程的函數(shù)形式 選擇回歸方程函數(shù)形式與選擇自變量緊密相關(guān)。有時(shí)有關(guān)理論可能指出適當(dāng)?shù)暮瘮?shù)形式。然而,通常我們預(yù)先并不能知道回歸方程的函數(shù)形式,要在收集和分析數(shù)據(jù)后,才能確定函數(shù)形式。我們經(jīng)常使用線性和二次回歸函數(shù)來作為未知性質(zhì)回歸方程的最初近似值。圖 (a)表示復(fù)雜 回歸函數(shù)可以由線性回歸函數(shù)近似的情況,圖 (b)表示復(fù)雜回歸函數(shù)可以由兩個(gè)線性回歸函數(shù)分段近似的情況。 ( 3) 模型的范圍 在建立回歸模型時(shí),通常需要限制模型的自變量或因變量取值的區(qū)間范圍,這個(gè)范圍由調(diào)查設(shè)計(jì)和已掌握數(shù)據(jù)的情況決定。 ( 4) 回歸分析的運(yùn)用 回歸分析主要有 3 個(gè)目的:描述,控制和預(yù)測(cè)。 二、 未指定誤差項(xiàng)分布的回歸模型 1. 模型的正規(guī)表述 現(xiàn)在我們只限于一個(gè)自變量的基本回歸模型,且回歸函數(shù)是線性的,可表述如下: ttt XY ??? ??? () 其中, tY 是第 t 次觀測(cè)或試驗(yàn)中因變量的取值, ? 和 ? 是參數(shù), tX 為第 t 次觀測(cè)或試驗(yàn)y ( a ) y ( b )x x 圖 用線性回歸函數(shù)近似復(fù)雜回歸函數(shù) d42029e444b4fd2a2e5519415cc2aed7 商務(wù)數(shù)據(jù)分析 電子商務(wù)系列 上海財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息管理系 IS/SHUFE Page 3 of 44 中自變量的取值, t? 是隨機(jī)誤差項(xiàng),其基本假設(shè)應(yīng)該滿足三個(gè)條件: ? 均值 E( t? )= 0 ? 方差 2)( ?? ?tVar ? 協(xié)方差 0),( ?jiCov ?? ,當(dāng) i? j 時(shí)。即對(duì)所有的 i? j , i? 與 j? 互不相關(guān) 模型( )稱為簡單模型,參數(shù)是線性的,自變量也是線性的。所謂“簡單” ,是因?yàn)樗挥幸粋€(gè)自變量,“參數(shù)線性”是指沒有參數(shù)具有指數(shù)形式, 或者被另一個(gè)參數(shù)相乘或相除,“自變量線性”是指這個(gè)自變量是一次的。參數(shù)和自變量都是線性的模型稱為一階模型。 2. 模型的重要特點(diǎn) 第 t 次觀察中 Y 的觀察值 tY 包括 2 部分:常數(shù)項(xiàng) tX??? 和隨機(jī)項(xiàng) t? 的和。所以 , tY 是隨機(jī)變量。因?yàn)?E( t? )=0,這樣: tttt XEXYE ????? ????? )()( () 其中, tX??? 是常數(shù)。因此,當(dāng)?shù)?t 次試驗(yàn)中 X 取為 tX 時(shí),相應(yīng)的 tY 來自一個(gè)概率分布,其均值是: tt XYE ?? ??)( () 所以 , 模型( )的回歸函數(shù)是: XYE ?? ??)( () 這樣對(duì)任何給定的 X ,回歸函數(shù)把 X 水平與 Y 的概率分布均值聯(lián)系起來。 在第 t 次試驗(yàn)中, Y 的觀察值超過或低于回歸函數(shù)值的部分為誤差項(xiàng)部分 t? 。假設(shè)誤差項(xiàng) t? 具有相同的方差 2? , 則 相應(yīng)的 tY 的方差為: 2)( ??tYVar 這是因?yàn)?: 2)()()( ????? ????? tttt V arXV arYV ar 。 無論自變量 X 取值如何,模型( )總是假設(shè) Y 的概率分布具有相同的方差 2? , 且假設(shè)誤差項(xiàng)互不相關(guān)。因此 , 任何一次試驗(yàn)的結(jié)果對(duì)其他各次試驗(yàn)的誤差項(xiàng)都沒有影響,相應(yīng)的 iY 與 jY 也互不相關(guān)。 d42029e444b4fd2a2e5519415cc2aed7 商務(wù)數(shù)據(jù)分析 電子商務(wù)系列 上海財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息管理系 IS/SHUFE Page 4 of 44 總之,模型( )的含義為:對(duì)所有水 平的 X 來說,因變量觀察值 tY 都來自均值tt XYE ?? ??)( 、方差 2? 的概率分布。此外,任何兩個(gè)觀察值 iY 與 jY 是互不相關(guān)的。 三、 最小二乘估計(jì)法 1. 觀測(cè)數(shù)據(jù)圖 設(shè)有一組 T 期間內(nèi)關(guān)于二變量 X 和 Y 的樣本觀測(cè)值( tx , ty )( t= 1, 2,?, N),在 X和 Y 之間存在著函數(shù)關(guān)系,如果將這些觀測(cè)數(shù)據(jù),在 2維平面上用圖來表示,只要數(shù)據(jù)至少有 3 個(gè)以上,那么所有的點(diǎn)大概不可能都在一條直線上。以被認(rèn)為在 X 和 Y 之間成立的未知回歸直線 : Y= ? + ?X 為中心,觀測(cè)點(diǎn)總是適當(dāng)?shù)厣⒉荚谄渲車?。未知回歸直線和各觀測(cè)點(diǎn)的垂直方向的間隔就是上節(jié)引進(jìn)的概 率誤差項(xiàng)。由于 ?和 ?的數(shù)值未知, 因此, 不能準(zhǔn)確地知道與各觀測(cè)點(diǎn)對(duì)應(yīng)的概率誤差項(xiàng)的值。大致來說,可以認(rèn)為回歸直線是從散布在平面上的各觀測(cè)點(diǎn)的中央穿過的直線。根據(jù)所給的觀測(cè)數(shù)據(jù)來估計(jì)這條直線的位置( ? 和 ?的值),是我們需要解決的主要問題。 2. 誤差二乘和的最小化 估計(jì)回歸直線的方式(規(guī)則)有各種各樣的考慮。但是,對(duì)于確定 ?和 ?的值時(shí),要使所有的觀測(cè)點(diǎn)和直線的“距離”從整體來說為最小這個(gè)一般的規(guī)則,大概無論誰也沒有異議。意見的分歧在于究竟要用什么尺度來衡量各觀測(cè)點(diǎn)和回歸直線的“距離”。也就是說,即使都承認(rèn)上述的一般 規(guī)則,但由于按什么標(biāo)準(zhǔn)來測(cè)定“點(diǎn)和線的距離”的看法不同,推導(dǎo)出的估計(jì)方式也是多種多樣的。 假定估計(jì)出的直線為 : XY ** ?? ?? () 則同 X= Xt 對(duì)應(yīng)的估計(jì)直線上的點(diǎn)是 tx** ?? ? 。觀測(cè)點(diǎn)( xt, yt)同估計(jì)直線垂直方向的間隔 : )( ** ttt xye ?? ??? () 叫做殘差( residual)。(這里將各觀測(cè)點(diǎn)看作是已經(jīng)觀測(cè)完畢的一對(duì)已知數(shù)組,用小寫字母來表示)。應(yīng)當(dāng)注意的是誤差項(xiàng)和殘差的區(qū)別:誤差項(xiàng) 是未知回歸直線同觀測(cè)點(diǎn)的間隔,而殘差是已知的估計(jì)直線同觀測(cè)點(diǎn)的間隔。 為了便于討論,我們暫且將測(cè)量點(diǎn)和直線之間距離的“評(píng)價(jià)函數(shù)”限定為殘差 te 的函數(shù)。對(duì)照我們的常識(shí),要求評(píng)價(jià)函數(shù)滿足以下各條件: ( 1) 殘差可能為正也可能為負(fù),但不管是正的殘差還是負(fù)的殘差,只要其絕對(duì)值相等,用與直線的離差這一標(biāo)準(zhǔn)來衡量,就應(yīng)當(dāng)完全平等地評(píng)價(jià)。 d42029e444b4fd2a2e5519415cc2aed7 商務(wù)數(shù)據(jù)分析 電子商務(wù)系列 上海財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息管理系 IS/SHUFE Page 5 of 44 ( 2) 評(píng)價(jià)函數(shù)必須是各殘差絕對(duì)值的非減函數(shù)。把評(píng)價(jià)函數(shù)記為 ? ?NeeeV , 21 ? ,將以上兩條件用數(shù)學(xué)方式表現(xiàn),可得 : ? ? ? ?NN eeeVeeeV ,, 2121 ?? ? () NteVt ,2,1,0 ????? () 同時(shí) , 為了方便起見,除以上 2 個(gè)條件外,暫且再追加以下 2 個(gè)條件。 ( 3) N 個(gè)觀測(cè)點(diǎn)都具有同等資格。即 te 和 se ( t ? s)作為評(píng)價(jià)函數(shù)的變量應(yīng)得到同樣的對(duì)待。這一條件同各期誤差項(xiàng)的方差為一定值的假定有著密切的關(guān)系。將條件( 3)用數(shù)學(xué)方式表現(xiàn),可得,對(duì)于( 1, 2,?, N)的任意重新排列 ),( 21 Niii ? 有 : ? ? ? ?Nii eeeVeeeV N ,, 21i 21 ?? ? ( 4) 我們已經(jīng)假定時(shí)期不同的概率誤差項(xiàng)相互之間不相關(guān)。因此,評(píng)價(jià)函數(shù)中各 te的作用最好是相互無關(guān)的。將這一敘述用數(shù)學(xué)方式表示,可得 : stee V st ????? ,02 () 根據(jù)以上的討論,備擇的評(píng)價(jià)函數(shù)被限定在相當(dāng)狹的范圍內(nèi),作為滿足資格的函數(shù),例如可以考慮 : 1,||1 ?? ?? keV Nt kt () 當(dāng) k 為偶數(shù)時(shí),絕對(duì)值的符號(hào)就失去意義。殘差是回歸系數(shù)的估 計(jì)值( **,?? )的函數(shù)。因此,如果給定了觀測(cè)數(shù)據(jù)( xt, yt),則可以把 V 看作是以 *? 和 *? 為變量的二變量函數(shù)。從而可以考慮確定能使 V 為最小的 *? 和 *? 的值。當(dāng)然,使 V 的值為最小的 *? 和 *? 的值要依存于 N 個(gè)觀測(cè)數(shù)據(jù)。 當(dāng) k= 1時(shí),評(píng)價(jià)函數(shù)式( )是殘差絕對(duì)值的總和。就某種意義來說,這一評(píng)價(jià)函數(shù)在直觀上也許是最容易理解的。通過使它為最小來確定 *? 和 *? 的方式,叫做 最小絕對(duì)離差估計(jì)法 ( least absolute deviation estimation method)。 當(dāng) k= 2 時(shí),評(píng)價(jià)函數(shù)是殘差的平方和。確定能使這一評(píng)價(jià)函數(shù)為最小的 *? 和 *? 的方式,便是 最小二乘法 ( least squares method)。令 k= 2,將式( )代入式( ),可得 : d42029e444b4fd2a2e5519415cc2aed7 商務(wù)數(shù)據(jù)分析 電子商務(wù)系列 上海財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息管理系 IS/SHUFE Page 6 of 44 ? ??? ??? Nt tt xyV 1 2** ?? () 把樣本觀測(cè)值看作已知數(shù),從而可以把 V當(dāng)作 *? 和 *? 的函數(shù)來考慮,利用解決最大最小問題的方法,令 V對(duì) *? 和 *? 的偏導(dǎo)數(shù)為零,可以推導(dǎo)出關(guān)于 *? 和 *? 的二元聯(lián)立一次方程組為 : ? ? 02 1 *** ??????? ??Nt tt xyV ??? () ? ? 02 1 *** ??????? ??Nt ttt xyxV ??? () 這一聯(lián)立方程叫做正規(guī)方程式,其解如下: ? ?? ?? ????????? NtttNttxxyyxx121*? () xy ** ?? ?? () ?? ?? ?? Nt tNt t yNyxNx 11 1,1 () 在求解時(shí),利用了下列恒等式: ? ? 211 21 2 1 ????????? ??? ??? Nt tNt tNt t xNxxx 因?yàn)椋?V 的駐點(diǎn)(使偏導(dǎo)數(shù)同時(shí)為 0 的 *? 和 *? 的值)只有 唯 一的一個(gè),而且通過增大*? 和 *? 的值,可以使 V 無限增大,所以正規(guī)方程的解的確給出了 V 的最小值。于是,可知最小二乘估計(jì)量是 : ? ?? ?? ????????? NtttNttxxyyxx121?? () xy ?? ?? ?? () d42029e444b4fd2
點(diǎn)擊復(fù)制文檔內(nèi)容
法律信息相關(guān)推薦
文庫吧 www.dybbs8.com
公安備案圖鄂ICP備17016276號(hào)-1