freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

sas系統(tǒng)和數(shù)據(jù)分析一元線性回歸分析(完整版)

  

【正文】 電子商務(wù)系列 上海財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息管理系 IS/SHUFE Page 9 of 44 1,)?(1 2 ??? ?? RNi i dfyyR SS () 稱為回歸平方和。當(dāng) ? ????? ???Nt tN xx12lim 時(shí), ?? 和 ?? 都是一致估計(jì)量。 以下,我們首先來(lái)研究一下最小二乘估計(jì)量的性質(zhì)。 當(dāng) k= 2 時(shí),評(píng)價(jià)函數(shù)是殘差的平方和。將這一敘述用數(shù)學(xué)方式表示,可得 : stee V st ????? ,02 () 根據(jù)以上的討論,備擇的評(píng)價(jià)函數(shù)被限定在相當(dāng)狹的范圍內(nèi),作為滿足資格的函數(shù),例如可以考慮 : 1,||1 ?? ?? keV Nt kt () 當(dāng) k 為偶數(shù)時(shí),絕對(duì)值的符號(hào)就失去意義。對(duì)照我們的常識(shí),要求評(píng)價(jià)函數(shù)滿足以下各條件: ( 1) 殘差可能為正也可能為負(fù),但不管是正的殘差還是負(fù)的殘差,只要其絕對(duì)值相等,用與直線的離差這一標(biāo)準(zhǔn)來(lái)衡量,就應(yīng)當(dāng)完全平等地評(píng)價(jià)。但是,對(duì)于確定 ?和 ?的值時(shí),要使所有的觀測(cè)點(diǎn)和直線的“距離”從整體來(lái)說(shuō)為最小這個(gè)一般的規(guī)則,大概無(wú)論誰(shuí)也沒(méi)有異議。此外,任何兩個(gè)觀察值 iY 與 jY 是互不相關(guān)的。所以 , tY 是隨機(jī)變量。圖 (a)表示復(fù)雜 回歸函數(shù)可以由線性回歸函數(shù)近似的情況,圖 (b)表示復(fù)雜回歸函數(shù)可以由兩個(gè)線性回歸函數(shù)分段近似的情況。 Y 對(duì)給定 X 具有概率分布這一概念總是與統(tǒng)計(jì)關(guān)系中的經(jīng)驗(yàn)分布形式上相對(duì)應(yīng);同樣,描述概率分布的均值與 X之間關(guān)系的回歸曲線,與統(tǒng)計(jì)關(guān)系中 Y 系統(tǒng)地隨 X 變化的一般趨勢(shì)相對(duì)應(yīng)。 一、 回歸模型 1. 基本概念 回歸模型是一種正規(guī)工具,它表示統(tǒng)計(jì)關(guān)系中兩個(gè)基本的內(nèi)容: ① 用系統(tǒng)的形式表示因變量 Y 隨一個(gè)或幾個(gè)自變量 X 變化的趨勢(shì); ② 表現(xiàn)觀察值圍繞統(tǒng)計(jì)關(guān)系曲線的散布情況。有時(shí)有關(guān)理論可能指出適當(dāng)?shù)暮瘮?shù)形式。所謂“簡(jiǎn)單” ,是因?yàn)樗挥幸粋€(gè)自變量,“參數(shù)線性”是指沒(méi)有參數(shù)具有指數(shù)形式, 或者被另一個(gè)參數(shù)相乘或相除,“自變量線性”是指這個(gè)自變量是一次的。 無(wú)論自變量 X 取值如何,模型( )總是假設(shè) Y 的概率分布具有相同的方差 2? , 且假設(shè)誤差項(xiàng)互不相關(guān)。大致來(lái)說(shuō),可以認(rèn)為回歸直線是從散布在平面上的各觀測(cè)點(diǎn)的中央穿過(guò)的直線。(這里將各觀測(cè)點(diǎn)看作是已經(jīng)觀測(cè)完畢的一對(duì)已知數(shù)組,用小寫字母來(lái)表示)。這一條件同各期誤差項(xiàng)的方差為一定值的假定有著密切的關(guān)系。 當(dāng) k= 1時(shí),評(píng)價(jià)函數(shù)式( )是殘差絕對(duì)值的總和。如前所述,最小二乘法并不是“確定使 T 個(gè)觀測(cè)點(diǎn)與回歸直線之間的距離就整體來(lái)說(shuō)為最小的直線位置”的獨(dú)一無(wú)二的方法, 它只不過(guò)是多種方法中的一個(gè)罷了。 根據(jù)前面的假定: 2)( ?? ?tVar 和 0),( ?stCov ?? ,由定義得 ? ? ? ? ? ??????? Nt txxEV a r1222?? ???? () 按照同樣的方法也可以推導(dǎo)出 : d42029e444b4fd2a2e5519415cc2aed7 商務(wù)數(shù)據(jù)分析 電子商務(wù)系列 上海財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息管理系 IS/SHUFE Page 8 of 44 ? ? ? ?? ? ???????????????????Ntt xxxNEV a r12222 1?? ???? () 這里順便再計(jì)算一下 ?? 和 ?? 的協(xié)方差 : ? ? ? ?? ? ? ?????????Nt txxxEC o v122???,? ??????? () 從式 ()和式 ( )可知,估計(jì)量的方差與樣本的大小大致成反比。所以 , 檢驗(yàn)回歸方程是否有意義的問(wèn)題轉(zhuǎn)化為檢驗(yàn) 下列假設(shè)是否為真: 0:0 ??H () 常用的方法有 F 檢驗(yàn)和 t 檢驗(yàn)方法。 利用公式 0)?(,0)?( ???? ?? iiiii xyyyy ,從而有下列平方和分解式: R S SES SyyyyyyyyyyT S Siiiiiii????????????????2222)?()?()??()( () 由于在 0?? 為真 時(shí) , RS 與 )2/( ?NESS 都是 2? 的無(wú)偏估計(jì),因而采用 F 統(tǒng)計(jì)量 : )2,1(~)2/()2/(/ 1//2 2 ????? NFNES S R S SNES SR S SF ? ? () d42029e444b4fd2a2e5519415cc2aed7 商務(wù)數(shù)據(jù)分析 電子商務(wù)系列 上海財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息管理系 IS/SHUFE Page 10 of 44 來(lái)檢驗(yàn)原假設(shè) 0?? 是否為真。注意在 SAS 系統(tǒng) model語(yǔ)句中的 cli 選項(xiàng)是按公式 ()來(lái)計(jì)算 的 。 1. 殘差圖分析 所謂殘差圖就是以殘差 ttt yye ??? 為縱坐標(biāo),某一個(gè)合適的自變量為橫坐標(biāo)的散點(diǎn)圖。一個(gè)簡(jiǎn)單的思想就是,如果模型假設(shè)正確的話 ,殘差就應(yīng)該是誤差的良好估計(jì),那么殘差全體構(gòu)成的直方圖應(yīng)當(dāng)與正態(tài)曲線很相似。 如圖 ( d)所示的形式,殘差隨 x 的增大而先增后減,則蘊(yùn)含著殘差乃至誤差對(duì)于不同的觀察值具有不同的方差變化,稱為異方差。高度 相關(guān)的自變量以及由它們所引起的估計(jì)問(wèn)題合在一起稱之為共線性( collinearity)問(wèn)題。檢驗(yàn)誤差獨(dú)立性的最常用方法,是對(duì)殘差的一階自相關(guān)性進(jìn)行 DurbinWatson檢驗(yàn)。 1. PROC REG 語(yǔ)句中的 選項(xiàng)列表 ? OUTEST=SAS 數(shù)據(jù)集 —— 將有關(guān)模型的參數(shù)輸出到指定的 SAS 數(shù)據(jù)集中 ? OUTSSCP=SAS 數(shù)據(jù)集 —— 將相關(guān)矩陣輸出到指定的 SAS數(shù)據(jù)集中 ? ALL—— 屏幕輸出所有內(nèi)容 ? NOPRINT—— 不在屏幕輸出任何內(nèi)容 2. MODEL 語(yǔ)句中的選項(xiàng) 該語(yǔ)句定義建模用的因變量、自變量、模型的選擇及結(jié)果輸出的選擇。一般情況下,條件數(shù)越大越可能存在共線性。 表 廣告額與銷售額 月 t 月銷售額 Yt 月廣告花費(fèi) Xt 1 2945 280 2 4295 400 3 5645 450 4 6995 590 5 8345 650 6 9695 750 7 11045 890 8 12395 1000 9 13745 1050 10 15095 1200 11 16445 1250 12 17795 1350 13 19145 1460 14 20495 1500 15 21845 1650 程序如下: LIBNAME STUDY D:\SASDATA\MYDIR。 PROC REG DATA= OUTEST=。 再一次的輸出的結(jié)果見(jiàn)表 。 經(jīng)典的線性回歸模型的假設(shè)可以闡述如下: ? 模型形式由 ()給定; ? 矩陣 X 的元素都是確定的, X 的秩為 (k+1),且 k 小于觀察數(shù) N; ? ? 為正態(tài)分布, E(? )=0 和 ? ? IE 2??? ?? ,式中 I 為 NN 單位矩陣。 現(xiàn)在可以考慮最小二乘估計(jì)量的性質(zhì)。d42029e444b4fd2a2e5519415cc2aed7 商務(wù)數(shù)據(jù)分析 電子商務(wù)系列 上海財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息管理系 IS/SHUFE Page 21 of 44 由于 ?? )( CAb ??? ,所以有: ]))(][([])()[(}])][(){ [ (]))([()(??????????????????CACAECACAECACAEbbEbV ar???????? () 由于: ? ?? ?? ? ? ? ? ? ? ? CCCXXXXXCXXXXXXX CCCAACAACACA ???????????? ??????????????? 1111 因?yàn)?0???? CXCX ,所以 ? ?? ? ? ? CCXXCACA ??????? ? 1,即: ? ?CCV arCCXXbV ar??????? ?212)?(][)(??? () 我們可以看出, C? 為一半正定矩陣。 服從 2? 分布,具有 N- k- 1 個(gè)自由度; ? 錯(cuò)誤 !未定義書簽。 表 回歸方差分析表 變異來(lái)源 source 離差平方和 SS 自由度 df 均方 MS F 統(tǒng)計(jì)量 F P 概率值 P 回歸 R RS k kRSSMSR /? M SEM SRF kNk /1, ??? P 誤差 E ES 1??kN )1/( ??? kNE S SM S E 總變異 T TS 1?N 從而 YY XXYYTSSE SSR ?????????? ???? ????112 () 若因變量不具有 0 平均值,我們必須改進(jìn)一下 2R 的定義。較大的 F 值,可使我們否定原假設(shè)。 ? all—— 屏幕輸出所有內(nèi)容。 ? slentry | sle =顯著性水平 —— 規(guī)定入選變量進(jìn)人方程的顯著性水平。 ? clm—— 給出各自變量所對(duì)應(yīng)的因變量預(yù)測(cè)值(均數(shù)) Eyi = μ i 的 95%置信上、下限。 ? collinoint—— 在對(duì)截距進(jìn)行校正的情形下,診斷多重共線性。 若 D> 50%,則可認(rèn)為該觀測(cè)點(diǎn)對(duì)模型的擬合有強(qiáng)的影響 covratio 協(xié)方差矩陣的行列式之比(去掉某一觀測(cè)點(diǎn)后、前對(duì)比) 若 | covratio | ≥ 3(自變量個(gè)數(shù) +i),則第 i 個(gè)觀測(cè)點(diǎn)值得引起注意 defits 此值大于 2,表明該點(diǎn)影響較大 debetas 此值大于 2,表明該點(diǎn)影響較大 d42029e444b4fd2a2e5519415cc2aed7 商務(wù)數(shù)據(jù)分析 。對(duì)于某個(gè)變量容許值定義為 1- 2R ,其中 2R 是由這個(gè)變量和模型中所有其他回歸變量建立的回歸模型所得到的。 ? stb—— 要求輸出標(biāo)準(zhǔn)回歸系數(shù)。 ? include= n—— 強(qiáng)迫前 n個(gè)自變量進(jìn)入模型。 ? noprint—— 不在屏幕輸出任何內(nèi)容。 1. proc reg 過(guò)程 Reg過(guò)程一般由下列語(yǔ)句控制: proc reg data=數(shù)據(jù)集集名 /選項(xiàng)列表 。在一元回歸時(shí)已經(jīng)指出 2R 較大常指模型與數(shù)據(jù)擬合得較好,在多元回歸時(shí)很容易錯(cuò)誤地去尋找一個(gè)極大化 2R 的回歸模型。 和 ? ?ii ???? 相互獨(dú) 立。當(dāng) 0?C 時(shí),另外的估計(jì)量 b 就是普通最小二乘法估計(jì)量,這樣,我們的定理就得到證明。因?yàn)椋? ? ? ? ? ? ? ? ? ????? XXXXXXXYXXX ??????????? ??? 111? () 設(shè)式中 ? ? XXXA ??? ?1 ,且是常數(shù),這樣: ? ? ? ? ? ? ?????? ????? AEAEE () 根據(jù)式 () ,可以看到,只要遺漏變量都是隨機(jī)分布的,與 X無(wú)關(guān),并且具有 0 均值,則最小二乘法估計(jì)量將是無(wú)偏的。如果出現(xiàn)完全共線性,矩陣 X的一列將為其余列的線性組合,而 X的秩將小于 (k+1) ),關(guān)于誤差的假設(shè)是最有用的假設(shè),因?yàn)橛盟梢员WC最小二乘法估計(jì)過(guò)程的統(tǒng)計(jì)性質(zhì)。 多元線性回歸分析 七、 多元回歸模型表示法 通常,回歸模型包括 k 個(gè)變量,即一個(gè)因變量和 k個(gè)自變量(包括常數(shù)項(xiàng))。 RUN。 INPUT SALES ADV 。 ? DW—— 輸出 DurbinWatson統(tǒng)計(jì)量 3. 其他選擇語(yǔ)句 注意,這部分的語(yǔ)句可以在 REG 過(guò)程被被激活后,以交互式方式運(yùn)行。 缺省 SLENTRY= ? SELECTION=BACKWARD SLSTAY=顯著性水平 后退法( BACKWARD):先建立包含全部變量的模型,然后按一定的顯著性水平從模型中逐步剔除變量。檢驗(yàn)統(tǒng)計(jì)量為: E SSeeDW Nt tt /)(2 21?? ??? () 我們可以通過(guò)簡(jiǎn)單不等式證明 : E SSeeeee Nt tNt tNt tNt tt 44)(2)(0 1 22 2 12 22 21 ?????? ???? ?? ??? ? 因此 , DW統(tǒng)計(jì)量應(yīng)滿足 : 40 ??DW () 如果 DW接近于 0,表示殘差中存在正自相關(guān);如果 DW接近于 4,表示殘差中存在負(fù)自相關(guān);如果 DW接近于 2,表示殘差獨(dú)立性。在實(shí)際中 , 最常見(jiàn)的問(wèn)題是一些重要的自變量很可能由于在假設(shè)檢驗(yàn)中 t 值不顯著而被
點(diǎn)擊復(fù)制文檔內(nèi)容
法律信息相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1