【正文】
TYYY??? ? ???? ????X β ?一般假設(shè): A1: ; A2: 是 Logistic分布; A3: 。因此,我們實(shí)際上觀測(cè)到的變量是 Yi而不是 Yi*。 ()??21P r ( 1 | ) ( ) e x p ( )22ii i izo b Y d z?????? ? ? ? ?? X βXX β()i?? X β?如果將函數(shù) F定義為 Logistic分布函數(shù) ,則產(chǎn)生的概率模型為 Logit模型: 同樣, 也將概率的取值限定在 0和 1之間。 ( | )iiE Y XX ?? ???? Probit和 Logit模型 ?在 LPM中,假設(shè) Yi =1 的概率是線性的,也就是假設(shè) 中的函數(shù) F為恒等函數(shù),即 但是, 不能保證概率的取值在 0和 1之間。如果解釋變量是虛擬變量,則 表示的是虛擬解釋變量取值為 1和取值為 0時(shí), Y的取值為 1的概率的差異。然后將正確的預(yù)測(cè)的個(gè)數(shù)與總預(yù)測(cè)個(gè)數(shù)比較,得到一個(gè)新的擬合優(yōu)度的指標(biāo)??梢远x () ?當(dāng) Y的實(shí)際預(yù)測(cè)的值大于 ,我們視其預(yù)測(cè)值為 1;當(dāng)小于 ,視其預(yù)測(cè)值為 0。為了克服異方差,可以采用處理異方差的方法去估計(jì)模型。但是,當(dāng)樣本足夠多時(shí),二項(xiàng)分布收斂于正態(tài)分布。常見(jiàn)的問(wèn)題和相應(yīng)的解決方法如下: i?Xβ?(1)對(duì) ()式的擬合的結(jié)果是對(duì)某一事件發(fā)生的平均概率的預(yù)測(cè),即 ?但是, 的值并不能保證在 0和 1之間,完全有可能出現(xiàn)大于 1和小于 0的情形。在 ()式中,這一概率體現(xiàn)為線性的形式 ,因此()式稱(chēng)為線性概率模型( Linear Probability Model, LPM)。 1 , 2 , ,i i iY i T??? ? ?X β10iY ?? ??某一事件發(fā)生某一事件不發(fā)生。這兩類(lèi)模型多應(yīng)用在調(diào)查數(shù)據(jù)的分析當(dāng)中。當(dāng)我們所獲取的數(shù)據(jù)只是從總體分布的一部分抽?。ǘ菑目傮w中隨機(jī)抽取),而另一部分由于無(wú)法觀測(cè)而被刪除時(shí),稱(chēng)為截?cái)啵?Truncation);若總體分布中無(wú)法觀測(cè)的部分都用一個(gè)臨界值表示時(shí),稱(chēng)為審查( Censor)。因變量為計(jì)數(shù)變量的模型稱(chēng)為計(jì)數(shù)模型 (Count Model)。 ?計(jì)數(shù)變量主要用于描述某一事件發(fā)生的次數(shù),它僅取整數(shù)值。例如,對(duì)債券等級(jí)的排序,老師給學(xué)生 A、 B、 C、 D 和E五個(gè)等級(jí)的成績(jī)。例如,當(dāng)購(gòu)買(mǎi)洗衣粉時(shí),你可以在眾多可供選擇的洗衣粉品牌之間進(jìn)行選擇。因變量為二元變量的模型稱(chēng)為二元選擇模型 (Binary Choice Model)。根據(jù)取值的特點(diǎn),離散因變量可以分為二元變量、多分變量和計(jì)數(shù)變量。第 9章 離散和限制因變量模型 二元選擇模型 多元選擇模型 計(jì)數(shù)數(shù)據(jù)模型 限制因變量模型 實(shí)證分析 ?離散因變量( Discrete Dependent Variable)的取值為類(lèi)似于 0、 2… 的離散值。在多數(shù)情況下,這些取值一般沒(méi)有實(shí)際的意義,僅代表某一事件的發(fā)生,或者是用于描述某一事件發(fā)生的次數(shù)。二元變量的取值一般為 1和0,當(dāng)取值為 1時(shí)表示某件事情的發(fā)生,取值為 0則表示不發(fā)生。 ?多分變量所取的離散值個(gè)數(shù)多于二個(gè),如果各種結(jié)果之間沒(méi)有自然順序的話(huà),稱(chēng)為無(wú)序變量。如果各種結(jié)果之間有一個(gè)內(nèi)在的自然的順序,則為有序變量。多分變量為因變量的模型稱(chēng)為多元選擇模型 (Multinomial Model),其中又有條件模型 (Conditional Model)、有序選擇(Ordered Model)、嵌套模型 (Nested Model)等分類(lèi)。例如,每戶(hù)家庭的子女?dāng)?shù)、某人在一年中看醫(yī)生的次數(shù)等。 ?限制因變量 (Limited Dependent Variable)指的是由于樣本抽取的原因使得所獲得的數(shù)據(jù)受到某些限制。限制因變量模型主要包括截?cái)嗄P?(Truncated Model)和審查模型(Censored Data)兩類(lèi)。 第一節(jié) 二元選擇模型 線性概率 (LP)模型 Probit和 Logit模型 線性概率 (LP)模型 ?假設(shè)有以下二元選擇模型: () 其中, Xi是包含常數(shù)項(xiàng)的 k元解釋變量, 假設(shè)在給定 Xi的時(shí)候, Yi =1 的概率為 p,即 ,則在給定 Xi的時(shí)候, Yi =0 的概率為 1p,即 。;P r ( 1 )iio b Y p??XP r ( 0 | ) 1iiob Y p? ? ?X?當(dāng) ()式滿(mǎn)足時(shí) , () 另外,因?yàn)?Yi只取 1和 0兩個(gè)值,其條件期望為 () 綜合 ()式和 ()式得: () ( | ) 0iiE ? ?X( | )i i iEY ??XX β( | ) 1 Pr ( 1 | ) 0 Pr ( 0 | )1 0 ( 1 )i i i i i iE Y o b Y o b Yppp? ? ? ? ? ?? ? ? ? ??X X X( | ) P r ( 1 | )i i i i iE Y o b Y p?? ? ? ?XX β X?因此, ()式擬合的是當(dāng)給定解釋變量 Xi的值時(shí),某事件發(fā)生(即 Yi取值為 1)的平均概率。 ?對(duì)于線性概率模型,可以采用普通最小二乘法進(jìn)行估計(jì),但是會(huì)存在一些問(wèn)題。實(shí)際應(yīng)用中,當(dāng)出現(xiàn)的預(yù)測(cè)值大于 1或小于 0的情況不是太多時(shí),如果預(yù)測(cè)值大于 1,就把它看作是等于 1,如果預(yù)測(cè)值小于 0,就把它看作是等于 0. ?? P r ( | )i i i iY ob Y? ??? XX β?i?Xβ?(2)由于 Y是二元變量,因此擾動(dòng)項(xiàng) 也應(yīng)該是二元變量,它應(yīng)該服從二項(xiàng)分布,而不是我們通常假定的正態(tài)分布。 1 ( 1 )( 0 )iiiiiYY?? ????? ??????X βX β?(3)在 LPM中,擾動(dòng)項(xiàng)的方差為: 因此,擾動(dòng)項(xiàng)是異方差的。 ? ? ? ?? ?22( ) 1 ( 1 )1i i iiiV a r p p? ??? ? ? ? ? ? ???? ? ?X β X βX β X β 常 數(shù)?(4)由于因變量是二元選擇的結(jié)果,因此按傳統(tǒng)線性回歸模型所計(jì)算的判定系數(shù) R2不再有實(shí)際的意義。然后比較預(yù)測(cè)值與實(shí)際值是否存在差異,如果不存在差異,則認(rèn)為是正確的預(yù)測(cè)。 2_C o u n t R ? 正確預(yù)測(cè)的個(gè)數(shù)總觀測(cè)值個(gè)數(shù)(5)邊際效應(yīng)的分析 ?對(duì) ()式進(jìn)行邊際效應(yīng)分析得: ?因此,當(dāng)解釋變量是非虛擬變量時(shí), 表示的是解釋變量變動(dòng)一個(gè)單位時(shí)對(duì) Y取值為 1的平均概率的影響。因此, LPM的邊際效應(yīng)是一個(gè)常數(shù),它與解釋變量取值的大小無(wú)關(guān)。 P r ( 1 | ) ( )i i io b Y F ??? XX βP r ( 1 | )i i io b Y ???XX βi?Xβ?如果將函數(shù) F定義為標(biāo)準(zhǔn)正態(tài)分布函數(shù) ,即 會(huì)把概率的取值限定在 0和 1之間,這時(shí)的概率模型稱(chēng)為 Probit模型。 ()??e x p ( )P r ( 1 | ) ( )1 e x p ( )ii i iio b Y??? ? ? ???X βXX βX β()??一、 Probit模型 ?考察以下模型 () 其中, Yi*是潛變量或隱變量 (Latent Variable),它無(wú)法獲得實(shí)際觀測(cè)值,但是卻可以觀測(cè)到它的性狀,如 Yi*0或 Yi*≤0。 ()式稱(chēng)為潛變量反應(yīng)函數(shù)( Latent Response Function)或指示函數(shù)(Index Function)。 ?在 A1— A3的假定之下,考察 ()式中 Yi的概率特征: () E ( | ) = 0ii? Xi?ran k ( )= kiX*P r ob( 1 | ) P r ( 0 | )P r ( 0 | )P r ( | )()ii i i ii i ii i iiiXY ob Yob Xobfd???????? ? ??? ? ????? ?XXβ XX β X?當(dāng) 為標(biāo)準(zhǔn)正態(tài)分布的概率密度函數(shù) 時(shí), ()式可以寫(xiě)成: () 這樣, ()式正是 Probit模型。 i()f ?iiPr o b ( 1 | ) = 1 ( )= 1 ( )e x p ( )= 1 1 e x p ( )e x p ( )1==1 e x p ( ) 1 e x p ( )= ( )iiiiiiiiiiY f d???????????????????X βXX βX βX βX βX β X βX β三、邊際效應(yīng)分析 ?對(duì)于 Probit模型來(lái)說(shuō),其邊際效應(yīng)為: () ?對(duì)于 Logit模型,其邊際效應(yīng)為: () 其中, 。對(duì)于非虛擬的解釋變量,一般是用其樣本均值代入到 ()式和 ()式中,估計(jì)出平均的邊際影響。 四、最大似然估計(jì)( MLE) ?Probit和 Logit模型都是非線性模型,不能用 OLS法估計(jì)。 對(duì)于 Probit或 Logit模型來(lái)說(shuō), P r ( 1 | ) ( )i i io b Y F???XX βP r ( 0 | ) 1 ( )i i io b Y F ??? XX β?所以似然函數(shù)為 ?對(duì)數(shù)似然函數(shù)為 () ? ?N 1i = 1L = ( ) 1 ( ) iiYYiiF X F X?????? ?N=1l o g L = l o g ( ) + ( 1 ) l o g 1 ( )iiiY F Y Fii ?????? ??? X β X β?最大化 logL的一階條件為 () ?由于 ()式不存在封閉解,所以要用非線性求解的迭代法求解。 ? ?Niiiii= 1 iiNiiii= 1 iil og L= +( 1 )1= =01iiiffYYFFYFfFF???????? ??????????????XXβX五、似然比檢驗(yàn)和擬合優(yōu)度 ?似然比檢驗(yàn)類(lèi)似于檢驗(yàn)?zāi)P驼w顯著性的 F檢驗(yàn) , 原假設(shè)為全部解釋變量的系數(shù)都為 0,檢驗(yàn)的統(tǒng)計(jì)量 LR為: () ?其中, lnL為對(duì)概率模型進(jìn)行 MLE估計(jì)的對(duì)數(shù)似然函數(shù)值, lnL0為估計(jì)只有截距項(xiàng)的模型的對(duì)數(shù)似然函數(shù)值。 0L R =2 ( l n L l n L )2??對(duì)于 Probit和 Logit模型,同樣可以計(jì)算 ()式中 的以反映模型的擬合優(yōu)度。似然比指數(shù)的定義為 () McFadden R2總是介于 0和 1之間。 McFadden R2越大,表明擬合得越好。但是我們可以觀測(cè)到的是 () * 1 , 2 , ,i i iY i T??? ? ?X β**1*12*M 10 if 01