【正文】
d e r iv e d f r o m a ll ca s e s o t h e r t h a n t h a tca s e .a . 8 1 . 6 % o f o r ig in a l g r o u p e d ca s e s co r r e ct ly cla s s if ie d .b . 7 8 . 9 % o f cr o s s v a li d a t e d g r o u p e d ca s e s co r r e ct ly cla s s if ie d .c. x1,x2,x3,x4均為判別變量 C l a s s i fi c a t i on R e s u l t sb , c15 2 174 17 214 4 88 8 . 2 1 1 . 8 1 0 0 . 01 9 . 0 8 1 . 0 1 0 0 . 05 0 . 0 5 0 . 0 1 0 0 . 015 2 175 16 218 8 . 2 1 1 . 8 1 0 0 . 02 3 . 8 7 6 . 2 1 0 0 . 0破產(chǎn)企業(yè)為 1 ,正常運(yùn)行企業(yè)為 212U n g r o u p e d ca s e s12U n g r o u p e d ca s e s1212C o u n t%C o u n t%O r ig in a lC r o s s v a lid a t e da1 2P r e d ic t e d G r o u pMe m b e r s h ipT o t a lC r o s s v a lid a t ion is d o n e o n ly f o r t h o s e ca s e s in t h e a n a ly s is . I n cr o s s v a lid a t io n ,e a ch ca s e is cl a s s if ie d b y t h e f u n ct io n s d e r iv e d f r o m a ll ca s e s o t h e r t h a n t h a tca s e .a . 8 4 . 2 % o f o r ig in a l g r o u p e d ca s e s co r r e ct ly cla s s if ie d .b . 8 1 . 6 % o f cr o s s v a li d a t e d g r o u p e d ca s e s co r r e ct ly cla s s if ie d .c. x1, x3為判別變量 設(shè)有 n樣品,分別來自 k個(gè)類 G1, G2, ┅ ,Gk其中 ni個(gè)來自 Gi, (一)變量組間差異的顯著檢驗(yàn) ).,(~ ?ipi NG ? 樣品分別為: 。, )1()1(1 1nXX ?。, )()(1 knk kXX ??kH μμ 1 ?? ?:0即 , p個(gè)指標(biāo)對(duì) G1, G2, ┅ , Gk無區(qū)別能力; 不盡相同kH μ,μ 1 ?:1 p個(gè)指標(biāo)對(duì) G1, G2, ┅ , Gk有區(qū)別能力 。 ||||||||WEBEE ???? 總離差平方和組內(nèi)離差平方和?當(dāng)比值 很小,類內(nèi)的離差平方和在總離差平方和中所占比率小,則類間的離差平方和所占比重大。在原假設(shè)為真的條件下, 服從維爾克斯分布 。 ||||||||WEBEE ?????)1,( ??? kknpp 當(dāng) 接受原假設(shè); 當(dāng) p個(gè)指標(biāo)對(duì) G1, G2, ┅ , Gk有強(qiáng)的區(qū)別能力 , 拒絕原假設(shè) 。 ????? || |||| || WEBE E)1,( ??? kknp? ????? || |||| || WEBE E)1,( ??? kknp?( 二 ) 附加信息的檢驗(yàn) 在回歸分析中 , 變量的好壞直接影響回歸的效果 。 在判別分析中也有類似的問題 。 如果在某個(gè)判別分析問題中 , 將其中最主要的指標(biāo)忽略了 。判別效果一定不會(huì)好 。 但是在許多問題中 , 事先并不知道那些是主要的指標(biāo) 。 因此篩選變量的問題就成了非常重要的了 。 從而產(chǎn)生了逐步判別法 ,而逐步判別法的基礎(chǔ)是附加信息的檢驗(yàn) 。 設(shè)判別函數(shù)中已經(jīng)有 q個(gè)變量 , 要檢驗(yàn)?zāi)硞€(gè)變量 xj對(duì)判別效果的貢獻(xiàn) , 或者說變量對(duì)判別是否有附加的信息 。 H0: xj對(duì)判別分析沒有附加的信息 H1: xj對(duì)判別分析有附加的信息 E設(shè)組內(nèi)的叉積矩陣為B設(shè)組間的叉積矩陣為W設(shè)總的叉積矩陣為BEW ??將 q+1個(gè)變量構(gòu)成的叉積將矩陣分塊 1q???????22211211EEEEE1q???????22211211BBBBB1qW ???????22211211WWWW利用分塊矩陣的行列式的性質(zhì)有: 12111212211 EEEEEE ???12111212211 WWWWWW ???121112122121112122WWWWWEEEEEWE??? ?????1111)1(,2,1 q?121112122121112122WWWWEEEE??? ????qq ,1/)1( ?記 它是在給定了 q個(gè)指標(biāo)的條件下,對(duì) q+1個(gè)指標(biāo)的 附加信息量的度量,該統(tǒng)計(jì)量服從維爾克斯分布 )1,1(~,1/)1( ????? ? kpknqq ?記qqqq ,2,1/)1(,2,1)1(,2,1 ??? ?? ?????)1(,2,1)1(,2,1,2,1,2,1/)1( )1())((??? ????????qqqpq kkpnF????qqqqpq kkpnF,2,1/)1(,2,1/)1(,2,1/)1()1()1()(?????? ??????? 該統(tǒng)計(jì)量服從 F(k1,npk)分布,當(dāng) F很大時(shí),則 拒絕原假設(shè),第 q+1個(gè)指標(biāo)有附加信息;否則,接受 原假設(shè)。 剔除變量 對(duì)于判別函數(shù)中已有的 q+ 1個(gè)變量 , 是否有對(duì)判別能力貢獻(xiàn)不顯著的變量存在 , 則應(yīng)該將其從判別函數(shù)中刪除 。 H0: xk對(duì)判別分析貢獻(xiàn)不顯著 , 即應(yīng)該剔除; H1: xk對(duì)判別分析貢獻(xiàn)顯著,即應(yīng)該保留; 檢驗(yàn)的統(tǒng)計(jì)量 )1(,),1(),1(,2,1/ ???? qkkk ??)1(,),1(),1(,2,1/ ??? qkkkF ??逐步判別法 采用有進(jìn)有出的算法 , 即每一步都進(jìn)行檢驗(yàn) 。 開始時(shí) , 模型中沒有變量 , 首先 , 將判別能力最強(qiáng)的變量 ( Wilks的統(tǒng)計(jì)量最小者 ) 引進(jìn)判別函數(shù) , 而對(duì)較早進(jìn)入判別函數(shù)的變量 , 隨著其他變量的進(jìn)入 , 其顯著性可能發(fā)生變化 , 如果其判別能力不強(qiáng)了 , 則刪除 ,當(dāng)模型中的所有變量都達(dá)到留在模型中的標(biāo)準(zhǔn)而沒有其他變量能達(dá)到進(jìn)入模型的標(biāo)準(zhǔn) , 逐步選擇過程停止 。 。 向前選入 開始時(shí)模型中沒有變量 。 每一步 , Wilks的統(tǒng)計(jì)量最小者 , 進(jìn)入模型 。 當(dāng)不再有未被選入的變量小于選入的臨界值時(shí) , 向前選入過程停止 。 向后剔除 開始時(shí) , 所有變量依賴于 VAR語句中的變量都在模型中 。 每一步 , 在 Wilks的統(tǒng)計(jì)量的準(zhǔn)則下對(duì)模型中判別能力貢獻(xiàn)最小的變量剔除 。 當(dāng)所有余下的變量都達(dá)到留在模型中的標(biāo)準(zhǔn)時(shí) , 向后剔除過程停止 。 逐步判別步驟 ? 第一步:通過計(jì)算單變量的 ?統(tǒng)計(jì)量, 逐步選擇判別變量 iiWE??i?統(tǒng)計(jì)量最小者首先進(jìn)入模型。 ? 第二步:分別計(jì)算未被選中的其它變量與選中變量 x1的 ?統(tǒng)計(jì)量, iiWE111 ?? i統(tǒng)計(jì)量 ?1i的值最小者與 x1搭配 進(jìn)入模型。 ? 第三步:類推假設(shè)已經(jīng)有 q+ 1個(gè)變量進(jìn)入了模型,要考慮較早選入模型的變量的重要性是否有較大得變化,應(yīng)及時(shí)將其從模型中剔除。其原則與引入相同。 統(tǒng)計(jì)量 ?的值最小者或 F最大者 保留 。 ? 第四步:進(jìn)行判別分析。 樣本容量:每個(gè)預(yù)測(cè)變量有 20個(gè)觀測(cè)值,最小的樣本量為每個(gè)變量有 5個(gè)觀測(cè)。最小的組的大小必須超過解釋變量的個(gè)數(shù)。 選擇變量 ( 1)一般被解釋變量為定性變量,解釋變量為定量變量 ( 2)根據(jù)研究目的選擇解釋變量 ( 3)在不同研究對(duì)象上的值有明顯的差異 樣本 判別分析主要步驟 將樣本分成兩部分,一部分用于確定判別函數(shù),另一部分用于檢查判別的效果。如果樣本量很大,可將樣本平均地或隨機(jī)地分成兩部分。 確定分析樣本和驗(yàn)證樣本 判別分析假定 解釋變量的多元正態(tài)性和各組未知但相等的協(xié)方差結(jié)構(gòu)。 ( i)不等協(xié)方差結(jié)構(gòu)可能會(huì)負(fù)面影響分類過程。 ( ii)逐步判別時(shí)要考慮解釋變量的多重共線性對(duì)判別結(jié)果的影響。 估計(jì)鑒別函數(shù) 選擇某種方法建立判別規(guī)則,有距離判別、貝葉斯判別和典型判別 計(jì)算錯(cuò)判比率和正確判定的比率。將判別函數(shù)用于驗(yàn)證 樣本,通過驗(yàn)證樣本的錯(cuò)判比率和正確判定的比率來確定判 別的效果。所謂錯(cuò)判,就是把原來是第一類的樣本判給了第 二類。對(duì)于正確判定的比率應(yīng)該達(dá)到多少才能接受,并沒有 嚴(yán)格的規(guī)則。 檢查判別的效果 用逐步判別法篩選變量 在第一步所選的變量可能在類間無差異,應(yīng)該將對(duì)判別分析無貢獻(xiàn)的變量剔除