freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

sas系統(tǒng)和數(shù)據(jù)分析典型相關(guān)分析(參考版)

2024-08-25 20:42本頁(yè)面
  

【正文】 7598d14e6a212b8db2b4f9258f0234b1 商務(wù)數(shù)據(jù)分析 電子商務(wù)系列 上海財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息管理系 IS/SHUFE 。 run 。 var 變量表 。 testfreq 變量 。 priors 概率表 。 freq 變量 。 class 變量 。用以得出判別準(zhǔn)則的數(shù)據(jù)集稱(chēng)為訓(xùn)練數(shù)據(jù)集或標(biāo)定數(shù)據(jù)集。 八、 Discrim 判別分析過(guò)程 對(duì)于每個(gè)觀測(cè)都含有一個(gè)或多個(gè)定量變量和一個(gè)定義觀測(cè)組的分類(lèi)變量的觀測(cè)數(shù)據(jù)集,discrim 過(guò)程確定一個(gè)判別準(zhǔn)則把每個(gè)觀測(cè)分入其中一組。比如,欲檢驗(yàn)假設(shè) 00 : ???H ,則檢驗(yàn)的結(jié)果取決于樣本均值 x 到總體 ),( 0 ??pN 的平方馬氏距離,這個(gè)距離越小,越傾向于接受假設(shè) 0H ;反之,這個(gè)距離越大,就越傾向于拒絕 0H 。常用的判別方法有距離判別、貝葉斯判別、典型判別等。取各總體均值的加權(quán)平均為比較值,即: )()( 2211121 uVuVVVu ??? ? () 相應(yīng)的劃分為: ? ?0))(()(: 211211 ????? ? uyuuVVyD ? ?0))(()(: 211212 ????? ? uyuuVVyD () 如果不知道兩個(gè)總體的特征,即 iu 和 iV 未知,只知道從兩個(gè)總體各抽取了 1n 和 2n 個(gè)樣品,那么線性判別函數(shù)中的 iu 和 iV 可分別由其無(wú)偏估計(jì)值代替: xuuVVy )()( 21121 ??? ? () 其中: ??? 11 111 1 nk kynu () ??? 21 222 1 nk kynu () ?? ????? 1 1 111111 ))((11 nk kk uyuynV () ?? ????? 2 1 222222 ))((11 nk kk uyuynV () 相應(yīng)的判別準(zhǔn)則為:取 )()( 2211121 uVuVVVu ??? ? () 相應(yīng)的劃分為: ? ?0))(()(: 211211 ????? ? uyuuVVyD () 7598d14e6a212b8db2b4f9258f0234b1 商務(wù)數(shù)據(jù)分析 電子商務(wù)系列 上海財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息管理系 IS/SHUFE Page 23 of 44 ? ?0))(()(: 211212 ????? ? uyuuVVyD 同樣,也可以把 Fisher 線性函數(shù)判別推廣到多個(gè)總體的情形,就是典型判別分析( Canonical Discriminant Analysis )。那么: 7598d14e6a212b8db2b4f9258f0234b1 商務(wù)數(shù)據(jù)分析 電子商務(wù)系列 上海財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息管理系 IS/SHUFE Page 22 of 44 )()()()( )()( 211212121 2121 uuVVuuaVVa auuuua ??????? ???? ? () 當(dāng)且僅當(dāng) )()( 21121 uuVVka ??? ?,式( )達(dá)到最大值: )()()(21 2112121 uuVVuu ???? ? () 由于 k 為任意實(shí)數(shù),可令 1?k 。設(shè)兩個(gè)總體的均值分別為 1u 和 2u ,協(xié)方差陣分別為 1V 和 2V 。 下面我們看如何求出判別函數(shù) xay ?? 中的系數(shù) a 來(lái)。其中, ix 為第 i 組的均值, x 為所有組的均值, iV 為第 i 組的協(xié)方差矩陣。組間方差 SSR 代表了系統(tǒng)因素引起的變異,而組內(nèi)方差 SSE 代表了隨機(jī)因素引起的變異。我們考慮所有數(shù)據(jù)點(diǎn) iky 的總變異之和(方差): 7598d14e6a212b8db2b4f9258f0234b1 商務(wù)數(shù)據(jù)分析 電子商務(wù)系列 上海財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息管理系 IS/SHUFE Page 21 of 44 21 1 )( yySSTrink iki ?? ? ?? ? () 其中, y 為所有 r 組的總均值,即 xay ?? 。將每個(gè)觀察到的資料代入到線性函數(shù)中得到變量 y 值: i p kpkikiik xaxaxay ???? ?2211 () 從本質(zhì)上說(shuō),這是將 p 維數(shù)據(jù)投影到某個(gè)具體方向 a 上。顯然,我們需要通過(guò)已經(jīng)觀察到的資料來(lái)訓(xùn)練出這個(gè)有鑒別力的線性判別函數(shù)。其中的技術(shù)部分,則是找出一個(gè)最具有鑒別力的線性判別函數(shù)。如果我們找到了一條最具有鑒別力的直線 L ,我們只需要看這個(gè)新來(lái)的 z 點(diǎn)在這條直線 L 的這一邊還是另一邊即可判別歸于哪一個(gè)組。一個(gè)簡(jiǎn)單的想法是:我們不妨在這個(gè)平面上畫(huà)一條直線 L ,能將兩組盡可能地分開(kāi),一組為這條直線的這一邊,另一組為這條直線的另一邊。 G 1 G 21u 2uu x21 , GGx 被誤判來(lái)自來(lái)自樣品7598d14e6a212b8db2b4f9258f0234b1 商務(wù)數(shù)據(jù)分析 電子商務(wù)系列 上海財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息管理系 IS/SHUFE Page 20 of 44 圖 Fisher 線性判別分析示意圖 圖 所示為 2,2 ?? pr 的情況,它是僅有兩組且每組只有兩個(gè)特性的簡(jiǎn)單情況,可以在平面上示意出來(lái)。因此,( ipkkiki xxx , 21 ? )便相當(dāng)于第 i 組里面的第 k 個(gè)觀察所測(cè)到的 p 個(gè)特性。 設(shè)我們觀察到的資料為一個(gè) p 維向量 ),( 21 ?? pxxxx ? 。如果判別函數(shù)比較復(fù)雜,那么在實(shí)際使用中就非常不方便,因此為方便起見(jiàn),有時(shí)尋找在某種意義下為最優(yōu)的線性判別函數(shù)。它們?yōu)椋? ? ? ? ?VuuPVuuP ,1 2211 ?????? () 這里, ? 是正態(tài)分布的累積分布函數(shù)。 7598d14e6a212b8db2b4f9258f0234b1 商務(wù)數(shù)據(jù)分析 電子商務(wù)系列 上海財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息管理系 IS/SHUFE Page 19 of 44 圖 381 二類(lèi)判別誤判概率圖 所謂誤判概 率的問(wèn)題是:定義誤判概率 21,PP , 1P 表示原是第一類(lèi)的樣品,而誤判為第二類(lèi)的概率; 2P 表示原是第二類(lèi)的樣品,而誤判為第一類(lèi)的概率。如果某樣品 X 來(lái)自 1G ,但是在 2 21 uuu ?? 的右邊,那么根據(jù)判別函數(shù) )()2()(21121 uuVuuyyw ????? ?和判別規(guī)則將判斷它來(lái)自 2G ,這時(shí)就發(fā)生了誤判。 5. 誤判的概率 下面我們?nèi)砸哉龖B(tài)總體為例簡(jiǎn)單討論一下誤判的概率。則距離 ??2k? 的估計(jì)就可以表示為: ? ?? ? ? ?? ?kkk XXSXXXd ???? ? 1)( () 對(duì)于判別準(zhǔn)則:對(duì)于任一組待判樣品 X ,利用式( )計(jì)算 ? ? gkXd k ,2,1, ?? ,記: ? ? ? ? ? ? ? ?? ?XdXdXdXd gj ,m in 21 ?? () 若 ? ?Xdj 為最小,則判樣品 X 屬于第 j 類(lèi)。 與兩類(lèi)判別同理,計(jì)算 X 與各類(lèi)的重心(平均向量) ??k? 之間的 Mahalanobis 距離為: ? ? ? ?? ? ? ?? ? gkXX kkk ,2,1,12 ???????? ? ?? () 若有 ??2j? 為最小,則判 X 屬于第 j 類(lèi)。假設(shè)各組樣品都是相互獨(dú)立的正態(tài)隨機(jī)變量,即: ? ? ? ? ? ? ? ? ? ?? ?kkkpikiki NXXX ?,~),( 21 ?? () 其中 , ??k? 是第 k 類(lèi)的 p 個(gè)變量的數(shù)學(xué)期望(向量),矩陣 ??k? 是相應(yīng)于第 k 類(lèi)的 p 個(gè)變量的協(xié)方差矩陣,假定這 g 個(gè)協(xié)方差矩陣是一樣的,即 ? ? ? ? ? ? ???????? g?21 。但是,許多實(shí)際問(wèn)題所提出的可能是多類(lèi)判別的問(wèn)題。 在接受原假設(shè) H0的情況下,使用式 ()的線性判別函數(shù)進(jìn)行判別分析;線性判別函數(shù))(yw 中的 1u 、 2u 和 V 可分別由其無(wú)偏估計(jì)值代替: )()2()( 21121 uuVuuyyw ????? ? () 其中: ??? 1111 1 ni ixnu () ??? 2122 1 ni iynu () 7598d14e6a212b8db2b4f9258f0234b1 商務(wù)數(shù)據(jù)分析 電子商務(wù)系列 上海財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息管理系 IS/SHUFE Page 17 of 44 ?????? ?????????? ?? ?? 21 1 221 1121 ))(())((21 ni iini ii uyuyuxuxnnV () 在接受假設(shè) H1的情況下,使用二次判別函數(shù)進(jìn)行判別分析;二次判別函數(shù)中的 1u 、 2u 和1V 、 2V 可分別由其無(wú)偏估計(jì)值代替: ??? 1111 1 ni ixnu () ??? 2122 1 ni iynu () ?? ????? 11 1111 ))((11 ni ii uxuxnV () ?? ????? 21 2222 ))((11 ni ii uyuynV () 其實(shí),可以很容易把距離判別推廣到多個(gè)總體的情形。假定: 原假設(shè) 210 : VVH ? 備選假設(shè) 211 : VVH ? 則檢驗(yàn)統(tǒng)計(jì)量 M 為: 1ln)1(2ln)2(212121 ???????? ?? iii i nSnnn SnnM () 其中, S 為估計(jì)合并協(xié)方差陣, iS 為第 i 組內(nèi)的估計(jì)協(xié)方差陣。如果有VVV ?? 21 ,就利用線性判別函數(shù)進(jìn)行判別分析,否則,就利用二次判別函數(shù)判別。 一般情況下,我們并不知道兩個(gè)總體的特征,即 1u 、 2u 和 1V 、 2V 是未知的,只有從兩7598d14e6a212b8db2b4f9258f0234b1 商務(wù)數(shù)據(jù)分析 電子商務(wù)系列 上海財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息管理系 IS/SHUFE Page 16 of 44 個(gè)總體 中 抽取樣品,假設(shè)從兩個(gè)總體各抽取了 1n 和 2n 個(gè)樣品1, 21 nxxx ?;2, 21 nyyy ?。這樣判別準(zhǔn)則就變成為判斷式 ()是取正還是取負(fù)的問(wèn)題了。即判別準(zhǔn)則為:如果 ),(),( 21 GydGyd ? ,則 1Gy ? ;如果 ),(),( 21 GydGyd ? ,則 2Gy ? ?,F(xiàn)在對(duì)于一個(gè)新的樣品 y ,我們要判斷它來(lái)自哪個(gè)總體。 若 1u 、 2u 和 V 已知,則 )(yw 是 y 的線性函數(shù),稱(chēng)為線性判別函數(shù)。多元統(tǒng)計(jì)分析中最著名的一個(gè)距離是由馬哈拉諾比斯( Mahalanobis)提出的,習(xí)慣上稱(chēng)為馬氏距離。 7598d14e6a212b8db2b4f9258f0234b1 商務(wù)數(shù)據(jù)分析 電子商務(wù)系列 上海財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息管理系 IS/SHUFE Page 15 of 44 最直觀的方法就是計(jì)算 y 到兩個(gè)總體的距離 ),( 1Gyd 和 ),( 2Gyd ,并按下述規(guī)則判斷:如果 ),(),( 21 GydGyd ? ,則 1Gy? ;如果 ),(),( 21 GydGyd ? ,則 2Gy? 。設(shè)有兩個(gè)協(xié)方差 V 相同的正態(tài)總體 1G 和 2G ,它們的分布分別是 ),( 1 VuN 和 ),( 2 VuN 。如果此 最大后驗(yàn)概率小于指定的 閾 值( threshold),則將樣品 x 判歸于除 k 組以外的其他組。這里: ??? ???? 全相等若各組協(xié)方差陣 不全相等若各組協(xié)方差陣iiieig 0lo g () ??? ?? 全相等若各組先驗(yàn)概率 不全相等若各組先驗(yàn)概率iiiei pp
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1