freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

sas系統(tǒng)和數(shù)據(jù)分析判別分析-在線瀏覽

2024-10-22 17:33本頁(yè)面
  

【正文】 種判別哪個(gè)樣品歸屬于哪個(gè)組的判別準(zhǔn)則稱為最大后驗(yàn)概率準(zhǔn)則。 2. 線性判別分析 為簡(jiǎn)單起見,我們只考慮兩個(gè)總體的情況?,F(xiàn)在對(duì)于一個(gè)新的樣品 y ,我們要判斷它來(lái)自哪個(gè)總體。 那么關(guān)鍵的問(wèn)題是這里的距離函數(shù)怎么選。即 y 到母體 iG 的 距離定義為 : )()(),( 1 iii uyVuyGyd ???? ? () 那么 : )()2(2),(),( 2112121 uuVuuyGydGyd ??????? ? () 若令 : ed6e74e0641c5cc279a1942ed79030e9 商務(wù)數(shù)據(jù)分析 電子商務(wù)系列 上海財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息管理系 IS/SHUFE Page 3 of 70 )()2()( 21121 uuVuuyyw ????? ? () 上述判別規(guī)則可寫成: 當(dāng) 0)( ?yw 時(shí), 1Gy? ;當(dāng) 0)( ?yw 時(shí), 2Gy? 。 3. 非線性判別分析 如果協(xié)方差不同, 即兩個(gè)正態(tài)總體 1G 和 2G 分別服從 ),( 11 VuN 和 ),( 22 VuN 。我們?nèi)匀话凑諛悠分粮髂阁w的最近距離歸類。其中 : 2,1,)()(),( 1 ????? ? iuyVuyGyd iiii () 那么 : 21221111212111121121 )(2)(),(),( uVuuVuuVuVyyVVyGydGyd ?????? ??????????? () 這是一個(gè)二次項(xiàng)判別函數(shù)。 可見 , 當(dāng) VVV ?? 21 時(shí),我 們得到了線性判別函數(shù),因此使用線性判別函數(shù)判別;當(dāng)21 VV? 時(shí),我們得到了二次判別函數(shù),因此使用二次判別函數(shù)判別。使用線性判別函數(shù)還是二次判別函數(shù)進(jìn)行判別分析取決于兩個(gè)總體的方差。這樣檢驗(yàn) 1V 與 2V 是否相等就極為重要了。勃克斯指出 Md)1( ? 近似服從自由度為 f 的卡方 2? 分布,其中 : 2/)1( ?? ppf () ? ?16 132211111 22121 ? ?????????? ??????? p ppnnnnd () 如果有 ? ?? ?2/1)1( 2 ??? ppMd ?? ,則在顯著性水平 ? 的意義下,拒絕原假設(shè) H0,而接受備選假設(shè) H1;反之,如果有 ? ?? ?2/1)1( 2 ??? ppMd ?? ,則在顯著性水平 ? 的意義下,接受原假設(shè) H0。 4. 多類判別 對(duì)于兩類線性判別及非線性判別,都是求得一個(gè)判別函數(shù),對(duì)于任一組樣品(或待判別樣品)將其代入判別函數(shù),求得判別得分,再依判別分界點(diǎn),而決定將其判屬于哪一類。 設(shè)有 g 類 ( 2?g ),每類中有 1n , 2n ,?, gn 組樣品,每組樣品有 p 個(gè)指標(biāo),并記knnnn ???? ?21 。我們要判別 一組待判樣品 ? ??? pXXXX , 21 ?應(yīng)屬于 g 類中的哪一類。這里均值向量 ??k? 的估計(jì)式 為 : ? ? ? ????knikikk XnX11 () 協(xié)方差矩陣 ? 的估計(jì)為 : )()(1 )(1 1 )( ????? ? ?? ? XXXXgnS kigk ni kii () 其中 , ? ???? ??gknikik XnX1 11 。 有兩點(diǎn)值得注意: ① 我們這里的判別函數(shù)和判別規(guī)則并沒有涉及分布的類型,只要二階矩存在就可以了; ② 這種判別規(guī)則符合習(xí)慣,但不可能完全判別準(zhǔn)確,會(huì)發(fā)生誤判。協(xié)方差相同的兩個(gè)正態(tài)總體 1G 和2G 的分布分別是 ),( 1 VuN 和 ),( 2 VuN 。 如 圖 381 所示。誤判概率為圖中陰影部分的面積。 如果利用以上判別準(zhǔn)則,對(duì)全部 n1+n2 組樣品進(jìn)行判別,記第一類中的樣品,而被判入第二類的有 m1 個(gè);第二類的而被判入第一類的有 m2 個(gè),則誤判概率可表示為: 222111 /,/ nmPnmP ?? () G 1 G 21u 2uu x21 , GGx 被誤判來(lái)自來(lái)自樣品ed6e74e0641c5cc279a1942ed79030e9 商務(wù)數(shù)據(jù)分析 電子商務(wù)系列 上海財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息管理系 IS/SHUFE Page 7 of 70 二、 Fisher 線性函數(shù)判別 在分類判別問(wèn)題中,關(guān)鍵問(wèn)題之一是尋找一個(gè)合適的判別函數(shù)。在判別分析中, Fisher 準(zhǔn)則下的線性判別函數(shù)就是一個(gè)只要利用總體的一、二階矩就可求得的判別函數(shù)。設(shè) ijkx 代表第 i 組( ri ,2,1 ?? )中的第 j 個(gè)特征( pj ,2,1 ?? )的第 k 個(gè)觀察值( ink ?,2,1? )。同樣,我們以兩個(gè)總體為例來(lái)介紹 Fisher 準(zhǔn)則下的線性判別函數(shù),即 2?r 。符號(hào)“ *”代表一組,而符號(hào)“ +”則代表另一組。若有一個(gè)新來(lái)的點(diǎn) ),( 21 pzzzz ?? ,我們就將 z 點(diǎn)畫在圖上,看它是靠近“ *”號(hào)近一些還是靠近 “ +”號(hào)近一些。這其實(shí)就是 Fisher 線性判別分析的主要思想。如果 2?p ,則我們便可得到一個(gè)如下的線性方程式: ed6e74e0641c5cc279a1942ed79030e9 商務(wù)數(shù)據(jù)分析 電子商務(wù)系列 上海財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息管理系 IS/SHUFE Page 8 of 70 pp xaxaxaa ???? ?22110 () 問(wèn)題的關(guān)鍵是如何找出這個(gè)最具有鑒別力的線性判別函數(shù)。設(shè) ),( 21 paaaa ??? ,則 xay ?? 。因此,一條第 i 組第 k 個(gè)的 p 維觀察數(shù)據(jù)變成了一個(gè)投影點(diǎn) iky 數(shù)據(jù)。對(duì) SST 進(jìn)行方差的平方和分解,分成組內(nèi)方差 SSE 和組間方差 SSR ,如下 所示 : SSRSSEyynyySST ri iiirink iki?????? ?? ??? ? 1221 1)()( () 其中, iy 表示第 i 組的均值,即 ii xay ?? ,稱為組內(nèi)均值。因此,我們應(yīng)該選 的 a ,要能夠使得 : m a x)()()(11221 112???????????? ????? ??riiriiiirinkikriiiaVaxaxanyyyynSSESSRi () 達(dá) 到最大。即表示組與組之間系統(tǒng)因素引起的變異 SSR 比組內(nèi)隨機(jī)因素引起的變異 SSE 達(dá)到了最大值,此時(shí)才能使不同組之間的鑒別力達(dá)到最大。同樣,我們?nèi)砸詢蓚€(gè)總體為例來(lái)求解系數(shù) a 。由公式 ()可得: m a x)( )()(21212121 ???????aVVaauuuua () ed6e74e0641c5cc279a1942ed79030e9 商務(wù)數(shù)據(jù)分析 電子商務(wù)系列 上海財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息管理系 IS/SHUFE Page 9 of 70 事實(shí)上,我們只要考慮 k 的一個(gè)二次型 : 0)()()()()()()()()()()(2)(2121212121212121212121121212212121??????? ??????????? ????????????????????uuVVkaVVuuVVkaVVuuVVuukauuuuakaVVa () 因此 : )()()()(4)()(4 2112121212121 uuVVuuaVVaauuuua ??????????? ? () 當(dāng)且僅當(dāng) )()( 21121 uuVVka ??? ?時(shí),等號(hào)成立。這樣我們求得的判別函數(shù)為 : xuuVVy )()( 21121 ??? ? () 給出判別函數(shù)以后,我們還要給出判別準(zhǔn)則。 三、 應(yīng)注意的幾個(gè)問(wèn)題 ? 判別分析方法首先根據(jù)已知所屬組的樣本給出判別函數(shù),并制定判別規(guī)則,然后再判斷每一個(gè)新樣品應(yīng)屬于哪一組。 ? 從馬氏距離的角度來(lái)看 2T 統(tǒng)計(jì)量是很直觀的。 ? 判別分析中各種誤判的后果允許看作是相同的, 而在假設(shè)檢驗(yàn)中,犯兩類錯(cuò)誤的后果一般是不同的,通常將犯第一類錯(cuò)誤的后果看得更嚴(yán)重些。從數(shù)據(jù)集中得出的判別準(zhǔn)則在discrim 過(guò)程的同一個(gè)執(zhí)行過(guò)程中可應(yīng)用于第二個(gè)數(shù)據(jù)集。 discrim 過(guò)程一般由下列語(yǔ)句控制: proc discrim 選項(xiàng)列表 。 by 變量表 。 id 變量 。 testclass 變量 。 testid 變量 。 weight 變量 。 1. proc discrim 語(yǔ)句 選項(xiàng)列表 主要分成有關(guān)輸入輸出數(shù)據(jù)集的 2 類選項(xiàng)。數(shù)據(jù)集可以是一般 SAS 數(shù)據(jù)集或由SAS/STAT過(guò)程產(chǎn)生 的幾種特殊結(jié)構(gòu)的數(shù)據(jù)集。該數(shù)據(jù)集中定量變量的名字必須與 data指定數(shù)據(jù)集中相匹配。當(dāng)采用 testdata時(shí),輸出數(shù)據(jù)集選項(xiàng) testout 和 testoutd可用來(lái)產(chǎn)生檢驗(yàn)數(shù)據(jù)集中觀測(cè)的分類結(jié)果和組密度估計(jì)。當(dāng)輸入數(shù)據(jù)集是一般 SAS數(shù)據(jù)集或 type= corr, type= cov, type=csscp,或type=sscp 時(shí),該選項(xiàng)可用來(lái)產(chǎn)生判別統(tǒng)計(jì)量。 ? out=數(shù)據(jù)集名 —— 生成一個(gè)輸出 SAS 數(shù)據(jù)集,包括來(lái)自 data 指定數(shù)據(jù)集的所有數(shù)據(jù),后驗(yàn)概率和每個(gè)觀測(cè)通過(guò)重替換被分入的類。 ? outcross=數(shù)據(jù)集名 —— 生成一個(gè)輸出 SAS 數(shù)據(jù)集,包括來(lái)自 data 指定數(shù)據(jù)集的所有數(shù)據(jù),后驗(yàn) 概率和每個(gè)觀測(cè)通過(guò)交叉確認(rèn)被分入的類。 ? outd=數(shù)據(jù)集名 —— 生成一個(gè)包含來(lái)自 data 指定數(shù)據(jù)集的所有數(shù)據(jù)和每一觀測(cè)的組密度估計(jì)的輸出 SAS數(shù)據(jù)集。包含來(lái)自 testdata指定數(shù)據(jù)集的所有數(shù)據(jù),后驗(yàn)概率和每個(gè)觀測(cè)被分 入 的類。 ? testoutd=數(shù)據(jù)集名 —— 生成一個(gè)包含 testdata 指定數(shù)據(jù)集的所有數(shù)據(jù)和對(duì)每一觀測(cè)的組 密度估計(jì)的輸出 SAS數(shù)據(jù)集。當(dāng)指定 method= normal時(shí),基于類內(nèi)服從多元正態(tài)分布,并導(dǎo)出線性或二次判別函數(shù);當(dāng)ed6e74e0641c5cc279a1942ed79030e9 商務(wù)數(shù)據(jù)分析 電子商務(wù)系列 上海財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息管理系 IS/SHUFE Page 12 of 70 指定 method=npar時(shí),采用非參數(shù)方法。當(dāng) pool= yes 時(shí),采用合并協(xié)方差陣得出線性判別函數(shù);當(dāng)pool= no 時(shí),采用單個(gè)組內(nèi)協(xié)方差陣得出二次判別函數(shù);當(dāng) method= normal時(shí), pool=test要求對(duì)組內(nèi)協(xié)方差陣的齊性的似然比檢驗(yàn)進(jìn)行 Bartlett修正,當(dāng)不加選擇項(xiàng) short時(shí),線性判別函數(shù)會(huì)直接給出,而二次型判別函數(shù)需通過(guò)建立輸出數(shù)據(jù)集方式獲得。只 有 當(dāng) pool=test 指定時(shí)才選擇 slpool=選項(xiàng)。 ? threshold= p—— 指定分類中可以接受的最小后驗(yàn)概率 p值。如果某觀察樣品歸屬于某組的最大后驗(yàn)概率值小于這個(gè) p 值,那么這個(gè)觀察樣品歸入 OTHER(已知組外的組)組。 ? listerr 和 crosslisterr 選項(xiàng) —— listerr 表示要求僅僅輸出由后驗(yàn)概率產(chǎn)生錯(cuò)誤分類的那些樣品點(diǎn)的有關(guān)信息, crosslisterr 表示要求以交叉表的形式輸出實(shí)際類別與分類結(jié)果之間一致和不一致的有關(guān)信息。觀察 x分入一個(gè)組基于從 x的 k個(gè)最近鄰得到的信息。 ? kernel=biw/epa/nor/tri/uni—— 為估計(jì)組密度指定一個(gè)核密度,缺省值為 uni。缺省值為 full。 ? priors 語(yǔ)句 —— 指定先驗(yàn)概率,它有 3種指定方法, ① priors equal,表示各類先驗(yàn)概率相等,缺省值; ② priors proportional, 表示各類先驗(yàn)概率等于各類樣本頻率; ③ priors a=p1 b=p2 c=p3, 其中 a、 b 和 c 是分類標(biāo)志, p p2 和 p3 是先驗(yàn)概率, p1+p2+p3=1。該過(guò)程產(chǎn)生包括典型系數(shù)和典型變量得分的輸出數(shù)據(jù)集。給定兩組或更多組帶有幾個(gè)定量變量的觀察,典型判別分析得出與組有最大可能多重相關(guān)的變量的線性組合。線性組合的系數(shù)稱為典型系數(shù)或典型權(quán)重
點(diǎn)擊復(fù)制文檔內(nèi)容
醫(yī)療健康相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1