freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

多元統(tǒng)計(jì)分析及excel應(yīng)用-資料下載頁(yè)

2025-06-16 01:47本頁(yè)面
  

【正文】 價(jià)效果。因此因子分析方法在股市等經(jīng)濟(jì)領(lǐng)域能很好的應(yīng)用。六、偏最小二乘回歸分析方法 (一)偏最小二乘回歸分析方法原理簡(jiǎn)介偏最小二乘判別分析(Partial least squares discrimination analysis,PLS—DA)是一種穩(wěn)健的判別分析統(tǒng)計(jì)方法,特別適合于解釋變量數(shù)多且存在著多重共線性,樣本觀測(cè)數(shù)少,且干擾噪聲大的情況,而這種情況在基因微陣列表達(dá)譜數(shù)據(jù)是極為常見(jiàn)的。偏最小二乘判別分析首先將樣本類(lèi)別用啞變量作處理,采用克羅內(nèi)克兒符號(hào),即:然后,運(yùn)用偏最小二乘回歸建立解釋變量與反應(yīng)變量(啞變量)之間的關(guān)系模型。最后,通過(guò)比較模型的反應(yīng)變量預(yù)測(cè)值大小,來(lái)確定各樣本的類(lèi)別,即若某個(gè)啞變量分量的預(yù)測(cè)值最大,則判定該樣本屬于該啞變量所對(duì)應(yīng)的類(lèi)別。見(jiàn)圖1。首先,從基因?qū)W說(shuō)角度來(lái)說(shuō),某類(lèi)疾病較為特異的特征通常與部分基因的表達(dá)水平的變化有關(guān),而不是全部基因;其次,若籠統(tǒng)地用全部基因表達(dá)水平來(lái)進(jìn)行分類(lèi),則將會(huì)因解釋變量空間的維度過(guò)高導(dǎo)致計(jì)算時(shí)間和內(nèi)存容量要求急劇增加,使得計(jì)算難以進(jìn)行;最后,受到引入模型中的眾多解釋變量(基因)噪聲干擾累積效應(yīng)的影響,也將會(huì)使得模型判別效果下降,影響分類(lèi)的預(yù)測(cè)精度和擬合精度。因此,在偏最小二乘判別分析中,一個(gè)較為常用的解釋變量篩選統(tǒng)計(jì)指標(biāo)是Wold于1994提出的變量投影重要度(Variable Importance for the Projection,VIP),它按照解釋變量的影響強(qiáng)度來(lái)進(jìn)行變量篩選,是衡量解釋變量對(duì)反應(yīng)變量(類(lèi)別)解釋能力的統(tǒng)計(jì)量。變量投影重要度(VIP)定義式如下:式中,whj是第h個(gè)主成分的權(quán)重向量的第歹個(gè)分量;Rd(Y;th)是Y與第h個(gè)主成分之間的決定系數(shù);Rd(Y;t1,?,tm )是Y與第1至m個(gè)主成分的決定系數(shù)之和。本文將采用統(tǒng)計(jì)軟件SAS的PLS過(guò)程及編制相關(guān)宏完成急性白血病識(shí)別模型的構(gòu)建。(二)偏最小二乘回歸分析案例敘述分析1999年Golub等人的研究表明,利用基因微陣列技術(shù),構(gòu)造基于基因表達(dá)譜的腫瘤分型預(yù)測(cè)模型,可以為腫瘤的診斷提供一種更為客觀和準(zhǔn)確的方法。因而,本文采用了Golub等收集的急性白血病基因表達(dá)譜數(shù)據(jù)集作為實(shí)驗(yàn)樣本集,該數(shù)據(jù)集共含72例樣本,每個(gè)樣本均含7 129個(gè)基因的表達(dá)數(shù)據(jù)。通過(guò)常規(guī)臨床診斷和組織學(xué)檢查,該數(shù)據(jù)集中有47例樣本被診斷為急性淋巴性白血病(ALL),25例樣本被診斷為急性髓性細(xì)胞白血病(AMI )。由于樣本量較小,變量較多,變量數(shù)遠(yuǎn)遠(yuǎn)多于樣本量,為了獲得較為可靠的白血病分型錯(cuò)誤率估計(jì),更好地評(píng)價(jià)所建模型的擬合與預(yù)測(cè)效果,并同Golub等人的研究進(jìn)行對(duì)照比較,因此,本研究采用了如下四個(gè)步驟進(jìn)行樣本分類(lèi)錯(cuò)誤率的估計(jì)。:為了使本研究與Golub等人的研究具有可比性,仍然采用與Golub等研究完全一致的樣本劃分,整個(gè)數(shù)據(jù)集劃分為訓(xùn)練樣本集與獨(dú)立測(cè)試樣本集,其中訓(xùn)練樣本集含急性淋巴性白血病(ALL)病例27例,急性髓性細(xì)胞白血病(AML)11例,測(cè)試樣本集中含20例AI L39。14例AML。:利用訓(xùn)練樣本集建立白血病分型識(shí)別模型,采用Jackknife法評(píng)價(jià)通過(guò)偏最小二乘判別分析(PLS—DA)所建立的識(shí)別模型在訓(xùn)練樣本集上的擬合效果,即每次保留一個(gè)不同的樣本作為測(cè)試用,其余樣本用作訓(xùn)練樣本集,考察識(shí)別模型分類(lèi)正確與誤判的情況;并且,分析運(yùn)用VIP指標(biāo)篩選基因前后所建識(shí)別模型的實(shí)際擬合效果。:在進(jìn)行擬合精度評(píng)價(jià)的同時(shí),采用與擬合精度評(píng)價(jià)相類(lèi)似的步驟,利用獨(dú)立測(cè)試樣本集考察通過(guò)偏最小二乘判別分析(PLS~DA)所建立的識(shí)別模型預(yù)測(cè)白血病分型正確與誤判情況,以評(píng)價(jià)其實(shí)際預(yù)測(cè)精度。:對(duì)通過(guò)PLS—DA所建模型和Golub等人所建模型的擬合精度和預(yù)測(cè)精度予以對(duì)比分析,評(píng)價(jià)它們對(duì)白血病分型的實(shí)際效果。在未作基因篩選的原始數(shù)據(jù)和經(jīng)過(guò)基因篩選的相關(guān)數(shù)據(jù)集上,使用偏最小二乘判別分析(PLS—DA)分析該數(shù)據(jù)集,建立急性白血病識(shí)別模型,并分別進(jìn)行上述步驟,對(duì)其判別效果予以評(píng)價(jià)。其中,基因篩選采用VIP得分,提取前50個(gè)影響強(qiáng)度最大的基因。由表2可見(jiàn),未經(jīng)基因篩選的偏最小二乘判別分析在訓(xùn)練集的正確分類(lèi)率約為95%,而在測(cè)試集上的正確率則約為91% ;經(jīng)過(guò)基因篩選的偏最小二乘判別分析無(wú)論在訓(xùn)練集上,還是測(cè)試集上,其正確率均為100%。由此可見(jiàn),經(jīng)過(guò)基因篩選的偏最小二乘判別分析,無(wú)論擬合精度,還是預(yù)測(cè)精度均優(yōu)于未經(jīng)篩選的偏最小二乘判別分析。針對(duì)腫瘤的基因表達(dá)微陣列數(shù)據(jù)特點(diǎn),Golub等首先采用了一種類(lèi)似于t統(tǒng)計(jì)量的信噪比形式作為基因?qū)δ[瘤的辨識(shí)性度量指標(biāo),用以分別檢測(cè)每個(gè)基因在白血病骨髓中表達(dá)水平的差異程度。Golub等利用該指標(biāo)選取出50個(gè)對(duì)腫瘤辨識(shí)性較大的基因,并在此過(guò)程中利用鄰域分析(Neighborhood Analysis)方法對(duì)急性白血病進(jìn)行分類(lèi),從而構(gòu)建出急性白血病的識(shí)別模型。由于經(jīng)過(guò)基因篩選的偏最小二乘判別分析的判別效果優(yōu)于未經(jīng)篩選的偏最小二乘判別分析,因而,以下仍將根據(jù)VIP得分,提取前50個(gè)最相關(guān)的基因,構(gòu)建急性白血病的識(shí)別模型。見(jiàn)表3。 由表3可見(jiàn),基于偏最小二乘判別分析的白血病識(shí)別模型的擬合精度和預(yù)測(cè)精度均優(yōu)于Golub等人提出的鄰域分析,同時(shí),基于偏最小二乘判別分析的白血病識(shí)別模型也不存在拒絕識(shí)別的現(xiàn)象。因此,基于偏最小二乘判別分析的識(shí)別模型優(yōu)于Golub等的鄰域分析。 由于基因表達(dá)譜數(shù)據(jù)樣本少,維度高,數(shù)據(jù)量巨大,而且各種干擾混雜于其中,從而,要求判別分析方法能夠高效地在大規(guī)模基因表達(dá)譜中濾除噪聲干擾,準(zhǔn)確提取特征基因,建立有效的腫瘤識(shí)別模型。偏最小二乘判別分析(PLS—DA)比較適合于處理此類(lèi)特點(diǎn)的基因表達(dá)譜數(shù)據(jù),該方法通過(guò)協(xié)方差最大化準(zhǔn)則能有效地去除基因微陣列表達(dá)數(shù)據(jù)中的噪聲干擾,降低數(shù)據(jù)維度,從而,使得用偏最小二乘判別分析建立的白血病分型識(shí)別模型不僅具有較好的擬合精度,而且可以獲得較高的分型準(zhǔn)確率(包括擬合精度和預(yù)測(cè)精度)。偏最小二乘判別分析的基因微陣列建模方法,通過(guò)VIP得分從全部解釋變量(基因)中篩選出對(duì)分型有較強(qiáng)影響的變量(基因),尋找出與疾病類(lèi)別關(guān)聯(lián)最緊密的基因,利用比較穩(wěn)健的統(tǒng)計(jì)分析方法—— 偏最小二乘判別分析,建立疾病類(lèi)別識(shí)別模型,從而,有效地提高了所建模型的分型準(zhǔn)確度(包括擬合精度和預(yù)測(cè)精度),更好地識(shí)別出疾病種類(lèi);并且,基于VIP得分的變量篩選無(wú)需正態(tài)性假設(shè),適應(yīng)范圍更為寬廣。、(三)偏最小二乘回歸分析方法在社會(huì)的應(yīng)用由上面的案例可以得出:偏最小二乘回歸分析方法是一個(gè)比較文件的統(tǒng)計(jì)分析方法,它在醫(yī)學(xué)以及工程技術(shù)領(lǐng)域都有著重要的左右。七、總結(jié)多元統(tǒng)計(jì)分析方法能夠使復(fù)雜的指標(biāo)簡(jiǎn)單化,每個(gè)事物現(xiàn)象都表現(xiàn)為多個(gè)方面,需要有多個(gè)指標(biāo)來(lái)描述、刻畫(huà)事物的質(zhì)和量,這些構(gòu)成指標(biāo)體系的多個(gè)指標(biāo)各有側(cè)重地解釋著同一個(gè)事物的質(zhì),必然存在著多重共線性,為了將這些指標(biāo)反映的內(nèi)容綜合起來(lái),尋找一個(gè)簡(jiǎn)單綜合指標(biāo),多元統(tǒng)計(jì)分析能幫助在不損失信息的情況下,通過(guò)變換和構(gòu)造模型,剔除指標(biāo)間相互制約的成分,使復(fù)雜數(shù)據(jù)簡(jiǎn)單化. 比如,主成分分析、因子分析以及對(duì)應(yīng)分析等多元統(tǒng)計(jì)分析方法就是這一類(lèi)方法。另外多元統(tǒng)計(jì)分析各個(gè)方法都有自己不同于其他方法的優(yōu)點(diǎn),這也使得各種方法在不同社會(huì)領(lǐng)域上起著不同的作用,相輔相成。參考文獻(xiàn)蔣紅衛(wèi),夏結(jié)來(lái),于莉莉.偏最小二乘回歸的離群點(diǎn)檢測(cè)方法.中國(guó)衛(wèi)生統(tǒng)計(jì),2004,21(3):135—138蔣紅衛(wèi),夏結(jié)來(lái).偏最小二乘回歸及其應(yīng)用.第四軍醫(yī)大學(xué)學(xué)報(bào),2003,24(3):280—283 葉依廣,[J].長(zhǎng)江流域資源與環(huán)境,2004(3) 張立軍,[J]. 財(cái)經(jīng)理論與實(shí)踐,2004(3) 雷斌,綜合利用數(shù)據(jù)指標(biāo)指導(dǎo)企業(yè)決策[J]. 西南科技大學(xué)學(xué)報(bào)(哲學(xué)杜會(huì)科學(xué)版),2004(3) 何曉群,現(xiàn)代統(tǒng)計(jì)分析方法與應(yīng)用[M].北京:中國(guó)人民大學(xué)出版社,1998汪濤,饒海斌, 2002單位根和協(xié)整分析[J]統(tǒng)計(jì)研究(5)  張妍,2000,套利定價(jià)理論在中國(guó)上海股市的經(jīng)驗(yàn)檢驗(yàn)[J]。世界經(jīng)濟(jì)(10)。 FAMA E, FRENCH yields and expected stock returns[J]。Journal of Financial Economics, 22: 327左瑞瓊,多元統(tǒng)計(jì)分析方法介紹及在經(jīng)濟(jì)中的應(yīng)用,時(shí)代經(jīng)貿(mào)2007年9月第5 卷總第78期董艷國(guó),黃愛(ài)武,白海軍,自明. 基于多元統(tǒng)計(jì)分析方法對(duì)中學(xué)生身體素質(zhì)的動(dòng)態(tài)分析, 首都師范大學(xué)學(xué)報(bào)(自然科學(xué)版)第28 卷第6 期沈菊紅,關(guān)于多元統(tǒng)計(jì)分析課程教學(xué)的幾點(diǎn)思考. 學(xué)科教學(xué)200
點(diǎn)擊復(fù)制文檔內(nèi)容
物理相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1