freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

多元統(tǒng)計分析及excel應(yīng)用-資料下載頁

2025-06-16 01:47本頁面
  

【正文】 價效果。因此因子分析方法在股市等經(jīng)濟(jì)領(lǐng)域能很好的應(yīng)用。六、偏最小二乘回歸分析方法 (一)偏最小二乘回歸分析方法原理簡介偏最小二乘判別分析(Partial least squares discrimination analysis,PLS—DA)是一種穩(wěn)健的判別分析統(tǒng)計方法,特別適合于解釋變量數(shù)多且存在著多重共線性,樣本觀測數(shù)少,且干擾噪聲大的情況,而這種情況在基因微陣列表達(dá)譜數(shù)據(jù)是極為常見的。偏最小二乘判別分析首先將樣本類別用啞變量作處理,采用克羅內(nèi)克兒符號,即:然后,運用偏最小二乘回歸建立解釋變量與反應(yīng)變量(啞變量)之間的關(guān)系模型。最后,通過比較模型的反應(yīng)變量預(yù)測值大小,來確定各樣本的類別,即若某個啞變量分量的預(yù)測值最大,則判定該樣本屬于該啞變量所對應(yīng)的類別。見圖1。首先,從基因?qū)W說角度來說,某類疾病較為特異的特征通常與部分基因的表達(dá)水平的變化有關(guān),而不是全部基因;其次,若籠統(tǒng)地用全部基因表達(dá)水平來進(jìn)行分類,則將會因解釋變量空間的維度過高導(dǎo)致計算時間和內(nèi)存容量要求急劇增加,使得計算難以進(jìn)行;最后,受到引入模型中的眾多解釋變量(基因)噪聲干擾累積效應(yīng)的影響,也將會使得模型判別效果下降,影響分類的預(yù)測精度和擬合精度。因此,在偏最小二乘判別分析中,一個較為常用的解釋變量篩選統(tǒng)計指標(biāo)是Wold于1994提出的變量投影重要度(Variable Importance for the Projection,VIP),它按照解釋變量的影響強度來進(jìn)行變量篩選,是衡量解釋變量對反應(yīng)變量(類別)解釋能力的統(tǒng)計量。變量投影重要度(VIP)定義式如下:式中,whj是第h個主成分的權(quán)重向量的第歹個分量;Rd(Y;th)是Y與第h個主成分之間的決定系數(shù);Rd(Y;t1,?,tm )是Y與第1至m個主成分的決定系數(shù)之和。本文將采用統(tǒng)計軟件SAS的PLS過程及編制相關(guān)宏完成急性白血病識別模型的構(gòu)建。(二)偏最小二乘回歸分析案例敘述分析1999年Golub等人的研究表明,利用基因微陣列技術(shù),構(gòu)造基于基因表達(dá)譜的腫瘤分型預(yù)測模型,可以為腫瘤的診斷提供一種更為客觀和準(zhǔn)確的方法。因而,本文采用了Golub等收集的急性白血病基因表達(dá)譜數(shù)據(jù)集作為實驗樣本集,該數(shù)據(jù)集共含72例樣本,每個樣本均含7 129個基因的表達(dá)數(shù)據(jù)。通過常規(guī)臨床診斷和組織學(xué)檢查,該數(shù)據(jù)集中有47例樣本被診斷為急性淋巴性白血病(ALL),25例樣本被診斷為急性髓性細(xì)胞白血病(AMI )。由于樣本量較小,變量較多,變量數(shù)遠(yuǎn)遠(yuǎn)多于樣本量,為了獲得較為可靠的白血病分型錯誤率估計,更好地評價所建模型的擬合與預(yù)測效果,并同Golub等人的研究進(jìn)行對照比較,因此,本研究采用了如下四個步驟進(jìn)行樣本分類錯誤率的估計。:為了使本研究與Golub等人的研究具有可比性,仍然采用與Golub等研究完全一致的樣本劃分,整個數(shù)據(jù)集劃分為訓(xùn)練樣本集與獨立測試樣本集,其中訓(xùn)練樣本集含急性淋巴性白血病(ALL)病例27例,急性髓性細(xì)胞白血病(AML)11例,測試樣本集中含20例AI L39。14例AML。:利用訓(xùn)練樣本集建立白血病分型識別模型,采用Jackknife法評價通過偏最小二乘判別分析(PLS—DA)所建立的識別模型在訓(xùn)練樣本集上的擬合效果,即每次保留一個不同的樣本作為測試用,其余樣本用作訓(xùn)練樣本集,考察識別模型分類正確與誤判的情況;并且,分析運用VIP指標(biāo)篩選基因前后所建識別模型的實際擬合效果。:在進(jìn)行擬合精度評價的同時,采用與擬合精度評價相類似的步驟,利用獨立測試樣本集考察通過偏最小二乘判別分析(PLS~DA)所建立的識別模型預(yù)測白血病分型正確與誤判情況,以評價其實際預(yù)測精度。:對通過PLS—DA所建模型和Golub等人所建模型的擬合精度和預(yù)測精度予以對比分析,評價它們對白血病分型的實際效果。在未作基因篩選的原始數(shù)據(jù)和經(jīng)過基因篩選的相關(guān)數(shù)據(jù)集上,使用偏最小二乘判別分析(PLS—DA)分析該數(shù)據(jù)集,建立急性白血病識別模型,并分別進(jìn)行上述步驟,對其判別效果予以評價。其中,基因篩選采用VIP得分,提取前50個影響強度最大的基因。由表2可見,未經(jīng)基因篩選的偏最小二乘判別分析在訓(xùn)練集的正確分類率約為95%,而在測試集上的正確率則約為91% ;經(jīng)過基因篩選的偏最小二乘判別分析無論在訓(xùn)練集上,還是測試集上,其正確率均為100%。由此可見,經(jīng)過基因篩選的偏最小二乘判別分析,無論擬合精度,還是預(yù)測精度均優(yōu)于未經(jīng)篩選的偏最小二乘判別分析。針對腫瘤的基因表達(dá)微陣列數(shù)據(jù)特點,Golub等首先采用了一種類似于t統(tǒng)計量的信噪比形式作為基因?qū)δ[瘤的辨識性度量指標(biāo),用以分別檢測每個基因在白血病骨髓中表達(dá)水平的差異程度。Golub等利用該指標(biāo)選取出50個對腫瘤辨識性較大的基因,并在此過程中利用鄰域分析(Neighborhood Analysis)方法對急性白血病進(jìn)行分類,從而構(gòu)建出急性白血病的識別模型。由于經(jīng)過基因篩選的偏最小二乘判別分析的判別效果優(yōu)于未經(jīng)篩選的偏最小二乘判別分析,因而,以下仍將根據(jù)VIP得分,提取前50個最相關(guān)的基因,構(gòu)建急性白血病的識別模型。見表3。 由表3可見,基于偏最小二乘判別分析的白血病識別模型的擬合精度和預(yù)測精度均優(yōu)于Golub等人提出的鄰域分析,同時,基于偏最小二乘判別分析的白血病識別模型也不存在拒絕識別的現(xiàn)象。因此,基于偏最小二乘判別分析的識別模型優(yōu)于Golub等的鄰域分析。 由于基因表達(dá)譜數(shù)據(jù)樣本少,維度高,數(shù)據(jù)量巨大,而且各種干擾混雜于其中,從而,要求判別分析方法能夠高效地在大規(guī)?;虮磉_(dá)譜中濾除噪聲干擾,準(zhǔn)確提取特征基因,建立有效的腫瘤識別模型。偏最小二乘判別分析(PLS—DA)比較適合于處理此類特點的基因表達(dá)譜數(shù)據(jù),該方法通過協(xié)方差最大化準(zhǔn)則能有效地去除基因微陣列表達(dá)數(shù)據(jù)中的噪聲干擾,降低數(shù)據(jù)維度,從而,使得用偏最小二乘判別分析建立的白血病分型識別模型不僅具有較好的擬合精度,而且可以獲得較高的分型準(zhǔn)確率(包括擬合精度和預(yù)測精度)。偏最小二乘判別分析的基因微陣列建模方法,通過VIP得分從全部解釋變量(基因)中篩選出對分型有較強影響的變量(基因),尋找出與疾病類別關(guān)聯(lián)最緊密的基因,利用比較穩(wěn)健的統(tǒng)計分析方法—— 偏最小二乘判別分析,建立疾病類別識別模型,從而,有效地提高了所建模型的分型準(zhǔn)確度(包括擬合精度和預(yù)測精度),更好地識別出疾病種類;并且,基于VIP得分的變量篩選無需正態(tài)性假設(shè),適應(yīng)范圍更為寬廣。、(三)偏最小二乘回歸分析方法在社會的應(yīng)用由上面的案例可以得出:偏最小二乘回歸分析方法是一個比較文件的統(tǒng)計分析方法,它在醫(yī)學(xué)以及工程技術(shù)領(lǐng)域都有著重要的左右。七、總結(jié)多元統(tǒng)計分析方法能夠使復(fù)雜的指標(biāo)簡單化,每個事物現(xiàn)象都表現(xiàn)為多個方面,需要有多個指標(biāo)來描述、刻畫事物的質(zhì)和量,這些構(gòu)成指標(biāo)體系的多個指標(biāo)各有側(cè)重地解釋著同一個事物的質(zhì),必然存在著多重共線性,為了將這些指標(biāo)反映的內(nèi)容綜合起來,尋找一個簡單綜合指標(biāo),多元統(tǒng)計分析能幫助在不損失信息的情況下,通過變換和構(gòu)造模型,剔除指標(biāo)間相互制約的成分,使復(fù)雜數(shù)據(jù)簡單化. 比如,主成分分析、因子分析以及對應(yīng)分析等多元統(tǒng)計分析方法就是這一類方法。另外多元統(tǒng)計分析各個方法都有自己不同于其他方法的優(yōu)點,這也使得各種方法在不同社會領(lǐng)域上起著不同的作用,相輔相成。參考文獻(xiàn)蔣紅衛(wèi),夏結(jié)來,于莉莉.偏最小二乘回歸的離群點檢測方法.中國衛(wèi)生統(tǒng)計,2004,21(3):135—138蔣紅衛(wèi),夏結(jié)來.偏最小二乘回歸及其應(yīng)用.第四軍醫(yī)大學(xué)學(xué)報,2003,24(3):280—283 葉依廣,[J].長江流域資源與環(huán)境,2004(3) 張立軍,[J]. 財經(jīng)理論與實踐,2004(3) 雷斌,綜合利用數(shù)據(jù)指標(biāo)指導(dǎo)企業(yè)決策[J]. 西南科技大學(xué)學(xué)報(哲學(xué)杜會科學(xué)版),2004(3) 何曉群,現(xiàn)代統(tǒng)計分析方法與應(yīng)用[M].北京:中國人民大學(xué)出版社,1998汪濤,饒海斌, 2002單位根和協(xié)整分析[J]統(tǒng)計研究(5)  張妍,2000,套利定價理論在中國上海股市的經(jīng)驗檢驗[J]。世界經(jīng)濟(jì)(10)。 FAMA E, FRENCH yields and expected stock returns[J]。Journal of Financial Economics, 22: 327左瑞瓊,多元統(tǒng)計分析方法介紹及在經(jīng)濟(jì)中的應(yīng)用,時代經(jīng)貿(mào)2007年9月第5 卷總第78期董艷國,黃愛武,白海軍,自明. 基于多元統(tǒng)計分析方法對中學(xué)生身體素質(zhì)的動態(tài)分析, 首都師范大學(xué)學(xué)報(自然科學(xué)版)第28 卷第6 期沈菊紅,關(guān)于多元統(tǒng)計分析課程教學(xué)的幾點思考. 學(xué)科教學(xué)200
點擊復(fù)制文檔內(nèi)容
物理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1