freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

應(yīng)用多元統(tǒng)計(jì)分析講稿-文庫(kù)吧資料

2025-07-01 02:34本頁(yè)面
  

【正文】 間的相似性。夾角余弦兩變量Xi與Xj看作p維空間的兩個(gè)向量,這兩個(gè)向量間的夾角余弦可用下式進(jìn)行計(jì)算 顯然,∣cos q ij∣ 163。在對(duì)多元數(shù)據(jù)進(jìn)行分析時(shí),相對(duì)于數(shù)據(jù)的大小,我們更多地對(duì)變量的變化趨勢(shì)或方向感興趣。實(shí)際中,聚類分析前不妨試探性地多選擇幾個(gè)距離公式分別進(jìn)行聚類,然后對(duì)聚類分析的結(jié)果進(jìn)行對(duì)比分析,以確定最合適的距離測(cè)度方法。(3)要考慮研究對(duì)象的特點(diǎn)和計(jì)算量的大小。(2)要綜合考慮對(duì)樣本觀測(cè)數(shù)據(jù)的預(yù)處理和將要采用的聚類分析方法。如歐氏距離就有非常明確的空間距離概念。因此我們?cè)谶M(jìn)行聚類分析時(shí),應(yīng)注意距離公式的選擇。 4.距離選擇的原則一般說(shuō)來(lái),同一批數(shù)據(jù)采用不同的距離公式,會(huì)得到不同的分類結(jié)果。這是一個(gè)自身標(biāo)準(zhǔn)化的量,由于它對(duì)大的奇異值不敏感,它特別適合于高度偏倚的數(shù)據(jù)。將原始數(shù)據(jù)作線性變換后,馬氏距離不變。如果各變量之間相互獨(dú)立,即觀測(cè)變量的協(xié)方差矩陣是對(duì)角矩陣,則馬氏距離就退化為用各個(gè)觀測(cè)指標(biāo)的標(biāo)準(zhǔn)差的倒數(shù)作為權(quán)數(shù)的加權(quán)歐氏距離。 2.馬氏距離設(shè)Xi與Xj是來(lái)自均值向量為m ,協(xié)方差為∑ =(>0)的總體G中的p維樣品,則兩個(gè)樣品間的馬氏距離為馬氏距離又稱為廣義歐氏距離。一是它沒(méi)有考慮到總體的變異對(duì)“距離”遠(yuǎn)近的影響,顯然一個(gè)變異程度大的總體可能與更多樣品近些,既使它們的歐氏距離不一定最近;另外,歐氏距離受變量的量綱影響,這對(duì)多元數(shù)據(jù)的處理是不利的。如果把n個(gè)樣品看成p維空間中的n個(gè)點(diǎn),則兩個(gè)樣品間相似程度就可用p維空間中的兩點(diǎn)距離公式來(lái)度量。Q型聚類分析,常用距離來(lái)測(cè)度樣品之間的相似程度。Q型聚類是對(duì)樣品進(jìn)行分類處理,R型聚類是對(duì)變量進(jìn)行分類處理。聚類分析就是分析如何對(duì)樣品(或變量)進(jìn)行量化分類的問(wèn)題。后來(lái)隨著多元統(tǒng)計(jì)分析的發(fā)展,從數(shù)值分類學(xué)中逐漸分離出了聚類分析方法。 但歷史上這些分類方法多半是人們主要依靠經(jīng)驗(yàn)作定性分類,致使許多分類帶有主觀性和任意性,不能很好地揭示客觀事物內(nèi)在的本質(zhì)差別與聯(lián)系;特別是對(duì)于多因素、多指標(biāo)的分類問(wèn)題,定性分類的準(zhǔn)確性不好把握。在地質(zhì)學(xué)中,為了研究礦物勘探,需要根據(jù)各種礦石的化學(xué)和物理性質(zhì)和所含化學(xué)成分把它們歸于不同的礦石類。例如:在生物學(xué)中,為了研究生物的演變,生物學(xué)家需要根據(jù)各種生物不同的特征對(duì)生物進(jìn)行分類。因此,分類學(xué)已成為人們認(rèn)識(shí)世界的一門(mén)基礎(chǔ)科學(xué)。設(shè)樣本分別為和,則 那么 當(dāng)和均未知時(shí),()的估計(jì)同前,()的估計(jì)為, 第五章 聚類分析第一節(jié) 引言“物以類聚,人以群分”。為了避免用較多的數(shù)學(xué)知識(shí)或數(shù)學(xué)上的推導(dǎo),這里不追求數(shù)學(xué)上的完整性。在此最大特征值所對(duì)應(yīng)的特征向量為我們所求結(jié)果??紤]目標(biāo)函數(shù) ()對(duì)()式求導(dǎo),有對(duì)()式兩邊同乘,有 從而,的極大值為。即有 ()求使得()式達(dá)到極大的。三、線性判別函數(shù)的求法針對(duì)多個(gè)總體的情形,我們討論使目標(biāo)函數(shù)()式達(dá)到極大的求法。這里相當(dāng)于一元方差分析中的組間差相當(dāng)于組內(nèi)差,應(yīng)用方差分析的思想,選擇使得目標(biāo)函數(shù)()達(dá)到極大。 針對(duì)多個(gè)總體的情形假設(shè)有個(gè)總體,其均值和協(xié)方差矩陣分別為和()。當(dāng)時(shí),我們可以求出的均值和方差,即, , 在求線性判別函數(shù)時(shí),盡量使得總體之間差異大,也就是要求盡可能的大,即變大;同時(shí)要求每一個(gè)總體內(nèi)的離差平方和最小,即,則我們可以建立一個(gè)目標(biāo)函數(shù) ()這樣,將問(wèn)題轉(zhuǎn)化為,尋找使得目標(biāo)函數(shù)達(dá)到最大。有了線性判別函數(shù)后,對(duì)于一個(gè)新的樣品,將它的個(gè)指標(biāo)值代入線性判別函數(shù)()式中求出值,然后根據(jù)判別一定的規(guī)則,就可以判別新的樣品屬于哪個(gè)總體。第四節(jié) 費(fèi)歇(Fisher)判別法Fisher判別法是1936年提出來(lái)的,該方法的主要思想是通過(guò)將多維數(shù)據(jù)投影到某個(gè)方向上,投影的原則是將總體與總體之間盡可能的放開(kāi),然后再選擇合適的判別規(guī)則,將新的樣品進(jìn)行分類判別。于是,判定樣品來(lái)自該總體時(shí),判別規(guī)則()成 ()對(duì)比判別規(guī)則(),唯一的差別僅在于閾值點(diǎn),()用0作為閾值點(diǎn),而這里用。這樣,我們以Bayes判別的思想得到的劃分為 ()具體說(shuō)來(lái),當(dāng)抽取了一個(gè)未知總體的樣本值,要判斷它屬于哪個(gè)總體,只要前計(jì)算出個(gè)按先驗(yàn)分布加權(quán)的誤判平均損失 ()然后比較這個(gè)誤判平均損失的大小,選取其中最小的,則判定樣品來(lái)自該總體。二、Bayes判別的基本方法設(shè)每一個(gè)總體的分布密度為,來(lái)自總體的樣品被錯(cuò)判為來(lái)自總體()時(shí)所造成的損失記為,并且。從描述平均損失的角度出發(fā),如果原來(lái)屬于總體且分布密度為的樣品,正好取值落入了,我們就將會(huì)錯(cuò)判為屬于。首先應(yīng)該清楚、對(duì)于任意的成立。在這樣的情形下,對(duì)于新的樣品判斷其來(lái)自哪個(gè)總體。一、Bayes判別的基本思想問(wèn)題:設(shè)有個(gè)總體,其各自的分布密度函數(shù)互不相同的,假設(shè)個(gè)總體各自出現(xiàn)的概率分別為(先驗(yàn)概率)。 第一,判別方法與總體各自出現(xiàn)的概率的大小無(wú)關(guān); 第二,判別方法與錯(cuò)判之后所造成的損失無(wú)關(guān)。 第三節(jié) 貝葉斯(Bayes)判別法從上節(jié)看距離判別法雖然簡(jiǎn)單,便于使用。在兩個(gè)總體的距離判別問(wèn)題中,利用可以得到空間的一個(gè)劃分 ()新的樣品落入推斷,落入推斷這樣我們將會(huì)發(fā)現(xiàn),判別分析問(wèn)題實(shí)質(zhì)上就是在某種意義上,以最優(yōu)的性質(zhì)對(duì)p維空間R p構(gòu)造一個(gè)“劃分”,這個(gè)“劃分”就構(gòu)成了一個(gè)判別規(guī)則。為了更清楚的認(rèn)識(shí)判別分析的實(shí)質(zhì),以便能靈活的應(yīng)用判別分析方法解決實(shí)際問(wèn)題,我們有必要了解“劃分”這樣概念。由()式,可以取線性判別函數(shù)為, 相應(yīng)的判別規(guī)則為 如果 ()針對(duì)實(shí)際問(wèn)題,當(dāng)和均未知時(shí),可以通過(guò)相應(yīng)的樣本值來(lái)替代。該問(wèn)題與兩個(gè)總體的距離判別問(wèn)題的解決思想一樣。選擇判別函數(shù)為它是的二次函數(shù),相應(yīng)的判別規(guī)則為多個(gè)總體的距離判別問(wèn)題問(wèn)題:設(shè)有個(gè)總體,其均值和協(xié)方差矩陣分別是和,而且。設(shè)來(lái)自總體的樣本,是來(lái)自總體的樣本,和的一個(gè)無(wú)偏估計(jì)分別為 和 的一個(gè)聯(lián)合無(wú)偏估計(jì)為 這里 此時(shí),兩總體距離判別的判別函數(shù)為 其中。 我們考慮 其中是兩個(gè)總體均值的平均值,記 ()則判別規(guī)則()式可表示為 ()這里稱為兩總體距離判別的判別函數(shù),由于它是的線性函數(shù),故又稱為線性判別函數(shù),稱為判別系數(shù)。二、距離判別的思想及方法兩個(gè)總體的距離判別問(wèn)題問(wèn)題:設(shè)有協(xié)方差矩陣∑相等的兩個(gè)總體G1和G2,其均值分別是m1和m 2,對(duì)于一個(gè)新的樣品X,要判斷它來(lái)自哪個(gè)總體。為此,我們引入一種由印度著名統(tǒng)計(jì)學(xué)家馬哈拉諾比斯(Mahalanobis, 1936)提出的“馬氏距離”的概念。第二、設(shè)有量度重量和長(zhǎng)度的兩個(gè)變量與,以單位分別為kg和cm得到樣本。但是,從概率的角度看,點(diǎn)位于右側(cè)的處,而位于左側(cè)處,應(yīng)該認(rèn)為點(diǎn)離總體“近一些”。第二節(jié) 距離判別法一、馬氏距離的概念設(shè)維歐氏空間中的兩點(diǎn)和,通常我們所說(shuō)的兩點(diǎn)之間的距離,是指歐氏距離,即 ()在解決實(shí)際問(wèn)題時(shí),特別是針對(duì)多元數(shù)據(jù)的分析問(wèn)題,歐氏距離就顯示出了它的薄弱環(huán)節(jié)。判別分析可以從不同角度提出問(wèn)題,因此有不同的判別準(zhǔn)則,如馬氏距離最小準(zhǔn)則、Fisher準(zhǔn)則、平均損失最小準(zhǔn)則、最小平方準(zhǔn)則、最大似然準(zhǔn)則、最大概率準(zhǔn)則等等,按判別準(zhǔn)則的不同又提出多種判別方法。判別分析內(nèi)容很豐富,方法很多。把這類問(wèn)題用數(shù)學(xué)語(yǔ)言來(lái)表達(dá),可以敘述如下:設(shè)有n個(gè)樣本,對(duì)每個(gè)樣本測(cè)得p項(xiàng)指標(biāo)(變量)的數(shù)據(jù),已知每個(gè)樣本屬于k個(gè)類別(或總體)G1,G2, …,Gk中的某一類,且它們的分布函數(shù)分別為F1(x),F(xiàn)2(x), …,F(xiàn)k(x)。又如,在天氣預(yù)報(bào)中,我們有一段較長(zhǎng)時(shí)間關(guān)于某地區(qū)每天氣象的記錄資料(晴陰雨、氣溫、氣壓、濕度等),現(xiàn)在想建立一種用連續(xù)五天的氣象資料來(lái)預(yù)報(bào)第六天是什么天氣的方法。例如,某醫(yī)院有部分患有肺炎、肝炎、冠心病、糖尿病等病人的資料,記錄了每個(gè)患者若干項(xiàng)癥狀指標(biāo)數(shù)據(jù)。我們考慮檢驗(yàn)假設(shè) 構(gòu)造檢驗(yàn)統(tǒng)計(jì)量為 ()其中 巴特萊特(Bartlett)建議 ,將改為,從而變?yōu)椋儞Q以后的記為,稱為修正的統(tǒng)計(jì)量,則近似分布。設(shè)有個(gè)正態(tài)總體分別為,且未知。在成立時(shí),極限分布是分布。首先,我們考慮檢驗(yàn)假設(shè) 所構(gòu)造的檢驗(yàn)統(tǒng)計(jì)量為 ()其中 然后,我們考慮檢驗(yàn)假設(shè) 因?yàn)?,所以存?),使得。設(shè),令 ()則近似服從,這里不一定為整數(shù),可用與它最近的整數(shù)來(lái)作為的自由度,且。其中。巴特萊特(Bartlett)提出了用分布來(lái)近似。我們的問(wèn)題是檢驗(yàn)假設(shè) 用似然比原則構(gòu)成的檢驗(yàn)統(tǒng)計(jì)量為 ()給定檢驗(yàn)水平,查Wilks分布表,確定臨界值,然后作出統(tǒng)計(jì)判斷。(二)多元方差分析法設(shè)有個(gè)維正態(tài)總體,從每個(gè)總體抽取獨(dú)立樣本個(gè)數(shù)分別為,每個(gè)樣品觀測(cè)個(gè)指標(biāo)得觀測(cè)數(shù)據(jù)如下: 第一個(gè)總體: ,第二個(gè)總體: ,…… …… …… 第個(gè)總體: ,全部樣品的總均值向量: 各總體樣品的均值向量: ,此處 類似一元方差分析辦法,將諸平方和變成了離差陣即: 這里,我們稱為組間離差陣;為組內(nèi)離差陣;為總離差陣。這里我們需要說(shuō)明的是,在實(shí)際應(yīng)用中經(jīng)常把統(tǒng)計(jì)量化為統(tǒng)計(jì)量進(jìn)而化為統(tǒng)計(jì)量,利用統(tǒng)計(jì)量來(lái)解決多元統(tǒng)計(jì)分析中有關(guān)檢驗(yàn)問(wèn)題。其中。 若,則稱協(xié)差陣的行列式為的廣義方差。(一)單因素方差分析的基本思想及Wilks分布設(shè)個(gè)正態(tài)總體分別為,從個(gè)總體取個(gè)獨(dú)立樣本如下: 假設(shè)成立時(shí),構(gòu)造檢驗(yàn)統(tǒng)計(jì)量為 () 這里稱為組間平方和; 稱為組內(nèi)平方和;稱為總平方和。多元方差分析是單因素方差分析直接的推廣。對(duì)假設(shè) 進(jìn)行檢驗(yàn)。又由于 所以 下述假設(shè)檢驗(yàn)統(tǒng)計(jì)量的選取和前邊統(tǒng)計(jì)量的選取思路是一樣的,以下只提出待檢驗(yàn)的假設(shè),然后給出統(tǒng)計(jì)量及其分布,為節(jié)省篇幅,不做重復(fù)解釋。對(duì)此問(wèn)題,假設(shè)成立時(shí),所構(gòu)造的檢驗(yàn)統(tǒng)計(jì)量為 ()其中, , , 給定檢驗(yàn)水平,查分布表,使,可確定出臨界值,再用樣本值計(jì)算出,若,則否定,否則接受。這里,我們應(yīng)該注意到,在單一變量統(tǒng)計(jì)中進(jìn)行均值相等檢驗(yàn)所給出的統(tǒng)計(jì)量為 顯然此式恰為上邊統(tǒng)計(jì)量當(dāng)時(shí)的情況,不難看出這里給出的檢驗(yàn)統(tǒng)計(jì)量是單一變量檢驗(yàn)情況的推廣。1.針對(duì)有共同已知協(xié)差陣的情形對(duì)假設(shè) 進(jìn)行檢驗(yàn)。三、兩個(gè)正態(tài)總體均值向量的檢驗(yàn)(一)當(dāng)協(xié)差陣相等時(shí),兩個(gè)正態(tài)總體均值向量的檢驗(yàn)設(shè),為來(lái)自維正態(tài)總體的容量為的樣本;,為來(lái)自維正態(tài)總體的容量為的樣本。顯然,其中,因此,(二)協(xié)差陣未知時(shí)均值向量的檢驗(yàn)(為已知向量)假設(shè)成立,檢驗(yàn)統(tǒng)計(jì)量為 ()其中,給定檢驗(yàn)水平,查分布表,使,可確定出臨界值,再用樣本值計(jì)算出,若,則否定,否則接受。這里要對(duì)統(tǒng)計(jì)量的選取做一些解釋,為什么該統(tǒng)計(jì)量服從分布。設(shè)是來(lái)自維正態(tài)總體的樣本,且。在單一變量統(tǒng)計(jì)分析中,若統(tǒng)計(jì)量分布,則分布,即把分布的統(tǒng)計(jì)量轉(zhuǎn)化為統(tǒng)計(jì)量來(lái)處理,在多元統(tǒng)計(jì)分析中統(tǒng)計(jì)量也具有類似的性質(zhì)。記為。 設(shè),且與相互獨(dú)立,則稱統(tǒng)計(jì)量的分布為非中心HotellingT2分布,記為。當(dāng)假設(shè)成立時(shí),統(tǒng)計(jì)量服從自由度為的分布,從而否定域?yàn)?,為自由度為的分布上的分位點(diǎn)。當(dāng)假設(shè)成立時(shí),統(tǒng)計(jì)量服從正態(tài)分布,從而否定域?yàn)椋瑸榈纳戏治稽c(diǎn)。第二節(jié) 均值向量的檢驗(yàn) 一、單一變量檢驗(yàn)的回顧及HotellingT2分布為了對(duì)多元正態(tài)總體均值向量作檢驗(yàn),首先需要給出HotellingT2分布的定義。由于多變量問(wèn)題的復(fù)雜性,本章只側(cè)重于解釋選取統(tǒng)計(jì)量的合理性,而不給出推導(dǎo)過(guò)程,最后給出幾個(gè)實(shí)例。 其基本思想和步驟均可歸納為: 第一,提出待檢驗(yàn)的假設(shè)H0和H1; 第二,給出檢驗(yàn)的統(tǒng)計(jì)量及其服從的分布; 第三,給定檢驗(yàn)水平,查統(tǒng)計(jì)量的分布表,確定相應(yīng)的臨界值,從而得到否定域; 第四,根據(jù)樣本觀測(cè)值計(jì)算出統(tǒng)計(jì)量的值,看是否落入否定域中,以便對(duì)待判假設(shè)做出決策(拒絕或接受)。例如,我們要考察全國(guó)各省、自治區(qū)和直轄市的社會(huì)經(jīng)濟(jì)發(fā)展?fàn)顩r,與全國(guó)平均水平相比較有無(wú)顯著性差異等,就涉及到多元正態(tài)總體均值向量的檢驗(yàn)問(wèn)題等。44 / 44第三章 多元正態(tài)分布均值向量和協(xié)差陣的檢驗(yàn)第一節(jié) 引言 在單一變量的統(tǒng)計(jì)分析中,已經(jīng)給出了正態(tài)總體N( m, s2) 的均值m和方差s2的各種檢驗(yàn)。設(shè)隨機(jī)矩陣 將該矩陣的列向量(或行向量)一個(gè)接一個(gè)地連接起來(lái),組成一個(gè)長(zhǎng)的向量,即拉直向量:的分布定義為該陣的分布。這里我們有必要說(shuō)明一下什么是隨機(jī)矩陣的分布。這里我們有必要說(shuō)明一下什么是隨機(jī)矩陣的分布。2.若,且相互獨(dú)立,則。因此,Wishart分布是分布在維正態(tài)情況下的推廣。 設(shè),且相互獨(dú)立,則由組成的隨機(jī)矩陣: ()的分布稱為非中心Wishart分布,記為。三、Wishart分布在實(shí)際應(yīng)用中,常采用和來(lái)估計(jì)和,前面已指出,均值向量的分布仍為正態(tài)分布,而離差陣的分布又是什么呢?為此給出維希特(Wishart)分布,并指出它是一元分布的推廣,也是構(gòu)成其它重要分布的基礎(chǔ)。和的估計(jì)量有
點(diǎn)擊復(fù)制文檔內(nèi)容
物理相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1