freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

應(yīng)用多元統(tǒng)計(jì)分析講稿-全文預(yù)覽

2025-07-16 02:34 上一頁面

下一頁面
  

【正文】 由于它對大的奇異值不敏感,它特別適合于高度偏倚的數(shù)據(jù)。如果各變量之間相互獨(dú)立,即觀測變量的協(xié)方差矩陣是對角矩陣,則馬氏距離就退化為用各個(gè)觀測指標(biāo)的標(biāo)準(zhǔn)差的倒數(shù)作為權(quán)數(shù)的加權(quán)歐氏距離。一是它沒有考慮到總體的變異對“距離”遠(yuǎn)近的影響,顯然一個(gè)變異程度大的總體可能與更多樣品近些,既使它們的歐氏距離不一定最近;另外,歐氏距離受變量的量綱影響,這對多元數(shù)據(jù)的處理是不利的。Q型聚類分析,常用距離來測度樣品之間的相似程度。聚類分析就是分析如何對樣品(或變量)進(jìn)行量化分類的問題。 但歷史上這些分類方法多半是人們主要依靠經(jīng)驗(yàn)作定性分類,致使許多分類帶有主觀性和任意性,不能很好地揭示客觀事物內(nèi)在的本質(zhì)差別與聯(lián)系;特別是對于多因素、多指標(biāo)的分類問題,定性分類的準(zhǔn)確性不好把握。例如:在生物學(xué)中,為了研究生物的演變,生物學(xué)家需要根據(jù)各種生物不同的特征對生物進(jìn)行分類。設(shè)樣本分別為和,則 那么 當(dāng)和均未知時(shí),()的估計(jì)同前,()的估計(jì)為, 第五章 聚類分析第一節(jié) 引言“物以類聚,人以群分”。在此最大特征值所對應(yīng)的特征向量為我們所求結(jié)果。即有 ()求使得()式達(dá)到極大的。這里相當(dāng)于一元方差分析中的組間差相當(dāng)于組內(nèi)差,應(yīng)用方差分析的思想,選擇使得目標(biāo)函數(shù)()達(dá)到極大。當(dāng)時(shí),我們可以求出的均值和方差,即, , 在求線性判別函數(shù)時(shí),盡量使得總體之間差異大,也就是要求盡可能的大,即變大;同時(shí)要求每一個(gè)總體內(nèi)的離差平方和最小,即,則我們可以建立一個(gè)目標(biāo)函數(shù) ()這樣,將問題轉(zhuǎn)化為,尋找使得目標(biāo)函數(shù)達(dá)到最大。第四節(jié) 費(fèi)歇(Fisher)判別法Fisher判別法是1936年提出來的,該方法的主要思想是通過將多維數(shù)據(jù)投影到某個(gè)方向上,投影的原則是將總體與總體之間盡可能的放開,然后再選擇合適的判別規(guī)則,將新的樣品進(jìn)行分類判別。這樣,我們以Bayes判別的思想得到的劃分為 ()具體說來,當(dāng)抽取了一個(gè)未知總體的樣本值,要判斷它屬于哪個(gè)總體,只要前計(jì)算出個(gè)按先驗(yàn)分布加權(quán)的誤判平均損失 ()然后比較這個(gè)誤判平均損失的大小,選取其中最小的,則判定樣品來自該總體。從描述平均損失的角度出發(fā),如果原來屬于總體且分布密度為的樣品,正好取值落入了,我們就將會錯(cuò)判為屬于。在這樣的情形下,對于新的樣品判斷其來自哪個(gè)總體。 第一,判別方法與總體各自出現(xiàn)的概率的大小無關(guān); 第二,判別方法與錯(cuò)判之后所造成的損失無關(guān)。在兩個(gè)總體的距離判別問題中,利用可以得到空間的一個(gè)劃分 ()新的樣品落入推斷,落入推斷這樣我們將會發(fā)現(xiàn),判別分析問題實(shí)質(zhì)上就是在某種意義上,以最優(yōu)的性質(zhì)對p維空間R p構(gòu)造一個(gè)“劃分”,這個(gè)“劃分”就構(gòu)成了一個(gè)判別規(guī)則。由()式,可以取線性判別函數(shù)為, 相應(yīng)的判別規(guī)則為 如果 ()針對實(shí)際問題,當(dāng)和均未知時(shí),可以通過相應(yīng)的樣本值來替代。選擇判別函數(shù)為它是的二次函數(shù),相應(yīng)的判別規(guī)則為多個(gè)總體的距離判別問題問題:設(shè)有個(gè)總體,其均值和協(xié)方差矩陣分別是和,而且。 我們考慮 其中是兩個(gè)總體均值的平均值,記 ()則判別規(guī)則()式可表示為 ()這里稱為兩總體距離判別的判別函數(shù),由于它是的線性函數(shù),故又稱為線性判別函數(shù),稱為判別系數(shù)。為此,我們引入一種由印度著名統(tǒng)計(jì)學(xué)家馬哈拉諾比斯(Mahalanobis, 1936)提出的“馬氏距離”的概念。但是,從概率的角度看,點(diǎn)位于右側(cè)的處,而位于左側(cè)處,應(yīng)該認(rèn)為點(diǎn)離總體“近一些”。判別分析可以從不同角度提出問題,因此有不同的判別準(zhǔn)則,如馬氏距離最小準(zhǔn)則、Fisher準(zhǔn)則、平均損失最小準(zhǔn)則、最小平方準(zhǔn)則、最大似然準(zhǔn)則、最大概率準(zhǔn)則等等,按判別準(zhǔn)則的不同又提出多種判別方法。把這類問題用數(shù)學(xué)語言來表達(dá),可以敘述如下:設(shè)有n個(gè)樣本,對每個(gè)樣本測得p項(xiàng)指標(biāo)(變量)的數(shù)據(jù),已知每個(gè)樣本屬于k個(gè)類別(或總體)G1,G2, …,Gk中的某一類,且它們的分布函數(shù)分別為F1(x),F(xiàn)2(x), …,F(xiàn)k(x)。例如,某醫(yī)院有部分患有肺炎、肝炎、冠心病、糖尿病等病人的資料,記錄了每個(gè)患者若干項(xiàng)癥狀指標(biāo)數(shù)據(jù)。設(shè)有個(gè)正態(tài)總體分別為,且未知。首先,我們考慮檢驗(yàn)假設(shè) 所構(gòu)造的檢驗(yàn)統(tǒng)計(jì)量為 ()其中 然后,我們考慮檢驗(yàn)假設(shè) 因?yàn)?,所以存?),使得。其中。我們的問題是檢驗(yàn)假設(shè) 用似然比原則構(gòu)成的檢驗(yàn)統(tǒng)計(jì)量為 ()給定檢驗(yàn)水平,查Wilks分布表,確定臨界值,然后作出統(tǒng)計(jì)判斷。這里我們需要說明的是,在實(shí)際應(yīng)用中經(jīng)常把統(tǒng)計(jì)量化為統(tǒng)計(jì)量進(jìn)而化為統(tǒng)計(jì)量,利用統(tǒng)計(jì)量來解決多元統(tǒng)計(jì)分析中有關(guān)檢驗(yàn)問題。 若,則稱協(xié)差陣的行列式為的廣義方差。多元方差分析是單因素方差分析直接的推廣。又由于 所以 下述假設(shè)檢驗(yàn)統(tǒng)計(jì)量的選取和前邊統(tǒng)計(jì)量的選取思路是一樣的,以下只提出待檢驗(yàn)的假設(shè),然后給出統(tǒng)計(jì)量及其分布,為節(jié)省篇幅,不做重復(fù)解釋。這里,我們應(yīng)該注意到,在單一變量統(tǒng)計(jì)中進(jìn)行均值相等檢驗(yàn)所給出的統(tǒng)計(jì)量為 顯然此式恰為上邊統(tǒng)計(jì)量當(dāng)時(shí)的情況,不難看出這里給出的檢驗(yàn)統(tǒng)計(jì)量是單一變量檢驗(yàn)情況的推廣。三、兩個(gè)正態(tài)總體均值向量的檢驗(yàn)(一)當(dāng)協(xié)差陣相等時(shí),兩個(gè)正態(tài)總體均值向量的檢驗(yàn)設(shè),為來自維正態(tài)總體的容量為的樣本;,為來自維正態(tài)總體的容量為的樣本。這里要對統(tǒng)計(jì)量的選取做一些解釋,為什么該統(tǒng)計(jì)量服從分布。在單一變量統(tǒng)計(jì)分析中,若統(tǒng)計(jì)量分布,則分布,即把分布的統(tǒng)計(jì)量轉(zhuǎn)化為統(tǒng)計(jì)量來處理,在多元統(tǒng)計(jì)分析中統(tǒng)計(jì)量也具有類似的性質(zhì)。 設(shè),且與相互獨(dú)立,則稱統(tǒng)計(jì)量的分布為非中心HotellingT2分布,記為。當(dāng)假設(shè)成立時(shí),統(tǒng)計(jì)量服從正態(tài)分布,從而否定域?yàn)?,為的上分位點(diǎn)。由于多變量問題的復(fù)雜性,本章只側(cè)重于解釋選取統(tǒng)計(jì)量的合理性,而不給出推導(dǎo)過程,最后給出幾個(gè)實(shí)例。例如,我們要考察全國各省、自治區(qū)和直轄市的社會經(jīng)濟(jì)發(fā)展?fàn)顩r,與全國平均水平相比較有無顯著性差異等,就涉及到多元正態(tài)總體均值向量的檢驗(yàn)問題等。設(shè)隨機(jī)矩陣 將該矩陣的列向量(或行向量)一個(gè)接一個(gè)地連接起來,組成一個(gè)長的向量,即拉直向量:的分布定義為該陣的分布。這里我們有必要說明一下什么是隨機(jī)矩陣的分布。因此,Wishart分布是分布在維正態(tài)情況下的推廣。三、Wishart分布在實(shí)際應(yīng)用中,常采用和來估計(jì)和,前面已指出,均值向量的分布仍為正態(tài)分布,而離差陣的分布又是什么呢?為此給出維希特(Wishart)分布,并指出它是一元分布的推廣,也是構(gòu)成其它重要分布的基礎(chǔ)。這里我們要注意到,根據(jù)矩陣代數(shù)理論,對于實(shí)對稱矩陣,有。(1) 樣本均值向量定義為其中(2)樣本離差陣定義為 ()這里, (3)樣本協(xié)差陣定義為 ()這里,(4)樣本相關(guān)陣定義為 () 其中在此,我們應(yīng)該提及的是,樣本均值向量和離差陣也可用樣本資料陣直接表示如下: 其中 由于 那么,()式可以表示為: ()其中 二、均值向量與協(xié)差陣的最大似然估計(jì) 多元正態(tài)分布有兩組參數(shù),均值和協(xié)差陣,在許多問題中它們是未知的,需要通過樣本來估計(jì)。第二,由于,故表示和不相關(guān),因此可知,對于多元正態(tài)變量而言,和的不相關(guān)與獨(dú)立是等價(jià)的。1.若,是對角陣,則相互獨(dú)立。 設(shè),則有??梢宰C明為的均值(向量),為的協(xié)差陣。令,有:那么,標(biāo)準(zhǔn)化后的隨機(jī)向量均值和協(xié)差陣分別為 即標(biāo)準(zhǔn)化數(shù)據(jù)的協(xié)差陣正好是原指標(biāo)的相關(guān)陣。當(dāng)、為常數(shù)矩陣時(shí),由定義可以推出協(xié)方差陣有如下性質(zhì):(1)對于常數(shù)向量,有(2)(3)(4)設(shè)為維隨機(jī)向量,期望和協(xié)方差存在,記,為常數(shù)陣,則 這里我們應(yīng)該注意到,對于任何的隨機(jī)向量來說,其協(xié)差陣都是對稱陣,同時(shí)總是非負(fù)定(半正定)的。這里我們應(yīng)該注意,由相互獨(dú)立,可推知任何與獨(dú)立,但反之不真。通過變換中各分量的次序,總可假定正好是的前個(gè)分量,其余個(gè)分量為,則,相應(yīng)的取值也可分為兩部分。設(shè),若存在一個(gè)非負(fù)函數(shù),使得對一切有()則稱為連續(xù)型隨機(jī)變量,稱為分布密度函數(shù),簡稱為密度函數(shù)或分布密度。一個(gè)函數(shù)能作為某個(gè)隨機(jī)變量的分布密度函數(shù)的重要條件是:(1),對一切實(shí)數(shù);(2)。二、多元分布先回顧一下一元統(tǒng)計(jì)中分布函數(shù)和密度函數(shù)的定義。第列的元素 , 表示對第個(gè)變量的次觀測數(shù)值。上面的表示便于人們用數(shù)學(xué)方法去研究p維總體的特性。這是本章討論的重要內(nèi)容之一,在此我們介紹最常見的最大似然估計(jì)法對參數(shù)進(jìn)行估計(jì),并討論其有關(guān)的性質(zhì)。因此現(xiàn)實(shí)世界中許多實(shí)際問題的解決辦法都是以總體服從正態(tài)分布或近似正態(tài)分布為前提的。例如在研究公司的運(yùn)營情況時(shí),要考慮公司的獲利能力、資金周轉(zhuǎn)能力、競爭能力以及償債能力等財(cái)務(wù)指標(biāo);又如在研究國家財(cái)政收入時(shí),稅收收入、企業(yè)收入、債務(wù)收入、國家能源交通重點(diǎn)建設(shè)基金收入、基本建設(shè)貸款歸還收入、國家預(yù)算調(diào)節(jié)基金收入、其他收入等都是需要同時(shí)考察的指標(biāo)。對1000個(gè)類似的魚類樣本,如何根據(jù)測量的特征如體重、身長、鰭數(shù)、鰭長、頭寬等,我們可以利用聚類分析方法將這類魚分成幾個(gè)不同品種。這樣的問題就可以用多維標(biāo)度法來解決。如果我們收集某年各個(gè)省、自治區(qū)、直轄市農(nóng)民家庭人均純收入的數(shù)據(jù),可以用相應(yīng)分析,揭示全國農(nóng)民人均純收入的特征以及各省、自治區(qū)、直轄市與各收入指標(biāo)的關(guān)系??捎弥鞒煞址治龊鸵蜃臃治龇ā_@八項(xiàng)指標(biāo)存在一定的線性關(guān)系。 判別分析、聚類分析、主成分分析、可視化分析 變量之間的相關(guān)關(guān)系 變量之間是否存在相關(guān)關(guān)系,相關(guān)關(guān)系又是怎樣體現(xiàn)。多元分析方法從研究問題的角度可以分為不同的類,相應(yīng)有具體解決問題的方法。為了讓人們更好的較為系統(tǒng)地掌握多元統(tǒng)計(jì)分析的理論與方法,本書重點(diǎn)介紹多元正態(tài)總體的參數(shù)估計(jì)和假設(shè)檢驗(yàn)以及常用的統(tǒng)計(jì)方法。20世紀(jì)50年代中期,隨著電子計(jì)算機(jī)得出現(xiàn)和發(fā)展,使多元分析方法在地質(zhì)、氣象、醫(yī)學(xué)、社會學(xué)等方面得到廣泛得應(yīng)用。這樣又給多元統(tǒng)計(jì)分析理論的發(fā)展和方法的應(yīng)用提出了新的挑戰(zhàn)。然而,隨著Internet的日益普及,各行各業(yè)都開始采用計(jì)算機(jī)及相應(yīng)的信息技術(shù)進(jìn)行管理和決策,這使得各企事業(yè)單位生成、收集、存儲和處理數(shù)據(jù)的能力大大提高,數(shù)據(jù)量與日俱增,大量復(fù)雜信息層出不窮。近30年來,隨著計(jì)算機(jī)應(yīng)用技術(shù)的發(fā)展和科研生產(chǎn)的迫切需要,多元統(tǒng)計(jì)分析技術(shù)被廣泛地應(yīng)用于地質(zhì)、氣象、水文、醫(yī)學(xué)、工業(yè)、農(nóng)業(yè)和經(jīng)濟(jì)等許多領(lǐng)域,已經(jīng)成為解決實(shí)際問題的有效方法。比如:信息量過大,超過了人們掌握、消化的能力;一些信息真?zhèn)坞y辯,從而給信息的正確應(yīng)用帶來困難;信息組織形式的不一致性導(dǎo)致難以對信息進(jìn)行有效統(tǒng)一處理等等,在其中進(jìn)行信息的查找真如大海撈針。20世紀(jì)40年代在心理、教育、生物等方面有不少得應(yīng)用,但由于計(jì)算量大,使其發(fā)展受到影響,甚至停滯了相當(dāng)長得時(shí)間。 在20世紀(jì)末與本世紀(jì)初,人們獲得的數(shù)據(jù)正以前所未有的速度急劇增加,產(chǎn)生了很多超大型數(shù)據(jù)庫,遍及超級市場銷售、銀行存款、天文學(xué)、粒子物理、化學(xué)、醫(yī)學(xué)以及政府統(tǒng)計(jì)等領(lǐng)域,多元統(tǒng)計(jì)與人工智能和數(shù)據(jù)庫技術(shù)相結(jié)合,已在經(jīng)濟(jì)、商業(yè)、金融、天文等行業(yè)得到了成功的應(yīng)用。第二節(jié) 應(yīng)用背景二、多元統(tǒng)計(jì)分析方法的應(yīng)用 這里我們要通過一些實(shí)際的問題,解釋選擇統(tǒng)計(jì)方法和研究目的之間的關(guān)系,這些問題以及本書中的大量案例能夠使得讀者對多元統(tǒng)計(jì)分析方法在各個(gè)領(lǐng)域中的廣泛應(yīng)用有一定的了解。 多元回歸分析、聚類分析、主成分分析、因子分析、相應(yīng)分析、多維標(biāo)度法、可視化分析 分類和組合 基于所測量到的一些特征,給出好的分組方法,對相似的對象或變量分組。 多元總體參數(shù)估計(jì)、假設(shè)檢驗(yàn) 城鎮(zhèn)居民消費(fèi)水平通常用八項(xiàng)指標(biāo)來描述,如人均糧食支出、人均副食支出、人均煙酒茶支出、人均衣著商品支出、人均日用品支出、人均燃料支出、人均非商品支出。如何將這些具有錯(cuò)綜復(fù)雜關(guān)系的指標(biāo)綜合成幾個(gè)較少的因子,既有利于對問題進(jìn)行分析和解釋,又能便于抓住主要矛盾做出科學(xué)的評價(jià)。按現(xiàn)行統(tǒng)計(jì)報(bào)表制度,農(nóng)村家庭純收入是指農(nóng)村常住居民家庭總收入中扣除從事生產(chǎn)和非生產(chǎn)經(jīng)營用支出、稅款和上交承包集體任務(wù)金額以后剩余的、可直接用于進(jìn)行生產(chǎn)的、非生產(chǎn)性建設(shè)投資、生產(chǎn)性消費(fèi)的那一部分收入。有100種酒,品嘗家可以對每兩種酒進(jìn)行品嘗對比,給出一種相近程度的得分(越相近得分越高,相差越遠(yuǎn)得分越低),希望用這些得分?jǐn)?shù)據(jù)來了解這100種酒之間的結(jié)構(gòu)關(guān)系。我們希望通過對這20個(gè)化學(xué)成分的分析,了解礦體的性質(zhì)和礦體形成的主要原因。第二章 多元正態(tài)分布的參數(shù)估計(jì)第一節(jié) 引言 多元統(tǒng)計(jì)分析涉及到的都是隨機(jī)向量或多個(gè)隨機(jī)向量放在一起組成的隨機(jī)矩陣。在實(shí)用中遇到的隨機(jī)向量常常是服從正態(tài)分布或近似正態(tài)分布,或雖本身不是正態(tài)分布,但它的樣本均值近似于正態(tài)分布。然而在實(shí)際問題中,多元正態(tài)分布中均值向量和協(xié)差陣通常是未知的,一般的做法是由樣本來估計(jì)。這里我們應(yīng)該強(qiáng)調(diào),在多元統(tǒng)計(jì)分析中,仍然將所研究對象的全體稱為總體,它是由許多(有限和無限)的個(gè)體構(gòu)成的集合,如果構(gòu)成總體的個(gè)體是具有p個(gè)需要觀測指標(biāo)的個(gè)體,我們稱這樣的總體為p維總體(或p元總體)。 數(shù)據(jù)變量 序號12,記為 , 表示第個(gè)樣品的觀測值。在對隨機(jī)向量的研究仍然限于討論離散型和連續(xù)型兩類隨機(jī)向量。設(shè),若存在一個(gè)非負(fù)函數(shù),使得一切實(shí)數(shù)有:,則稱為的分布密度函數(shù),簡稱為密度函數(shù)。 設(shè)是維隨機(jī)向量,若存在有限個(gè)或可列個(gè)維數(shù)向量,記,且滿足,則稱為離散型隨機(jī)向量,稱,為
點(diǎn)擊復(fù)制文檔內(nèi)容
物理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1