【正文】
據(jù)抽取的樣本建立判別公式和判別標(biāo)準(zhǔn),然后用這些公式和標(biāo)準(zhǔn)判別未知的類別的樣本的類別。 ( 4)多重線性回歸分析原理 天津科技大學(xué) 2021屆本科生畢業(yè)論文 11 設(shè)隨機(jī)變量 y 與 p 個(gè)可控變量12, , , px x x之間存在線性相關(guān)關(guān)系,建立 y 與12, , , px x x的數(shù)學(xué)模型如下: 0 1 1 2 22 ,~ ( 0 , ) . ppy b b x b x b xN ???? ? ? ? ? ???? (214) 其中未知參數(shù) 01, , , pb b b 和 2? 都不依賴于 12, , , px x x . 稱 (214)式為 y 關(guān)于12, , , px x x 的 p 重線性回歸模型 ,其中 12, , , pb b b 稱為 回歸系數(shù) 。 ESS 就是前文中的 EQ ,稱為 殘差平方和 (或 剩余平方和 ),它反映了 y 的總變差中不能由回歸直線來(lái)解釋的變差。因此需要檢驗(yàn)假設(shè) 01: 0 , : b H b?? (212) F 檢驗(yàn) xy?? ?y a b x??yy ?{}}?iiyy??iyy??),( ii yxyxo 圖 21離差分解示意圖 如圖 21 所示,每個(gè)觀測(cè)點(diǎn) ( , )iixy 處的 iy 與均值 y 的離差 iyy? 被分解為兩部分,即 ? ? ,i i i iy y y y y y? ? ? ? ? 于是總離差平方和可作如下分解 2211 ? ?( ) ( )nnT i i i iiiS S y y y y y y??? ? ? ? ? ??? 221 1 1? ? ? ?( ) ( ) 2 ( ) ( ) .n n ni i i i i ii i iy y y y y y y y? ? ?? ? ? ? ? ? ?? ? ? 可以證明1 ? ?2 ( )( ) 0ni i ii y y y y? ? ? ??. 令 2211? ?( ) , ( ) ,nnE i i R iiiS S y y S S y y??? ? ? ??? 則有 .T E RSS SS SS?? ( 213) 這里的 TSS 為總離差平方和,它被分解為兩部分。為了使求得的線性回歸方程真正有意義,就需要天津科技大學(xué) 2021屆本科生畢業(yè)論文 10 檢驗(yàn)變量 y 和 x 之 間是否存在顯著的線性相關(guān)關(guān)系。由于 ? ? ? ?? ? ( ) ,y a bx y bx bx y b x x? ? ? ? ? ? ? ? 可知 y 關(guān)于 x 的經(jīng)驗(yàn)回歸直線一定過(guò)點(diǎn) ( , )xy . 可以證明估計(jì)量 ??,ab服從以下分布: 2221 ?? ~ , , ~ , .x x x xxa N a b N bn l l????? ? ? ????? ? ? ?? ? ? ??? ( 211) 從而可知 ??,ab分別是 ,ab的無(wú)偏估計(jì)。 ( 2) 參數(shù)的最小二乘估計(jì) 天津科技大學(xué) 2021屆本科生畢業(yè)論文 9 對(duì) ,xy作 n 次獨(dú)立的觀測(cè),得到觀測(cè)數(shù)據(jù) ( , ), 1, 2, ,iix y i n? .根據(jù) (28)式可得 2 ,~ ( 0 , ) , 1 , 2 , , .i i iiidiy a b xN i n???? ? ??????? 其中 iid 表示獨(dú)立同分布。由一元線性回歸模型可知,當(dāng) x 固定時(shí), 2~ ( , )y N a bx ?? ,令 ( ) ( | )x E y x a bx? ? ? ?,它是 x 固定時(shí)隨機(jī)變量 y 的數(shù)學(xué)期望。 【 16】 ( 1)一元回歸模型 設(shè)有兩個(gè)變量 x 和 y ,其中 x 是可以精確測(cè)量或控制的非隨機(jī)變量, y 是隨機(jī)變量,假定隨機(jī)變量 y 與可控變量 x 之間存在線性 相關(guān)關(guān)系,建立 y 與 x 的數(shù)學(xué)模型如下: 2 ,~ ( 0 , ) .y a b xN ???? ? ???? ( 28) 其中未知參數(shù) ,ab和 2? 都不依賴于 x ?;貧w分析研究的是相關(guān)關(guān)系的一種數(shù)學(xué)工具,這種工具能從一個(gè)變量取得值去 估計(jì)另一個(gè)變量所取的值。例如人的身高和體重之間存在著關(guān)系,一般來(lái)說(shuō)越高體重越重,有時(shí)同樣身高的人,體重也是不一樣的,之所以有這種關(guān)系,是因?yàn)槲覀兩婕暗淖兞渴请S機(jī)變量。變量之間的關(guān)系一般說(shuō)可以分為非確定性和確定性這兩種。對(duì)于給定的顯著性水平 ? ,當(dāng) H 的觀測(cè)值大于或等于2 *( 1)K?? ? ,拒絕原假設(shè),表示 k 個(gè)獨(dú)立樣本來(lái)自于不同的總體,或者說(shuō) k 個(gè)樣本有顯著性差異。檢驗(yàn)的原假設(shè)是: k 個(gè)獨(dú)立樣本來(lái)自于相同的總體。當(dāng)樣本不滿足這正態(tài)性和方差性的假定時(shí),就要采取基于秩的非參數(shù)檢驗(yàn),本文中主要用 KruskalWalls 檢驗(yàn)。對(duì)于給定的顯著性水平 ? ,當(dāng) p ?? 時(shí),應(yīng)拒絕原假設(shè) 0H ,即認(rèn)為因素 A 對(duì)試驗(yàn)指標(biāo)有顯著影響,并且 p 值越小,顯著性越強(qiáng);當(dāng) p ?? 時(shí),應(yīng)接受原假設(shè) 0H ,即認(rèn)為因素 A 對(duì)試驗(yàn)指標(biāo)無(wú)顯著影響。 表 22 單因素方差分析表 來(lái)源 平方和 自由度 均方離差 F 值 臨界值 F? 組間 ASS 1k? /( 1)AAMS SS k?? /AEF MS MS? ( 1, )F k n k? ?? 組內(nèi) ESS nk? /( )EEMS SS n k?? 總計(jì) TSS 1n? 方差分析表很直觀地展現(xiàn)了方差分析的過(guò)程,通過(guò)對(duì)比 F 值與臨界值( 1, )F k n k? ??的大小,作出最后的結(jié)論。由定理可知,當(dāng)原假設(shè) 0H 成立時(shí), /( 1 ) ~ ( 1 , ) ./( )AAEES S k M SF F k n kS S n k M S?? ? ? ?? 直觀上可以看出,當(dāng)統(tǒng)計(jì)量 F 的觀測(cè)值大于某個(gè)臨界值時(shí),應(yīng)拒絕原假設(shè) 0H ,所以對(duì)于給定的顯著性水平 ? ,拒絕域?yàn)? ? ?( 1 , ) .W F F k n k?? ? ? ? 其中 ( 1, )F k n k? ??為 ( 1, )F k n k??分布的上側(cè) ? 分位數(shù)。 原假設(shè) 0H 成立時(shí), 2222~ ( 1 ) , ~ ( 1 )ATS S S Skn??????, ESS 與 ASS 相互獨(dú)立。 這樣就有如下平方和分解式 .T A ESS SS SS?? 為了構(gòu)造檢驗(yàn)統(tǒng)計(jì)量并推導(dǎo)其分布,引入如下定理。 (3)離差平方和及自由度的分解,從模型 (25)式可以看出 , 1 , , , 1 , , .ij i ij iX i k j n? ? ?? ? ? ? ? ( 26) 上式左邊表示每一個(gè)樣本觀測(cè)數(shù)據(jù)與總均值的偏差,這個(gè)偏差被分成兩部分,其中 i? 表示由因素 A 的不同水平所引起的系統(tǒng)偏差, ij? 表示隨機(jī)誤差。然后根據(jù)兩部分平方和構(gòu)造檢驗(yàn)統(tǒng)計(jì)量,推導(dǎo)統(tǒng)計(jì)量所服從的分布,最后寫出拒絕域。 (2)單因素方差分析的原理,作 (24)式的假設(shè)檢驗(yàn),應(yīng)從分析樣本數(shù)據(jù) 的差異入手,數(shù)據(jù)的差異可分為系統(tǒng)偏差和隨機(jī)誤差,來(lái)自不同總體樣本數(shù)據(jù)之間的差異稱為 系統(tǒng)偏差 ,來(lái)自同一總體樣本數(shù)據(jù)之間的差異稱為 隨機(jī)誤差 。令 11 , , 1 , 2 , , .k i i ii ikk? ? ? ? ??? ? ? ?? 則 (23)式可改寫為 212, 1 , , , 1 , , .~ ( 0 , )0ij i ijiidiijkXi k j nN? ? ???? ? ?? ? ???? ???? ? ? ? ??? (25) (24)式等價(jià)于 天津科技大學(xué) 2021屆本科生畢業(yè)論文 6 0 1 2 1: 0 , : 0kiHH? ? ? ?? ? ? ? ?至 少 存 在 一 個(gè) 這里的 ( 1, 2, , )i ik? ? 稱為因素 A 的第 i 個(gè)水平所引起的 效應(yīng) ,可以看成 iA 對(duì)總平均 ? 的“貢獻(xiàn)”大小。 表 21 單因素方差分析的樣本數(shù)據(jù) 組別 樣本 樣本均值 樣本方差 1? 111 12 1, , , nX X X 1X 21S 2? 221 22 2, , , nX X X 2X 22S k? 12, , , kk k knX X X kX 2kS 其中 221111, ( ) , 1 , 2 , , .1iinni ij i ij ijjiiX X S X X i knn??? ? ? ???? ( 22) 單因素方差分析的數(shù)學(xué)模型為 2 , 1 , , , 1 , , ~ ( 0 , )ij i ijiid iijX i k j nN???????? ?????. ( 23) 其中 iid 表示獨(dú)立同分布。 (1)單因素方差分析的數(shù)學(xué)模型。 本文主要對(duì)數(shù)據(jù)中的 13 個(gè)學(xué)院學(xué)生的身高進(jìn)行了單因素一元方差分析和非參數(shù)方差分析,其中單因素一元方差分析,樣本數(shù)據(jù)應(yīng)滿足方差分析的幾個(gè)基本假定,即 (1)所有樣本均來(lái)自正態(tài)總體 (2)這些正態(tài)總體具有相同的方差 (3)所有觀測(cè)值相互獨(dú)立,即獨(dú)立抽樣。在方差分析中,把試驗(yàn)數(shù)據(jù)的總波動(dòng)(總變差或總方差)分解為由所考慮因素引起的波動(dòng)(各因素的變差)和隨機(jī)因素引起的波 動(dòng)(誤差的變差),然后通過(guò)分析比較這些變差來(lái)推斷哪些因素對(duì)所考察指標(biāo)的影響是顯著的,哪些是不顯著的。方差分析是分析試驗(yàn)(或觀測(cè))數(shù)據(jù)的一種統(tǒng)計(jì)方法。從箱線圖上能大概看出樣本數(shù)據(jù)的分布情況。 (2)在箱子左右兩側(cè)各引出一條水平線,左側(cè)線畫至樣本最小值,右側(cè)線畫至樣本最大值, 這樣每條線段包含了樣本 25%的數(shù)據(jù)。 2.箱線圖( boxplot) 箱線圖的做法如下: (1)畫一個(gè)箱子,其左側(cè)線為樣本 分位數(shù)位置,其右側(cè)線為樣本 分位數(shù)位置,在樣本中位數(shù)(即 分位數(shù))位置上畫一條豎線,畫在箱子內(nèi)。做直方圖的步驟如下: (1)將樣本觀測(cè)值從小到大排序得 (1) ( 2 ) ( )lx x x? ? ?. (2)適當(dāng)選取略小于 (1)x 的數(shù) a 與略大于()lx的數(shù) b ,將區(qū)間 ( , )ab隨意分為 k個(gè)不相交的小區(qū)間,記第 i 個(gè)小區(qū)間 為 iI ,其長(zhǎng)度為 ih . (3)把樣本觀測(cè)值逐個(gè)分到各區(qū)間內(nèi),并計(jì)算樣本觀測(cè)值落在各區(qū)間內(nèi)的頻數(shù) in 及頻率ii nf n? . (4)在 x 軸上截取各區(qū)間,并以各區(qū)間為底,以 in 為高作小矩形,就得到 頻數(shù)直方圖 ,若 以 iifh 為高作小矩形,就得到 頻率直方圖 。如偏度大于 0 說(shuō)明概率密度的右尾巴長(zhǎng),頂點(diǎn)偏向左邊,偏度小于 0 說(shuō)明概率密度的左尾巴長(zhǎng),頂點(diǎn)偏向右邊,計(jì)算公式: 31 ? ?,其中 kB 為樣本 k 階中心矩。 (7)變異系數(shù)是衡量數(shù)據(jù)變異程度的一個(gè)統(tǒng)計(jì)量,和標(biāo)準(zhǔn)差不同,當(dāng)單位和平均值不同時(shí),比較其變異程度就要用變異系數(shù),即標(biāo)準(zhǔn)差和平均數(shù)的比值SX。公式是? ? ?? ??1 2 1 21 m ax , , .. ., m i n , , .. .,nnx x x x x x x x?? ( n )和。 天津科技大學(xué) 2021屆本科生畢業(yè)論文 3 2 常用統(tǒng)計(jì)分析方法 描述性統(tǒng)計(jì)分析 常用統(tǒng)計(jì)量 通常在得到數(shù)據(jù)并對(duì)數(shù)據(jù)進(jìn)行預(yù)處理后,需要對(duì)數(shù)據(jù)進(jìn)行描述性的統(tǒng)計(jì)分析。在判別分析中,對(duì)身高體重等級(jí)做了分類。在回歸分析中,先對(duì)數(shù)據(jù)做了相關(guān)性分析,查找相關(guān)性比較強(qiáng)的,所以擬合了身高和體重的一元回歸和身高、體重。首天津科技大學(xué) 2021屆本科生畢業(yè)論文 2 先從描述性統(tǒng)計(jì)量中算出各個(gè)年級(jí)的體測(cè)成績(jī)的幾個(gè)統(tǒng)計(jì)量。本文運(yùn)用訪談法、問(wèn)卷調(diào)查法、統(tǒng)計(jì)法試驗(yàn)法等相關(guān)研究方法對(duì)目前高校存在的問(wèn)題進(jìn)行分析和總結(jié)提出相關(guān)具體方案 ,為大學(xué)生身體素質(zhì)的提升打好基礎(chǔ)。 因此 , 建立良好的體育生活方式 , 可以提高身體機(jī)能素質(zhì) , 促進(jìn)柔韌 、 速度和耐力素質(zhì)的發(fā)展 , 最終促進(jìn)大學(xué)生體質(zhì)的全面發(fā)展 。 李愷憲在 [17]中 探討不同體育生活方式對(duì)大學(xué)生的體質(zhì)狀況有什么影響以及兩者相互關(guān)系 , 研究當(dāng)中主要 采用文獻(xiàn)資料 、 問(wèn)卷調(diào)查 、 專家訪談等研究方法 , 進(jìn)行問(wèn)卷調(diào)查對(duì)江蘇地區(qū)普通高校大學(xué)生的體育生活方式 , 結(jié)果發(fā)現(xiàn) : 不同年級(jí)的體育生活方式存在明顯的差異 , 前三個(gè)年級(jí)的學(xué)生都有很好的體育生活方式,到大四之后學(xué)生的體育生活方式明顯下降 。 2) 城市、縣城、村鎮(zhèn)的學(xué)生體質(zhì)健康狀況存在著一定的差異 , 鄉(xiāng)村學(xué)生好于