freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

判別分析的數(shù)據(jù)挖掘研究畢業(yè)論文-展示頁

2025-07-07 12:54本頁面
  

【正文】 動(dòng)控制的基本環(huán)節(jié)。 數(shù)據(jù)經(jīng)過解釋并賦予一定的意義之后,便成為信息。數(shù)據(jù)是對事實(shí)、概念或指令的一種表達(dá)形式,可由人工或自動(dòng)化裝置進(jìn)行處理。如果發(fā)現(xiàn)知識(shí)和用戶挖掘目標(biāo)不一致,則重復(fù)以上階段以最終獲得可用的知識(shí)。4) 數(shù)據(jù)挖掘階段的功能:運(yùn)用選定的數(shù)據(jù)挖掘算法,從數(shù)據(jù)中提取出用戶所需要的知識(shí)。2) 數(shù)據(jù)抽取階段的功能:選取相應(yīng)的源數(shù)據(jù)庫,并根據(jù)要求從數(shù)據(jù)庫中提取相關(guān)的數(shù)據(jù)。 KDD是一個(gè)多步驟的處理過程,一般分為問題定義、數(shù)據(jù)抽取、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘以及模式評估等基本階段。2). 特征選擇:從已知一組特征集中按照某一準(zhǔn)則選擇出有很好的區(qū)分特性的特征子集,或按照某一準(zhǔn)則對特征的分類性能進(jìn)行排序,用于分類器的優(yōu)化設(shè)計(jì)。因此在模型中剩下的自變量中都是對因變量有顯著的影響,而并沒有按影響的大小進(jìn)行排序。而進(jìn)入模型中的自變量并不是按照顯著性進(jìn)行排序的,而是按照自變量的順序排的。若P值較小便拒絕零假設(shè),認(rèn)為該變量的貢獻(xiàn)具有統(tǒng)計(jì)學(xué)意義。它象逐步回歸分析一樣,可以在很多候選變量中挑選一些有重要作用的變量來建立分類函數(shù),使方程內(nèi)的變量都較重要而方程外的變量都不甚重要。因此我們希望在建立分類函數(shù)時(shí)既不要遺漏有顯著判別能力的變量,也不要引入不必要的判別能力很弱的變量。在判別分析中也有類似情況,解釋變量并非越多越好。 分析總結(jié)從逐步回歸分析中我們已經(jīng)知道,回歸方程中的自變量并非越多越好。1)Bayes判別分析 用于兩類或兩類以上間判別,要求各類內(nèi)指標(biāo)服從多元正態(tài)分布。訓(xùn)練樣本的質(zhì)量與數(shù)量至關(guān)重要。為了建立判別函數(shù)就必須有一個(gè)訓(xùn)練樣本。 該判別函數(shù)是否有實(shí)用價(jià)值還需要進(jìn)行考核;分為回顧性考核(組內(nèi)考核) 前瞻性考核(組外考核) 實(shí)際應(yīng)用 未知類別樣品的判別歸類。指標(biāo):X1 X2 X3 X1:三倍體的得分 X2:八倍體的得分X3:不整倍體的得分。若p小于給定的顯著性水平a( 常取a = ) , 則否定2總體均值相等的假設(shè), 即對這2個(gè)總體討論判別問題是有意義的。 判別結(jié)果的檢驗(yàn)1) 總體均值的檢驗(yàn)假設(shè)2總體Gi~N ( , )(i=1,2),為檢驗(yàn)2總體的均值是否有顯著性差異(H0:=) , 可以構(gòu)造F 統(tǒng)計(jì)量[ 4]:F =(1,2)~F(m,n1+n2m1)式中,ni 是第i個(gè)總體的樣品個(gè)數(shù)( i = 1, 2) 。篩選的過程其實(shí)就是作假設(shè)檢驗(yàn)的過程, 通過檢驗(yàn)找出顯著性變量, 剔除不顯著變量 。 判別分析可分為六個(gè)步驟:1) 定義組 組的定義可直接由用于問題得出,但分組也可承接前一分析的結(jié)果。在這種條件下可以精確計(jì)算顯著性檢驗(yàn)值和分組歸屬的概率。在各組協(xié)方差矩陣相等的假設(shè)條件下,可以使用很簡單的公式來計(jì)算判別函數(shù)和進(jìn)行顯著性檢驗(yàn)。判別分析的假設(shè)之二,是各組變量的協(xié)方差矩陣相等。不僅如此,有時(shí)一個(gè)判別變量與另外的判別變量高度相關(guān)、或與另外的判別變量的線性組合高度相關(guān),雖然能求解,但參數(shù)估計(jì)的標(biāo)準(zhǔn)誤差將很大,以至于參數(shù)估計(jì)統(tǒng)計(jì)上不顯著。與其他多元線性統(tǒng)計(jì)模型類似,判別分析的假設(shè)之一是每一個(gè)判別變量(解釋變量)不能是其他判別變量的線性組合。 判別分析的假設(shè)條件判別分析最基本的要求是:分組類型在兩組以上;在第一階段工作時(shí)每組案例的規(guī)模必須至少在一個(gè)以上。判別分析有二級判別、多級判別、逐步判別等多種方法。按區(qū)分不同總體所用的數(shù)學(xué)模型來分,有線性判別和非線性判別;按判別對所處理的變量方法不同,有逐步判別、序貫判別等;按判別準(zhǔn)則不同,有距離判別、貝葉斯判別(Bayes)、費(fèi)歇(Fisher)判別等。當(dāng)包含兩組時(shí),稱作兩組判別分析。另外,有多于兩組的情況,比如低、中、高的分類。判別規(guī)則可以是統(tǒng)計(jì)性的,決定新樣品所屬類別時(shí)用到數(shù)理統(tǒng)計(jì)的顯著性檢驗(yàn);也可以是確定性的,決定樣品歸屬時(shí),只考慮判別函數(shù)值的大小。判別分析所要解決的問題是,在一些已知研究對象用某種方法已分成若干類的情況下,確定新的觀測數(shù)據(jù)屬于已知類別中的哪一類。在對教師的課堂教學(xué)質(zhì)量進(jìn)行評價(jià)中,根據(jù)教學(xué)效果、能力培養(yǎng)、教學(xué)目的和要求、教學(xué)方法等指標(biāo)來評判一個(gè)教師的課堂教學(xué)水平所屬等級。在現(xiàn)實(shí)世界中,經(jīng)常會(huì)遇到需要判別的問題。而當(dāng)被解釋變量是屬性變量而解釋變量是度量變量時(shí),判別分析是合適的統(tǒng)計(jì)分析方法。因此,判別分析在形式上可看做是一種分析一個(gè)名義測度變量與幾個(gè)基數(shù)測度的變量間相關(guān)性的方法。 判別分析,同回歸分析或方差分析一樣,屬于結(jié)構(gòu)檢驗(yàn)法的范疇。在評價(jià)因子的篩選和賦權(quán)的基礎(chǔ)上進(jìn)行了單溝泥石流危險(xiǎn)度評價(jià)的實(shí)例驗(yàn)證,結(jié)果表明,運(yùn)用逐步判別分析法篩選后的評價(jià)因子客觀、準(zhǔn)確地反映了當(dāng)?shù)啬嗍魑kU(xiǎn)度的影響因素,與傳統(tǒng)方法所得危險(xiǎn)度結(jié)果相比更符合泥石流危險(xiǎn)度實(shí)際情況,可靠性更強(qiáng)。運(yùn)用逐步判別分析原理,在多個(gè)評價(jià)因子中按其對數(shù)據(jù)挖掘判別能力貢獻(xiàn)的大小進(jìn)行篩選,從而確定主要的評價(jià)因子。逐步判別法就是一種具有篩選變量能力的判別分析方法?!菊浚涸谑褂门袆e分析進(jìn)行數(shù)據(jù)處理時(shí),對判別能產(chǎn)生影響的變量往往很多,如果不加選擇地一概采用來建立判別函數(shù),不僅計(jì)算量大,還由于變量之間的相關(guān)性,可能使求解逆矩陣的計(jì)算精度下降,建立的判別函數(shù)不穩(wěn)定。 畢設(shè)報(bào)告 學(xué)院:自動(dòng)化學(xué)院 判別分析的數(shù)據(jù)挖掘研究本題目應(yīng)完成以下工作:理清逐步判別分析方法的數(shù)學(xué)原理,編寫出相應(yīng)的算法程序。成果形式為完成的畢業(yè)論文與模型試驗(yàn)。因此適當(dāng)篩選變量的問題就成為一個(gè)很重要的事情。本課題旨在廓清逐步判別分析方法,并在明晰該方法數(shù)學(xué)原理的基礎(chǔ)上,編制出逐步判別分析方法的計(jì)算程序。應(yīng)用改進(jìn)的層次分析法對篩選后的評價(jià)因子進(jìn)行賦權(quán),使求得的判斷矩陣滿足一致性要求,避免了層次分析法后期檢驗(yàn)過程中多次調(diào)整判斷矩陣帶來的過于主觀性的問題。用漢字Foxbase開發(fā)一個(gè)操作界面好、通用性強(qiáng)的逐步判別分析計(jì)算程序. 第二章 逐步判別分析法問題的提出 判別分析是一種用于分析組間差異的多元分析法,用判別分析可以研究針對多個(gè)變量的兩組或多組的差異,以回答如下類型的問題:1) 各組相對各變量是否有顯著差異?2) 哪些變量適合或不適合用于區(qū)分各組? 使用判別分析要求擁有元素的判別變量及其屬性的相關(guān)數(shù)據(jù)。元素的判別變量必須是基數(shù)測度的,而組的屬性可由名義測度變量(分組變量)表示。 判別分析的基本思想有時(shí)我們會(huì)遇到包含屬性被解釋變量和幾個(gè)度量解釋變量的問題,這時(shí)需選擇合適的分析方法。判別分析是多元統(tǒng)計(jì)分析中用于判別樣本所屬類型的一種統(tǒng)計(jì)分析方法。例如,根據(jù)人均國民收入,人均工農(nóng)業(yè)產(chǎn)值,人均消費(fèi)水平等多種指標(biāo)來判定一個(gè)國家的經(jīng)濟(jì)發(fā)展程度所屬類型。在醫(yī)療診斷上,一個(gè)病人肺部有陰影,大夫要根據(jù)陰影大小、陰影部位、是否有痰、是否有低燒等多項(xiàng)指標(biāo)來判斷病人是患肺結(jié)核、肺部良性腫瘤還是肺癌。判別分析方法處理問題時(shí),通常要給出一個(gè)衡量新樣品與已知各類別接近程度的描述指標(biāo),即判別函數(shù),同時(shí)也指定一種判別規(guī)則,即以判定新樣品的歸屬。 判別分析的分類判別分析按判別的組數(shù)來分,有兩組判別分析和多組判別分析;在很多情況下,被解釋變量包含兩組或者兩類,比如,雄性與雌性、高與低。判別分析能夠解決兩組或者更多組的情況。當(dāng)包含三組或者三組以上時(shí),稱作多組判別分析。判別分析在教育評價(jià)中可用于判斷學(xué)校的等級,進(jìn)行人才類型的評價(jià)等方面。在氣候分類、農(nóng)業(yè)區(qū)劃、土地類型劃分中有著廣泛的應(yīng)用。解釋變量必須是可測量的,才能夠計(jì)算其平均值和方差,使其能合理的應(yīng)用于統(tǒng)計(jì)函數(shù)。這時(shí),為其他變量線性組合的判別變量不能提供新的信息,更重要的是在這種情況下無法估計(jì)判別函數(shù)。這就是通常所說的多重共線性問題。判別分析最簡單和最常用的形式是采用線性判別函數(shù),它們是判別變量的簡單線性組合。判別分析的假設(shè)之三,是各判別變量之間具有多元正態(tài)分布,即每個(gè)變量對于所有其他變量的固有值有正態(tài)分布。當(dāng)違背該假設(shè)時(shí),計(jì)算的概率將非常不準(zhǔn)確。2) 建立判別函數(shù) 在判別分析中,要先建立和估計(jì)一個(gè)判別函數(shù),然后用此函數(shù)實(shí)現(xiàn): a 組間最優(yōu)判別 b 判別變量判別意義的檢驗(yàn)判別函數(shù)的一般形式如下: Y=b0+b1X1+b2X2+b3X3+….bjXJ其中,Y:判別指標(biāo);Xj:判別變量j(j=1,2,3,…J); bj:判別變量j的判別系數(shù);b0:常數(shù)可在判別變量數(shù)據(jù)的基礎(chǔ)上,估計(jì)殘數(shù)b0和bj. 3)估計(jì)判別函數(shù) 4)檢驗(yàn)判別函數(shù) 5)檢驗(yàn)判別變量 6)將新元素分類 判別函數(shù)的建立 逐步判別是一種篩選變量的方法。所建立的判別函數(shù)中僅保留了對分類判別能力顯著的變量。計(jì)算F統(tǒng)計(jì)量的值f ,得p = P{F ≥ f } 。2) 錯(cuò)判率的估計(jì)?? 利用舍一法( 或稱交叉確認(rèn)法) 對錯(cuò)判率進(jìn)行估計(jì)。例子 110個(gè)癌癥病人和190個(gè)正常人 。(010分),得到訓(xùn)練樣本檢測,得到X1 X2 X3這就是訓(xùn)練樣本. Y=X1+10X2+X3 ,X1,X2,X3是實(shí)測值,當(dāng)Y100,此人有癌癥,Y100,無癌癥。 判別分析通常都要建立一個(gè)判別函數(shù),然后利用此判別函數(shù)來進(jìn)行判別。判別分析的任務(wù)就是向這份樣本學(xué)習(xí),學(xué)判斷類別的規(guī)則,并非多方考核。每一個(gè)體所屬類別必須用“金標(biāo)準(zhǔn)”予以確認(rèn);解釋變量X1,X2,...XP必須確實(shí)與分類有關(guān);個(gè)體的觀察值必須準(zhǔn)確;個(gè)體的數(shù)目必須足夠多。2)逐步判別分析 建立在Bayes判別分析基礎(chǔ)上,它像逐步回歸分析一樣,可以在眾多指標(biāo)中挑選一些有顯著作用的指標(biāo)來建立一個(gè)判別函數(shù),使方程內(nèi)的指標(biāo)都有顯著地判別作用而方程外的指標(biāo)作用都不顯著。作用不大的變量進(jìn)入方程中不但無益,反而有害。解釋變量的特異性越強(qiáng),判別能力越強(qiáng),這類解釋變量當(dāng)然越多越好;相反,那些判別能力不強(qiáng)的解釋變量如果引入分類函數(shù),同樣也是有益無害的,不但增加了搜集數(shù)據(jù)和處理數(shù)據(jù)的工作量,而且還可能削弱判別效果。 逐步判別分析是達(dá)到上述目標(biāo)的重要方法。分類函數(shù)內(nèi)的變量是否有重要作用可用F檢驗(yàn),檢驗(yàn)的零假設(shè)是:該變量對判別的貢獻(xiàn)為零。逐步回歸是將一組變量全部選進(jìn)去進(jìn)行擬合,從自變量和因變量的顯著性大小逐步選擇變量進(jìn)入模型中。參數(shù)檢驗(yàn)表中的beta并不是表示顯著性的概率值,而是標(biāo)準(zhǔn)回歸系數(shù),表示自變量對因變量影響大小的系數(shù),就是通常模型中的變量系數(shù)。:1). 數(shù)據(jù)清理:主要是消除或減少數(shù)據(jù)噪聲和處理空缺值。3). 數(shù)據(jù)變換:通過平滑、聚集、數(shù)據(jù)概化、規(guī)范化、特征構(gòu)造等手段將數(shù)據(jù)轉(zhuǎn)化為適合于挖掘的形式。1) 問題定義階段的功能:和領(lǐng)域?qū)<乙约白罱K用戶緊密協(xié)作,一方面了解相關(guān)領(lǐng)域的有關(guān)情況,熟悉背景知識(shí),弄清用戶要求,確定挖掘的目標(biāo)等要求;另一方面通過對各種學(xué)習(xí)算法的對比進(jìn)而確定可用的學(xué)習(xí)算法。3) 數(shù)據(jù)預(yù)處理階段的功能:對前一階段抽取的數(shù)據(jù)進(jìn)行再加工,檢查數(shù)據(jù)的完整性及數(shù)據(jù)的一致性。5) 模式評估階段的功能:將K
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1