freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

決策樹在成績分析中的應(yīng)用(編輯修改稿)

2024-09-01 02:52 本頁面
 

【文章內(nèi)容簡介】 3算法是最典型的決策樹分類算法,決策樹是從機(jī)器學(xué)習(xí)角度研究和發(fā)展起來的,對于大訓(xùn)練樣本集很難適應(yīng)。決策樹是通過一系列規(guī)則對數(shù)據(jù)進(jìn)行分類的過程。以樹的形式來表達(dá)模型,主要是對屬性值進(jìn)行歸納分類,它采用自頂向下的遞歸方式,在決策樹內(nèi)部節(jié)點進(jìn)行屬性值的比較,并根據(jù)不同的屬性值來判斷從該節(jié)點向下的分支,在決策樹的葉節(jié)點得到結(jié)論。采用決策樹可以將數(shù)據(jù)規(guī)則可視化,不需要更長時間的構(gòu)造過程,輸出結(jié)果容易理解,精度較高。 神經(jīng)網(wǎng)絡(luò)方法 是人們在模擬人腦處理問題的過程中發(fā)展起來的新型智能信息處理理論。它通過大量的稱為神經(jīng)元的簡單處理單元構(gòu)成非線性動力學(xué)系統(tǒng),對人腦的形象思維、聯(lián)想記憶等進(jìn)行模擬和抽象,實現(xiàn)與人腦相似的學(xué)習(xí)、識別、記憶等信息處理能力。 是模擬自然界生化進(jìn)化過程的隨機(jī)化搜索算法,它以很強(qiáng)的解決問題能力和廣泛的適應(yīng)性滲透到研究與工程的各個領(lǐng)域。遺傳算法是一種高效的全局并行搜索優(yōu)化算法。 數(shù)據(jù)準(zhǔn)備 數(shù)據(jù)挖掘的處理對象是海量的數(shù)據(jù),是長期積累的結(jié)果。這些數(shù)據(jù)不適合直接進(jìn)行挖掘,需要進(jìn)行預(yù)處理。數(shù)據(jù)預(yù)處理包括數(shù)據(jù)的選擇、清潔(消除噪聲、冗余數(shù)據(jù))、推測(推算缺失數(shù)據(jù))、轉(zhuǎn)換(離散型數(shù)據(jù)與連續(xù)型數(shù)據(jù)之間的轉(zhuǎn)換)、數(shù)據(jù)縮減(減少數(shù)據(jù)量)。 根據(jù)挖掘的目標(biāo),選取相應(yīng)算法的參數(shù),分析數(shù)據(jù),得到可能形成知識的模型 模式的評估解釋 通過上述步驟得到的模式,有可能是沒有意義或沒有實用價值的,因此需要評估,確定哪些是有效的、有用的模式。此外,大部分模式是數(shù)學(xué)表達(dá)式,需要將其解釋成可理解的方式呈現(xiàn)給用戶。 知識運(yùn)用 運(yùn)用只是主要有兩種途徑。一、只許看知識本身描述的關(guān)系或結(jié)果,就可以對決策提供支持;二、要求對新的數(shù)據(jù)運(yùn)用知識,由此可能產(chǎn)生新的問題,并需要對知識做進(jìn)一步優(yōu)化。 第三章 決策樹技術(shù) 決策樹是分類預(yù)測的主要方法,采用基于實例的歸納學(xué)習(xí)算法,旨在從一組無次序、無規(guī)則的實例中推理出決策樹形式的分類規(guī)則,采用自頂向下的遞歸方式,在決策樹的內(nèi)部節(jié)點進(jìn)行屬性值的比較并根據(jù)不同屬性判斷從該節(jié)點向下的分枝,在決策樹的葉節(jié)點得到結(jié)論,所以從根到葉節(jié)點對應(yīng)一條合取規(guī)則,整顆樹對應(yīng)一組析取規(guī)則。 決策樹分類是利用屬性值對各子集逐級劃分,直到一個結(jié)點僅含有同一類樣本為止。 ID3算法 基本思路是首先在數(shù)據(jù)集中采用信息增益作為屬性選擇的標(biāo)準(zhǔn),找出最有影響力的屬性,將數(shù)據(jù)集分成多個子集,每個子集又選擇最具影響力的屬性進(jìn)行劃分,一直進(jìn)行到所有自己僅包含同一類型的樣本為止,最后得到一顆決策樹。決策樹的構(gòu)造采用自上而下,分而治之的遞歸方式。初始時根節(jié)點包含數(shù)據(jù)集的所有的樣本。若一個結(jié)點包含的樣本均為同一個類別,則該結(jié)點成為葉結(jié)點并標(biāo)記為該類別;否則采用信息增益的度量選擇合適的分類屬性,將數(shù)據(jù)集劃分為若干個子集。該屬性成為相應(yīng)結(jié)點的測試屬性。對測試屬性的每個已知值都創(chuàng)建一個分支,同時也包含一個被劃分的子集。遞歸的對所獲得的每個劃分形成一顆決策樹。一旦一個屬性出現(xiàn)在某個結(jié)點上,則不能出現(xiàn)在該結(jié)點之后所產(chǎn)生的子樹結(jié)點上。當(dāng)一個結(jié)點包含的所有樣本均為同一類別或沒有樣本滿足測試屬性值,則算法終止。 屬性信息增益選擇測試屬性的方法如下: 設(shè)數(shù)據(jù)集S有s個樣本,類別屬性有m個不同的取值。定義m個不同的類Ci,i{1,2,3.......m}。設(shè)si為類別Ci的樣本個數(shù),則對一個數(shù)據(jù)集分類所需的期望信息為: I(s,s.......s)=log ()其中p是任意一個樣本,類別屬性有m個不同的取值,定義m個不同的類C的概率,可以按s/S計算。因為采用二進(jìn)制編碼,所以對數(shù)函數(shù)以2為底。設(shè)屬性A可取v個不同的值{a,a,a.........a}.可以用屬性A將S劃分為v個子集{S,S,.......S},其中Sj包含S中屬性A中取值a為1的樣本。若屬性A為測試屬性,設(shè)s為子集S中屬于C類別的樣本數(shù)。則利用屬性A劃分當(dāng)前集合所需要的期望信息計算如下:E(A)=I(s,s,s......s) 其中成為第j個子集的權(quán)值。E(A)值越小,表示子集劃分結(jié)果越好。而對于一個給定子集S,其期望信息如式(),其中p=為子集S中任意一個樣本屬于類別C的概率。 由此利用屬性A對當(dāng)前分支結(jié)點進(jìn)行劃分所獲得的信息增益是: Gain(A)=I(s,s,.........s)E(A)Gain(A)是根據(jù)屬性A進(jìn)行集合劃分所獲得的信息熵的減少量。 改進(jìn)算法,除了具有ID3算法的功能外。(1)信息增益比例的概念信息增益比例是在信息增益概念基礎(chǔ)上發(fā)展來的,表示為:GainRatio(A)=Gain(A)/SplitI(A) 其中 SplitI(A)= 設(shè)屬性A具有V個不同的值{a1,a2,......av},可以用屬性A將S劃分為V個子集{s1,s2,....sv},其中Sj包含S中這樣一些樣本:它們在A上具有值aj.(2)合并具有連續(xù)值的屬性 ID3算法最初假定屬性離散值,但在實際環(huán)境中,:*根據(jù)屬性的值,對數(shù)據(jù)集排序;*用不同的閾值將數(shù)據(jù)集動態(tài)地進(jìn)行劃分;*當(dāng)輸出改變時確定一個閾值;*取兩個實際值中的中點作為一個閾值;*取兩個劃分,所有的樣本都在這兩個劃分中 ;*得到所有可能的閾值、增益、及增益比;*在每一個屬性會變?yōu)閮蓚€取值,即小于閾值或大于閾值;(3) 處理含有未知屬性值的訓(xùn)練樣本 ,其處理方法是用最常用的值分在同一類中。 具體采用概率的方法,依據(jù)屬性已知的值,對屬性和每一個值賦予一個概率,取得這些概率依賴于該屬性已知的值。(4) 規(guī)則的產(chǎn)生 一旦樹被建立。就可以把樹轉(zhuǎn)換成ifthen的規(guī)則,規(guī)則存儲于一個二維的數(shù)組中,每一行代表樹中的一個規(guī)則,即從根到葉之間 的一個路徑。表中的每列存放著樹中的結(jié)點。 ID3算法計算學(xué)生的成績信息 理工科學(xué)生成績分析表如下:學(xué)號性別基礎(chǔ)程度上機(jī)時間學(xué)習(xí)成績001女良好=3良好002女一般12一般003男好12一般004男一般=1一般005男一般0不及格006女好=1一般007男好=1良好008女良好=1良好009男好12一般010男一般=3
點擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1