freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

決策樹在成績分析中的應用-全文預覽

2024-08-28 02:52 上一頁面

下一頁面
  

【正文】 末,隨著Internet的普及,全球信息量以驚人的速度急劇增長,據(jù)估計每二十個月增加一倍。數(shù)據(jù)挖掘和知識發(fā)現(xiàn)使數(shù)據(jù)處理技術(shù)進入一個更高級的階段。本論文主要論述的是利用決策樹技術(shù)對于大量的學生數(shù)據(jù)進行分析,在其中挖掘有用的信息,目的是提高教學質(zhì)量。關(guān)鍵字:數(shù)據(jù)挖掘,決策樹技術(shù),成績分析 Application of decision tree in performance analysisAbstract Data mining is put forward in 1980s,it is a new, twentieth Century for the mercial application of AI research field,at the end, with the popularity of Internet, the global information has dramatically increased at an alarming rate, is estimated to be doubled every twenty months. Although the current database system can achieve data entry, efficient the query and statistical functions, but can not find the knowledge and rules hidden in massive data。20世紀70年代,數(shù)據(jù)庫系統(tǒng)的三個主要的模式:層次,網(wǎng)絡,關(guān)系型數(shù)據(jù)庫的研究和開發(fā)取得了重要的進展。許多的商業(yè)活動中,由于數(shù)據(jù)庫的普及,人工去整理和理解如此大的數(shù)據(jù)源已經(jīng)存在效率、準確性等問題,并不是每個人都能夠從過去的銷售情況預測將來的發(fā)展趨勢或做出正確的決策。20世紀80年代后期,產(chǎn)生了數(shù)據(jù)挖局等思想。人們希望能夠提供更高層次的數(shù)據(jù)分析功能,自動和智能地將待處理的數(shù)據(jù)轉(zhuǎn)化為有用的信息和知識。這一定義包括多層含義、及數(shù)據(jù)源必須是真實的、海量的、發(fā)現(xiàn)的知識應是用戶感興趣的,并且是可接受的、可理解的和可應用的,可以僅支持特定的問題。 1. 分類或預測模型發(fā)現(xiàn) 按挖掘?qū)ο? 按挖掘方法 3. 聚類分析方法 按數(shù)據(jù)挖掘所能發(fā)現(xiàn)的知識 從數(shù)據(jù)集中發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,該規(guī)則顯示給定數(shù)據(jù)集中經(jīng)常一起出現(xiàn)的屬性值元組。決策樹是通過一系列規(guī)則對數(shù)據(jù)進行分類的過程。它通過大量的稱為神經(jīng)元的簡單處理單元構(gòu)成非線性動力學系統(tǒng),對人腦的形象思維、聯(lián)想記憶等進行模擬和抽象,實現(xiàn)與人腦相似的學習、識別、記憶等信息處理能力。這些數(shù)據(jù)不適合直接進行挖掘,需要進行預處理。 知識運用 運用只是主要有兩種途徑。 ID3算法 基本思路是首先在數(shù)據(jù)集中采用信息增益作為屬性選擇的標準,找出最有影響力的屬性,將數(shù)據(jù)集分成多個子集,每個子集又選擇最具影響力的屬性進行劃分,一直進行到所有自己僅包含同一類型的樣本為止,最后得到一顆決策樹。該屬性成為相應結(jié)點的測試屬性。當一個結(jié)點包含的所有樣本均為同一類別或沒有樣本滿足測試屬性值,則算法終止。因為采用二進制編碼,所以對數(shù)函數(shù)以2為底。E(A)值越小,表示子集劃分結(jié)果越好。(1)信息增益比例的概念信息增益比例是在信息增益概念基礎(chǔ)上發(fā)展來的,表示為:GainRatio(A)=Gain(A)/SplitI(A) 其中 SplitI(A)= 設屬性A具有V個不同的值{a1,a2,......av},可以用屬性A將S劃分為V個子集{s1,s2,....sv},其中Sj包含S中這樣一些樣本:它們在A上具有值aj.(2)合并具有連續(xù)值的屬性 ID3算法最初假定屬性離散值,但在實際環(huán)境中,:*根據(jù)屬性的值,對數(shù)據(jù)集排序;*用不同的閾值將數(shù)據(jù)集動態(tài)地進行劃分;*當輸出改變時確定一個閾值;*取兩個實際值中的中點作為一個閾值;*取兩個劃分,所有的樣本都在這兩個劃分中 ;*得到所有可能的閾值、增益、及增益比;*在每一個屬性會變?yōu)閮蓚€取值,即小于閾值或大于閾值;(3) 處理含有未知屬性值的訓練樣本 ,其處理方法是用最常用的值分在同一類中。表中的每列存放著樹中的結(jié)點。 基礎(chǔ)程度=‘好’學號性別學習成績006女一般007男良好012男良好Yes有2個,no有1個I(2,1)=因為只有屬性性別,所以性別屬性作為根節(jié)點 性別=‘男’學號學習成績007良好012良好確定一個葉節(jié)點, 性別=‘女’學號學習成績006一般確定葉節(jié)點 上機時間=12學號性別基礎(chǔ)程度成績002女一般一般003男好一般009男好一般011女一般一般 確定葉節(jié)點 上機時間=3學號性別基礎(chǔ)程度成績001女良好良好013男一般良好確定葉節(jié)點得到的決策樹如下所示: 改進算法計算學生的信息學號 性別基礎(chǔ)程度上機時間學習成績001女良好=3良好002女一般12一般003男好12一般004男一般=1一般005男一般0不及格006女好=1一般007男好=1良好008女良好=1良好
點擊復制文檔內(nèi)容
教學課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1