【正文】
echnique that follows this change. In recent years, colleges and other institutions of higher education had increased their enrollments, more and more students got enrolled and consequently, the students’ information data pool gets much bigger. However, the traditional data processing technology can’t acmodate itself to study and analyze the accumulated mass data at a deeper level any more, while Data Mining Technique can solve these problems much better.The increasing data base of the students concludes much, like students’ test score. With the rapid development of puter technology, Computer Rank Examination bees more and more popular。在學(xué)生管理以及教學(xué)科學(xué)化的今天,傳統(tǒng)的教學(xué)分析已經(jīng)不能適應(yīng)社會發(fā)展的需求。據(jù)我所知,除文中特別加以標注引用參考文獻資料外,論文(設(shè)計)中所有數(shù)據(jù)均為自己研究成果,不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果。與我一同工作的同志對本研究所做的工作已在論文中作了明確說明并表示謝意。學(xué)生信息數(shù)據(jù)不斷的增多,教學(xué)分析工作也日益加重。 hence, the data base of students’ test score bees much bigger. So, to use Data Mining Technique to mine the accumulated mass CRE score is of great meaning with regarding to the improvement of the students’ score on CRE, since people can apply the results of data mining in school puter teaching research. This paper intends to show the use of Data Mining Technique in the analysis of students’ score information in Computer Rank Examination, from the pretreatment on the collected data to the use of decision tree technique in data analysis. This employs ID3 algorithm in decision tree technique to get the decision tree of the students’ score. Then by analyzing the useful information to find out the elements that can influence CRE score and the rules in these influences to instruct school teaching work. Keywords:Data mining;puter examination;decision tree;SqlServer2008目 錄1 緒 論 1 1 1 2 32 數(shù)據(jù)挖掘技術(shù) 4 4 數(shù)據(jù)挖掘的定義 4 數(shù)據(jù)挖掘的過程 4 數(shù)據(jù)對象確立階段 5 5 6 6 6 10 12 13 143 決策樹技術(shù) 15 15 16 ID3算法 16 17 18 18 204 決策樹在計算機等級考試成績分析中的應(yīng)用 21 21 決策樹算法在計算機等級考試成績分析中的應(yīng)用 21 確定對象集目標 21 數(shù)據(jù)的采集 22 數(shù)據(jù)預(yù)處理 23 數(shù)據(jù)挖掘工作的展開 24 275總結(jié)與展望 29 29 29參考文獻 321 緒 論無論在企業(yè)應(yīng)用領(lǐng)域,還是在科學(xué)領(lǐng)域,數(shù)據(jù)挖掘技術(shù)有著廣泛的應(yīng)用價值。教學(xué)工作信息化有了很大的進步,好多高校在管理學(xué)生和教師信息方面有了很好的方式。隨著數(shù)據(jù)挖掘技術(shù)的不斷擴展,許多高校為了避免信息浪費,已經(jīng)將數(shù)據(jù)挖掘技術(shù)應(yīng)用于高校的教學(xué)分析中。本文主要是基于如下背景開展的:以安徽新華學(xué)院歷屆學(xué)生成績?yōu)楸尘埃紫葘W(xué)習(xí)數(shù)據(jù)挖掘的理論知識以及決策樹技術(shù),然后建立新華學(xué)院學(xué)生成績數(shù)據(jù)庫,并利用數(shù)據(jù)挖掘技術(shù)中的決策樹對自己建立的數(shù)據(jù)庫進行深入的挖掘。1993年以后,美國計算機協(xié)會美年都舉行了專門研究探討數(shù)據(jù)挖掘技術(shù)的會議,會議的規(guī)模也發(fā)展成為國際學(xué)術(shù)大會,并且在各個領(lǐng)域里取得了很多研究成果。比較著名的如卡內(nèi)基梅隆大學(xué)、斯坦福大學(xué)、麻省理工學(xué)院。與國外相比,國內(nèi)對DMKD的研究稍晚,沒有形成整體力量。本課題的主要工作是將數(shù)據(jù)挖掘技術(shù)和學(xué)校的信息管理系統(tǒng)相結(jié)合,新華學(xué)院多年來的信息化教學(xué)管理工作積累了大量的教學(xué)數(shù)據(jù),從新華學(xué)院的數(shù)據(jù)庫中收集學(xué)生的考試成績信息。 論文結(jié)構(gòu)如下:第一章 緒論。第三章 決策樹。2 數(shù)據(jù)挖掘技術(shù)隨著信息技術(shù)的高速發(fā)展,人們積累的數(shù)據(jù)量急劇增長,如何從海量的數(shù)據(jù)中提取有用的知識成為當務(wù)之急。它是數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Discovery in Datebases,簡稱:KDD),是目前人工智能和數(shù)據(jù)庫領(lǐng)域研究的熱點問題,數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。 數(shù)據(jù)挖掘的過程 數(shù)據(jù)對象的確立明確我們研究問題所需要的數(shù)據(jù),理解數(shù)據(jù)并提出問題,需要進行數(shù)據(jù)挖掘的數(shù)據(jù)信息,明確數(shù)據(jù)挖掘的目標的定義。本文是安徽新華學(xué)院學(xué)生成績的數(shù)據(jù)挖掘技術(shù)應(yīng)用,這些數(shù)據(jù)包含新華學(xué)院歷屆的學(xué)生考試成績數(shù)據(jù),數(shù)據(jù)屬性包括學(xué)生姓名、性別。數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘過程中的一個很重要的步驟,數(shù)據(jù)預(yù)處理有很多種方法,一般將數(shù)據(jù)預(yù)處理又分為四個步驟:數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)歸約。數(shù)據(jù)變換主要是對數(shù)據(jù)進行規(guī)格化操作,將數(shù)據(jù)轉(zhuǎn)換成適用于數(shù)據(jù)挖掘的形式。此階段主要是確定對數(shù)據(jù)進行分類還是聚類,確定數(shù)據(jù)的關(guān)聯(lián)規(guī)則等等。例如把分類決策樹轉(zhuǎn)換為“if—then”的形式。關(guān)聯(lián)規(guī)則模式屬于描述型模式,發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的算法屬于無監(jiān)督學(xué)習(xí)的方法。它首先通過一批已知的訓(xùn)練數(shù)據(jù)建立一棵決策樹,然后采用建好的決策樹對數(shù)據(jù)進行預(yù)測。決策樹是一個預(yù)測模型;他代表的是對象屬性與對象值之間的一種映射關(guān)系。它是一種典型的分類方法,首先對數(shù)據(jù)進行處理,利用歸納算法生成可讀的規(guī)則和決策樹,然后使用決策對新數(shù)據(jù)進行分析。神經(jīng)網(wǎng)絡(luò)的處理過程主要是通過網(wǎng)絡(luò)的學(xué)習(xí)功能找到一個恰當?shù)倪B接加權(quán)值來得到最佳結(jié)果。關(guān)聯(lián)規(guī)則一般應(yīng)用在事物數(shù)據(jù)庫中,其中每個事物都由一個記錄集合組成。特點是具有強固形與求值空間的獨立性。OLAP具有快速性、可分析性、多維性、信息性和共享性等特點,它是跨部門、面向主題的。其典型的應(yīng)用有對銀行信用卡風險的分析與預(yù)測等,主要是進行大量的查詢操作,對時間的要求不太嚴格。它將知識理解為對數(shù)據(jù)的劃分,每一被劃分的集合稱為概念,主要思想是利用已知的知識庫,將不精確或不確定的知識用已知的知識庫中的知識來近視刻劃處理。數(shù)據(jù)挖掘在實際的工作中,有時候用戶并不清楚自己需要什么樣的數(shù)據(jù),因此數(shù)據(jù)挖掘工作有必要挖掘出多種類型的模式,以達到滿足不同的用戶需求和應(yīng)用。一個具體樣本的形式可表示為:(v1,v2,…,vn;c),其中vi表示字段值,c表示類別。一般如下形式: 如XY,即“|A1..........AnB1…….Bn”的規(guī)則。 簡而言之,就是分析兩個事物之間的一些特性,通過一個事物去預(yù)測另外一個事物,這就是關(guān)聯(lián)分析。聚類是把整個數(shù)據(jù)庫分成不同的群組。在此基礎(chǔ)上可以制定一些針對不同客戶群體的營銷方案。聚類也便于分類法組織形式(taxonomy formation),將觀測組織成類分層結(jié)構(gòu),把類似的事件組織在一起。大部分數(shù)據(jù)挖掘方法將離群點視為噪聲或異常而丟棄?;谄畹姆椒ㄍㄟ^考察一群對象主要特征上的差別來識別離群點,而不是使用統(tǒng)計或距離度量。采用數(shù)據(jù)挖掘技術(shù)對鋼材生產(chǎn)的全流程進行質(zhì)量監(jiān)控和分析(通過全流程實時監(jiān)控獲得了豐富的生產(chǎn)數(shù)據(jù)),構(gòu)建故障地圖,實時分析產(chǎn)品出現(xiàn)瑕疵的原因,有效提高了產(chǎn)品的優(yōu)良率。另外,通過分析軋制計劃,分析和優(yōu)化庫存結(jié)構(gòu),降低庫存成本和平衡物流成本Credilogros C237。但是這個奇怪的舉措?yún)s使尿布和啤酒的銷量雙雙增加了。一個意外的發(fā)現(xiàn)是:跟尿布一起購買最多的商品竟是啤酒!經(jīng)過大量實際調(diào)查和分析,揭示了一個隱藏在尿布與啤酒背后的美國人的一種行為模式:在美國,一些年輕的父親下班后經(jīng)常要到超市去買嬰兒尿布,而他們中有30%~40%的人同時也為自己買一些啤酒。 利用決策樹分類算法中的ID3算法并適當調(diào)整以對股票交易數(shù)據(jù)樣本集進行測試分析,由此生成決策樹作為分類器并對其結(jié)果進行了檢驗,最后根據(jù)決策樹分類規(guī)則開發(fā)出一淘股票分析預(yù)測系統(tǒng)。在數(shù)據(jù)挖掘中決策樹算法是目前數(shù)據(jù)挖掘領(lǐng)域中應(yīng)用的最廣泛、最流行的推理算法之一。決策樹的主要作用是揭示數(shù)據(jù)中的結(jié)構(gòu)化信息。一般的數(shù)據(jù)挖掘工具,允許選擇分裂條件和修剪規(guī)則,以及控制參數(shù)(最小結(jié)點的大小,最大樹的深度等等),來限制決策樹的。迄今為止,國內(nèi)外研究人員先后提出了十幾種決策樹的分類方法,因此決策樹的算法還是挺多的,本文介紹了兩種比較經(jīng)典的決策樹算法。這樣,分裂根節(jié)點上的數(shù)據(jù)集,并一道子女節(jié)點,產(chǎn)生一個局部的樹。要想了解ID3算法,我們要了解ID3算法中的一些基本概念:(1)熵熵是一個物理名詞,源于熱力學(xué)的概念,數(shù)值為溫度除熱量所得的值。(2)信息增益度信息增益度是兩個信息量之間的差值,簡單的說,一個屬性的信息增益就是由于使用這個屬性分割樣例而導(dǎo)致的期望熵降低(或者說,樣本按照某屬性劃分時造成熵減少的期望)。在決策樹構(gòu)造過程中進行剪枝,因為某些具有很少元素的結(jié)點可能會使構(gòu)造的決策樹過適應(yīng)(Overfitting),如果不考慮這些結(jié)點可能會更好。通過對ID3算法的介紹我們已經(jīng)了解熵,和信息增益。根據(jù)前面的介紹,我們來計算信息熵,信息增益,以及信息增益率。ID3算法的基本思想是貪心算法,采用自上而下的分而治之的方法構(gòu)造決策樹。這種信息理論方法使得對一個對象分類所需的期望測試數(shù)目達到最小,并盡量確保一棵簡單的(但不必是最簡單的)樹來刻畫相關(guān)的信息。但是這個決策樹對于測試數(shù)據(jù)的分類性能可能會相當差,因為它過分地完美地分割了訓(xùn)練數(shù)據(jù),不是一個好的分類器。一方面,葉子節(jié)點隨分割不斷增多。另一方面,決策樹不斷向下生長,導(dǎo)致樹的深度增加。因此對與決策樹的剪枝是非常有必要的。在決策樹完全生長之后,通過特定標準去掉原決策樹中的某些子樹。對于包含較少實例的節(jié)點,可能被分割為單一實例節(jié)點。當閾值a選擇過大時,節(jié)點在不純度依然很高時就停止分割了。由信息增益公式可知。由此可見,預(yù)剪枝方法雖然原理簡單,但是在實際應(yīng)用中,閾值a的選擇存在相當大的主觀性。②除根節(jié)點以外,剩余的節(jié)點被劃分成m=0個不相交的集合Tl,…,Tm,而且每一個集合也都是樹。,為決策樹剪枝的過程。本章將結(jié)合前面三張的內(nèi)容,深入探討決策樹分類算法在學(xué)生考試成績分析中方案,本章自己介紹了實施的步驟以及過程,對學(xué)生考試成績進行分析,找出影響學(xué)生的因素,并且利用數(shù)據(jù)挖局所產(chǎn)生的隱藏信息指導(dǎo)學(xué)校的教學(xué)工作,從而提高學(xué)校學(xué)生的學(xué)生的考試成績。只要沿著樹根向下一直走到葉,沿途的分裂條件