freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

決策樹分類算法在教學(xué)分析中的應(yīng)用畢業(yè)論文-文庫(kù)吧

2025-07-23 16:03 本頁(yè)面


【正文】 成為國(guó)際學(xué)術(shù)大會(huì),并且在各個(gè)領(lǐng)域里取得了很多研究成果。 最近, Gartner Group 的一次高級(jí)技術(shù)調(diào)查將數(shù)據(jù)挖掘和人工智能列為 “ 未來(lái)三到五年內(nèi)將對(duì)工業(yè)產(chǎn)生深遠(yuǎn)影響的五大關(guān)鍵技術(shù) ” 之首,并且還將并行處理體系和數(shù)據(jù)挖掘列為未來(lái)五年內(nèi)投資焦點(diǎn)的十大新興技術(shù)前兩位。 [1]根據(jù)最近Gartner 的 HPC 研究表明, “ 隨著數(shù)據(jù)捕獲、傳輸和存儲(chǔ)技術(shù)的快速發(fā)展,大型系統(tǒng)用戶將更多地需要采用新技術(shù)來(lái)挖掘市場(chǎng)以外的價(jià)值,采用更為廣闊 的并行處理系統(tǒng)來(lái)創(chuàng)建新的商業(yè)增長(zhǎng)點(diǎn) ?!? 國(guó)外研究數(shù)據(jù)挖掘的組織、機(jī)構(gòu)或大學(xué)很多。比較著名的如卡內(nèi)基梅隆大學(xué)、斯坦福大學(xué)。著名的研究機(jī)構(gòu)如: KDNet 、 ACM、 NCDM 等。國(guó)外比較著名的挖掘工具 : IBM 公司的 Intelligent Miner 、 SAS 公司的 Enterprise Miner、 SGI 公司的 SetMiner、 SPSS 公司的 Clementine、 Oracle Darwin 等。不少的軟件在國(guó)外得到了廣泛的應(yīng)用,并收到了明顯的效益。 相對(duì)國(guó)外而言 , 我國(guó)的研究還沒有形成整體的力量 。 國(guó)家在 93 年首次支持該 領(lǐng)域的研究?,F(xiàn)如今 ,國(guó)內(nèi)的許多高等院校和科研單位 積極 開展知識(shí)發(fā)現(xiàn)的基礎(chǔ)理論 以及知識(shí)發(fā)現(xiàn)的 應(yīng)用研究,這些單位包括清華大學(xué)、中科院計(jì)算技術(shù)研究所、空軍第三研究所、海軍裝備論證中心等。其中,北京系統(tǒng)工程研究所對(duì)模糊方法在知識(shí)發(fā)現(xiàn)中的應(yīng)用進(jìn)行了較深入的研究,北京大學(xué)也在開展對(duì)數(shù)據(jù)立方體代數(shù)的研究,華中理工大學(xué)、復(fù)旦大學(xué)、浙江大學(xué)、中國(guó)科技大學(xué)、中科院數(shù)學(xué)研究所、吉林大學(xué)等單位開展了對(duì)關(guān)聯(lián)規(guī)則開采算法的優(yōu)化和改造;南京大學(xué)、四川聯(lián)合大學(xué)和上海交通大學(xué)等單位探討、研究了非結(jié)構(gòu)化數(shù)據(jù)的知識(shí)發(fā)現(xiàn)以及Web數(shù)據(jù)挖掘。 論文研究?jī)?nèi)容及結(jié)構(gòu)安排 本課題的主要工作是將數(shù)據(jù)挖掘技術(shù)和學(xué)校的信息管理系統(tǒng)相結(jié)合,新華學(xué)院多年來(lái)的信息化教學(xué)管理工作積累了大量的教學(xué)數(shù)據(jù),從新華學(xué)院的數(shù)據(jù)庫(kù)中收集學(xué)生的考試成績(jī)信息。利用數(shù)據(jù)挖掘技術(shù)對(duì)這些數(shù)據(jù)進(jìn)行分析,獲得影響學(xué)生成績(jī)的因素,更好的輔助學(xué)校如何提高學(xué)生成績(jī)以及提高教學(xué)質(zhì)量。 本課題根據(jù)指導(dǎo)老師提供的 11 級(jí)學(xué)生成績(jī)的信息,建立安徽新華學(xué)院 11安徽新華學(xué)院 2020 屆本科畢業(yè)論文(設(shè)計(jì)) 3 級(jí)學(xué)生成績(jī)庫(kù),采用數(shù)據(jù)挖掘技術(shù)對(duì)成績(jī)庫(kù)進(jìn)行挖掘。通過(guò)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行深入分析,獲得影響學(xué)生考試成績(jī)的因素,輔助教師在以后的教學(xué)工作中采用更恰當(dāng)?shù)慕?學(xué)方式,指導(dǎo)學(xué)生應(yīng)該具有什么樣的學(xué)習(xí)態(tài)度,從而提高學(xué)生考試成績(jī)。 論文結(jié)構(gòu)如下: 第一章 緒論。 主要介紹了論文的研究背景與意義,敘述了國(guó)內(nèi)外數(shù)據(jù)挖掘技術(shù)的研究現(xiàn)狀。 第二章 數(shù)據(jù)挖掘的基礎(chǔ)知識(shí)。 主要敘述了數(shù)據(jù)挖掘的定義、數(shù)據(jù)挖掘的過(guò)程以及數(shù)據(jù)挖掘的方法。 第三章 決策樹。 主要簡(jiǎn)要介紹了決策樹以及決策樹的經(jīng)典算法。 第四章 決策樹在計(jì)算機(jī)等級(jí)考試成績(jī)分析中的應(yīng)用 第五章 總結(jié)與展望。總結(jié)本篇論文并展望今后論文的繼續(xù)研究方向內(nèi)容方向。 安徽新華學(xué)院 2020 屆本科畢業(yè)論文(設(shè)計(jì)) 4 2 數(shù)據(jù)挖掘技術(shù) 數(shù)據(jù)挖掘的概念 數(shù)據(jù)挖掘的背景 隨著信息技術(shù)的高速發(fā)展,人們積累的數(shù)據(jù)量急劇增長(zhǎng),如何從海量的數(shù)據(jù)中提取有用的知識(shí)成為當(dāng)務(wù)之急。 數(shù)據(jù)庫(kù)技術(shù)的成熟以及數(shù)據(jù)應(yīng)用的普及,雖然目前的數(shù)據(jù)庫(kù)系統(tǒng)可以高效的實(shí)現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計(jì)的功能,但無(wú)法發(fā)現(xiàn)數(shù)據(jù)中潛在的信息和價(jià)值,無(wú)法利用這些數(shù)據(jù)來(lái)預(yù)測(cè)未來(lái)的發(fā)展趨勢(shì)。于是,新的問(wèn)題就被提出來(lái)了:人類如何在這浩瀚的數(shù)據(jù)中及時(shí)發(fā)現(xiàn)有用的知識(shí),提高數(shù)據(jù)的利用率呢?在不懈的努力下,從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)知識(shí)( Knowledge Discovery in Datebases)及其核心技術(shù) —— 數(shù)據(jù) 挖掘( Date Mining)便應(yīng)運(yùn)而生,并得以蓬勃的發(fā)展,越來(lái)越顯出其強(qiáng)大的生命力。 數(shù)據(jù)挖掘的定義 數(shù)據(jù)挖掘 (Data Mining),又譯為資料探勘、數(shù)據(jù)采礦。它是數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn) (Knowledge Discovery in Datebases,簡(jiǎn)稱: KDD),是目前人工智能和數(shù)據(jù)庫(kù)領(lǐng)域研究的熱點(diǎn)問(wèn)題,數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過(guò)算法搜索隱藏于其中信息的過(guò)程。所謂數(shù)據(jù)挖掘 是 指 從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中 自動(dòng)搜索隱藏于其中的有著特殊關(guān)系的信息, 提取隱含在其中的 ,人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程 [2]。 數(shù)據(jù)挖掘的過(guò)程 數(shù)據(jù)挖掘的過(guò)程可以分為以下幾個(gè)部分:理解數(shù)據(jù)和數(shù)據(jù)的來(lái)源( unders tanding)、 獲取相關(guān)知識(shí)與技術(shù)( acquisition)、 整合與檢查數(shù)據(jù)( integration and checking)、 去除錯(cuò)誤或不一致的數(shù)據(jù)( data cleaning)、 建立模型和假設(shè)( model and hypothesis development)、 實(shí)際數(shù)據(jù)挖掘工作( data mining)、安徽新華學(xué)院 2020 屆本科畢業(yè)論文(設(shè)計(jì)) 5 測(cè)試和驗(yàn)證挖掘結(jié)果、解釋和應(yīng)用 ( interpretation and use)。大概可以四個(gè)部分?jǐn)?shù)據(jù)對(duì)象的確立 (Date Object Determined)數(shù)據(jù)預(yù)處理 (Date Preprocessing)、數(shù)據(jù)挖掘 (Date Mining)及結(jié)果的解釋和評(píng)估 (Interpretation and Evaluation)[3]。 數(shù)據(jù)對(duì)象的確立 明確我們研究問(wèn)題所需要的數(shù)據(jù),理解數(shù)據(jù)并提出問(wèn)題,需要進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù)信息,明確數(shù)據(jù)挖掘的目標(biāo)的定義。確定數(shù)據(jù)挖掘目標(biāo)是數(shù)據(jù)挖掘重要的一步。我們進(jìn)行數(shù)據(jù)挖掘時(shí),挖掘的結(jié) 果往往是不可預(yù)測(cè)的,但對(duì)要進(jìn)行挖掘的目標(biāo)是可預(yù)見的,即明確數(shù)據(jù)挖掘的最終目標(biāo) [4]。 數(shù)據(jù)對(duì)象的確立,包括對(duì)大量數(shù)據(jù)的選取、數(shù)據(jù)屬性的確定等。本文是安徽新華學(xué)院學(xué)生成績(jī)的數(shù)據(jù)挖掘技術(shù)應(yīng)用,這些數(shù)據(jù)包含新華學(xué)院歷屆的學(xué)生考試成績(jī)數(shù)據(jù),數(shù)據(jù)屬性包括學(xué)生姓名、性別、年齡、專業(yè)、成績(jī)等。 數(shù)據(jù)預(yù)處理階段 現(xiàn)實(shí)世界中數(shù)據(jù)大體上都是不完整的、含有噪聲的、甚至不一致的數(shù)據(jù),我們無(wú)法直接對(duì)對(duì)這些數(shù)據(jù)進(jìn)行挖掘,有時(shí)挖掘的結(jié)果差強(qiáng)人意。為了提高數(shù)據(jù)挖掘的質(zhì)量,數(shù)據(jù)預(yù)處理技術(shù)被提出了 [5]。 數(shù)據(jù)預(yù)處 理是數(shù)據(jù)挖掘過(guò)程中的一個(gè)很重要的步驟,數(shù)據(jù)預(yù)處理有很多種方法,一般將數(shù)據(jù)預(yù)處理又分為四個(gè)步驟:數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)歸約。 數(shù)據(jù)清洗處理過(guò)程通常包括:填補(bǔ)遺漏的數(shù)據(jù)值、光滑有噪聲數(shù)據(jù)、識(shí)別或刪除異常值、以及解決不一致問(wèn)題。 數(shù)據(jù)集成就是將多個(gè)數(shù)據(jù)源的數(shù)據(jù)合并到一起并統(tǒng)一存儲(chǔ),建立數(shù)據(jù)倉(cāng)庫(kù)的過(guò)程實(shí)際上就是數(shù)據(jù)集成。在數(shù)據(jù)集成時(shí)要特別注意消除數(shù)據(jù)的冗余。 數(shù)據(jù)變換主要是對(duì)數(shù)據(jù)進(jìn)行規(guī)格化操作,將數(shù)據(jù)轉(zhuǎn)換成適用于數(shù)據(jù)挖掘的形式。 數(shù)據(jù)挖掘時(shí)對(duì)應(yīng)的數(shù)據(jù)量往往是非常大的,數(shù)據(jù)歸約是縮小所挖掘數(shù)據(jù)的規(guī)模,但保 持?jǐn)?shù)據(jù)的完整性。 安徽新華學(xué)院 2020 屆本科畢業(yè)論文(設(shè)計(jì)) 6 數(shù)據(jù)挖掘階段 數(shù)據(jù)挖掘階段是數(shù)據(jù)挖掘的核心步驟,也是技術(shù)難點(diǎn)所在。而數(shù)據(jù)挖掘階段的核心就是模式的發(fā)現(xiàn) [6]。 此階段主要是確定對(duì)數(shù)據(jù)進(jìn)行分類還是聚類,確定數(shù)據(jù)的關(guān)聯(lián)規(guī)則等等。然后確定用什么數(shù)據(jù)挖掘算法對(duì)數(shù)據(jù)進(jìn)行挖掘,再利用數(shù)據(jù)挖掘的工具和一系列方法對(duì)之前所確定以及轉(zhuǎn)換后的數(shù)據(jù)進(jìn)行分析、產(chǎn)生一個(gè)特定的有意義的模式以更好的對(duì)已處理好的數(shù)據(jù)進(jìn)行分析,獲取有用信息。 結(jié)果的解釋和評(píng)估階段 數(shù)據(jù)挖掘階段會(huì)產(chǎn)生的模式或數(shù)據(jù)集經(jīng)過(guò)評(píng)估存在冗余或多余的模式,這時(shí)需要將其剔除,過(guò)濾出有用 的知識(shí)。過(guò)濾后用于呈現(xiàn)給用戶;一般情況下,為了方便用戶理解產(chǎn)生的模式,處理員應(yīng)該利用可視化技術(shù)將數(shù)據(jù)挖掘產(chǎn)生的有意義模式以圖形或者其他可視化的形式表示,讓用戶更容易理解。例如把分類決策樹轉(zhuǎn)換為“ if— then”的形式。 如果數(shù)據(jù)挖掘過(guò)程中的發(fā)現(xiàn)的知識(shí)不能滿足用戶的需求,我們則需要重新對(duì)數(shù)據(jù)進(jìn)行處理,用其他的數(shù)據(jù)挖掘技術(shù)對(duì)數(shù)據(jù)進(jìn)行挖掘,并分析結(jié)果,直到滿足用戶的需求。 數(shù)據(jù)挖掘的主要方法 ( 1)關(guān)聯(lián)規(guī)則 關(guān)聯(lián)規(guī)則在數(shù)據(jù)挖掘的知識(shí)模式中是比較重要的一種。 關(guān)聯(lián)規(guī)則的概念由 國(guó)外一些著名的學(xué)者提出,例如: Agrawal、 Imielinski、 Swami。 是數(shù)據(jù)中一種簡(jiǎn)單但很實(shí)用的規(guī)則。 關(guān)聯(lián)規(guī)則是描述了數(shù)據(jù)庫(kù)中數(shù)據(jù)項(xiàng)之間所存在的關(guān)系的規(guī)則,即根據(jù)一個(gè)事務(wù)中某些項(xiàng)的出現(xiàn)可導(dǎo)出另一些項(xiàng)在同一事務(wù)中也出現(xiàn),即隱藏在數(shù)據(jù)間的關(guān)聯(lián)或相互關(guān)系 [7]。 ( 2)決策樹 決策樹,顧名思義,是一種樹,一種依托于策略抉擇而建立起來(lái)的樹。 安徽新華學(xué)院 2020 屆本科畢業(yè)論文(設(shè)計(jì)) 7 決策樹是一個(gè)預(yù)測(cè)模型 , 是對(duì)象屬性與對(duì)象值之間的一種映射關(guān)系。樹中每個(gè)節(jié)點(diǎn) 代表著 某個(gè)對(duì)象,而每個(gè)分叉路徑則 表示 某個(gè)可能的屬性值,而每個(gè)葉結(jié)點(diǎn)則對(duì)應(yīng)從根節(jié)點(diǎn)到該葉節(jié)點(diǎn)所經(jīng)歷的路徑所表示的對(duì) 象的值。決策樹僅有單一輸出,若欲有復(fù)數(shù)輸出,可以建立獨(dú)立的決策樹以處理不同輸出 [8] ( 3)遺傳算法 遺傳算法是一種空間搜索方法,遺傳算法的搜索方向是由算法的適應(yīng)函數(shù)來(lái)決定的,用擬生物化的人工運(yùn)算過(guò)程進(jìn)行一代一代的周而復(fù)始的演化,最終得出一個(gè)最佳結(jié)果。遺傳算法的特點(diǎn)是具有求值空間的獨(dú)立性與強(qiáng)固形。強(qiáng)固形使問(wèn)題的限制條件降到最低,并可以大幅度的提高系統(tǒng)的容錯(cuò)能力;而求值空間的獨(dú)立性則使遺傳算法的設(shè)計(jì)比較簡(jiǎn)單,且適用于不同領(lǐng)域不同性質(zhì)的問(wèn)題。遺傳算法在數(shù)據(jù)挖掘中的應(yīng)用,可以挖掘出與眾不同的信息,是別的算法所不能 替代的[9]。 ( 4)粗糙集 粗糙集算法將知識(shí)理解為對(duì)數(shù)據(jù)的劃分,每一被劃分的集合被稱為概念,主要思想是利用已知的知識(shí)庫(kù),將不精確或不確定的知識(shí)用已知的知識(shí)庫(kù)中的知識(shí)來(lái)近似刻畫處理 粗糙集理論,是 繼 模糊集、證據(jù)理論、 概率論 之后的又一個(gè) 可以處理不確定性的數(shù)學(xué)工具。作為一種較新 的算法 ,粗糙集近年來(lái)越來(lái)越受到重視,其有效性已在 諸多的領(lǐng)域的成功應(yīng)用得到了證實(shí), 是當(dāng)前國(guó)際上人工智能理論及其應(yīng)用領(lǐng)域中的研究熱點(diǎn)之一。 數(shù)據(jù)挖掘的功能 數(shù)據(jù)挖掘的功能是從大型數(shù)據(jù)集中提取人們感興趣的知識(shí),這些知識(shí)是隱含的、具有一定可信 度的、對(duì)用戶而言是新穎的且有潛在價(jià)值的知識(shí),提取的知識(shí)表示為概念、規(guī)則、模式等多種形式 [9]。 一般情況下,數(shù)據(jù)挖掘的任務(wù)可以大體分為兩類:描述和預(yù)測(cè)。描述性挖掘任務(wù)描述數(shù)據(jù)庫(kù)中數(shù)據(jù)的一般性質(zhì),而預(yù)測(cè)性挖掘任務(wù)是指對(duì)當(dāng)前數(shù)據(jù)進(jìn)行處理、分析和推斷,以做出相應(yīng)的預(yù)測(cè)。 數(shù)據(jù)挖掘在實(shí)際的工作中,有時(shí)候用戶并不清楚自己需要什么樣的數(shù)據(jù),因此數(shù)據(jù)挖掘工作有必要挖掘出多種類型的模式,以達(dá)到滿足不同的用戶需求和應(yīng)安徽新華學(xué)院 2020 屆本科畢業(yè)論文(設(shè)計(jì)) 8 用。 一般情況下,數(shù)據(jù)挖掘的功能以及可能發(fā)現(xiàn)的模式類型如下: ( 1) 分類 分類的目的是構(gòu)造一個(gè)分類函數(shù)或分類模 型(也常常稱作分類器),該模型能把數(shù)據(jù)庫(kù)中的數(shù)據(jù)項(xiàng)映射到給定類別中的某一個(gè)。要構(gòu)造分類器,需要有一個(gè)訓(xùn)練樣本數(shù)據(jù)集作為輸入。訓(xùn)練集由一組數(shù)據(jù)庫(kù)記錄或元組構(gòu)成,每個(gè)元組是一個(gè)由有關(guān)字段(又稱屬性或特征)值組成的特征向量,此外,訓(xùn)練樣本還有一個(gè)類別標(biāo)記。一個(gè)具體樣本的形式可表示為:( v1, v2,?, vn; c),其中 vi表示字段值, c 表示類別。 例如:銀行部門根據(jù)以前的數(shù)據(jù)將客戶分成了不同的類別,現(xiàn)在就可以根據(jù)這些來(lái)區(qū)分新申請(qǐng)貸款的客戶,以采取相應(yīng)的貸款方案。 ( 2)關(guān)聯(lián)分析 關(guān)聯(lián)分析就是從大量的數(shù)據(jù)中 發(fā)現(xiàn)項(xiàng)集之間有趣的關(guān)聯(lián)或因果結(jié)構(gòu)。 關(guān)聯(lián)分析展示了屬性與值頻繁的在給定的數(shù)據(jù)集中的一起出現(xiàn)的條件。一般如下形式: 如 X?Y,即“ |A1 ? ..........An ?B1? ?? .Bn”的規(guī)則。其中, Ai? (i{1,? ..m}) ,Bj? (j{1,? ..n})是屬性 — 值對(duì)。關(guān)聯(lián)規(guī)則 X?Y 即表示::“滿足 X中條件的數(shù)據(jù)庫(kù)元組多半也滿足 Y 中的條件”。 簡(jiǎn)而言之,就是分析兩個(gè)事物之間的一些特性,通過(guò)一個(gè)事物去預(yù)測(cè)另外一個(gè)事物,這就是關(guān)聯(lián)分析。 ( 3)概念 /類描述 概念描述( concept description)就是通過(guò)對(duì)與某類對(duì)象關(guān)聯(lián)數(shù)據(jù)的匯總、分析和比較,對(duì)此類對(duì)象的內(nèi)涵進(jìn)行描述,并概括這類對(duì)象的有關(guān)特征。 這種描述是匯總的、簡(jiǎn)潔的和精確的知識(shí)。 ( 4)離群點(diǎn)分析 在數(shù)據(jù)庫(kù)中有時(shí)會(huì)包含一些數(shù)據(jù)對(duì)象,它們與數(shù)據(jù)的模型或一般行為不一致。這些數(shù)據(jù)對(duì)象是離群點(diǎn)( outlier)。大部分?jǐn)?shù)據(jù)挖掘方法將離群點(diǎn)視為噪聲或異常丟棄。然而,在一些應(yīng)用中,稀奇的事件可能比正常的
點(diǎn)擊復(fù)制文檔內(nèi)容
畢業(yè)設(shè)計(jì)相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1