freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

關聯(lián)規(guī)則挖掘在學生成績管理中的應用畢業(yè)論文(編輯修改稿)

2024-08-17 16:01 本頁面
 

【文章內(nèi)容簡介】 選題的依據(jù)和意義 關聯(lián)規(guī)則挖掘首先是由 等人提出,用來發(fā)現(xiàn)購物籃數(shù)據(jù)事務中各項之間的有趣聯(lián)系,并且提出了挖掘關聯(lián)規(guī)則的 Apriori 算法。 [1]從此以后,對關聯(lián)規(guī)則的理論、實現(xiàn)和應用問題的研究就更加廣泛了。理論上,大多數(shù)關聯(lián)規(guī)則挖掘任務被分解為產(chǎn)生頻繁項集和強規(guī)則兩個子任務,而 頻繁項集產(chǎn)生的計算開銷遠大于強規(guī)則的產(chǎn)生,所以提高頻繁項集的產(chǎn)生效率關系著關聯(lián)規(guī)則算法的總體性能。 [12]目前,已經(jīng)研 究了很多提高算法效率的技術(shù),目的主要是解決 Apriori 算法存在的不足。例如, Park 等提出的 DHP 算法、 Savasere 等提出的劃分算法、 Toivonen 提出的基于抽樣的頻繁項集產(chǎn)生算法和 Brin 等人提出的動態(tài)項集計數(shù)算法等。另外, Han 等還提出了一種不同于以上 改進技術(shù)的growthFP 算法,它是一種不產(chǎn)生候選從而挖掘全部頻繁項集的方法。 本文 在以上改進技術(shù)的基礎上 提出了一種改進算法。該算法利用 完美哈希函數(shù),優(yōu)化的事務壓縮技術(shù),分組查詢計數(shù)和不利用剪枝直接產(chǎn)生候選 k 項集 2 等技術(shù),一定程度上提高了挖掘頻繁項集的效率。對于兩種算法,利用同一個實例,從理論和實驗兩個方面比較它們的性能,發(fā)現(xiàn)了改進算法的優(yōu)越性。 目前關聯(lián)規(guī)則挖掘已經(jīng)應用到了各個領域,比如生物信息學、地球科學、文檔分析、通信警告分析和 Web 挖掘等領域,同時也應用于分類、回歸和聚類等其他學習問題。但是在教育信息領域卻需要更進一步的探索和研究,將數(shù)據(jù)挖掘技術(shù)應用于教育信息領域,從大量的教育信息數(shù)據(jù)中發(fā)現(xiàn)隱藏的、有用的知識,進而促進教育的改革和發(fā)展。 隨著數(shù)據(jù)庫技術(shù)的發(fā)展,國內(nèi)很多學校在處理日益增長的數(shù)據(jù)時,都選擇了教務管理系統(tǒng),但僅限于將紙質(zhì)信息輸入到計算機中,計算機進行統(tǒng)計查詢等日常管理工作,所以急需利用數(shù)據(jù)挖掘技術(shù)從這些數(shù)據(jù)中獲取隱藏其中的規(guī)律或規(guī)則,從而幫助人們做出決策和研究。目前,筆者所在學?;幢睆V播 電視大學正是利用教務管理系統(tǒng)進行學生信息的管理,可以處理學籍、成績和考務等方面的數(shù)據(jù)。 以成績管理模塊為例,教務管理系統(tǒng)僅提供簡單的數(shù)據(jù)查詢和報表輸出的功能,基本上沒有智能分析的功能,因此需要在此系統(tǒng)的基礎上添加智能分析的功能。本文 應用 Apriori 改進算法,采用 20xx VB 作為系統(tǒng)開發(fā)工具, 200 0S e r ve r S Q LM ic r os of t 作為 數(shù)據(jù)庫服務器設計 開發(fā)了一個簡單的 數(shù)據(jù)挖掘系統(tǒng)用于挖掘?qū)W生成績中的關聯(lián)規(guī)則 ,以后再考慮添加其他模塊。通過挖 掘?qū)W生成績,進一步證實了 Apriori 改進算法的有效性和可行性,也為教學管理人員優(yōu)化課程設置提供了決策支持。系統(tǒng)試運行后,優(yōu)化的課程設置 使得教師的教學過程有了明顯的改善,教學效果明顯提高,學生的課程通過率有所上升。 本文的主要內(nèi)容 本文從理論上研究了數(shù)據(jù)挖掘和關聯(lián)規(guī)則挖掘,深入分析了 Apriori 算法,并在此基礎上,提出了一種 Apriori 改進算法,最后將其應用于數(shù)據(jù)挖掘系統(tǒng)挖掘?qū)W生成績數(shù)據(jù)。 本文的主要 內(nèi)容如下: (1) 對數(shù)據(jù)挖掘和關聯(lián)規(guī)則挖掘進行理論研究。數(shù)據(jù)挖掘是知識發(fā)現(xiàn)過程不可或缺的一部份,而關聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘中的重要研究領域。因此,本文著重研究和探索了關聯(lián)規(guī)則挖掘的過程,并詳細介紹了頻繁項集的產(chǎn)生技術(shù)。 (2) 研究分析了 Apriori 算法。主要介紹了 Apriori 算法的基本思想,描述和分析了算法的核心,即通過連接和剪枝產(chǎn)生頻繁項集,并簡要介紹了關聯(lián)規(guī)則的產(chǎn)生。通過實例演示了 Apriori 算法產(chǎn)生 頻繁項集的整個過程,分析了算法的特點和不足,同時介紹了現(xiàn)有的改進技術(shù)。 (3) Apriori 算法的改進設計?;?Apriori 算法的缺陷,改進算法 利用完美哈希函數(shù),優(yōu)化的事務壓縮技術(shù),分組查詢計數(shù)和不利用剪枝直接產(chǎn)生候選 k 項集等技術(shù),一定程度上提升了挖掘頻繁項集的效率。同時,通過理論和實驗對 3 兩種算法進行了產(chǎn)生頻繁項集的時間效率比較,驗證了改進算法的優(yōu)越性。 (4) 學生成績數(shù)據(jù)挖掘系統(tǒng)的設計與實現(xiàn)。 目前,教務管理系統(tǒng)中的學生成績管理模塊無法進行智能分析處理,所以利用 Apriori 改進算法開發(fā)一個簡單的學生成績數(shù)據(jù)挖掘系統(tǒng)用于挖掘?qū)W生成績數(shù)據(jù)。將挖掘結(jié)果提供給 教學管理人員進行課程合理設置,改善了教學過程和教學效果 。 本文的組織結(jié)構(gòu) 本文共分六個章節(jié),以基本理論為基礎,進行算法改進,并設計實現(xiàn)了數(shù)據(jù)挖掘系統(tǒng)應用于學生成績管理。本文的組織結(jié)構(gòu)安排如下: 第一章 緒論。先后介紹了論文研究的背景、選題的依據(jù)及意義以及本文的主要內(nèi)容和組織結(jié)構(gòu)。 第二章 數(shù)據(jù)挖掘技術(shù)。 先后 介紹了數(shù)據(jù)挖掘的起源、基本概念、任務、過程和方法以及研究的發(fā)展趨勢。 第三章 關聯(lián)規(guī)則挖掘技術(shù)。 主要介紹了關聯(lián)規(guī)則的相關定義和性質(zhì),并形式化描述了關聯(lián)規(guī)則的挖掘問題,包括頻繁項集和強規(guī)則的產(chǎn)生。然后詳細介紹了產(chǎn)生頻繁項集的相關技術(shù),簡要介紹了規(guī)則的產(chǎn)生技術(shù)。最后,對于關聯(lián)規(guī)則挖掘的方法做了簡單介紹并提出研究方向。 第四章 Apriori 算法及其改進設計。首先分析了經(jīng)典的 Apriori 算法,包括算法的基本思想和核心,并通過實例分析了算法的特點和不足 ,同時介紹了現(xiàn)有的改進技術(shù)。接著提出了一種改進的 Apriori 算法,并詳細的介紹了改進算法的思路、描述和實例分析,總結(jié)出了改進算法的特點和不足。最后,在性能和實驗分析方面,對兩種算法進行了算法效率比較。 第五章 Apriori 改進算法在學生成績管理中的應用。介紹了關聯(lián)規(guī)則挖掘的基本流程,接著將關聯(lián)規(guī)則挖掘應用于學生成績管理。首先進行了問題定義,數(shù)據(jù)準備,然后應用 Apriori 改進算法實現(xiàn)了一個簡單的學生成績數(shù)據(jù)挖掘 系統(tǒng)。介紹了該系統(tǒng)獲取數(shù)據(jù),數(shù)據(jù)預處理,關聯(lián)規(guī)則挖掘和規(guī)則結(jié)果分析四個模塊的設計與實現(xiàn),最后對系統(tǒng)挖掘結(jié)果進行了解釋和評估。 第六章 本文的總結(jié)與展望。對本文所做的工作進行總結(jié),并對今后的工作提出了研究方向。 4 第二章 數(shù)據(jù)挖掘技術(shù) 目前,人們面臨著這樣一個巨大的挑戰(zhàn),那就是怎樣從海量的數(shù)據(jù)中提取有用的信息,而這些信息來自于社會各個單位部門長年累月積累下來的數(shù)據(jù)。日益收集和存儲下來的數(shù)據(jù)各具特點,堅持用傳統(tǒng)的數(shù)據(jù)分析工具和技術(shù)已解決不了問題, 而急需一種新的技術(shù)能夠?qū)⑻幚砗A繑?shù)據(jù)的復雜算法融合到已有技術(shù)當中 ,而這種技術(shù)就是數(shù)據(jù)挖掘。 數(shù)據(jù)挖掘的起源 面臨著來自商務管理、醫(yī)學、分子生物學、科學與工程技術(shù)界等方面積累的大量數(shù)據(jù),如何從中獲取有價值的新發(fā)現(xiàn),目前已成為不同學科的研究者迎接的一項新挑戰(zhàn)。 數(shù)據(jù)挖掘恰恰提供了這樣的機會,它可以更有效地處理不同的數(shù)據(jù)類型,無論是探查分析新的數(shù)據(jù)類型,還是利用新方法分析舊有的數(shù)據(jù)類型,都是建立在研究者先前使用的算法和方法學的基礎上。 數(shù)據(jù)挖掘是信息產(chǎn)業(yè)最有前途的交叉學科,它將信息論、可視化、信息檢索和進化計算等各個領域的思想融合其中,應用于模式識別、人工智能和機器學習 的建模技術(shù)和搜索算法等學習理論。 同時,數(shù)據(jù)挖掘在一些領域起到至關重要的作用,比如,需要數(shù)據(jù)庫系統(tǒng)提供有效的存儲、索引和查詢處理支持的領域,利用分布式技術(shù)處理不能在一起集中處理的數(shù)據(jù)的領域等。正是由于傳統(tǒng)的數(shù)據(jù)分析技術(shù)在面臨新的數(shù)據(jù)集帶來的可伸縮性、高維性、異種數(shù)據(jù)和復雜數(shù)據(jù)、數(shù)據(jù)的所有權(quán)與分布以及非傳統(tǒng)分析等方面的問題, 才有數(shù)據(jù)挖掘的出現(xiàn)。 數(shù)據(jù)挖掘的概念 數(shù)據(jù)挖掘 Mining) (Data 就是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、 但又是潛在有用的信息和知識的過程。 [1]廣義上,數(shù)據(jù)挖掘是在大量數(shù)據(jù)中挖掘有用信息的過程,但并非所有的信息發(fā)現(xiàn)過程都視為數(shù)據(jù)挖掘,比如,通過數(shù)據(jù)庫管理系統(tǒng) 進行簡單的查詢、調(diào)用和即時遍歷或通過 Inter 的搜索引擎查找網(wǎng)頁等,這些信息檢索的方式主要是依賴數(shù)據(jù)的顯著特征來創(chuàng)建索引結(jié)構(gòu),只能是信息檢索領域的工作。 知識發(fā)現(xiàn) K D D )da t a ba s e ,in di s c ov e r y ( kn ow le dg e 是將未加工的數(shù)據(jù)轉(zhuǎn)換為有用信息的整個過程,包括數(shù)據(jù)預處理 sing)(preproc es (包括特征選擇、 維規(guī)約、 5 規(guī)范化、選擇數(shù)據(jù)子集 )到數(shù)據(jù)挖掘,再到數(shù)據(jù)挖掘結(jié)果的后處理 ssing)(pos tpr oc e (包括模式過濾、可視化和模式表示 ),而數(shù)據(jù)挖掘只是其中的一個步驟,但卻不可或缺。 [2] 數(shù)據(jù)挖掘的任務 預測和 描述 是數(shù)據(jù)挖掘的兩大任務 , 前者根據(jù)其他屬性的值來預測特定屬性的值,而后者是導出概括數(shù)據(jù)中潛在聯(lián)系的模式。 下面簡單地介紹四種主要的數(shù)據(jù)挖掘任務 : (1) 預測建模 m ode ling) e( pr e di c t iv 預測建模通過說明變量函數(shù)的方式,決定目標變量屬于哪種類別,如果預測的目 標變量是離散的,這種就歸為分類;若預測的變量是連續(xù)的,這種就歸為回歸,但是相同的目標是使預測值與實際值之間的誤差達到最小。 決策樹、基于統(tǒng)計學的貝葉斯方法和神經(jīng)網(wǎng)絡方法 是預測建模的主要方法 。 (2) 關聯(lián)分析 a na lys is )on ( a s s oc iati 關聯(lián)分析 是這樣一種方法,它的目的是 發(fā)現(xiàn)數(shù)據(jù)中強關聯(lián)特征的模式 ,從而得到有實用價值的信息。 [13]它主要應用于購物籃分析得到新的交叉銷售商機,除此之外,還被應用于科學數(shù)據(jù)分析、生物信息學和醫(yī)療診斷等領域。 (3) 聚類分析 ana lys is)(c lus ter 俗話說 物以類聚,聚類用于發(fā)現(xiàn)數(shù)據(jù)庫中緊密相關的數(shù)據(jù)并組成不同的組,使得同一簇中的數(shù)據(jù)相互之間盡可能的相似。它 主要應用于對相關的顧客分組、壓縮數(shù)據(jù)等。 (4) 異常檢測 de te c tion)( a nom a ly 識別數(shù)據(jù)的特征明顯不同于其他數(shù)據(jù)的觀測值是 異常檢測的目的,同時要避免標注正常的數(shù)據(jù)為異常點,這種檢測手段經(jīng)常被應用于避免網(wǎng)絡被攻擊、檢測是否是欺詐行為和生態(tài)系統(tǒng)擾動等。 數(shù)據(jù)挖掘的過程 數(shù)據(jù)挖掘的過程大致可以用定義問題、 數(shù)據(jù)的準備 、 建模 和 解釋、 評估結(jié)果來概括。 (1)定義問題。 主要是熟悉實際的業(yè)務背景情況,確定要挖掘什么和要得到什么結(jié)果。在開始數(shù)據(jù)挖掘之前,需要弄清用戶需求,明確挖掘?qū)ο蠛湍繕耍瑥亩鵀橥诰驕蕚鋬?yōu)質(zhì)的數(shù)據(jù),才能夠正確的解釋和評估結(jié)果,進而挖掘出有價值的信息。 (2)準備數(shù)據(jù)。確定了要挖掘的對象, 還需要進行數(shù)據(jù)預處理。 原始數(shù)據(jù)必須加以處理才能提高數(shù)據(jù)的質(zhì)量并且更好的適應特定的數(shù)據(jù)挖掘技術(shù)或工具,即數(shù)據(jù)預處理。 6 (3)建模即執(zhí)行挖掘算法并建立模型。在前兩步的基礎上,我們要選擇 合適的 挖掘算法 。 在選擇時要考慮到用戶的需求,是要得到 描述型而又容易理解的準確概要性的知識,還是要 滿足預測率高的分類規(guī)則,卻不在乎是否容易接受等 各種各樣的 要求,所以 算法選的合不合適,關系到分析數(shù)據(jù)的結(jié)果是否滿足要求 。 (4) 解釋和評估結(jié)果。對挖掘得到的關聯(lián)規(guī)則進行解釋和評估,并將分析得到的有用知識應用到實際應用中,以便做出決策。 可見,數(shù)據(jù)挖掘的過程需要反復進行,使得挖掘出的信息不斷接近問題的本質(zhì),從而做出更加正確的決策。 數(shù)據(jù)挖掘的方法 面對不同的數(shù)據(jù)挖掘任務,一種方法往往不能全部解決,而需要將多種方法相結(jié)合,取長補短。常用 的 主要有以下幾種: (1) 關聯(lián)分析方法 關聯(lián)分析方法主要用于發(fā)現(xiàn)隱 藏在大型數(shù)據(jù)集中的不同事件之間的有意義的關聯(lián)性,即一個事件發(fā)生的同時,另一個事件也經(jīng)常發(fā)生。它的主要依據(jù)是事件發(fā)生的概率和條件概率應符合一定的統(tǒng)計意義,重點在于快速發(fā)現(xiàn)那些有實用價值的關聯(lián)發(fā)生的事件。通過關聯(lián)分析所得到的結(jié)果,僅僅是一種可能的因果關系,它能夠協(xié)助業(yè)務專家分析事物的本質(zhì),深化對事物關系的認識,但需要業(yè)務專家加以確認,并予以合理的解釋,才能夠成為對決策進行指導的規(guī)律。 挖掘頻繁項集經(jīng)常被使用的是 Apriori 算法和 growthFP 算法 , 其他還包括DHP 、 Partition 、 Sampling 、 DIC 等算法 以及 樹投影算法和 MineH 。另外還有基于約束的關聯(lián)規(guī)則算法,挖掘關聯(lián)模式的并行算法 ,基于模式定秩、匯總和模式過濾方法以及主觀度量在關聯(lián)分析中的應用等。 (2) 分類分析方法 ① 有這樣一種分類法, 在選擇劃分數(shù)據(jù)的屬性時, 它采取一系列局部最優(yōu)決策來構(gòu)造決策樹, 從而能夠在合理的時間內(nèi)構(gòu)造出具有一定 準確率的次最優(yōu)決策樹。決策樹歸納算法主要有以下特點,它是一種構(gòu)造分類模型的非參數(shù)方法,即使訓練集非常大,也可以快速建立模型,對于噪聲的干擾具有較好的魯棒性等。 一些著名的決策樹算法包括都采用熵度量作為劃分函數(shù)的 ID3 和 算法以及使用 Gini 指標作為劃分函數(shù)的 CART 算法,還有在決策樹生長過程中使用 2χ 統(tǒng)計檢驗確定最佳的劃分點的 CHAID 算法。斜決策樹和構(gòu)造歸納方法 是用來提高決策樹表達能力的 。除自頂向下方法外,其他生長決策樹的策略還有自底向上的方法和雙向的方法。另外還有開發(fā)決策樹歸納算法的并行和可伸縮算法,包括 Mehta 等的 SLIQ 、 Shafer 等的 SPRINT 等。 ② 基于規(guī)則分類器分類方法是從包含多個類的數(shù)據(jù)集中一次提取一個類 7 的規(guī)則,歸納
點擊復制文檔內(nèi)容
研究報告相關推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1