freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

決策樹分類算法數(shù)據(jù)挖掘-在線瀏覽

2025-06-06 02:54本頁面
  

【正文】 in dealing with the accumulated mass data. However, Data Mining Technique is a kind of data processing technique that follows this change. In recent years, colleges and other institutions of higher education had increased their enrollments, more and more students got enrolled and consequently, the students’ information data pool gets much bigger. However, the traditional data processing technology can’t acmodate itself to study and analyze the accumulated mass data at a deeper level any more, while Data Mining Technique can solve these problems much better.The increasing data base of the students concludes much, like students’ test score. With the rapid development of puter technology, Computer Rank Examination bees more and more popular。在企業(yè)應(yīng)用領(lǐng)域,用于制定好的市場策略以及企業(yè)的關(guān)鍵性決策。近年來,隨著我國高等教育的飛速發(fā)展,高校的教學管理信息不斷增多。比如我校的教務(wù)系統(tǒng),這些系統(tǒng)為老師和學生提供了很好的幫助。目前的這些數(shù)據(jù)庫系統(tǒng)雖然基本上都可以實現(xiàn)數(shù)據(jù)的錄入、修改、統(tǒng)計、查詢等功能,但是這些數(shù)據(jù)所隱藏的價值并沒有被充分的挖掘和利用,信息資源的浪費還是比較嚴重的。數(shù)據(jù)挖掘技術(shù)的應(yīng)用將對提高學生成績和提高教學水平起到很好的指導作用。進而利用分析結(jié)果引導教學的開展,從而有利于提高教學質(zhì)量。最后對自己的挖掘結(jié)果進行分析,得到影響學生成績的因素。1989年8月在美國召開的第十一屆國際人工智能聯(lián)合會議的專題討論會上,與數(shù)據(jù)挖掘(Date Mining)極為相似的術(shù)語——從數(shù)據(jù)庫中發(fā)現(xiàn)知識一詞被提出。最近,Gartner Group的一次高級技術(shù)調(diào)查將數(shù)據(jù)挖掘和人工智能列為“未來三到五年內(nèi)將對工業(yè)產(chǎn)生深遠影響的五大關(guān)鍵技術(shù)”之首,并且還將并行處理體系和數(shù)據(jù)挖掘列為未來五年內(nèi)投資焦點的十大新興技術(shù)前兩位?!眹庋芯繑?shù)據(jù)挖掘的組織、機構(gòu)或大學很多。著名的研究機構(gòu)如:ACM、KDNet、NCDM等。不少的軟件在國外得到了廣泛的應(yīng)用,并收到了明顯的效益。1993年國家自然科學基金首次支持我們對該領(lǐng)域的研究項目。其中,北京系統(tǒng)工程研究所對模糊方法在知識發(fā)現(xiàn)中的應(yīng)用進行了較深入的研究,北京大學也在開展對數(shù)據(jù)立方體代數(shù)的研究,華中理工大學、復旦大學、浙江大學、中國科技大學、中科院數(shù)學研究所、吉林大學等單位開展了對關(guān)聯(lián)規(guī)則開采算法的優(yōu)化和改造;南京大學、四川聯(lián)合大學和上海交通大學等單位探討、研究了非結(jié)構(gòu)化數(shù)據(jù)的知識發(fā)現(xiàn)以及Web數(shù)據(jù)挖掘。利用數(shù)據(jù)挖掘技術(shù)對這些數(shù)據(jù)進行分析,獲得影響學生成績的因素,更好的輔助學校如何提高學生成績以及提高教學質(zhì)量。通過對實驗結(jié)果進行深入分析,獲得影響學生考試成績的因素,輔助教師在以后的教學工作中采用更恰當?shù)慕虒W方式,指導學生應(yīng)該具有什么樣的學習態(tài)度,從而提高學生考試成績。 主要介紹了論文的研究背景與意義,敘述了國內(nèi)外數(shù)據(jù)挖掘技術(shù)的研究現(xiàn)狀。 主要敘述了數(shù)據(jù)挖掘的定義、數(shù)據(jù)挖掘的過程以及數(shù)據(jù)挖掘的方法。 主要簡要介紹了決策樹以及決策樹的經(jīng)典算法??偨Y(jié)本篇論文并展望今后論文的繼續(xù)研究方向內(nèi)容方向。數(shù)據(jù)庫技術(shù)的成熟以及數(shù)據(jù)應(yīng)用的普及,雖然目前的數(shù)據(jù)庫系統(tǒng)可以高效的實現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計的功能,但無法發(fā)現(xiàn)數(shù)據(jù)中潛在的信息和價值,無法利用這些數(shù)據(jù)來預(yù)測未來的發(fā)展趨勢。 數(shù)據(jù)挖掘的定義數(shù)據(jù)挖掘(Data Mining),又譯為資料探勘、數(shù)據(jù)采礦。所謂數(shù)據(jù)挖掘是指從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中自動搜索隱藏于其中的有著特殊關(guān)系的信息,提取隱含在其中的,人們事先不知道的、但又是潛在有用的信息和知識的過程[5]。大概可以四個部分數(shù)據(jù)對象的確立(Date Object Determined)數(shù)據(jù)預(yù)處理(Date Preprocessing)、數(shù)據(jù)挖掘(Date Mining)及結(jié)果的解釋和評估(Interpretation and Evaluation)。確定數(shù)據(jù)挖掘目標是數(shù)據(jù)挖掘重要的一步。 數(shù)據(jù)對象的確立,包括對大量數(shù)據(jù)的選取、數(shù)據(jù)屬性的確定等。年齡、專業(yè)、成績等。為了提高數(shù)據(jù)挖掘的質(zhì)量,人們提出了數(shù)據(jù)預(yù)處理技術(shù)[7]。數(shù)據(jù)清洗處理過程通常包括:填補遺漏的數(shù)據(jù)值、光滑有噪聲數(shù)據(jù)、識別或刪除異常值、以及解決不一致問題。在數(shù)據(jù)集成時要特別注意消除數(shù)據(jù)的冗余。數(shù)據(jù)挖掘時對應(yīng)的數(shù)據(jù)量往往是非常大的,數(shù)據(jù)歸約是縮小所挖掘數(shù)據(jù)的規(guī)模,但保持數(shù)據(jù)的完整性。而數(shù)據(jù)挖掘階段的核心就是模式的發(fā)現(xiàn)[13]。然后確定用什么數(shù)據(jù)挖掘算法對數(shù)據(jù)進行挖掘,再利用數(shù)據(jù)挖掘的工具和一系列方法對之前所確定以及轉(zhuǎn)換后的數(shù)據(jù)進行分析、產(chǎn)生一個特定的有意義的模式以更好的對已處理好的數(shù)據(jù)進行分析,獲取有用信息。過濾后用于呈現(xiàn)給用戶;一般情況下,為了方便用戶理解產(chǎn)生的模式,處理員應(yīng)該利用可視化技術(shù)將數(shù)據(jù)挖掘產(chǎn)生的有意義模式以圖形或者其他可視化的形式表示,讓用戶更容易理解。如果數(shù)據(jù)挖掘過程中的發(fā)現(xiàn)的知識不能滿足用戶的需求,我們則需要重新對數(shù)據(jù)進行處理,選擇一些其他的數(shù)據(jù)挖掘方法、算法對數(shù)據(jù)進行再次挖掘,并分析結(jié)果,直到滿足用戶的需求。關(guān)聯(lián)規(guī)則的概念由Agrawal、Imielinski、Swami 提出,是數(shù)據(jù)中一種簡單但很實用的規(guī)則。關(guān)聯(lián)規(guī)則是描述了數(shù)據(jù)庫中數(shù)據(jù)項之間所存在的關(guān)系的規(guī)則,即根據(jù)一個事務(wù)中某些項的出現(xiàn)可導出另一些項在同一事務(wù)中也出現(xiàn),即隱藏在數(shù)據(jù)間的關(guān)聯(lián)或相互關(guān)系。一種用樹枝狀展現(xiàn)數(shù)據(jù)受各變量的影響情況的分析預(yù)測模型,根據(jù)對目標變量產(chǎn)生效應(yīng)的不同而制定分類規(guī)則,它是建立在信息論基礎(chǔ)之上,對數(shù)據(jù)進行分類的一種方法。決策樹的建立過程是數(shù)據(jù)規(guī)則的生成過程,因此這種方法實現(xiàn)了數(shù)據(jù)規(guī)則的可視化,其輸出結(jié)果容易理解,精確度較好,效率較高,因而較常用。樹中每個節(jié)點表示某個對象,而每個分叉路徑則代表的某個可能的屬性值,而每個葉結(jié)點則對應(yīng)從根節(jié)點到該葉節(jié)點所經(jīng)歷的路徑所表示的對象的值。決策樹算法是一種逼近離散函數(shù)值的方法。本質(zhì)上決策樹是通過一系列規(guī)則對數(shù)據(jù)進行分類的過程。是建立在自學習的數(shù)學模型基礎(chǔ)之上,它可以對大量復雜的數(shù)據(jù)進行分析,并能完成對人腦或計算機來說極為復雜的模式抽取及趨勢分析。比較典型的學習方法是回溯法。 (4)相關(guān)規(guī)則是一種簡單而實用的關(guān)聯(lián)分析規(guī)則,它描述一個事物中某些屬性同時出現(xiàn)的規(guī)律和模式,由一連串的“如果——則”的邏輯規(guī)則對資料進行細分的技術(shù)。這種事物數(shù)據(jù)庫通常都包括極為龐大的數(shù)據(jù),因此當前的關(guān)聯(lián)規(guī)則發(fā)現(xiàn)技巧正努力根據(jù)基于一定考慮的記錄支持度來削減搜索空間。(5)遺傳算法一種新的最佳化空間搜索方法,它應(yīng)用算法的適應(yīng)函數(shù)來決定搜索的方向,運用一些擬生物化的人工運算過程進行一代一代的周而復始的演化,求得一個最佳結(jié)果。強固形使問題的限制條件降到最低,并大幅度提高系統(tǒng)的容錯能力;而求值空間的獨立性則使遺傳算法的設(shè)計單一化,且適用于多種不同性質(zhì)、領(lǐng)域的問題。(6)連機分析處理簡稱OLAP,是基于大型數(shù)據(jù)庫或數(shù)據(jù)倉庫的信息分析過程,是大型數(shù)據(jù)庫或數(shù)據(jù)倉庫的用戶接口部分,其目的是滿足決策支持或多維環(huán)境特定的查詢和報表要求。OLAP不同于傳統(tǒng)的連機事物處理的應(yīng)用。而OLAP主要是對用戶當前及歷史數(shù)據(jù)進行分析,輔助決策。(7)粗糙集粗糙集算法將知識理解為對數(shù)據(jù)的劃分,每一被劃分的集合稱為概念,主要思想是利用已知的知識庫,將不精確或不確定的知識用已知的知識庫中的知識來近似刻劃處理粗糙集理論,是繼概率論、模糊集、證據(jù)理論之后的又一個處理不確定性的數(shù)學工具。在很多實際系統(tǒng)中均不同程度地存在著不確定性因素,采集到的數(shù)據(jù)常常包含著噪聲,不精確甚至不完整。數(shù)據(jù)挖掘的功能是從大型數(shù)據(jù)集中提取人們感興趣的知識,這些知識是隱含的、具有一定可信度的、對用戶而言是新穎的且有潛在價值的知識,提取的知識表示為概念、規(guī)則、模式等多種形式。描述性挖掘任務(wù)描述數(shù)據(jù)庫中數(shù)據(jù)的一般性質(zhì),而預(yù)測性挖掘任務(wù)是指對當前數(shù)據(jù)進行處理、分析和推斷,以做出相應(yīng)的預(yù)測。一般情況下,數(shù)據(jù)挖掘的功能以及可能發(fā)現(xiàn)的模式類型如下:(1)分類目的是構(gòu)造一個分類函數(shù)或分類模型(也常常稱作分類器),該模型能把數(shù)據(jù)庫中的數(shù)據(jù)項映射到給定類別中的某一個。訓練集由一組數(shù)據(jù)庫記錄或元組構(gòu)成,每個元組是一個由有關(guān)字段(又稱屬性或特征)值組成的特征向量,此外,訓練樣本還有一個類別標記。 例如:銀行部門根據(jù)以前的數(shù)據(jù)將客戶分成了不同的類別,現(xiàn)在就可以根據(jù)這些來區(qū)分新申請貸款的客戶,以采取相應(yīng)的貸款方案。關(guān)聯(lián)分析展示了屬性與值頻繁的在給定的數(shù)據(jù)集中的一起出現(xiàn)的條件。其中,Ai (i{1,…..m})關(guān)聯(lián)規(guī)則XY即表示::“滿足X中條件的數(shù)據(jù)庫元組多半也滿足Y中的條件”。(3)概念/類描述概念描述(concept description)就是通過對與某類對象關(guān)聯(lián)數(shù)據(jù)的匯總、分析和比較,對此類對象的內(nèi)涵進行描述,并概括這類對象的有關(guān)特征。 (4)聚類分析聚類分析就是將物理或抽象對象的集合分組成由類似的對象組成的多個類的過程。它的目的是使群與群之間差別很明顯,而同一個群之間的數(shù)據(jù)盡量相似。在開始細分之前不知道要把用戶分成幾類,因此通過聚類分析可以找出客戶特性相似的群體,如客戶消費特性相似或年齡特性相似等。對象根據(jù)最大化類內(nèi)部的相似性、最小化類之間的相似性的原則進行聚類或分組。所形成的每個簇可以看作一個對象類,由它可以導出規(guī)則。通過聚類,人們能夠認識到密集和稀疏的區(qū)域,因而發(fā)現(xiàn)全局的分類模式,以及數(shù)據(jù)屬性之前的相互關(guān)系。這些數(shù)據(jù)對象是離群點(outlier)。然而,在一些應(yīng)用中(如欺騙檢測),罕見的事件可能比正常出現(xiàn)的事件更令人感興趣??梢约俣ㄒ粋€數(shù)據(jù)分布或概率模型,使用統(tǒng)計檢驗檢測離群點;或者使用距離度量,將遠離任何簇的對象視為離群點。(6) 演變分析數(shù)據(jù)演變分析(evolution analysis)描述行為隨時間變化的對象的規(guī)律或趨勢,并對其建模。(1)、中國寶鋼集團(直接數(shù)據(jù)挖掘,分類分析方法) 寶鋼自1985年投產(chǎn)至今,積累了大量的生產(chǎn)數(shù)據(jù),從每一爐鋼到每一塊板坯到每一個鋼圈,各級計算機系統(tǒng)可以把這些數(shù)據(jù)完整地收集起來。 寶鋼采用了兩個數(shù)據(jù)挖掘工具,一個是自行研發(fā)的基于SAS的practical Miner,另一個是美國SAS公司的Enterprise Miner。在配礦優(yōu)化項目中,通過確定不同鐵礦石的合理比例,每年可為寶鋼降低成本6000萬元。a Financiera . 是阿根廷第五大信貸公司,資產(chǎn)估計價值為9570萬美元,對于Credilogros而言,重要的是識別與潛在預(yù)先付款客戶相關(guān)的潛在風險,以便將承擔的風險最小化。在一家超市里,有一個有趣的現(xiàn)象:尿布和啤酒赫然擺在一起出售。沃爾瑪擁有世界上最大的數(shù)據(jù)倉庫系統(tǒng),為了能夠準確了解顧客在其門店的購買習慣,沃爾瑪對其顧客的購物行為進行購物籃分析,想知道顧客經(jīng)常一起購買的商品有哪些。在這些原始交易數(shù)據(jù)的基礎(chǔ)上,沃爾瑪利用數(shù)據(jù)挖掘方法對這些數(shù)據(jù)進行分析和挖掘。產(chǎn)生這一現(xiàn)象的原因是:美國的太太們常叮囑她們的丈夫下班后為小孩買尿布,而丈夫們在買尿布后又隨手帶回了他們喜歡的啤酒。股票價格一般要受一國貨幣、財政政策、物價、利率、匯率、上市公司重大事項、國際經(jīng)濟環(huán)境、投資者心理等信息的作用,其內(nèi)部規(guī)律非常復雜,變化周期無序,更使行情的走勢變化莫測。更早之前,通過相關(guān)分析,可以找出一支股票與另一支股票走勢
點擊復制文檔內(nèi)容
公司管理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1