freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

決策樹分類算法數(shù)據(jù)挖掘-免費閱讀

2025-05-13 02:54 上一頁面

下一頁面
  

【正文】 感謝我的同學和朋友,在我寫論文的過程中給予我了很多你問素材,還在論文的撰寫和排版的過程中提供熱情的幫助。當然,隨著數(shù)據(jù)挖掘技術的不斷改進,應用數(shù)據(jù)挖掘技術中的決策樹在學校計算機等級考試成績分析需要在各個方面不斷的加深。本次數(shù)據(jù)挖掘對象,學生計算機等級考試成績,從數(shù)據(jù)屬性可以找出影響學生計算機等級考試成績的因素包括:平時成績、課堂作業(yè)完成情況、上機作業(yè)完成情況、學前對知識的了解情況,分析出影響學生計算機等級考試的通過率的因素。 成績分析決策樹在決策樹創(chuàng)建時,由于數(shù)據(jù)中的噪聲和離群點,許多分支反映的是訓練數(shù)據(jù)中的異常,同時決策樹枝繁葉茂是沒有必要的,這樣降低了樹的可理解性和可用性,同時也使得決策樹對歷史數(shù)據(jù)依賴性大,為了使得到的決策樹所蘊涵的規(guī)則具有普遍意義,為了防止訓練過度,減少訓練時間,因此需要對得到的決策樹進行剪枝,剪枝的方法有:先剪枝和后剪枝。對成績沒有影響的數(shù)據(jù)屬性將不參與數(shù)據(jù)挖掘的工作。學生成績的好壞是衡量學生的學習狀況和老師的教學水平。經(jīng)過前面的詳細介紹,在數(shù)據(jù)挖掘分類技術中,一般有粗糙集、K最近鄰分類、神經(jīng)網(wǎng)絡分類、貝葉斯分類、決策樹分類和等方法。樹Tl,…,Tm稱為這個根節(jié)點的子樹。如果設a=,因為Gain(Root,a)=,所以根節(jié)點Root不需要分割。為了避免這種情況,我們給出一個停止閾值a。一般情況下可以使用如下兩類方法來減小決策樹的規(guī)模:(l)在決策樹完美分割學習樣例之前,停止決策樹的生長。在極端的情況下,在一棵完成分割的決策樹中,每個葉子節(jié)點中只包含一個實例。數(shù)據(jù)D中一共用14個訓練樣本,其中9個為正樣例,5個位反樣例。對非離散數(shù)據(jù)也能處理。已經(jīng)有了熵作為衡量訓練樣例集合純度的標準,現(xiàn)在可以定義屬性分類訓練數(shù)據(jù)的效力的度量標準。在決策樹各級結點上選擇屬性時,通過計算信息增益來選擇屬性,以使得在每一個非葉結點進行測試時,能獲得關于被測試記錄的最大的類別信息。決策樹作為一棵樹,樹的根節(jié)點是整個數(shù)據(jù)集合空間,每個分節(jié)點是對一個單一變量的測試,該測試將數(shù)據(jù)集合空間分割成兩個或更多塊。決策樹分類算法是將數(shù)據(jù)分類、預測和規(guī)格的提取。產(chǎn)生這一現(xiàn)象的原因是:美國的太太們常叮囑她們的丈夫下班后為小孩買尿布,而丈夫們在買尿布后又隨手帶回了他們喜歡的啤酒。a Financiera . 是阿根廷第五大信貸公司,資產(chǎn)估計價值為9570萬美元,對于Credilogros而言,重要的是識別與潛在預先付款客戶相關的潛在風險,以便將承擔的風險最小化。(6) 演變分析數(shù)據(jù)演變分析(evolution analysis)描述行為隨時間變化的對象的規(guī)律或趨勢,并對其建模。通過聚類,人們能夠認識到密集和稀疏的區(qū)域,因而發(fā)現(xiàn)全局的分類模式,以及數(shù)據(jù)屬性之前的相互關系。它的目的是使群與群之間差別很明顯,而同一個群之間的數(shù)據(jù)盡量相似。其中,Ai (i{1,…..m})一般情況下,數(shù)據(jù)挖掘的功能以及可能發(fā)現(xiàn)的模式類型如下:(1)分類目的是構造一個分類函數(shù)或分類模型(也常常稱作分類器),該模型能把數(shù)據(jù)庫中的數(shù)據(jù)項映射到給定類別中的某一個。(7)粗糙集粗糙集算法將知識理解為對數(shù)據(jù)的劃分,每一被劃分的集合稱為概念,主要思想是利用已知的知識庫,將不精確或不確定的知識用已知的知識庫中的知識來近似刻劃處理粗糙集理論,是繼概率論、模糊集、證據(jù)理論之后的又一個處理不確定性的數(shù)學工具。強固形使問題的限制條件降到最低,并大幅度提高系統(tǒng)的容錯能力;而求值空間的獨立性則使遺傳算法的設計單一化,且適用于多種不同性質、領域的問題。比較典型的學習方法是回溯法。樹中每個節(jié)點表示某個對象,而每個分叉路徑則代表的某個可能的屬性值,而每個葉結點則對應從根節(jié)點到該葉節(jié)點所經(jīng)歷的路徑所表示的對象的值。關聯(lián)規(guī)則是描述了數(shù)據(jù)庫中數(shù)據(jù)項之間所存在的關系的規(guī)則,即根據(jù)一個事務中某些項的出現(xiàn)可導出另一些項在同一事務中也出現(xiàn),即隱藏在數(shù)據(jù)間的關聯(lián)或相互關系。然后確定用什么數(shù)據(jù)挖掘算法對數(shù)據(jù)進行挖掘,再利用數(shù)據(jù)挖掘的工具和一系列方法對之前所確定以及轉換后的數(shù)據(jù)進行分析、產(chǎn)生一個特定的有意義的模式以更好的對已處理好的數(shù)據(jù)進行分析,獲取有用信息。數(shù)據(jù)清洗處理過程通常包括:填補遺漏的數(shù)據(jù)值、光滑有噪聲數(shù)據(jù)、識別或刪除異常值、以及解決不一致問題。確定數(shù)據(jù)挖掘目標是數(shù)據(jù)挖掘重要的一步。數(shù)據(jù)庫技術的成熟以及數(shù)據(jù)應用的普及,雖然目前的數(shù)據(jù)庫系統(tǒng)可以高效的實現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計的功能,但無法發(fā)現(xiàn)數(shù)據(jù)中潛在的信息和價值,無法利用這些數(shù)據(jù)來預測未來的發(fā)展趨勢。 主要介紹了論文的研究背景與意義,敘述了國內外數(shù)據(jù)挖掘技術的研究現(xiàn)狀。1993年國家自然科學基金首次支持我們對該領域的研究項目。最近,Gartner Group的一次高級技術調查將數(shù)據(jù)挖掘和人工智能列為“未來三到五年內將對工業(yè)產(chǎn)生深遠影響的五大關鍵技術”之首,并且還將并行處理體系和數(shù)據(jù)挖掘列為未來五年內投資焦點的十大新興技術前兩位。數(shù)據(jù)挖掘技術的應用將對提高學生成績和提高教學水平起到很好的指導作用。在企業(yè)應用領域,用于制定好的市場策略以及企業(yè)的關鍵性決策。畢業(yè)論文(設計)作者簽名:日期:決策樹分類算法在教學分析中的應用摘 要隨著信息科技的高速發(fā)展,人們對于積累的海量數(shù)據(jù)量的處理工作也日益增重,需求是發(fā)明之母,數(shù)據(jù)挖掘技術就是為了順應這種需求而發(fā)展起來的一種數(shù)據(jù)處理技術。數(shù)據(jù)挖掘技術又稱數(shù)據(jù)庫中的知識發(fā)現(xiàn),是從一個大規(guī)模的數(shù)據(jù)庫的數(shù)據(jù)中有效地、隱含的、以前未知的、有潛在使用價值的信息的過程。在商業(yè)方面,數(shù)據(jù)挖掘技術可以增強企業(yè)的競爭優(yōu)勢,縮短銷售周期,降低生產(chǎn)成本,有助于制定市場計劃和銷售策略,并已經(jīng)成為電子商務中的關鍵技術。為了提高教學質量,將數(shù)據(jù)挖掘技術引入到高校學生成績分析中,對這些數(shù)據(jù)進行深入的挖掘和合理的分析,從而挖掘出傳統(tǒng)的分析方法所無法得出的結論。[1]根據(jù)最近Gartner的HPC研究表明,“隨著數(shù)據(jù)捕獲、傳輸和存儲技術的快速發(fā)展,大型系統(tǒng)用戶將更多地需要采用新技術來挖掘市場以外的價值,采用更為廣闊的并行處理系統(tǒng)來創(chuàng)建新的商業(yè)增長點。目前,國內的許多科研單位和高等院校競相開展知識發(fā)現(xiàn)的基礎理論及其應用研究,這些單位包括清華大學、中科院計算技術研究所、空軍第三研究所、海軍裝備論證中心等。第二章 數(shù)據(jù)挖掘的基礎知識。于是,新的問題就被提出來了:人類如何在這浩瀚的數(shù)據(jù)中及時發(fā)現(xiàn)有用的知識,提高數(shù)據(jù)的利用率呢?在不懈的努力下,從數(shù)據(jù)庫中發(fā)現(xiàn)知識(Knowledge Discovery in Datebases)及其核心技術——數(shù)據(jù)挖掘(Date Mining)便應運而生,并得以蓬勃的發(fā)展,越來越顯出其強大的生命力。我們進行數(shù)據(jù)挖掘時,挖掘的結果往往是不可預測的,但對要進行挖掘的目標是可預見的,即明確數(shù)據(jù)挖掘的最終目標[7]。數(shù)據(jù)集成就是將多個數(shù)據(jù)源的數(shù)據(jù)合并到一起并統(tǒng)一存儲,建立數(shù)據(jù)倉庫的過程實際上就是數(shù)據(jù)集成。數(shù)據(jù)挖掘階段會產(chǎn)生的模式或數(shù)據(jù)集經(jīng)過評估存在冗余或多余的模式,這時需要將其剔除,過濾出有用的知識。(2)決策樹所謂決策樹,顧名思義,是一種樹,一種依托于策略抉擇而建立起來的樹。決策樹僅有單一輸出,若欲有復數(shù)輸出,可以建立獨立的決策樹以處理不同輸出。通過將輸出結果同一些已知值進行一系列比較,加權值不斷調整,得到一個新的輸出值,再經(jīng)過不斷的學習過程,最后該神經(jīng)網(wǎng)絡得到一個穩(wěn)定的結果。將遺傳算法運用于數(shù)據(jù)挖掘,可以開采出與眾不同的信息,是別的算法所不能替代的。作為一種較新的軟計算方法,粗糙集近年來越來越受到重視,其有效性已在許多科學與工程領域的成功應用中得到證實,是當前國際上人工智能理論及其應用領域中的研究熱點之一。要構造分類器,需要有一個訓練樣本數(shù)據(jù)集作為輸入。,Bj (j{1,…..n})是屬性—值對。這種方法通常用于客戶細分。(5)離群點分析數(shù)據(jù)庫中可能包含一些數(shù)據(jù)對象,它們與數(shù)據(jù)的一般行為或模型不一致。盡管這可能包括時間相關數(shù)據(jù)的特征化、區(qū)分、關聯(lián)和相關分析、分類、預測或聚類,這類分析的不同特點包括時間序列數(shù)據(jù)分析、序列或周期模式匹配和基于相似性的數(shù)據(jù)分析。(2)、沃爾瑪超市里的尿布與啤酒(間接數(shù)據(jù)挖掘,關聯(lián)規(guī)則)大家都應該了解這個事件,數(shù)據(jù)挖掘中的經(jīng)典成功案例。(3)、股票預測股票市場是一個具有大量相互作用因素的復雜系統(tǒng),它受政治形勢、金融政策、公司狀況和重大消息等多方面因素的影響。決策樹技術在數(shù)據(jù)挖掘領域得到了進一步的拓展,并且在人們生產(chǎn)生活中得到了廣泛應用。每個葉節(jié)點是屬于一類別的記錄。其具體方法是:我們需要檢測所有的屬性,在它們中間選擇信息增益最大的屬性作為決策樹結點,由該屬性的不同取值建立分支,再對各分支的子集遞歸調用該方法建立決策樹結點的分支,直到所有的子集僅包含同一類別的數(shù)據(jù)為止。這個標準被稱為“信息增益(information能夠對不完整數(shù)據(jù)進行處理由于ID3算法在實際應用中的一些局限,Quinlan再次改進了ID3算法。因此它的信息熵為:Info(D)=9/14*log2(9/14)5/14log2(5/14)=下面計算屬性集合中每個屬性的信息熵:1:Info(天氣) = 5/14 * [ 2/5 * log2(2/5) – 3/5 * log2(3/5)] + 4/14 * [ 4/4 * log2(4/4) 0/4 * log2(0/4)] + 5/14 * [ 3/5 * log2(3/5) – 2/5 * log2(2/5)] = 2:Info(溫度) = 4/14 * [ 2/4 * log2(2/4) – 2/4 * log2(2/4)] + 6/14 * [ 4/6 * log2(4/6) 2/6 * log2(2/6)] + 4/14 * [ 3/4 * log2(3/4) – 1/4 * log2(1/4)] = 3:Info(濕度 = 7/14 * [ 3/7 * log2(3/7) – 4/7 * log2(4/7)] + 7/14 * [ 6/7 * log2(6/7) 1/7 * log2(1/7)] = 4:Info(風速) = 6/14 * [ 3/6 * log2(3/6) – 3/6 * log2(3/6)] + 8/14 * [ 6/8 * log2(6/8) 2/8 * log2(2/8)] = 根據(jù)上面的數(shù)據(jù)我們可以計算出信息增益:1:Gain(天氣) = Info(D) Info(天氣) = = 2:Gain(溫度) = Info(D) Info(溫度) = = 3:Gain(濕度) = Info(D) Info(濕度) = = 4:Gain(風速) = Info(D) Info(風速) = = 接下來,我們計算分裂信息度量H(V):天氣屬性屬性天氣有3個取值,其中晴有5個樣本、雨有5個樣本、陰有4個樣本,則H(天氣) = 5/14 * log2(5/14) 5/14 * log2(5/14) 4/14 * log2(4/14) =溫度屬性屬性溫度有3個取值,其中熱有4個樣本、適中有6個樣本、寒冷有4個樣本,則H(溫度) = 4/14 * log2(4/14) 6/14 * log2(6/14) 4/14 * log2(4/14) = 濕度屬性屬性濕度有2個取值,其中高有7個樣本、正常有7個樣本,則H(HUMIDITY) = 7/14 * log2(7/14) 7/14 * log2(7/14) = 風速屬性屬性風速有2個取值,其中強有6個樣本、弱有8個樣本,則H(風速) = 6/14 * log2(6/14) 8/14 * log2(8/14) = 根據(jù)上面計算結果,我們可以計算信息增益率,如下所示:IGR(A)=Gain(A)/H(A)IGR(天氣) = Gain(天氣) / H(天氣) = IGR(溫 度) = Gain(溫 度) / H(溫 度) = / = IGR(濕 度) = Gain(濕 度) / H(濕 度) = IGR(風速) = Gain(風速) /
點擊復制文檔內容
公司管理相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1