freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

基于決策樹c45算法的數(shù)據(jù)挖掘技術研究論文-資料下載頁

2024-12-01 22:30本頁面

【導讀】對新技術和自動工具的需求,以便幫助我們將海量數(shù)據(jù)轉換成信息和知識。以下介紹了數(shù)據(jù)挖掘技。的基礎分析,給出了實際應用例子。結果表明,由決策樹算法。據(jù)信息急劇增加。正以幾何級數(shù)或指數(shù)增長。目前能夠將這些數(shù)據(jù)進行其利用并分析處理的工具卻很少。根本不可能直接測量的參數(shù)進行評估。結果沒有預定概念。的知識與計算機的搜索能力之間尋求平衡以求獲得最好的結果。數(shù)據(jù)挖掘是使用學習方法將統(tǒng)計學強化后的一種形式。起源于多種學科,其中最重要的兩門是統(tǒng)計學和機器學習,統(tǒng)計學起源于數(shù)學,因此,相比之下,機器學習更多地起源于計算機實踐。統(tǒng)計學強調算法,這不會讓人感到吃驚,“學習”這個詞包括了過程的概念,于工程系和工業(yè)過程。以決定其數(shù)學模型的問題通常被叫做系統(tǒng)識別。最重要的是預測系統(tǒng)的行為,并結實系統(tǒng)變量之間的相互作用。這類模型中收尋將要到處的最適合的模型。

  

【正文】 表示的一個葉節(jié)點。 2. T 不包含樣本。決策樹也是一個葉,但和該葉關聯(lián)的類由不同于 T 的信息決定,如 T中的絕大多數(shù)類。 算法以在所給節(jié)點的雙親上出現(xiàn)最頻繁的類作為準則。 3. T 包含屬于不同類的樣本。這種情況下,是把 T 精華成朝向一個單類樣本集的樣本子集。根據(jù)某一個或更多互斥的輸出 {O1, O2,?,O N}的合適檢驗。 T 被分區(qū)成子集 T1,T2, ? TN,其中 Ti包括 T 中做選擇的檢驗的輸出是 OI 的所有樣本。 T的決策樹包括標識檢驗的一個決策點和每個可能輸出的 一個分枝 對訓練樣本的每個子集重復應用同一個樹的構造程序,使得訓練樣本的子集 TI 建立起決策樹的第 I個分枝。訓練樣本的連續(xù)分區(qū)繼續(xù)進行直到所有的子集包含屬于該類的樣本。 樹的構造過程的定義不是唯一的。對不同的檢驗,即使只是它們運用的順序不同,也會生成不同的樹。理想情況下,我們愿意在樣本集分區(qū)的沒個步驟進行檢驗,使得最終的樹較小。既然我們尋找的是與訓練集一致的緊湊的決策樹,為什么不求出所有的樹,并選擇最簡單的呢?不幸的是,求出與一個訓練數(shù)據(jù)集一致的最小的決策樹的問題是完全非線性的。對所有可能的樹進行 舉例和分析將會導致實際問題的組合爆炸。例如,對一個具有 5 個屬性和 20個訓練例子的小型數(shù)據(jù)庫,根據(jù)每個屬性的不同值數(shù)量,決策樹可能會多于 106 個。因此,大多數(shù)決策樹的構造方法是無回朔的貪心算法。只要通過試探法選擇了某個檢驗,使進度的度量最大化,切當前的檢驗選擇的增益標準是建立在所給的數(shù)據(jù)分區(qū)步驟的可利用的信息基礎上的。 檢驗結構 一般包含 3種類型的檢驗結構: 1.離散值的“標準”檢驗,對屬性的每個可能值有一個分枝和輸出。 2. 如果屬性 Y 有連續(xù)的數(shù)值,通過將該值和閥值 Z 比 較,用輸出 Y=Z 和 YZ 定義二元檢驗。 3.基于離散值的更復雜的檢驗,該檢驗中屬性的每個可能值被分配到許多易變的組中,每組都有一個輸出和分枝。 修剪決策樹 決策樹修剪的任務是拋棄一個或更多的子樹,并用葉替換這些子樹,使決策樹簡單化。在替換這些子樹時,期望算法降低預測誤差率來提高分類模型的質量。但是誤差率的技術并不簡單。僅根據(jù)一個訓練數(shù)據(jù)集得到的誤差率并不呢個得出一個正確的評價。評價預測誤差率的一個可行方法是用另外一個新的有效檢驗樣本。在具備可用訓練和檢驗樣本的情況下,決策樹修建的基本思想是去掉那些對未知檢驗的樣本的分類精度沒有幫助的部分樹 ,生成一個更簡單,更容易理解的樹。有兩種改進的遞歸分區(qū)方法: 1.在某些情況下決定不把樣本集分區(qū)的更細。停止準則通常是一些統(tǒng)計檢驗。 如果分區(qū)前后分類精度沒有顯著的不同,那么 用當前的點作為一個葉。由于決策在分區(qū)前提前做出,因此該方法叫預修剪。 2.用所選的精度準則回頭去除樹的一些點。在構建完樹之后做的叫后修剪。 遵循后修剪方法,但它用具體的方法評估預測誤差率 ,該方法叫悲觀修剪。對于樹中的每個節(jié)點,可以用二項 式分布統(tǒng)計表計算置信極限的上限 Ucf 的估計值。參數(shù) Ucf是所給節(jié)點的函數(shù)。 用默認的置信度是 25%,所給比較節(jié)點與它的葉的加權置信度。權值是沒個葉的樣本的總數(shù)。如果子樹中的某個根節(jié)點的預測誤差率比葉的加權和小,那么用它的根節(jié)點替換該子樹,變成修剪后的樹的一個新葉 。 五 . 算法 應用舉例創(chuàng)建一個決策樹 使用算法 我們來分析 算法的應用并創(chuàng)建一個決策樹的簡單的例子。我們給出數(shù)據(jù)集,其中有 9個樣本,通過三個輸入屬性描述且屬于所給的兩個類 (類 1,類 2)之一。以表格的形式給出數(shù)據(jù)集合如下 所示: 我們需要研究得出的就是三個屬性中分別屬于類 1 和類 2 的共性的值 ,由上可知 3 個樣本屬于類 1, 6個樣本屬于類 2,因此 分區(qū)前的熵為: Info(T) = – 3/9log23/9 – 6/9log26/9 = 比特 首先,我們分別根據(jù)屬性 1和屬性 3 對樣本進行分類,所得的信息增益如下所示: 其中 x1 和 x3 分別表示屬性 1 和屬性 3,現(xiàn)在屬性 2 還沒有計算,因為屬性2 是個連續(xù)變量,我們必須先把它離散化。這里的離散化是把連續(xù)的樣本排成順序,然后找 出它的中間某個值(我們把這個值叫作閥值),使得根據(jù)閥值計算出來的信息增益達到最大。不同的算法對閥值的計算是不同的, 算法與別的算法不同之處在于它選擇每個分區(qū)的最小值作為閥值,例如我們的例子中屬性 2的閥值是 {58,65,70,75,80},從這幾個值中選取最優(yōu)閥值(最高信息增益) ,對于我們的例子閥值為 70,相應的檢驗 3(屬性 2=70和屬性 270)的信息增益技術如下: Infox2 (T)= 4/9 log21/2 +5/9 (1/5log21/5 + 4/5log24/5) = 比特 Gain(x2) = – = 比特 Infox1(T) = 4/9(– 3/4log23/4– 1/4 log21/4) +3/9(– 3/3 log23/3) +2/9(– 2/2 log22/2) = 比特 Gain(x1) = – = 比特 Infox3(T)= 3/9(– 1/3 log21/3 – 2/3 log22/3) +4/9(– 1/4 log21/4 – 2/3 log23/4) +1/9(– 1/1 log21/1) + 1/9(– 1/1 log21/1 ) = 比特 Gain(x2) = – = 比特 現(xiàn)在,我們比較一下三個屬性的信息增益,可以看出屬性 1 具有最高信息增益 比特,所以選擇屬性 1對決策樹進行首次分區(qū)。如下所示: 初始分區(qū)后,每個子節(jié)點包含幾個樣本,可是第一個子節(jié)點所包含的樣本仍然不同屬于一個類,所以我們還要繼續(xù)對第一個節(jié)點采取同樣的方法進行分區(qū),直到樹的每個分支都屬于同一個類為止。實際上創(chuàng)建決策樹的過程應該是一個遞歸的過程。中間建樹的過程我們省略,只給出結果如下: 從上面的樹中我們可以看到屬性 1為 B 或者 C結果都是類 2,所以我們把兩個記錄集合并,對上面的結果進行整理去除數(shù)據(jù)得到?jīng)Q策樹如下所示: 我們從這棵決策樹可以很明顯的得到一些信息:屬性 1為 A并且屬性 258的時候為類 1;屬性 1為 B,C 或者屬性 1為 A屬性 2=58 的時候為類 2。另外,決策樹可以用執(zhí)行代碼的形式表示,這種可執(zhí)行代碼用 ifthen 結構來對決策樹進行分枝。決策樹從一種表示形式到另一種表示形式的轉換是非常簡單直接的。 當然還可以如下 圖給出偽代碼的最終決策樹。 上圖為偽代碼形式的決策樹 六 .結論總結工作 數(shù)據(jù)挖掘 (Data Mining)和數(shù)據(jù)倉庫作為決策支持新技術在近十年來得到了迅速的發(fā)展。數(shù)據(jù)倉庫的發(fā)展為數(shù)據(jù)挖掘技術開辟了新的戰(zhàn)場,同時也提出了新的要求和挑戰(zhàn)長期以來數(shù)據(jù)挖掘一直都是人們矚目的領域,而分類問題又是數(shù)據(jù)挖掘方法中比較重要的一部分, 以上 研究了分類方法中常見的 決策樹算法, ,所以值得大家好好研究。但是即使是再好的算法也會有一定的局限性, 所以我們在使用挖掘算法的時候應該多種算法綜合考慮,選出一種更加適合所要挖掘的領域的算法。 七 .參考文獻 ( 8 本): [1] 陳文偉,黃金才,趙新昱 數(shù)據(jù)挖掘技術 北京工業(yè)大學出版社 [2] [美 ] Mehmed Kantardzic 數(shù)據(jù)挖掘 —— 概念,模型,方法和算法 清華大學出版社 [3] 《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術》 陳京民 電子工業(yè)出版社 [4] 陳燕 數(shù)據(jù)倉庫技術及其應用 大連海事出版社 [5] Jiawei Han ,Micheline Kamber. 數(shù)據(jù)挖掘概念與技術 機械工業(yè)出版社 [6] 《數(shù)據(jù)挖掘原理與算法》 邵峰晶 于忠清 水利水電出版社 [7]《 數(shù)據(jù)挖掘 —— 概念與技術 》 Jiawei Han 機械工業(yè)出版社 [8]《 SQL Server 2020 數(shù)據(jù)挖掘 》 Claude Seidman 機械工業(yè)出版社
點擊復制文檔內容
公司管理相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1