freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘:決策樹(shù)算法及應(yīng)用拓展(參考版)

2025-03-11 11:31本頁(yè)面
  

【正文】 決策樹(shù)算法及應(yīng)用拓展 ? 內(nèi)容簡(jiǎn)介: ? 概述 ? 預(yù)備知識(shí) ?決策樹(shù)生成 (Building Decision Tree) ?決策樹(shù)剪枝 (Pruning Decision Tree) ? 捕捉變化數(shù)據(jù)的挖掘方法 ? 小結(jié) 概述 (一 ) ? 傳統(tǒng)挖掘方法的局限性 ? 只重視從數(shù)據(jù)庫(kù)中提取規(guī)則,忽視了庫(kù)中數(shù)據(jù)的變化 ? 挖掘所用的數(shù)據(jù)來(lái)自穩(wěn)定的環(huán)境,人為干預(yù)較少 概述 (二 ) ? 捕捉新舊數(shù)據(jù)變化的目的: ? 挖掘出變化的趨勢(shì) ?例:啤酒 ——尿布 ? 阻止 /延緩不利變化的發(fā)生 ?例:金融危機(jī) ——銀行的信貸策略 ? 差異挖掘算法的主要思想: ? 合理 比較新 /舊數(shù)據(jù)的挖掘結(jié)果,并清晰的描述其變化部分 預(yù)備知識(shí)一 (Building Tree) ? 基本思想: ? 用途:提取分類(lèi)規(guī)則,進(jìn)行分類(lèi)預(yù)測(cè) 判定樹(shù)分類(lèi)算法 output 訓(xùn)練集 決策樹(shù) input 使用決策樹(shù)進(jìn)行分類(lèi) ? 決策樹(shù) ? 一個(gè)樹(shù)性的結(jié)構(gòu) ? 內(nèi)部節(jié)點(diǎn)上選用一個(gè)屬性進(jìn)行分割 ? 每個(gè)分叉都是分割的一個(gè)部分 ? 葉子節(jié)點(diǎn)表示一個(gè)分布 ? 決策樹(shù)生成算法分成兩個(gè)步驟 ? 樹(shù)的生成 ? 開(kāi)始,數(shù)據(jù)都在根節(jié)點(diǎn) ? 遞歸的進(jìn)行數(shù)據(jù)分片 ? 樹(shù)的修剪 ? 去掉一些可能是噪音或者異常的數(shù)據(jù) ? 決策樹(shù)使用 : 對(duì)未知數(shù)據(jù)進(jìn)行分割 ? 按照決策樹(shù)上采用的分割屬性逐層往下,直到一個(gè)葉子節(jié)點(diǎn) 決策樹(shù)算法 ? 基本算法(貪心算法) ? 自上而下分而治之的方法 ? 開(kāi)始時(shí),所有的數(shù)據(jù)都在根節(jié)點(diǎn) ? 屬性都是種類(lèi)字段 (如果是連續(xù)的,將其離散化 ) ? 所有記錄用所選屬性遞歸的進(jìn)行分割 ? 屬性的選擇是基于一個(gè)啟發(fā)式規(guī)則或者一個(gè)統(tǒng)計(jì)的度量 (如 , information gain) ? 停止分割的條件 ? 一個(gè)節(jié)點(diǎn)上的數(shù)據(jù)都是屬于同一個(gè)類(lèi)別 ? 沒(méi)有屬性可以再用于對(duì)數(shù)據(jù)進(jìn)行分割 偽代碼 (Building Tree) Procedure BuildTree(S) 用數(shù)據(jù)集 S初始化根節(jié)點(diǎn) R 用根結(jié)點(diǎn) R初始化隊(duì)列 Q While Q is not Empty do { 取出隊(duì)列 Q中的第一個(gè)節(jié)點(diǎn) N if N 不純 (Pure) { for 每一個(gè)屬性 A 估計(jì)該節(jié)點(diǎn)在 A上的信息增益 選出最佳的屬性 , 將 N分裂為 N N2 } } 屬性選擇的統(tǒng)計(jì)度量 ? 信息增益 ——Information gain (ID3/) ? 所有屬性假設(shè)都是種類(lèi)字段 ? 經(jīng)過(guò)修改之后可以適用于數(shù)值字段 ? 基尼指數(shù) ——Gini index (IBM IntelligentMiner) ? 能夠適用于種類(lèi)和數(shù)值字段 信息增益度度量 (ID3/) ? 任意樣本分類(lèi)的期望信息: ? I(s1,s2,……,s m)=- ∑Pi log2(pi) (i=1..m) ?其中,數(shù)據(jù)集為 S, m為 S的分類(lèi)數(shù)目, Pi ? Ci為某分類(lèi)標(biāo)號(hào), Pi為任意樣本屬于 Ci的概率, si為分類(lèi) Ci上的樣本數(shù) ? 由 A劃分為子集的熵: ?E(A)= ∑(s1j+ ……+ smj)/s * I(s1j+ ……+ smj) ? A為屬性,具有 V個(gè)不同的取值 ?信息增益: Gain(A)= I(s1,s2,……,sm) - E(A) ||||SSi? 訓(xùn)練集 (舉例 ) a g e i n co me st u d e n t cre d i t _ ra t i n g b u ys_ co mp u t e r=3 0 h i g h no f a i r no=3 0 h i g h no e x ce l l e n t no
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1