freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

分類決策樹_id3算法-wenkub.com

2025-01-24 11:58 本頁面
   

【正文】 、 150偶數(shù)行所有列的數(shù)據(jù)) 步驟 2:生成決策樹模型 model rpart(Species ~ + + + , data = , method=class)繪制決策樹 fancyRpartPlot(model)步驟 3:對測試集進行預(yù)測 =predict(model, [,5], type=class) 注釋: [,5]的意思是去掉原測試集第 5列后的數(shù)據(jù)步驟 4:查看預(yù)測結(jié)果并對結(jié)果進行分析,計算出該決策樹的 accuracy(分類正確的樣本數(shù)除以總樣本數(shù)) table([,5],) 注釋: [,5]的意思是取出測試集第 5列的數(shù)據(jù) R語言中使用 table(data)進行頻數(shù)統(tǒng)計 setosa versicolor virginica setosa 25 0 0 versicolor 0 24 1 virginica 0 3 22accuracy=( 25+24+22) /75=%步驟 5:生成規(guī)則 asRules(model) 步驟 1:生成訓(xùn)練集和測試集 生成訓(xùn)練集 =iris[2*(1:75)1,] (意思是返回原數(shù)據(jù)集 8。從圖可以看出,客戶費用變化率 為 100%的客戶肯定已經(jīng)流失;而費用變化率低于 30%的客戶;即每月資費相對穩(wěn)定的客 戶一般不會流失,費用變化率在 30%~ 99%的客戶有可能流失,其中年齡在 40~ 50歲之間 的客戶流失的可能性非常大,而年齡低于 40歲的客戶,用充值卡繳費的客戶和在網(wǎng)時間較 短的客戶容易流失;年齡較大的客戶,則工人容易流失。文化程度分為 3類: W1初中以下 (含初中 ), W2高中 (含 中專 ), W3大學(xué) (??啤⒈究萍耙陨?);職業(yè)類別:按工作性質(zhì)來分 共分 3類: Z1一 Z3; 繳費方式:托收: T1,營業(yè)廳繳費: T2,充值卡: T3。在客戶信息表中,有很多屬性,如姓名 用戶號碼、用戶標(biāo)識、用戶身份證號碼 (轉(zhuǎn)化為年齡 )、在網(wǎng)時間 (竣工時間)、地址、職業(yè)、用戶類別、客戶流失(用戶狀態(tài)) 等等,數(shù)據(jù)準(zhǔn)備時必須除掉表中一些不必要的屬性,一般可采用面 向?qū)傩缘臍w納等方法去掉不相關(guān)或弱相關(guān)屬性。 決策樹算法 ID3算法實際應(yīng)用 在電信行業(yè)應(yīng)用實例( 2) 數(shù)據(jù)預(yù)處理 數(shù)據(jù)挖掘的處理對象是大量的數(shù)據(jù),這些數(shù)據(jù)一般存儲在數(shù) 據(jù)庫系統(tǒng)中(該用戶相關(guān)數(shù)據(jù)存儲在其 CRM中),是長期積累的 結(jié)果。 在客戶流失分析中有兩個核心變量:財務(wù)原因/非財務(wù)原因、 主動流失/被動流失。 決策樹算法 ID3算法實際應(yīng)用 在電信行業(yè)應(yīng)用實例( 1) 通過 ID3算法來實現(xiàn)客戶流失的預(yù)警分析,找出客戶流失的 特征,以幫助電信公司有針對性地改善客戶關(guān)系,避免客戶流失 利用決策樹方法進行數(shù)據(jù)挖掘,一般有如下步驟: 數(shù)據(jù)預(yù)處 理、決策樹挖掘操作 ,模式評估和應(yīng)用。需要找出 一個合適的分割閾值。 在應(yīng)用連續(xù)屬性值時,在一個樹結(jié)點可以將屬性 Ai的值 劃分為幾個區(qū)間。 。 分別計算不同屬性的信息增益。也就是說陰天這個信息對下雨來說是很重要的 。表示在一個條件下,信息不確定性減少的程度。 處理信息就是為了把信息搞清楚,實質(zhì)上就是要想辦法讓信息熵變小。 信息熵用以表示一個事物的非確定性,如果該事物的非確定性越高,你的好奇心越重,該事物的信息熵就越高 。度量信息的不確定程度。 假設(shè)有 n個互不相容的事件 a1,a2,a3,….,an,它們中有且僅有一個 發(fā)生,則其平均的信息量可如下度量: ??????ni iiniin apapaIaaaI12121 )(1l o g)()(), . . . ,()(1log)()(2iii apapaI ?ID3 –信息量大小的度量 決策樹算法 ??????ni iiniin apapaIaaaI12121 )(1l o g)()(), . . . ,(上式,對數(shù)底數(shù)可以為任何數(shù),不同的取值對應(yīng)了熵的不同單位。 從直覺上講,小概率事件比大概率事件包含的信息量大。這一過程就是利用決策樹進行分類的過程, 利用若干個變量來判斷屬性的類別 ID3 決策樹算法 ID3算法主要針對屬性選擇問題。每個分支是一 個新的決策結(jié)點,或者是樹的葉子。 另一類決策樹算法為 CART,與 , CART的決策樹由二元邏輯問題生成,每個樹節(jié)點只有兩個分枝,分別包括學(xué)習(xí)實例的正例與反例。 1979年 , . Quinlan 給出 ID3算法,并在 1983年和 1986年對 ID3 進行了總結(jié)和簡化,使其成為決策樹學(xué)習(xí)算法的典型。 決策樹基本概念 解決分類問題的一般方法 TID A1 A2 A3 類 1 Y 100 L N 2 N 125 S N 3 Y 400 L Y 4 N 415 M N 學(xué)習(xí)算法 學(xué)習(xí)模型 模型 應(yīng)用模型 TID A1 A2 A3 類 1 Y 100 L ? 2 N 125 S ? 3 Y 400 L ? 4 N 415 M ? 訓(xùn)練集(類標(biāo)號已知) 檢驗集(類標(biāo)號未知) 歸納 推論 決策樹基本概念 決策樹 決策樹是一種典型的分類方法,首先對數(shù)據(jù)進行處理,利用 歸納算法生成可讀的規(guī)則和決策樹,然后使用決策對新數(shù)據(jù)進行 分析。因此,訓(xùn)練算法的主要目標(biāo)就是要建立具有很好的泛化 能力模型,即建立能夠準(zhǔn)確地預(yù)測未知樣本類標(biāo)號的模型。 分類任務(wù)的輸入數(shù)據(jù)是紀(jì)錄的集合,每條記錄也稱為實例 或者樣例。用元組 (X,y)表示,其中, X 是屬性集合, y是一個 特殊的屬性,指出樣例的類標(biāo)號(也稱為分類屬性或者目標(biāo)屬性) 決策樹基本概念 關(guān)于分類問題 名稱 體溫 表皮覆蓋 胎生 水生動物 飛行動物 有腿 冬眠 類標(biāo)號 人類 恒溫 毛發(fā) 是 否 否 是 否 哺乳動物 海龜 冷血 鱗片 否 半 否 是 否 爬行類 鴿子 恒溫 羽毛 否 否 是 是 否 鳥類 鯨 恒溫 毛發(fā) 是 是 否 否 否 哺乳類 X y 分類與回歸 分類目標(biāo)屬性 y是離散的,回歸目標(biāo)屬性 y是連續(xù)的 決策樹基本概念 解決分類問題的一般方法 分類技術(shù)是一種根據(jù)輸入數(shù)據(jù)集建立分類模型的系統(tǒng)方法。 分類方法的實例包括:決策樹分類法、基于規(guī)則的分類法、 神經(jīng)網(wǎng)絡(luò)、支持向量級、樸素貝葉斯分類方法等。本質(zhì)上決策樹是通過一系列規(guī)則對數(shù)據(jù)進行分類的過程。 Schlimmer和 Fisher于 1986年對 ID3進行改造,在每個可能的決策樹節(jié)點創(chuàng)建緩沖區(qū),使決策樹可以遞增式生成,得到 ID4算法。 CLS, ID3, , CART 決策樹算法 計數(shù) 年齡 收入 學(xué)生 信譽 歸類:買計算機? 64 青 高 否 良 不買 64 青 高 否 優(yōu) 不買 128 中 高 否 良 買 60 老 中 否 良 買 64 老 低 是 良 買 64 老 低 是 優(yōu) 不買 64 中 低 是 優(yōu) 買 128 青 中 否 良 不買 64 青 低 是 良 買 132 老 中 是 良 買 64 青 中 是 優(yōu) 買 32 中 中 否 優(yōu) 買 32 中 高 是 良 買 63 老 中 否 優(yōu) 不買 1 老 中 否 優(yōu) 買 假定公司收集了左表數(shù)據(jù),那么對于任意給定的客人(測試樣例),你能幫助公司將這位客人歸類嗎? 即:你能預(yù)測這位客人是屬于“買”計算機的那一類,還是屬于“不買”計算機的那一類? 又:你需要多少有關(guān)這位客人的信息才能回答這個問題? 決策樹的用途 計數(shù) 年齡 收入 學(xué)生 信譽 歸類:買計算機? 64 青 高 否 良
點擊復(fù)制文檔內(nèi)容
規(guī)章制度相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1