freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

分類決策樹_id3算法-閱讀頁

2025-02-05 11:58本頁面
  

【正文】 確定這個(gè)變量 。度量信息的不確定程度。 一個(gè)系統(tǒng)越是有序,信息熵就越低;反之,一個(gè)系統(tǒng)越是混亂,信息熵就越高。 信息熵用以表示一個(gè)事物的非確定性,如果該事物的非確定性越高,你的好奇心越重,該事物的信息熵就越高 。 信息熵是信息論中用于度量信息量的一個(gè)概念。 處理信息就是為了把信息搞清楚,實(shí)質(zhì)上就是要想辦法讓信息熵變小。 條件熵 :在一個(gè)條件下,隨機(jī)變量的不確定性。表示在一個(gè)條件下,信息不確定性減少的程度。信息增益很大。也就是說陰天這個(gè)信息對(duì)下雨來說是很重要的 。該屬性分 兩類:買 /不買 S1(買 )=641 S2(不買) = 383 S=S1+S2=1024 P1=641/1024= P2=383/1024= I(S1,S2)=I(641,383) =P1Log2P1P2Log2P2 =(P1Log2P1+P2Log2P2) = 決策樹算法 計(jì)數(shù) 年齡 收入 學(xué)生 信譽(yù) 歸類:買計(jì)算機(jī)? 64 青 高 否 良 不買 64 青 高 否 優(yōu) 不買 128 中 高 否 良 買 60 老 中 否 良 買 64 老 低 是 良 買 64 老 低 是 優(yōu) 不買 64 中 低 是 優(yōu) 買 128 青 中 否 良 不買 64 青 低 是 良 買 132 老 中 是 良 買 64 青 中 是 優(yōu) 買 32 中 中 否 優(yōu) 買 32 中 高 是 良 買 63 老 中 否 優(yōu) 不買 1 老 中 否 優(yōu) 買 第 2步計(jì)算條件屬性的熵 條件屬性共有 4個(gè)。 分別計(jì)算不同屬性的信息增益。 決策樹算法 決策樹的數(shù)據(jù)準(zhǔn)備 姓名 年齡 收入 學(xué)生 信譽(yù) 電話 地址 郵編 買計(jì)算機(jī) 張三 23 4000 是 良 2813220328 2714 Ave. M 77388 買 李四 34 2800 否 優(yōu) 7132397830 5606 Holly Cr 78766 買 王二 70 1900 否 優(yōu) 2812423222 2023 Bell Blvd. 70244 不買 趙五 18 900 是 良 2815500544 100 Main Street 70244 買 劉蘭 34 2500 否 優(yōu) 7132397430 606 Holly Ct 78566 買 楊俊 27 8900 否 優(yōu) 2813557990 233 Rice Blvd. 70388 不買 張毅 38 9500 否 優(yōu) 2815560544 399 Sugar Rd. 78244 買 。 。 整理后的數(shù)據(jù)表 決策樹的數(shù)據(jù)準(zhǔn)備 ? Data cleaning 刪除 /減少 noise, 補(bǔ)填 missing values ? Data transformation 數(shù)據(jù)標(biāo)準(zhǔn)化( data normalization) 數(shù)據(jù)歸納( generalize data to higherlevel concepts using concept hierarchies) 例如:年齡歸納為老、中、青三類 控制每個(gè)屬性的可能值不超過七種 (最好不超過五種) ? Relevance analysis 對(duì)于與問題無關(guān)的屬性:刪 對(duì)于屬性的可能值大于七種 又不能歸納的屬性:刪 決策樹算法 決策樹的數(shù)據(jù)準(zhǔn)備 決策樹算法 處理連續(xù)屬性值 決策樹算法比較適合處理離散數(shù)值的屬性。 在應(yīng)用連續(xù)屬性值時(shí),在一個(gè)樹結(jié)點(diǎn)可以將屬性 Ai的值 劃分為幾個(gè)區(qū)間。原則上可以將 Ai的屬性劃分為任意數(shù)目的 空間。需要找出 一個(gè)合適的分割閾值。 ID3算法的基本思想是,以信息熵為度量,用于決策樹節(jié) 點(diǎn)的屬性選擇,每次優(yōu)先選取信息量最多的屬性,亦即能使熵值 變?yōu)樽钚〉膶傩?,以?gòu)造一顆熵值下降最快的決策樹,到葉子節(jié) 點(diǎn)處的熵值為 0。 決策樹算法 ID3算法實(shí)際應(yīng)用 在電信行業(yè)應(yīng)用實(shí)例( 1) 通過 ID3算法來實(shí)現(xiàn)客戶流失的預(yù)警分析,找出客戶流失的 特征,以幫助電信公司有針對(duì)性地改善客戶關(guān)系,避免客戶流失 利用決策樹方法進(jìn)行數(shù)據(jù)挖掘,一般有如下步驟: 數(shù)據(jù)預(yù)處 理、決策樹挖掘操作 ,模式評(píng)估和應(yīng)用。二是 指客戶月平均消費(fèi)量降低,從高價(jià)值客戶成為低價(jià)值客戶。 在客戶流失分析中有兩個(gè)核心變量:財(cái)務(wù)原因/非財(cái)務(wù)原因、 主動(dòng)流失/被動(dòng)流失。他們會(huì)正常支付服務(wù)費(fèi)用,并容易 對(duì)市場(chǎng)活動(dòng)有所響應(yīng)。 決策樹算法 ID3算法實(shí)際應(yīng)用 在電信行業(yè)應(yīng)用實(shí)例( 2) 數(shù)據(jù)預(yù)處理 數(shù)據(jù)挖掘的處理對(duì)象是大量的數(shù)據(jù),這些數(shù)據(jù)一般存儲(chǔ)在數(shù) 據(jù)庫系統(tǒng)中(該用戶相關(guān)數(shù)據(jù)存儲(chǔ)在其 CRM中),是長(zhǎng)期積累的 結(jié)果。數(shù)據(jù)預(yù)處理工作準(zhǔn)備是否充分,對(duì)于挖掘算法的效率乃 至正確性都有關(guān)鍵性的影響。在客戶信息表中,有很多屬性,如姓名 用戶號(hào)碼、用戶標(biāo)識(shí)、用戶身份證號(hào)碼 (轉(zhuǎn)化為年齡 )、在網(wǎng)時(shí)間 (竣工時(shí)間)、地址、職業(yè)、用戶類別、客戶流失(用戶狀態(tài)) 等等,數(shù)據(jù)準(zhǔn)備時(shí)必須除掉表中一些不必要的屬性,一般可采用面 向?qū)傩缘臍w納等方法去掉不相關(guān)或弱相關(guān)屬性。比如客戶信息表 中的用戶標(biāo)識(shí)、身份證號(hào)碼等,它們的取值太多且無法在該取值 域內(nèi)找到概化操作符,應(yīng)將其刪除,得到表 1。文化程度分為 3類: W1初中以下 (含初中 ), W2高中 (含 中專 ), W3大學(xué) (專科、本科及以上 );職業(yè)類別:按工作性質(zhì)來分 共分 3類: Z1一 Z3; 繳費(fèi)方式:托收: T1,營(yíng)業(yè)廳繳費(fèi): T2,充值卡: T3。而在“年齡”屬性中, 信息增益有兩個(gè)鋒值,分別在 40和 50處,因而該屬性的范圍變?yōu)? {=40,40=50,50}即變?yōu)?{青年,中年,老年: N1,N2,N3};費(fèi) 用變化率:指((當(dāng)月話費(fèi)-近 3個(gè)月的平均話費(fèi)) /近 3個(gè)月的平 均話費(fèi)) % 0, F1:= 30%, F2: 30%99%, F3:= 100%變?yōu)? { F1,F2,F3}。從圖可以看出,客戶費(fèi)用變化率 為 100%的客戶肯定已經(jīng)流失;而費(fèi)用變化率低于 30%的客戶;即每月資費(fèi)相對(duì)穩(wěn)定的客 戶一般不會(huì)流失,費(fèi)用變化率在 30%~ 99%的客戶有可能流失,其中年齡在 40~ 50歲之間 的客戶流失的可能性非常大,而年齡低于 40歲的客戶,用充值卡繳費(fèi)的客戶和在網(wǎng)時(shí)間較 短的客戶容易流失;年齡較大的客戶,則工人容易流失。、 149奇數(shù)行行所有列的數(shù)據(jù)) 生成測(cè)試集 = iris[2*(1:75),] (意思是返回原數(shù)據(jù)集 、 150偶數(shù)行所有列的數(shù)據(jù)) 步驟 2:生成決策樹模型 model rpart(Species ~ + + + , data = , method=class)繪制決策樹 fancyRpartPlot(model)步驟 3:對(duì)測(cè)試集進(jìn)行預(yù)測(cè) =predict(model, [,5], type=class) 注釋: [,5]的意思是去掉原測(cè)試集第 5列后的數(shù)據(jù)步驟 4:查看預(yù)測(cè)結(jié)果并對(duì)結(jié)果進(jìn)行分析,計(jì)算出該決策樹的 accuracy(分類正確的樣本數(shù)除以總樣本數(shù)) table([,5],) 注釋: [,5]的意思是取出測(cè)試集第 5列的數(shù)據(jù) R語言中使用 table(data)進(jìn)行頻數(shù)統(tǒng)計(jì) setosa versicolor virginica setosa 25 0 0 versicolor 0 24 1 virginica 0 3 22accuracy=( 25+24+22) /75=%步驟 5:生成規(guī)則 asRules(model) 步驟 1:生成訓(xùn)練集和測(cè)試集 生成訓(xùn)練集 =iris[2*(1:75)1,] (意思是返回原數(shù)據(jù)集
點(diǎn)擊復(fù)制文檔內(nèi)容
規(guī)章制度相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1