freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

決策樹算法總結(jié)-全文預(yù)覽

2024-08-28 03:21 上一頁面

下一頁面
  

【正文】 經(jīng)典算法之一,既可以作為分類算法,也可以作為回歸算法。也用來做分類。這是我們之前寫if語句時(shí)不會(huì)考慮的問題。 熵:熵用來表示信息的混亂程度,值越大表示越混亂,包含的信息量也就越多。使用分支前的混亂程度,減去分支后的混亂程度,結(jié)果越大,表示效果越好。ID3算法建樹:依據(jù)前面的邏輯,遞歸尋找最優(yōu)分支節(jié)點(diǎn),直到下面情況結(jié)束1. 葉節(jié)點(diǎn)已經(jīng)屬于同一標(biāo)簽2. 雖然葉節(jié)點(diǎn)不屬于同一標(biāo)簽,但是特征已經(jīng)用完了3. 熵小于預(yù)先設(shè)置的閾值4. 樹的深度達(dá)到了預(yù)先設(shè)置的閾值ID3算法的不足:1. 取值多的特征比取值少的特征更容易被選取。針對(duì)ID3的不足3,采用將連續(xù)值先排列,然后逐個(gè)嘗試分裂,找到連續(xù)值中的最佳分裂點(diǎn)。選擇最優(yōu)分裂項(xiàng)def chooseBestFeature(dataSet): 特征個(gè)數(shù) featureNum = len(dataSet[0]) 1 計(jì)算整體樣本的熵值 baseEntropy = entropy(dataSet) print(baseEntropy = %f%(baseEntropy)) 保存最大的信息增益率 maxInfoGainRatio = bestFeatureId = 1 for i in range(featureNum): 獲取特征所有可能的值 featureValues = [] for node in dataSet: (node[i]) print(featureValues) 將特征值去除重復(fù) uniqueFeatureValues = set(featureValues) print(uniqueFeatureValues) 按照i特征分裂之后的熵值 newEntropy = 分裂信息 spliteInfo = 按照i所表示的特征,開始分裂數(shù)據(jù)集 for value in uniqueFeatureValues: 當(dāng)i屬性等于value時(shí)的分裂結(jié)果 subDataSet = spliteDataSet(dataSet, i, value) print(subDataSet) 計(jì)算占比 p = float(len(subDataSet)) / float(len(dataSet)) newEntropy += p * entropy(subDataSet) spliteInfo += p * log(p, 2) 計(jì)算信息增益 infoGain = baseEntropy newEntropy 計(jì)算信息增益率 if spliteInfo == 0: continue infoGainRatio = infoGain
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1