freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

決策樹算法總結-文庫吧

2025-07-21 03:21 本頁面


【正文】 labels = {} for node in dataSet: curL = node[1] 獲取標簽 if curL not in (): labels[curL] = 0 如果沒有記錄過該種標簽,就記錄并初始化為0 labels[curL] += 1 將標簽記錄個數(shù)加1 此時labels中保存了所有標簽和對應的個數(shù) res = 1 計算公式為p*logp,p為標簽出現(xiàn)概率 for node in labels: p = float(labels[node]) / tNum res = p * p return res. 構建樹ID3算法:利用信息熵增益,決定選取哪個特征作為分支節(jié)點。分支前的總樣本熵值分支后的熵值總和=信息熵增益。A:10個B:10個特征T1A:5個B:8個A:5個B:2個A:10個B:10個特征T2A:3個B:9個A:7個B:1個T1的信息熵增益:1 – 13/20* 7/20* = T2的信息熵增益:1 – 12/20* 8/20* = 所以使用T2作為分支特征更優(yōu)。ID3算法建樹:依據(jù)前面的邏輯,遞歸尋找最優(yōu)分支節(jié)點,直到下面情況結束1. 葉節(jié)點已經(jīng)屬于同一標簽2. 雖然葉節(jié)點不屬于同一標簽,但是特征已經(jīng)用完了3. 熵小于預先設置的閾值4. 樹的深度達到了預先設置的閾值ID3算法的不足:1. 取值多的特征比取值少的特征更容易被選取。2. 不包含剪枝操作,過擬合嚴重3. 特征取值必須是離散的,或者有限的區(qū)間的。:基于ID3算法進行了改進,首先,針對ID3的不足1,采用信息增益率取代ID3中使用信息增益而造成的偏向于選取取值較多的特征作為分裂點的問題。針對ID3的不足2,采用剪枝操作,緩解過擬合問題。針對ID3的不足3,采用將連續(xù)值先排列,然后逐個嘗試分裂,找到連續(xù)值中的最佳分裂點。信息增益率的計算:先計算信息增益,然后除以spliteInfo。spliteInfo為分裂后的子集合的函數(shù),假設分裂后的子集合個數(shù)為sub1和sub2,total為分裂前的個數(shù)。spliteInfo = sub1 / total * log(sub1 / total) – sub2 / total * log(sub2 / total)index:特征序號value:特征值該方法表示將index對應特征的值為value的集合返回,返回集合中不包含index對應的特征def spliteDataSet(dataSet, index, value): newDataSet = [] for node in dataSet: if node[index] == value: [0,index)列的數(shù)據(jù) newData = node[:index] [index+1,最后]列的數(shù)據(jù) (node[index + 1:])
點擊復制文檔內容
環(huán)評公示相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1