freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

分類挖掘:決策樹-在線瀏覽

2025-02-28 05:14本頁(yè)面
  

【正文】 ,隨著信宿接收到信息(輸入變量如 T1),則條件熵為:?信息增益:?T1作為最佳分組變量而非 T3將輸出變量(是否購(gòu)買)看作信源發(fā)出的信息 U輸入變量看作是信宿接收到的一系列信息 V類別值多的輸入變量比少的有更多的機(jī)會(huì)成為當(dāng)前最佳分組變量 :信息增益率信息增益率的數(shù)學(xué)定義為 :?數(shù)值型輸入變量?首先對(duì)它進(jìn)行分組處理,分組方法采用基于MDLP的熵分組方法 :數(shù)值型輸入變量? 把連續(xù)值屬性的值域分割為離散的區(qū)間集合。( Minimun DescriptionLength Principle)信息增益大于編碼長(zhǎng)度合并連續(xù)值屬性合并連續(xù)值屬性2023/5/4選擇最佳分組變量時(shí),通常將帶有缺失值的樣本當(dāng)臨時(shí)剔除樣本看待,并進(jìn)行權(quán)數(shù)調(diào)整 :對(duì)缺失值問題的處理計(jì)算輸出變量熵計(jì)算關(guān)于 T1的條件熵 計(jì)算經(jīng)權(quán)數(shù)調(diào)整的 T1信息增益 計(jì)算信息增益率 ?不繼續(xù)確定關(guān)于分組變量的最佳分割點(diǎn)?分類型輸入變量: K叉樹?數(shù)值型輸入變量: 2叉樹?Clementine: ChiMerge分箱法?在分組變量上取缺失值:?第 1個(gè)樣本被分配到各組中的權(quán)數(shù)分別為 5/13/1 5/13,之后各組的樣本數(shù)分別為 5+ 5/1 3+ 3/1 5+ 5/13 :最佳分割點(diǎn)?后修剪方法從葉結(jié)點(diǎn)向上逐層剪枝,關(guān)鍵是錯(cuò)誤率即誤差的估計(jì)問題?通常應(yīng)在檢驗(yàn)樣本集上估計(jì)誤差并進(jìn)行剪枝?利用統(tǒng)計(jì)中置信度的思想直接在訓(xùn)練樣本集中估計(jì)誤差:當(dāng) ?為 , :剪枝?按照 “減少-誤差( reduceerror) ”法判斷是否剪枝:剪枝考慮是否可以剪掉最下層的 3個(gè)葉結(jié)點(diǎn)3個(gè)結(jié)點(diǎn)的錯(cuò)誤率:分別為: 、 、 ;加權(quán):計(jì)算父結(jié)點(diǎn) C的誤差估計(jì)為 。?預(yù)測(cè)的置信度(或誤差)會(huì)影響決策,錯(cuò)判的損失也會(huì)影響決策?損失矩陣: :損失矩陣?從損失角度決策,在各類錯(cuò)判損失不相等時(shí)(不能僅從置信角度判斷。模型復(fù)雜,決策樹修剪程度低;如果取偽損失指定為 10,則模型都判為 No?偏差和方差?決策樹算法具有一定的不穩(wěn)健性,可以考慮利用多組樣本建立多個(gè)模型,形成模型 “ 委員會(huì) ” 制度?Bagging技術(shù)?Boosting技術(shù): 模型 “委員會(huì) ”?建模過程(輸入:訓(xùn)練樣本集 T,訓(xùn)練次數(shù) k;輸出:多個(gè)決策樹模型 C1,C2,…Ck)For i=1,2,…,k do 從 T中隨機(jī)有放回抽取樣本,形成有相同樣本容量的樣本集合 Ti 以 Ti為訓(xùn)練集構(gòu)造模型 CiEnd for?決策過程(輸入:新數(shù)據(jù) X, 多個(gè)決策樹模型 C1,C2,…Ck ;輸出:分類預(yù)測(cè)結(jié)果 C(X) )For i=1,2,…,k do 根據(jù) Ci對(duì) X做預(yù)測(cè),結(jié)果為 Ci(X)End for統(tǒng)計(jì)各類別得票,得票數(shù)最高的為 C(X),或計(jì)算平均值 : Bagging技術(shù)?兩個(gè)階段:建立 k個(gè)模型; k個(gè)模型投票: Boosting技術(shù)?Boosting技術(shù):建模過程?初試化樣本權(quán)數(shù): wj(i)=1/n?對(duì)每次迭代:?根據(jù)樣本權(quán)數(shù) wj(i),從 T中有放回地抽取 n個(gè)樣本形成訓(xùn)練樣本集 Ti;?根據(jù)訓(xùn)練集 Ti得到模型 Ci;?計(jì)算模型的誤差 e(i) ?如果 e(i) 或者 e(i)=0,則終止建模過程;: Boosting技術(shù)?Boosting技術(shù):建模過程?初試化樣本權(quán)數(shù): wj(i)=1/n?對(duì)每次迭代:?根據(jù)誤差更新每個(gè)樣本的權(quán)數(shù):?正確分類的樣本權(quán)數(shù): wj(i+1)= wj(i)*223。(i)= e(i)/(1 e(i));?錯(cuò)誤分類的樣本權(quán)數(shù)保持不變: wj(i+1)= wj(i);?調(diào)整 wj(i+1)使得各樣本的權(quán)重之和等于 1?經(jīng)過 k次迭代,將得到 k個(gè)模型和 k個(gè)誤差: Boosting技術(shù)?Boosting技術(shù):投票過程(決策過程)?采用加權(quán)投票,給不同的模型賦予不同的權(quán)數(shù),權(quán)數(shù)與模型的誤差成反比,具體為:?對(duì)新樣本 X,每個(gè)模型 Ci都給出預(yù)測(cè)值 Ci(X),給預(yù)測(cè)類 Ci(X)加權(quán):?求各類權(quán)數(shù)的總和,總權(quán)數(shù)最高的類即為最終的分類結(jié)果?Bagging與
點(diǎn)擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1