freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘之分類和預(yù)測(編輯修改稿)

2025-02-10 23:15 本頁面
 

【文章內(nèi)容簡介】 編號n 假設(shè) S中有 m個類,總共 s個訓(xùn)練樣本,每個類Ci有 si個樣本 (i= 1,2,3...m),那么任意一個樣本屬于類 Ci的概率是 si / s,那么用來分類一個給定樣本的 期望信息 是:信息增益 (2)n 一個有 v個值的屬性 A{a1,a2,...,av}可以將 S分成 v個子集 {S1,S2,...,Sv},其中 Sj包含 S中屬性 A上的值為 aj的樣本。假設(shè) Sj包含類 Ci的 sij個樣本。根據(jù) A的這種劃分的期望信息稱為 A的 熵n A上該劃分的獲得的信息增益定義為:n 具有高信息增益的屬性,是給定集合中具有高區(qū)分度的屬性。所以可以通過計算 S中樣本的每個屬性的信息增益,來得到一個屬性的相關(guān)性的排序。age ine student credit_rating buys_puteryouth high no fair noyouth high no excellent nomiddle_aged high no fair yessenior medium no fair yessenior low yes fair yessenior low yes excellent nomiddle_aged low yes excellent yesyouth medium no fair noyouth low yes fair yessenior medium yes fair yesyouth medium yes excellent yesmiddle_aged medium no excellent yesmiddle_aged high yes fair yessenior medium no excellent no判定歸納樹算法示例 (1)n 對于上述數(shù)據(jù),可以略過步驟 1, 2n 步驟 3,計算基于熵的度量 —— 信息增益,作為樣本劃分的根據(jù)q Gain(age)=q Gain(ine)=q Gain(student)=q Gain(credit_rating)=n 然后,對測試屬性每個已知的值,創(chuàng)建一個分支,并以此劃分樣本,得到第一次劃分判定歸納樹算法示例 (2)判定歸納樹算法示例 (3)age?overcaststudent? credit rating?no yes fairexcellentyouth seniorno noyes yesyesMiddle aged防止分類中的過分適應(yīng)n 產(chǎn)生的決策樹會出現(xiàn)過分適應(yīng)數(shù)據(jù)的問題q 由于數(shù)據(jù)中的噪聲和孤立點,許多分枝反應(yīng)的是訓(xùn)練數(shù)據(jù)中的異常q 對新樣本的判定很不精確n 防止過分適應(yīng)的兩種方法q 先剪枝:通過提前停止樹的構(gòu)造 —— 如果在一個節(jié)點劃分樣本將導(dǎo)致低于預(yù)定義臨界值的分裂( . 使用信息增益度量)n 選擇一個合適的臨界值往往很困難q 后剪枝:由 “完全生長 ”的樹剪去分枝 —— 對于樹中的每個非樹葉節(jié)點,計算該節(jié)點上的子樹被剪枝可能出現(xiàn)的期望錯誤率n 使用一個獨立的測試集來評估每顆樹的準確率,就能得到具有最小期望錯誤率的決策樹由決策樹提取分類規(guī)則n 可以提取決策樹表示的知識,并以 IFTHEN形式的分類規(guī)則表示n 對從根到樹葉的每條路徑創(chuàng)建
點擊復(fù)制文檔內(nèi)容
語文相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1