【正文】
單刪除上面第 2個(gè)限制的方法 通過(guò)動(dòng)態(tài)地定義新的離散值屬性來(lái)實(shí)現(xiàn),即先把連續(xù)值屬性的值域分割為離散的區(qū)間集合 42 合并連續(xù)值屬性( 2) 例子, Temperature應(yīng)該定義什么樣的基于閾值的布爾屬性 選擇產(chǎn)生最大信息增益的閾值 按照連續(xù)屬性排列樣例,確定目標(biāo)分類不同的相鄰實(shí)例 產(chǎn)生一組候選閾值,它們的值是相應(yīng)的 A值之間的中間值 可以證明產(chǎn)生最大信息增益的 c值位于這樣的邊界中( Fayyad1991) 通過(guò)計(jì)算與每個(gè)候選閾值關(guān)聯(lián)的信息增益評(píng)估這些候選值 方法的擴(kuò)展 連續(xù)的屬性分割成多個(gè)區(qū)間,而不是單一閾值的兩個(gè)空間 43 小結(jié)和補(bǔ)充讀物 決策樹(shù)學(xué)習(xí)為概念學(xué)習(xí)和學(xué)習(xí)其他離散值的函數(shù)提供了一個(gè)實(shí)用的方法 ID3算法 貪婪算法 從根向下推斷決策樹(shù) 搜索完整的假設(shè)空間 歸納偏置,較小的樹(shù) 過(guò)度擬合問(wèn)題 ID3算法的擴(kuò)展 44 附錄 is a software extension of the basic ID3 algorithm designed by Quinlan to address the following issues not dealt with by ID3: Avoiding overfitting the data Determining how deeply to grow a decision tree. Reduced error pruning. Rule postpruning. Handling continuous attributes. ., temperature Choosing an appropriate attribute selection measure. Handling training data with missing attribute values. Handling attributes with differing costs. Improving putational efficiency. 分類器評(píng)價(jià)標(biāo)準(zhǔn) 預(yù)測(cè)準(zhǔn)確度 計(jì)算復(fù)雜度 模型描述的簡(jiǎn)潔度:產(chǎn)生式規(guī)則 準(zhǔn)確度分析 一般采用 召回 率 r(Recall)和 精 準(zhǔn)率 p(Precision)這兩個(gè)指標(biāo)衡量分類 器 的準(zhǔn)確度。 —個(gè)好的分類 器應(yīng)同時(shí)具有較高的 召回 率和 精 準(zhǔn)率,當(dāng)然這兩個(gè)指標(biāo)一般情況下是互斥的,有時(shí)要根據(jù)需要在這兩個(gè)指標(biāo)間作某種權(quán)衡和妥協(xié)。 召回 率 r(Recall)和 精 準(zhǔn)率 p(Precision) 為了定義這兩個(gè)指標(biāo),引入 分類 中常用的兩個(gè)基本概念, Relevant和 Retrieved。 Relevant:真正屬于某類的集合 Retrieved:判斷屬于某類的集合 召回 率反映了分類 器 正確分類的 對(duì)象 在真正歸入該類的 對(duì)象 中所占的比率,而 精 準(zhǔn)率反映了分類 器 正確分類的 對(duì)象 在系統(tǒng)歸入該類的 對(duì)象 中所占的比率。 R e le v a n t R e trie v e d= R e le v a n trR e le v a n t R e tr ie v e d= R e tr ie v e dpRelevant Retrieved Relevant∩Retrieved Relevant Retrieved Relevant∩Retrieved F1 召回 率和 精 準(zhǔn)率反映了分類質(zhì)量的兩個(gè)不同側(cè)面,兩者必須綜合考慮,不可偏廢,因此,可引入一種新的評(píng)價(jià)指標(biāo) F1,該指標(biāo)綜合了這兩種因素,其公式如下: 21F ????精 準(zhǔn) 率 召 回 率精 準(zhǔn) 率 召 回 率構(gòu)造分類器的主要步驟 ① 將現(xiàn)有的已知類別的數(shù)據(jù)劃分為訓(xùn)練 集 和測(cè)試 集 兩部分。 ② 構(gòu)造分類算法對(duì)訓(xùn)練 集 進(jìn)行學(xué)習(xí),得到一個(gè)分類模型,它可以以分類規(guī)則、決策樹(shù)或數(shù)學(xué)公式等形式給出。 ③ 使用分類模型對(duì)測(cè)試 集 進(jìn)行檢測(cè),如果符合測(cè)試要求(如分類精度),則進(jìn)行 ④ ;否則,返回 ② 。 ④ 應(yīng)用得到的分類模型對(duì)未知類別的數(shù)據(jù)進(jìn)行分類。 訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)的劃分方法 其中,對(duì)于步驟 (1),目前主要有兩種劃分方法: 1. 保持( holdout)方法。保持方法將已知數(shù)據(jù)隨機(jī)劃分為訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)兩部分,一般是三分之二作為訓(xùn)練數(shù)據(jù),另外三分之一作為測(cè)試數(shù)據(jù)。使用訓(xùn)練數(shù)據(jù)導(dǎo)出分類模型,它在測(cè)試數(shù)據(jù)上的 分類精度作為最終的分類精度。 2. k折 交叉驗(yàn)證( kfold cross validation)方法 。 k折 交叉驗(yàn)證則將已知數(shù)據(jù)隨機(jī)劃分為 k個(gè)大致相等的數(shù)據(jù)子集 S1, S2, …, Sk,訓(xùn)練和測(cè)試重復(fù)進(jìn)行 k次。在第 i次過(guò)程中,Si作為測(cè)試數(shù)據(jù),其余的子集則作為訓(xùn)練數(shù)據(jù)。最終分類器的分類精度取 k次測(cè)試分類精度的平均值。這種方法適用于原始數(shù)據(jù)量較小的情況,這時(shí)不適合直接 應(yīng)用保持方法。 作業(yè) 給出決策樹(shù)方法的模型、策略、算法; 的 信息增益比的特點(diǎn) ? 方法生成的決策樹(shù)的特點(diǎn)?