【正文】
地定義新的離散值屬性來實現(xiàn),即先把連續(xù)值屬性的值域分割為離散的區(qū)間集合 42 合并連續(xù)值屬性( 2) ? 例子, Temperature應(yīng)該定義什么樣的基于閾值的布爾屬性 ? 選擇產(chǎn)生最大信息增益的閾值 ? 按照連續(xù)屬性排列樣例,確定目標分類不同的相鄰實例 ? 產(chǎn)生一組候選閾值,它們的值是相應(yīng)的 A值之間的中間值 ? 可以證明產(chǎn)生最大信息增益的 c值位于這樣的邊界中( Fayyad1991) ? 通過計算與每個候選閾值關(guān)聯(lián)的信息增益評估這些候選值 ? 方法的擴展 ? 連續(xù)的屬性分割成多個區(qū)間,而不是單一閾值的兩個空間 43 小結(jié)和補充讀物 ? 決策樹學習為概念學習和學習其他離散值的函數(shù)提供了一個實用的方法 ? ID3算法 ? 貪婪算法 ? 從根向下推斷決策樹 ? 搜索完整的假設(shè)空間 ? 歸納偏臵,較小的樹 ? 過度擬合問題 ? ID3算法的擴展 44 附錄 ? is a software extension of the basic ID3 algorithm designed by Quinlan to address the following issues not dealt with by ID3: ? Avoiding overfitting the data ? Determining how deeply to grow a decision tree. ? Reduced error pruning. ? Rule postpruning. ? Handling continuous attributes. ? ., temperature ? Choosing an appropriate attribute selection measure. ? Handling training data with missing attribute values. ? Handling attributes with differing costs. ? Improving putational efficiency. 分類器評價標準 ? 預測準確度 ? 計算復雜度 ? 模型描述的簡潔度:產(chǎn)生式規(guī)則 準確度分析 一般采用 召回 率 r(Recall)和 精 準率 p(Precision)這兩個指標衡量分類 器 的準確度。 — 個好的分類 器應(yīng)同時具有較高的 召回 率和 精 準率,當然這兩個指標一般情況下是互斥的,有時要根據(jù)需要在這兩個指標間作某種權(quán)衡和妥協(xié)。 召回 率 r(Recall)和 精 準率p(Precision) 為了定義這兩個指標,引入 分類 中常用的兩個基本概念, Relevant和 Retrieved。 ? Relevant:真正屬于某類的集合 ? Retrieved:判斷屬于某類的集合 召回 率反映了分類 器 正確分類的 對象 在真正歸入該類的 對象 中所占的比率,而 精 準率反映了分類 器 正確分類的 對象 在系統(tǒng)歸入該類的 對象 中所占的比率。 R e le v a n t R e tr ie v e d= R e le v a n trR e le v a n t R e tr ie v e d= R e tr ie v e dpRelevant Retrieved Relevant∩Retrieved Relevant Retrieved Relevant∩Retrieved F1 ? 召回 率和 精 準率反映了分類質(zhì)量的兩個不同側(cè)面,兩者必須綜合考慮,不可偏廢,因此,可引入一種新的評價指標 F1,該指標綜合了這兩種因素,其公式如下: 21F ????精 準 率 召 回 率精 準 率 召 回 率構(gòu)造分類器的主要步驟 ① 將現(xiàn)有的已知類別的數(shù)據(jù)劃分為訓練 集 和測試 集 兩部分。 ② 構(gòu)造分類算法對訓練 集 進行學習,得到一個分類模型,它可以以分類規(guī)則、決策樹或數(shù)學公式等形式給出。 ③ 使用分類模型對測試 集 進行檢測,如果符合測試要求(如分類精度),則進行 ④ ;否則,返回 ② 。 ④ 應(yīng)用得到的分類模型對未知類別的數(shù)據(jù)進行分類。 訓練數(shù)據(jù)和測試數(shù)據(jù)的劃分方法 其中,對于步驟 (1),目前主要有兩種劃分方法: 1. 保持( holdout)方法。保持方法將已知數(shù)據(jù)隨機劃分為訓練數(shù)據(jù)和測試數(shù)據(jù)兩部分,一般是三分之二作為訓練數(shù)據(jù),另外三分之一作為測試數(shù)據(jù)。使用訓練數(shù)據(jù)導出分類模型,它在測試數(shù)據(jù)上的分類精度作為最終的分類精度。 2. k折 交叉驗證( kfold cross validation)方法 。 k折 交叉驗證則將已知數(shù)據(jù)隨機劃分為 k個大致相等的數(shù)據(jù)子集S1, S2, …, Sk,訓練和測試重復進行 k次。在第 i次過程中, Si作為測試數(shù)據(jù),其余的子集則作為訓練數(shù)據(jù)。最終分類器的分類精度取 k次測試分類精度的平均值。這種方法適用于原始數(shù)據(jù)量較小的情況,這時不適合直接應(yīng)用保持方法。 作業(yè) ? 給出決策樹方法的模型、策略、算法; ? 的 信息增益比的特點 ? ? 方法生成的決策樹的特點? 演講完畢,謝謝觀看!