【正文】
每個事件出現(xiàn)的概率是 p1,p2,… pn 則這個系統(tǒng)的平均信息量是 ? 指的是系統(tǒng)的混亂的程度 ! (bits) ? 系統(tǒng)越無序、越混亂,熵就越大。如果一個實例到節(jié)點 m,則它屬于 類的概率估計為: 節(jié)點 m是純的,如果對于所有 i, 為 0或 1。 y = DecisionTree( x ) Example of a Decision Tree Another Example of Decision Tree Apply Model to Test Data Refund MarSt TaxInc YES NO NO NO Yes No Married Single, Divorced 80K 80K Ref un d M ari tal S tatu s Tax abl e I nco m e Chea t No M arri ed 80K ? 10 Test Data Start from the root of tree. Apply Model to Test Data Refund MarSt TaxInc YES NO NO NO Yes No Married Single, Divorced 80K 80K Ref un d M ari tal S tatu s Tax abl e I nco m e Chea t No M arri ed 80K ? 10 Test Data Apply Model to Test Data Refund MarSt TaxInc YES NO NO NO Yes No Married Single, Divorced 80K 80K Ref un d M ari tal S tatu s Tax abl e I nco m e Chea t No M arri ed 80K ? 10 Test Data Apply Model to Test Data Refund MarSt TaxInc YES NO NO NO Yes No Married Single, Divorced 80K 80K Ref un d M ari tal S tatu s Tax abl e I nco m e Chea t No M arri ed 80K ? 10 Test Data Apply Model to Test Data Refund MarSt TaxInc YES NO NO NO Yes No Married Single, Divorced 80K 80K Ref un d M ari tal S tatu s Tax abl e I nco m e Chea t No M arri ed 80K ? 10 Test Data Apply Model to Test Data Refund MarSt TaxInc YES NO NO NO Yes No Married Single, Divorced 80K 80K Ref un d M ari tal S tatu s Tax abl e I nco m e Chea t No M arri ed 80K ? 10 Test Data Assign Cheat to “No” 決策樹原理 ? 基本算法(貪心算法) ? 自上而下分而治之的方法 ? 開始時,所有的數(shù)據(jù)都在根節(jié)點 ? 屬性都是離散值字段 (如果是連續(xù)的,將其離散化 ) ? 所有記錄用所選屬性遞歸的進(jìn)行分割 ? 屬性的選擇是基于一個啟發(fā)式規(guī)則或者一個統(tǒng)計的度量 (如 , information gain) ? 停止分割的條件 ? 一個節(jié)點上的數(shù)據(jù)都是屬于同一個類別 ? 沒有屬性可以再用于對數(shù)據(jù)進(jìn)行分割 算法: Generate_decision_tree由給定的訓(xùn)練數(shù)據(jù)產(chǎn)生一棵決策樹 輸入:訓(xùn)練數(shù)據(jù)集 samples, 用離散值屬性表示;候選屬性的集合 attribute_list。該決策節(jié)點將輸入空間一份為二: 和 ,稱為一個二元劃分。 根節(jié)點 非葉子節(jié)點(決策點) 葉子節(jié)點 分支 決策樹的結(jié)構(gòu) 4 根部節(jié)點 (root node) 非葉子 節(jié)點 (nonleaf node) (代表測試的條件 ,對 數(shù)據(jù)屬性的測試 ) 分支 (branches)(代表測試的結(jié)果 ) 葉節(jié)點 (leaf node) (代表分類后所獲得 的分類標(biāo)記 ) 2023/2/10 單變量樹 每個內(nèi)部節(jié)點中的測試只使用一個輸入維。 在其生成過程中,分割方法即 屬性選擇