【正文】
驗概率 樣本空間中各類樣本所占的比例,可通過各類樣本出現(xiàn)的頻率估計(大數(shù)定理) “證據(jù)” ( evidence)因子,與類標記無關(guān) 貝葉斯決策論 ?生成式模型 ? 基于貝葉斯定理, 可寫成 先驗概率 樣本空間中各類樣本所占的比例,可通過各類樣本出現(xiàn)的頻率估計(大數(shù)定理) “證據(jù)” ( evidence)因子,與類標記無關(guān) 類標記 相對于樣本 的“類條件概率 ” ( classconditional probability), 或稱“似然”。 章節(jié)目錄 ? 貝葉斯決策論 ? 極大似然估計 ? 樸素貝葉斯分類器 ? 半樸素貝葉斯分類器 ? 貝葉斯網(wǎng) ? EM算法 章節(jié)目錄 ? 貝葉斯決策論 ? 極大似然估計 ? 樸素貝葉斯分類器 ? 半樸素貝葉斯分類器 ? 貝葉斯網(wǎng) ? EM算法 樸素貝葉斯分類器 ?估計 后驗概率 主要困難:類條件概率 是所有屬性上的 聯(lián)合概率 難以從有限的訓(xùn)練樣本估計獲得。 ? ? ? ? ? ?? ?? ? ? ?1212 12 ,P Y = | Y =( Y = | ) 7 ., , , ,() , 7miii m mc P X cP c X P x x xx x x x x xX ??? ?? ?? ? ? ?? ?1 2 1 2,m a x Y ,= | m a x | Y, =,iii mimx x xP c X P X x x x c? ? ?? ? ? ? ? ?1 2 1 2 1A A = A A AP P P ? ? ? ? ? ? ? ?1 2 3 1 2 1 3 2 1A A A = A A A A A AP P P? ? ? ? ? ? ? ? ? ?1 2 3 1 2 1 3 2 1 1 2 1A A A A = A A A A A A A A A Am m mP P P P P ?? ?? ? ? ? ? ? ? ?? ?1 2 1 2 1 31 2 1 3 2 211 2 111 2 1| Y = | Y = | Y = | Y =|, , , , , , =, Ymmmi i i im m ix x xPX x x x x x xx x x xc P X c P X X c P X X X cP X X X X c??? ? ? ? ? ? ? ?? ? ? ?樸素貝葉斯分類器 ?估計 后驗概率 主要困難:類條件概率 是所有屬性上的 聯(lián)合概率 難以從有限的訓(xùn)練樣本估計獲得。 ?樸素貝葉斯分類器 (Na239。ve Bayes Classifier)采用了“屬性 條件獨立性 假設(shè)” (attribute conditional independence assumption):每個屬性 獨立地 對分類結(jié)果發(fā)生影響。 ? ?? ? ? ? ? ? ? ?? ?1 2 1 2 1 31 2 1 3 2 211 2 111 2 1| Y = | Y = | Y = | Y =|, , , , , , =, Ymmmi i i im m ix x xPX x x x x x xx x x xc P X c P X X c P X X X cP X X X X c??? ? ? ? ? ? ? ?? ? ? ?? ?? ? ? ? ? ? ? ? ? ?121 2 1 2 33| Y = | Y = | Y = | Y = | Y =, , , i i i m imm iP X c P X c P X c P X cx x x x x x xP X c? ? ? ? ? ?樸素貝葉斯分類器 ?估計 后驗概率 主要困難:類條件概率 是所有屬性上的 聯(lián)合概率 難以從有限的訓(xùn)練樣本估計獲得。 ?樸素貝葉斯分類器 (Na239。ve Bayes Classifier)采用了“屬性 條件獨立性 假設(shè)” (attribute conditional independence assumption):每個屬性 獨立地 對分類結(jié)果發(fā)生影響。 ?基于屬性條件獨立性假設(shè), ()可重寫為 ? 其中 為屬性數(shù)目, 為 在第 個屬性上的取值。 樸素貝葉斯分類器 樸素貝葉斯分類器 由于 對所有類別來說 相同,因此 基于式 ()的貝葉斯 判定準則有 ? 這就是 樸素貝葉斯分類器的 表達式 樸素 貝葉斯分類器 ? 樸素貝葉斯分類器的訓(xùn)練器的訓(xùn)練過程就是基于訓(xùn)練集 估計類先驗概率 并為每個屬性估計條件概率 。 ? 令 表示訓(xùn)練集 中第 類樣本組合的集合,若有充足的獨立同分布樣本,則可容易地 估計出 類先驗概率 ? 對離散屬性而言,令 表示 中在第 個屬性上取值為 的樣本組成的集合,則條件概率 可估計 為 ? 對連續(xù)屬性而言可考慮概率密度函數(shù),假定 ,其中 和 分別是第 類樣本在第 個屬性上取值的均值和方差,則有 樸素貝葉斯分類器 ?例子:用西瓜數(shù)據(jù)集 ,對測試例“測 1”進行分類 (p151, 西瓜數(shù)據(jù)集 p84 表 ) 拉普拉斯 修正 ?若某個屬性值在訓(xùn)練集中沒有與某個類同時出現(xiàn)過,則直接計算會出現(xiàn)問題, . 比如“敲聲 =清脆”測試例,訓(xùn)練集中沒有該樣例,因此連乘式計算的概率值為 0,無論其他屬性