【正文】
ER 2022 案例分析 三、 kmeans算法 ?練習:對二維坐標中的 6個點{ X1,X2,X3,X4,X5,X6}作聚類分析。假設要求的簇的數(shù)量 k=2。這可能不適用于某些應用。 ? kMeans方法不適用于發(fā)現(xiàn)非凸面形狀的簇,而且 ,它對于“噪聲”和孤立點數(shù)據(jù)是敏感的,少量的該種數(shù)據(jù)能夠?qū)ζ骄诞a(chǎn)生極大的影響。例如數(shù)據(jù)集中缺少一些變量,更一般的情況是,任何含有隱含變量 (不能直接觀察到的變量 )的模型都可以被歸納為數(shù)據(jù)殘缺問題。它不把對象分配給一個確定的簇,而是根據(jù)對象與簇之間的隸屬關系發(fā)生的概率來分配對象。 22 醫(yī)學數(shù)學挖掘 —— SQL SERVER 2022 案例分析 四、 EM算法 ?EM算法基本思想: ? EM算法不是為每一個維選擇一個點,然后計算距離,而是把每一維作為一個鐘型曲線,并計算平均值和標準差。 ? 每一個聚類的曲線可以重疊,所以每一點可以屬于多個聚類,且每一聚類有不同的概率。 23 醫(yī)學數(shù)學挖掘 —— SQL SERVER 2022 案例分析 四、 EM算法 ?EM算法的步驟:估計步驟( Estimate)和最大化步驟(Maximize), EM算法的名字由這兩個步驟的英文單詞的第一個字母組成。設H={z(1),?, z(n)} 表示隱藏變量 z的 n個值,與觀察到的數(shù)據(jù)點 D一一對應 ? 觀察到數(shù)據(jù)的對數(shù)似然函數(shù)為: 24 ? ? ? ? ? ?l o g | l o g , |Hl p D p D H? ? ??? ?醫(yī)學數(shù)學挖掘 —— SQL SERVER 2022 案例分析 四、 EM算法 25 ? ? ? ?? ?? ?? ?? ?? ?? ?? ? ? ? ? ?? ?? ?l og , |,| l og,| l og1 l og , | l og ,HHHHHl p D Hp D HQHQHp D HQHQHQ H p D H Q HQHFQ?????????????????醫(yī)學數(shù)學挖掘 —— SQL SERVER 2022 案例分析 四、 EM算法 ?EM算法在以下兩者間交替:固定參數(shù) θ ,使 F相對于分布 Q最大化;固定分布 Q=p(H),使 F相對于參數(shù) θ 最大化。各屬性的含義如下: 27 屬性 含義 屬性 含義 屬性 含義 ID 主鍵 Tiredness 熬夜 familial medical history 家族心血管 病史 Sex 性別 Exercise 運動鍛煉習慣 fatness 肥胖情況 Age 年齡 Diet 個人飲食偏好 hypertension 血壓 Profession 工作壓力 狀況 sittingup 早起習慣 blood sugar 血糖 Marital Status 婚姻狀況 petting 養(yǎng)寵物 blood fat 血脂 Own car