freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

《聚類分析》ppt課件 (2)-文庫(kù)吧

2025-12-17 08:43 本頁(yè)面


【正文】 準(zhǔn)化 3. 二元變量? 24 什么是二元變量 二元變量 (二值變量): ?一個(gè)二元變量只有兩個(gè)狀態(tài): 0或者 1。其中 0代表變量所表示的狀態(tài)不存在; 1則代表相應(yīng)的狀態(tài)存在。 ?如: 給定變量 smoker,用以描述一個(gè)病人是否吸煙的情況,如用smoker為 1表示病人吸煙;若 smoker為 0表示病人不吸煙 。 25 二元變量的相異度計(jì)算 差異矩陣法: 如果假設(shè)所有的二元變量有相同的權(quán)重,則可以得到一個(gè)兩行兩列( 2*2)的條件表。 26 二元變量的相異度計(jì)算 其中: ?q表示在對(duì)象 i和對(duì)象 j中均取 1的二值變量個(gè)數(shù); ?r表示在對(duì)象 i取 1但對(duì)象 j中取 0的二值變量個(gè)數(shù); ?s表示在對(duì)象 i中取 0而在對(duì)象 j中取 1的二值變量個(gè)數(shù); ?t則表示在對(duì)象 i和對(duì)象 j中均取 0的二值變量個(gè)數(shù)。 ?二值變量的總數(shù)為 p,則: p=q+r+s+t。 27 對(duì)稱?不對(duì)稱? ?如果一個(gè)二值變量取 0或 1所表示的內(nèi)容同等價(jià)值,且有相同的權(quán)重,則該二元變量是對(duì)稱的。如,屬性“性別”,有兩個(gè)值“女性”和“男性”,兩個(gè)取值都沒有優(yōu)先權(quán) 。 ?基于對(duì)稱二元變量的相似度,稱為恒定的相似度。 ?對(duì)恒定相似度而言,評(píng)價(jià)量對(duì)象 i和 j間相異度的最著名的系數(shù)是簡(jiǎn)單匹配系數(shù): 28 對(duì)稱?不對(duì)稱? ?如果一個(gè)二值變量的兩個(gè)取值的重要性不同等重要,則該二元變量就是不對(duì)稱的。如一個(gè)疾病 disease的測(cè)試結(jié)果 positive或 negative,顯然這兩個(gè)測(cè)試結(jié)果的重要性是不一樣的: ?通常將比較重要的輸出結(jié)果,編碼為 1;而將另一結(jié)果編碼為 0. ?給定一個(gè)二元變量,如果認(rèn)為取 0值比取 0值所表示的情況更重要,則這樣的二元變量被認(rèn)為是單性的(好像只有一個(gè)狀態(tài))。 29 對(duì)稱?不對(duì)稱? ?基于這樣的二元變量的相似度被稱為非恒定的相似度。 ?對(duì)非恒定相似度,最常見的描述對(duì)象 i和對(duì)象 j間差異度的參數(shù)是 Jaccard相關(guān)系數(shù): ?在計(jì)算過程中,負(fù)匹配的數(shù)目 t被認(rèn)為是不重要的,因此被忽略。 ?若一個(gè)數(shù)據(jù)集中既包括對(duì)稱二元變量,又包含不對(duì)稱二元變量,可以用混合變量方法來(lái)處理。 30 示 例 31 示 例 4. 符號(hào)、順序和比例數(shù)值變量? 33 ( 1)符號(hào)變量 符號(hào)變量 (標(biāo)稱變量): ?符號(hào)變量是二元變量的推廣,可具有多于兩個(gè)的狀態(tài)值, 如顏色變量(紅、橙、黃、綠、藍(lán)等)。 ?設(shè)一個(gè)符號(hào)變量所取的狀態(tài)個(gè)數(shù)為 M,其中的狀態(tài)可以用字母、符號(hào),或一個(gè)整數(shù)集合來(lái)表示,如 1,2,…M。此處的整數(shù)僅是為方便數(shù)據(jù)處理而采用的,并不代表任何的特定的順序。 34 ( 1)符號(hào)變量 35 ( 2)順序變量 順序變量 (序數(shù)型變量): ?一個(gè)離散的順序變量類似于符號(hào)變量,但不同的是順序變量的 M個(gè)狀態(tài)是以 有意義的順序 進(jìn)行排列的。 ?如專業(yè)等級(jí)是一個(gè)順序變量,是按照助教、講師、副教授和教授的順序排列的。 ?一個(gè)連續(xù)的順序變量,值的相對(duì)位置要比它的實(shí)際數(shù)值有意義的多,如某個(gè)比賽的相對(duì)排名(金牌、銀牌和銅牌)可能比實(shí)際得分更重要。 36 順序變量的相異度 順序變量的處理與區(qū)間標(biāo)度變量非常類似,假設(shè) f是用于描述 n個(gè)對(duì)象的一組順序變量之一,關(guān)于 f的相異度計(jì)算如下: 接下來(lái)就可以用區(qū)間標(biāo)度變量中所描述的任意一組距離度量方法進(jìn)行計(jì)算相異度。 37 ( 3)比例數(shù)值變量 比例數(shù)值變量 (比例標(biāo)度型變量): ?一個(gè)比例數(shù)值變量指在非線性的標(biāo)度上取正的度量值的變量,如指數(shù)比例: 38 ( 3)比例數(shù)值變量 在計(jì)算比例數(shù)值變量所描述對(duì)象間的距離時(shí),有兩種處理方法: 1)將比例數(shù)值變量看作區(qū)間標(biāo)度變量,采用相同的方法處理,但不佳,因?yàn)楸壤叨仁欠蔷€性的; 2)采用對(duì)數(shù)變換 ,對(duì)比例數(shù)值變量進(jìn)行處理,然后將 yif當(dāng)做區(qū)間標(biāo)度變量來(lái)處理。 5. 混合數(shù)據(jù)類型? 40 混合數(shù)據(jù)類型 混合數(shù)據(jù)類型: ?在實(shí)際數(shù)據(jù)庫(kù)中,數(shù)據(jù)對(duì)象往往是用復(fù)合數(shù)據(jù)類型來(lái)描述的,而且常常包括以上六種數(shù)據(jù)類型:區(qū)間標(biāo)度變量、對(duì)稱二元變量、不對(duì)稱二元變量、符號(hào)類型、順序類型和比例數(shù)值類型。 如何計(jì)算相異度? ? 一種方法是將變量按類型分組,對(duì)每種類型的變量單獨(dú)聚類分析,如果分析得對(duì)兼容的結(jié)果,這種方法可行,但實(shí)際中,往往不可行。 ? 一種更可取的方法是將所有的變量一起處理,只進(jìn)行一次聚類分析。 41 混合數(shù)據(jù)類型 ?一種技術(shù)是將不同類型的變量組合在單個(gè)相異度矩陣中,把所有有意義的變量轉(zhuǎn)換到共同的值域區(qū)間 [0,1]上。 ?假設(shè)
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1