【正文】
元變量 ? 其它的都是非對稱的二元變量 ? 將值 Y和 P 編碼為 1, 值 N 編碼為 0,根據(jù) Jaccard系數(shù)計(jì)算得: N a m e G e n d e r F e v e r C o u g h T e s t 1 T e s t 2 T e s t 3 T e s t 4J a c k M Y N P N N NM a ry F Y N P N P NJ im M Y P N N N N21121),(11111),(10210),(???????????????m a r yjimdjimj a c kdm a r yj a c kd2020116 數(shù)據(jù)挖掘:概念和技術(shù) 40 標(biāo)稱變量( Nominal Variables) ? 標(biāo)稱變量是二元變量的推廣,它可以具有多于兩個(gè)的狀態(tài),比如 變量 map_color可以有 red, yellow, blue, green四種狀態(tài)。這通過用 zif來替代 rif來實(shí)現(xiàn) ? 用前面所述的區(qū)間標(biāo)度變量的任一種距離計(jì)算方法來計(jì)算 11???fifif Mrz},...,1{ fif Mr ?2020116 數(shù)據(jù)挖掘:概念和技術(shù) 43 比例標(biāo)度型變量( Ratioscaled variable) ? 比例標(biāo)度型變量 : 總是取正的度量值,有一個(gè)非線性的標(biāo)度,近似的遵循指數(shù)標(biāo)度,比如 AeBt or AeBt ? 計(jì)算相異度的方法 : ? 采用與處理區(qū)間標(biāo)度變量相同的方法 — 不是一個(gè)好的選擇 ? 進(jìn)行對數(shù)變換,對變換得到的值在采用與處理區(qū)間標(biāo)度變量相同的方法 yif = log(xif) ? 將其作為連續(xù)的序數(shù)型數(shù)據(jù),將其秩作為區(qū)間標(biāo)度的值來對待。 p mpjid ??),(2020116 數(shù)據(jù)挖掘:概念和技術(shù) 41 序數(shù)型變量 ? 一個(gè)序數(shù)型變量可以是離散的也可以是連續(xù)的 ? 離散的序數(shù)型變量類似于標(biāo)稱變量,除了它的 M個(gè)狀態(tài)是以有意義的序列排序的,比如職稱 ? 連續(xù)的序數(shù)型變量類似于區(qū)間標(biāo)度變量,但是它沒有單位,值的相對順序是必要的,而其實(shí)際大小并不重要。即可以任取其中一種狀態(tài)編碼為 1或者 0 對于對稱的二員變量,采用 簡單匹配系數(shù) 來評(píng)價(jià)兩個(gè)對象之間的相異度 dcba cb jid ??? ??),(2020116 數(shù)據(jù)挖掘:概念和技術(shù) 38 二元變量 ? 非對稱的 如果變量的兩個(gè)狀態(tài)不是同樣重要的,則稱該變量是不對稱的。 3. 基于距離的關(guān)聯(lián)規(guī)則 ? 用數(shù)據(jù)點(diǎn)之間的距離動(dòng)態(tài)的離散化 2020116 數(shù)據(jù)挖掘:概念和技術(shù) 16 數(shù)值屬性的靜態(tài)離散化 ? 在挖掘之前用概念層次先離散化 ? 數(shù)值被替換為區(qū)間范圍 ? 關(guān)系數(shù)據(jù)庫中,要找到所有頻繁 k維詞需要 k或 k+1次表掃描。 2020116 數(shù)據(jù)挖掘:概念和技術(shù) 9 多層挖掘:深度優(yōu)先 ? 自頂向下,深度優(yōu)先的方法: ? 先挖掘高層頻繁項(xiàng): 牛奶 (15%), 面包 (10%) ? 再挖掘他們底層的相對較弱的頻繁項(xiàng): 酸奶 (5%), 白面包 (4%) ? 跨層時(shí)對支持度的不同處理方法,對應(yīng)了不同的算法 : ? 層之間支持度不變: 如果 t的祖先是非頻繁的,則不用考慮 t ? 支持度隨層遞減 : 則只考慮那些其祖先是頻繁的 /不可忽略的項(xiàng) 2020116 數(shù)據(jù)挖掘:概念和技術(shù) 10 數(shù)據(jù)挖掘查詢的逐步精化 ? 為什么要逐步精化 ? 挖掘操作的代價(jià)可能高或低,結(jié)果可能細(xì)致或粗糙 ? 在速度和質(zhì)量之間折衷:逐步精化 ? 超集覆蓋特征 : ? 預(yù)存儲(chǔ)所有正面答案 —允許進(jìn)一步正確性驗(yàn)證,而不必驗(yàn)證已經(jīng)錯(cuò)誤的 ? 2或多步挖掘: ? 先執(zhí)行粗糙的、容易的操作 (超集覆蓋 ) ? 然后在減少后的候選集上進(jìn)行計(jì)算量大的算法 (Koperski amp。2020116 數(shù)據(jù)挖掘:概念和技術(shù) 1 數(shù)據(jù)挖掘 : 概念和技術(shù) — Chapter 6 — 169。 ? 例子 ? 牛奶 ? 白面包 [support = 8%, confidence = 70%] ? 酸奶 ? 白面包 [support = 2%, confidence = 72%] ? 我們稱第一個(gè)規(guī)則是第二個(gè)規(guī)則的祖先 ? 參考規(guī)則的祖先,如果他的支持度與我們“預(yù)期”的支持度近似的話,我們就說這條規(guī)則是冗余的。 2. 帶數(shù)量的關(guān)聯(lián)規(guī)則 ?