freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

chapter6群集分析clusteranalysis(已修改)

2024-11-09 17:58 本頁(yè)面
 

【正文】 1 Chapter 6 群集分析 (Cluster Analysis) 2 內(nèi)容概要 ? 簡(jiǎn)介 ? 資料的表示 ? 相似度的計(jì)算與測(cè)量 ? 分群法的採(cǎi)用 ? 分割式分群法 ? 非分割式分群法 ? 分群法在大型資料集合之設(shè)計(jì) ? 評(píng)估分群的結(jié)果 3 (1) ? 群集分析的概念與目的 ?將資料集合中的資料記錄,又稱(chēng)為 資料點(diǎn) ,加以分群成數(shù)個(gè) 群集 (cluster), 使得 每個(gè)群集 中的資料點(diǎn)間 相似程度 高於與其它群集中資料點(diǎn)的相似程度 ?主要的目地 是 分析資料彼此間的 相似程度 ,藉由分析所找到的群集結(jié)果, 推論出有用、隱含、令人感興趣的特性和現(xiàn)象 ?在群集分析的過(guò)程中,並 沒(méi)有 預(yù)先指定好的 類(lèi)別資訊 ,也沒(méi)有任何資訊可以表示資料記錄彼此之間是相關(guān)的,所以 群集分析 (又稱(chēng) 資料切割 )被視為一個(gè) 非監(jiān)督式學(xué)習(xí)的過(guò)程 4 簡(jiǎn)介 (2) ? 群集分析 在資料探勘過(guò)程中所扮演的角色 ?資料精簡(jiǎn) ? 將原本 大量的資料 加以分群成 數(shù)個(gè)群集 ,並從每一個(gè)群集中 挑選具有代表性的資料記錄來(lái)進(jìn)行後續(xù)的處理 ?推斷假設(shè)的產(chǎn)生 ? 推斷出所關(guān)注資料中可能存在的某些 特性或現(xiàn)象 ? “年輕人通常年收入較低”、“中年人通常年收入較高” ?推斷假設(shè)的驗(yàn)證 ? 對(duì)推斷假設(shè)作 有效性的驗(yàn)證 ? 試圖驗(yàn)證 “年輕人通常年收入較低,是否也代表其 消費(fèi)能力較低? ”此假設(shè)性推斷時(shí),可以對(duì)於 “ 年齡 ”、“ 年收入 ” 和 “ 消費(fèi)金額 ” 所描述的資料記錄進(jìn)行群集分析 ?歸屬預(yù)測(cè) ? 分群結(jié)果應(yīng)用於 未知分類(lèi) 之資料記錄,預(yù)測(cè)資料所歸屬的群集 5 簡(jiǎn)介 (3) ? 線(xiàn)上購(gòu)物網(wǎng)站的 使用者族群 與 消費(fèi)能力 會(huì)員 年齡 平均月收入 (千 ) 1 20 20 2 21 26 3 22 25 4 41 30 5 43 32 6 52 40 7 55 38 年齡與平均月收入散佈圖010203040500 10 20 30 40 50 60年齡平均月收入(千)C 1 C 2 C 3 C1={會(huì)員 1,會(huì)員 2,會(huì)員 3}、 C2={會(huì)員 4,會(huì)員 5}、 C3={會(huì)員 6,會(huì)員 7} 6 簡(jiǎn)介 (4) ? 群集分析應(yīng)用領(lǐng)域 ?交易行為分析 ?了解各類(lèi)型使用者的行為模式 ?空間資料分析 ?幫助使用者 自動(dòng)化分析 圖像資料庫(kù)所產(chǎn)生的影像資料 ,了解感興趣的特性和現(xiàn)象 ?文件管理 ?將文件加以 分門(mén)別類(lèi) ,幫助文件資料的管理和使用 7 簡(jiǎn)介 (5) ? 群集分析 五 個(gè)主要的 循序工作項(xiàng)目 ?資料的表示 : 找出 代表性 資料維度來(lái)表示資料點(diǎn) ?相似度的計(jì)算與測(cè)量 : 計(jì)算資料點(diǎn)間 相似的程度 ?分群法的採(cǎi)用 : 挑選適當(dāng)?shù)?分群演算法 ?評(píng)估分群的結(jié)果 : 對(duì)群集分析的結(jié)果進(jìn)行評(píng)估 ?群集的解釋 : 應(yīng)用領(lǐng)域的專(zhuān)家對(duì)分群結(jié)果做進(jìn)一步解釋 資 料 的 表 示與 轉(zhuǎn) 換相 似 度 計(jì) 算 分 群 法分 群 結(jié) 果 評(píng)估群 集 的 解 釋與 分 析資 料 集 合分 群 結(jié) 果8 資料的表示 ? 將每一 資料點(diǎn) 利用有限、一致的 資料維度 表示 ? 濾掉 與所分析問(wèn)題無(wú)關(guān)、偏差、重複的資料維度 ? 不適切的資料維度將造成分群結(jié)果凌亂、難以從中獲取各群聚的關(guān)係與差異 ?相對(duì)於 “性別” 和 “地址” 這兩個(gè)資料維度,“ 平均月收入 ” 與 “ 年齡 ” 這兩個(gè)資料維度將更能幫助 了解各類(lèi)型之會(huì)員族群 ?會(huì)員 2將可以表示為 21, 26 ,其中 21為會(huì)員 2在 “ 年齡 ” 此資料維度的資料數(shù)值,而 26為會(huì)員 2在 “ 平均月收入 ” 此資料維度的資料數(shù)值 9 相似度的計(jì)算與測(cè)量 ? 衡量 資料點(diǎn) 間的 相似度 將決定資料記錄所歸屬的群聚,並影響整個(gè)分群的結(jié)果 ? 相似度測(cè)量法 是群集分析中最根本的課題 ? 相似度的計(jì)算與測(cè)量的考量 ?資料型態(tài) 的考量 ?應(yīng)用範(fàn)圍 的考量 ?資料離散程度與複雜性 的考量 10 資料型態(tài)的考量 (1) ? 連續(xù)性資料維度 ?通常利用簡(jiǎn)單的 空間距離 計(jì)算公式,透過(guò)衡量 資料點(diǎn)間距離的遠(yuǎn)近 來(lái)判斷彼此間的 相似程度 ?尤拉距離 (Euclidean distance) ?資料點(diǎn) xi = xi1, xi2, …, xik 和資料點(diǎn) xj = xj1, xj2, …, xjk 之間的尤拉距離: ? d2 (xi, xj) = = ( ) ?曼哈頓距離 (Manhattan distance) ? dM (xi, xj) = = 2112???????????kdjdid xx 2ji xx ? ji xx ????kdjdid xx11ji xx ?11 資料型態(tài)的考量 (2) ? 尤拉距離與曼哈頓距離在二維空間上的物理意義 ?會(huì)員 1=20, 20 與 會(huì)員 2=21, 26 之間的尤拉距離與曼哈頓距離分別如下所示 ? d2 (x1, x2) = ? 6 ? dM (x1, x2) = = 7 yx尤拉距離yx曼哈頓距離? ? ? ? 22 20262021 ???20262021 ???12 資料型態(tài)的考量 (3) ? 類(lèi)別型態(tài)資料維度 ?利用 字串比對(duì) 的方式,對(duì)於 資料數(shù)值完全相同 時(shí)則相似度以 1表示,否則以 0表示 ?透過(guò) 專(zhuān)家 事先訂定資料數(shù)值間的 相似度 與輔助之計(jì)算公式 ?先轉(zhuǎn)換或?qū)?yīng)成 連續(xù)性的資料數(shù)值 ,再套用 距離計(jì)算公式 來(lái)計(jì)算其 相似度 13 應(yīng)用範(fàn)圍的考量 (1) ? 資料點(diǎn)之間的 相似程度 ? 群集間的相似程度 ? ? ? ? ? ? )39。(, 39。, ppdm i nCCdji CpCpjim i n?? ??? ? )(, jijim e a n mmdCCd ??? ? ? ?? ? ??i jCp Cpjijia v gppdnnCCd 39。 )39。(1,? ? )39。(, 39。, ppdm axCCdji CpCpjim a x?? ??14 應(yīng)用範(fàn)圍的考量 (2) dm i n( Ci, Cj)CiCjCiCjCiCjCiCjdavg( Ci, Cj)dm ean( Ci, Cj) dm ax( Ci, Cj)15 資料離散程度與複雜性的考量 ? 一般 相似度計(jì)算公式 通常對(duì)資料點(diǎn)中各 資料維度 給予相同的重要性,然而這將造成 值域 (domain) 較大的資料維度將左右分群的結(jié)果 ?會(huì)員 A = 20, 20200、會(huì)員 B = 21, 22020與會(huì)員 C = 40, 21000 透過(guò) 尤拉距離 的相似度公式計(jì)算後,將會(huì)認(rèn)定 會(huì)員 A與 會(huì)員 C相似度較高; 用人來(lái)判斷 , 會(huì)員 A與 會(huì)員 B應(yīng)該較可能屬於同一個(gè)族群 16 分群法的採(cǎi)用 ? 分群法的種類(lèi) ?應(yīng)用領(lǐng)域 : 應(yīng)用的目的 通常 決定分群法的使用 ?分割式分群法 試圖找到 離群中心最
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
公安備案圖鄂ICP備17016276號(hào)-1