freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

聚類分析ppt課件(2)(留存版)

2025-03-01 08:43上一頁面

下一頁面
  

【正文】 對(duì)象利用 p個(gè)屬性加以描述,如:年齡、身高、體重等。如,屬性“性別”,有兩個(gè)值“女性”和“男性”,兩個(gè)取值都沒有優(yōu)先權(quán) 。 如何計(jì)算相異度? ? 一種方法是將變量按類型分組,對(duì)每種類型的變量單獨(dú)聚類分析,如果分析得對(duì)兼容的結(jié)果,這種方法可行,但實(shí)際中,往往不可行。 52 K平均聚類算法 算法的 特點(diǎn) : ?只適用于聚類 均值有意義 的場(chǎng)合,在某些應(yīng)用中,如:數(shù)據(jù)集中包含符號(hào)屬性時(shí),直接應(yīng)用 kmeans算法就有問題; ?用戶必須事先指定 k的個(gè)數(shù) ; ?對(duì) 噪聲和孤立點(diǎn)數(shù)據(jù)敏感 ,少量的該類數(shù)據(jù)能夠?qū)垲惥灯鸬胶艽蟮挠绊憽? ( 1)將所有對(duì)象整個(gè)當(dāng)成一個(gè)初始簇; ( 2) FOR ( i=1。 81 基于密度的方法: DBSCAN 基于密度的聚類算法。 ? 如果一個(gè)點(diǎn) p的 ε鄰域包含多于 MinPts個(gè)對(duì)象,則創(chuàng)建一個(gè) p作為核心對(duì)象的新簇。 例如, 在下圖中, ε=1cm, MinPts=5, o是一個(gè)核心對(duì)象, p1是從 o關(guān)于 ε和 MitPts直接密度可達(dá), p是從 p1關(guān)于 ε和 MitPts直接密度可達(dá),則對(duì)象 p從對(duì)象 q關(guān)于 ε和 MinPts密度可達(dá)的;同理, q也是從 o關(guān)于 ε和 MinPts密度可達(dá)的,則,稱 對(duì)象 p和 q是關(guān)于 ε和 MinPts密度相連的。 80 基于密度的聚類方法 密度方法: ?絕大多數(shù)聚類方法基于對(duì)象之間的距離進(jìn)行聚類,這樣的方法只能發(fā)現(xiàn)球狀的簇,而在發(fā)現(xiàn)任意形狀的簇上遇到了困難。 輸出 : k個(gè)簇,達(dá)到終止條件規(guī)定簇?cái)?shù)目。 ? 相似度的計(jì)算根據(jù)一個(gè)簇中對(duì)象的 平均值 (被看作簇的重心)來進(jìn)行。 ?一個(gè)連續(xù)的順序變量,值的相對(duì)位置要比它的實(shí)際數(shù)值有意義的多,如某個(gè)比賽的相對(duì)排名(金牌、銀牌和銅牌)可能比實(shí)際得分更重要。 25 二元變量的相異度計(jì)算 差異矩陣法: 如果假設(shè)所有的二元變量有相同的權(quán)重,則可以得到一個(gè)兩行兩列( 2*2)的條件表。 ?聚類結(jié)果的質(zhì)量依靠所使用 度量 的相似性和它的執(zhí)行。 什么是聚類分析 聚類 (Clustering): ?聚類是一個(gè)將數(shù)據(jù)集劃分為若干組( class)或類( cluster)的過程,并使得同一個(gè)組內(nèi)的數(shù)據(jù)對(duì)象具有較高的相似度;而不同組中的數(shù)據(jù)對(duì)象是不相似的。數(shù)據(jù)矩陣采用關(guān)系表形式或 n*p矩陣來表示: 14 ( 2)相異度矩陣 相異度矩陣(差異矩陣): 是一個(gè)對(duì)象 — 對(duì)象結(jié)構(gòu),存放 n個(gè)對(duì)象兩兩之間的近似性(差異性),采用 n*n的矩陣形式表示: 15 ( 2)相異度矩陣 相異度矩陣(差異矩陣): 所以,矩陣呈現(xiàn)出上三角或下三角的形式。 ?基于對(duì)稱二元變量的相似度,稱為恒定的相似度。 ? 一種更可取的方法是將所有的變量一起處理,只進(jìn)行一次聚類分析。 53 示例 54 示例 55 示例 56 示例 2. k中心點(diǎn)( kmediods)聚類算法? 58 K中心點(diǎn)聚類算法 ?K平均( kmeans)算法對(duì)于孤立點(diǎn)是敏感的,如何消除? ? 思路 :不采用簇中對(duì)象的平均值作為參照點(diǎn),而選用簇中位置最中心的對(duì)象,即中心點(diǎn)( mediod),仍然基于最小化所有對(duì)象與其參照點(diǎn)之間的相異度之和的原則來進(jìn)行。 i≠k。該算法將具有足夠高密度的區(qū)域劃分為簇,并可以在帶有噪聲的空間數(shù)據(jù)中發(fā)現(xiàn)任意形狀的聚類。 ? 然后, DBSCAN反復(fù)地尋找從這些核心對(duì)象直接密度可達(dá)的對(duì)象,這個(gè)過程可能涉及一些密度可達(dá)簇的合并。 85 基于密度的方法: DBSCAN 定義 5: 密度相連的:如果對(duì)象集合 D中存在一個(gè)對(duì)象 o,使得對(duì)象 p和 q是從 o關(guān)于 ε和 MinPts密度可達(dá)的,那么對(duì)象 p和 q是關(guān)于 ε和 MinPts密度相連的 。 基于層次的聚類方法 大體上,主要的聚類算法可以劃分為如下幾類: ( 1)劃分方法; ( 2)層次方法; ( 3)基于密度的方法; ( 4)基于網(wǎng)格的方法; ( 5)基于模型的方法 。 算法 91 AGNES(自底向上凝聚算法) 輸入 : 包含 n個(gè)對(duì)象的數(shù)據(jù)庫(kù),終止條件簇的數(shù)目 k。 1. k平均( kmeans)聚類算法? 48 K平均聚類算法 ?K平均( kmeans)算法以 k為參數(shù),把 n個(gè)對(duì)象分為 k個(gè)簇,以使簇內(nèi)對(duì)象具有較高的相似度,而簇間的相似度較低。 ?如專業(yè)等級(jí)是一個(gè)順序變量,是按照助教、講師、副教授和教授的順序排列的。 ?如: 給定變量 smoker,用以描述一個(gè)病人是否吸煙的情況,如用smoker為 1表示病人吸煙;若 smoker為 0表示病人不吸煙 。 什么
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1