freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

bigdata數(shù)據(jù)挖掘培訓(xùn)3-資料下載頁

2025-01-21 02:56本頁面
  

【正文】 表點(diǎn) ?按照某個(gè)收縮因子 ?向簇中心收縮代表點(diǎn) . ?代表點(diǎn)決定了簇集的形狀 x y x y CURE 不能處理不同密度的簇 Original Points CURE CHAMELEON基于圖的 ? CHAMELEON:采用動(dòng)態(tài)模型的算法, by G. Karypis, . Han and V. Kumar’99 ? 通過動(dòng)態(tài)模型衡量相似性 ? 如果兩個(gè)簇集的互聯(lián)性和相似度與簇內(nèi)部對(duì)象間的互聯(lián)性和相似度高度相關(guān),則合并這兩個(gè)簇。 ? 算法分作兩步 ? 1. 通過一個(gè)圖劃分算法將數(shù)據(jù)對(duì)象聚類成大量相對(duì)較小的子聚類 ? 的結(jié)果簇 CHAMELEON算法的大致框架 構(gòu)造稀疏圖 劃分圖 合并劃分 最終的簇集 Data Set Experimental Results: CHAMELEON Experimental Results: CHAMELEON Experimental Results: CURE (10 clusters) Experimental Results: CURE (15 clusters) Experimental Results: CHAMELEON Experimental Results: CURE (9 clusters) Experimental Results: CURE (15 clusters) 小結(jié) ?層次聚類 ?凝聚的和分裂的 ?簇間距離:最小、最大、均值、中心點(diǎn) ?最近鄰與單連接 ?最遠(yuǎn)鄰與全連接 ? CURE, CHAMELEON 聚類分析 ? 什么是聚類分析 ? ? 聚類分析中的數(shù)據(jù)類型 ? 主要的聚類方法分類 ? 劃分方法 ? 層次方法 ? 基于密度的方法 基于密度的簇集方法 ? 主要特征 : ? 發(fā)現(xiàn)任意形狀的簇集 ? 處理噪聲 ? 單次掃描 ? 需要密度參數(shù)作為中止條件 ? 若干相關(guān)研究 : ? DBSCAN: Ester, et al. (KDD’96) ? OPTICS: Ankerst, et al (SIGMOD’99). ? DENCLUE: Hinneburg D. Keim (KDD’98) ? CLIQUE: Agrawal, et al. (SIGMOD’98) 基于密度的聚集:背景知識(shí) ? 兩個(gè)參數(shù) : ? Eps: 鄰域半徑 ? MinPts: 對(duì)象領(lǐng)域中至少包含的最小對(duì)象數(shù)目 ? NEps(p): {q 屬于 D | dist(p,q) = Eps} ? 直接可達(dá) :在下面條件滿足情況下,我們稱點(diǎn) p侍從對(duì)象 q 關(guān)于 . Eps, MinPts 直接可達(dá)的 ? 1) p 屬于 NEps(q) ? 2) 核心對(duì)象條件 : |NEps (q)| = MinPts p q MinPts = 5 Eps = 1 cm 基于密度的聚集:背景知識(shí) (II) ? 密度可達(dá) : ? 當(dāng)存在一個(gè)對(duì)象鏈 p1, …, pn, p1 = q, pn = p ,其中 pi+1 是 pi直接密度可達(dá)的情況下,點(diǎn) p從點(diǎn) q關(guān)于 Eps, MinPts ? 密度相關(guān) ? 點(diǎn) p 和點(diǎn) q 是關(guān)于 . Eps, MinPts對(duì)象相關(guān)的,當(dāng)存在一個(gè)點(diǎn) o, 使得 p 和 q 都是從 o 關(guān)于 . Eps和 MinPts密度可達(dá)的 . p q p1 p q o DBSCAN: 基于高密度連接區(qū)域的密度聚類方法 ? 基于密度的簇集 : 簇被定義為密度相連點(diǎn)的最大集合 ? 可以在帶有噪聲的空間數(shù)據(jù)庫中發(fā)現(xiàn)任意形狀的聚類。 Core Border Outlier Eps = 1cm MinPts = 5 DBSCAN: 算法 ? 隨機(jī)的選擇點(diǎn) p ? 尋找所有從點(diǎn) p 關(guān)于 Eps and ? 如果 p 是核心點(diǎn) ,那么一個(gè)簇集已經(jīng)生成了 ? 如果 p只是邊緣點(diǎn) ,從點(diǎn) p 沒有哪一個(gè)點(diǎn)是密度可達(dá)的,DBSCAN 訪問數(shù)據(jù)庫中下一個(gè)點(diǎn) . ? 重復(fù)上述過程知道中止條件滿足 DBSCAN: Core, Border, and Noise Points DBSCAN: Sensitive to Parameters DBSCAN: Core, Border and Noise Points Original Points Point types: core, border and noise Eps = 10, MinPts = 4 When DBSCAN Works Well Original Points Clusters ? Resistant to Noise ? Can handle clusters of different shapes and sizes When DBSCAN Does NOT Work Well Original Points (MinPts=4, Eps=). (MinPts=4, Eps=) ? Varying densities ? Highdimensional data 聚類分析 ? 什么是聚類分析 ? ? 聚類分析中的數(shù)據(jù)類型 ? 主要的聚類方法分類 ? 劃分方法 ? 層次方法 ? 基于密度的方法 ? 孤立點(diǎn)(離群點(diǎn))分析 什么是孤立點(diǎn) ? ? 什么是孤立點(diǎn) ? ? 與數(shù)據(jù)的其他部分不同或不一致 ? 例如 : Sports: Michael Jordon, Wayne Gretzky, ... ? 問題 ? 找到前 n個(gè)孤立點(diǎn) ? 應(yīng)用 : ? 監(jiān)測(cè)信用卡詐騙 ? 監(jiān)測(cè)電話詐騙 ? 分析收入極高和極低的消費(fèi)者的行為 ? 醫(yī)療分析 基于統(tǒng)計(jì)的孤立點(diǎn)查 詢 ?對(duì)給定的數(shù)據(jù)集合假設(shè)了一個(gè)分布或概率模型 ? 進(jìn)行不一致性檢驗(yàn),根據(jù) ? 數(shù)據(jù)集參數(shù) ? 分布參數(shù) ? 預(yù)期的孤立點(diǎn)數(shù)目 ? 缺點(diǎn) ? 針對(duì)單個(gè)屬性 ? 很多情況下數(shù)據(jù)分布是未知的。 基于距離的孤立點(diǎn)查詢 ? 為了解決統(tǒng)計(jì)學(xué)方法的一些限制,引入了基于距離的孤立點(diǎn)概念 ? 我們需要在不知道數(shù)據(jù)分布的情況下處理多位數(shù)據(jù) . ? 基于距離的孤立點(diǎn) : 如果數(shù)據(jù)集合 T中至少有 p部分對(duì)象與對(duì)象 O的距離大于 d,那么就稱 O為一個(gè)帶參數(shù) p和 d的基于距離的孤立點(diǎn) ? 計(jì)語句你的孤立點(diǎn)算法 ? 基于索引的算法 ? 嵌套循環(huán)算法 ? 基于單元的算法 基于密度的方法 : LOF ? For each point, pute the density of its local neighborhood ? Compute local outlier factor (LOF) of a sample p as the average of the ratios of the density of sample p and the density of its nearest neighbors ? Outliers are points with largest LOF value p2 ? p1 ? 基于聚類的方法 ? Basic idea: ? Cluster the data into groups of different density ? Choose points in small cluster as candidate outliers ? Compute the distance between candidate points and noncandidate clusters. ? If candidate points are far from all other noncandidate points, they are outliers 基于偏離的孤立點(diǎn)預(yù)測(cè) ? 通過一組對(duì)象的主要特征來識(shí)別孤立點(diǎn) ? 與給出描述偏離的對(duì)象就被認(rèn)為是孤立點(diǎn) ? 序列異常技術(shù) ? 模仿了人類從一系列的推測(cè)類似對(duì)象中識(shí)別異常對(duì)象的方式 ? OLAP 數(shù)據(jù)立方體技術(shù) ? 利用在大規(guī)模多維數(shù)據(jù)中采用數(shù)據(jù)立方體來確定反常區(qū)域。 演講完畢,謝謝觀看!
點(diǎn)擊復(fù)制文檔內(nèi)容
畢業(yè)設(shè)計(jì)相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1