freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

聚類(lèi)分析ppt課件(2)(已修改)

2025-01-27 08:43 本頁(yè)面
 

【正文】 第 9 章 聚類(lèi)分析 第 9 章 什么是聚類(lèi)分析? 聚類(lèi)分析中的數(shù)據(jù)類(lèi)型 基于劃分的聚類(lèi)方法 基于層次的聚類(lèi)方法 基于密度的聚類(lèi)方法 3 學(xué)習(xí)目的 ? 理解聚類(lèi)與分類(lèi)數(shù)據(jù)挖掘的區(qū)別。 ? 掌握聚類(lèi)的常用方法。 什么是聚類(lèi)分析 聚類(lèi) (Clustering): ?聚類(lèi)是一個(gè)將數(shù)據(jù)集劃分為若干組( class)或類(lèi)( cluster)的過(guò)程,并使得同一個(gè)組內(nèi)的數(shù)據(jù)對(duì)象具有較高的相似度;而不同組中的數(shù)據(jù)對(duì)象是不相似的。 ? 相似或不相似是基于數(shù)據(jù)描述屬性的取值來(lái)確定的,通常利用各數(shù)據(jù)對(duì)象間的 距離 來(lái)進(jìn)行表示。 ?聚類(lèi)分析尤其適合用來(lái)探討樣本間的相互關(guān)聯(lián)關(guān)系從而對(duì)一個(gè)樣本結(jié)構(gòu)做一個(gè)初步的評(píng)價(jià)。 示 例 表中給出 9個(gè)顧客的購(gòu)買(mǎi)信息,包括購(gòu)買(mǎi)的商品的數(shù)量及價(jià)格,根據(jù)此兩個(gè)特征量,將顧客聚類(lèi)成 3類(lèi)( 購(gòu)買(mǎi)大量的高價(jià)產(chǎn)品;購(gòu)買(mǎi)少量的高價(jià)產(chǎn)品;購(gòu)買(mǎi)少量的低價(jià)產(chǎn)品 )。 示 例 聚類(lèi)是一個(gè)非常困難的事情,因?yàn)樵谝粋€(gè) n維樣本空間中,數(shù)據(jù)可以以不同的形狀和大小揭示類(lèi)。 如在二維歐幾里得空間中,上面數(shù)據(jù)可以分類(lèi)三個(gè)類(lèi)也可以分為四個(gè)類(lèi),類(lèi)的數(shù)量的任意性是聚類(lèi)過(guò)程中的主要問(wèn)題。 什么是聚類(lèi)分析 聚類(lèi)與分類(lèi)的區(qū)別: ?聚類(lèi)是一 種 無(wú)(教師)監(jiān)督 的學(xué)習(xí)方法。與分類(lèi)不同,其不依賴(lài)于事先確定的數(shù)據(jù)類(lèi)別,以及標(biāo)有數(shù)據(jù)類(lèi)別的學(xué)習(xí)訓(xùn)練樣本集合。 ? 因此,聚類(lèi)是觀(guān)察式學(xué)習(xí),而不是示例式學(xué)習(xí)。 什么是聚類(lèi)分析 聚類(lèi)分析的應(yīng)用: ?市場(chǎng)分析: 幫助市場(chǎng)分析人員從客戶(hù)基本庫(kù)中發(fā)現(xiàn)不同的客戶(hù)群,并用購(gòu)買(mǎi)模式刻畫(huà)不同的客戶(hù)群的特征; ?萬(wàn)維網(wǎng): 對(duì) WEB日志的數(shù)據(jù)進(jìn)行聚類(lèi),以發(fā)現(xiàn)相同的用戶(hù)訪(fǎng)問(wèn)模式; ?圖像處理; ?模式識(shí)別; ?孤立點(diǎn)檢測(cè)等。 什么是聚類(lèi)分析 什么是好的聚類(lèi): ?一個(gè)好的聚類(lèi)方法將產(chǎn)生以下的高聚類(lèi): ?最大化類(lèi)內(nèi)的相似性 ; ?最小化類(lèi)間的相似性 。 ?聚類(lèi)結(jié)果的質(zhì)量依靠所使用 度量 的相似性和它的執(zhí)行。 ?聚類(lèi)方法的質(zhì)量也可以用它發(fā)現(xiàn)一些或所有隱含模式的能力來(lái)度量。 聚類(lèi)分析中的數(shù)據(jù)類(lèi)型 ?基本的數(shù)據(jù)結(jié)構(gòu); ?區(qū)間標(biāo)度變量; ?二元變量; ?符號(hào)型、順序型和比例數(shù)值型變量; ?混合數(shù)據(jù)類(lèi)型。 1. 基本的數(shù)據(jù)結(jié)構(gòu)? 12 基本的數(shù)據(jù)結(jié)構(gòu) 許多基于內(nèi)存的聚類(lèi)算法選擇如下兩種具有代表性的數(shù)據(jù)結(jié)構(gòu): ( 1)數(shù)據(jù)矩陣; ( 2)相異度矩陣 。 13 ( 1)數(shù)據(jù)矩陣 數(shù)據(jù)矩陣: 是一個(gè)對(duì)象 — 屬性結(jié)構(gòu),由 n個(gè)對(duì)象組成,如:人;每個(gè)對(duì)象利用 p個(gè)屬性加以描述,如:年齡、身高、體重等。數(shù)據(jù)矩陣采用關(guān)系表形式或 n*p矩陣來(lái)表示: 14 ( 2)相異度矩陣 相異度矩陣(差異矩陣): 是一個(gè)對(duì)象 — 對(duì)象結(jié)構(gòu),存放 n個(gè)對(duì)象兩兩之間的近似性(差異性),采用 n*n的矩陣形式表示: 15 ( 2)相異度矩陣 相異度矩陣(差異矩陣): 所以,矩陣呈現(xiàn)出上三角或下三角的形式。 16 注意: ?數(shù)據(jù)矩陣通常稱(chēng)為雙模( twomode)矩陣:行和列分布表示不同的實(shí)體; ?相異度矩陣常被稱(chēng)為單模( onemode)矩陣:行和列表示同一實(shí)體。 ?許多聚類(lèi)算法都是以 相異度矩陣 為基礎(chǔ)計(jì)算的,所以如果數(shù)據(jù)是以數(shù)據(jù)矩陣的形式給出的,則需要首先轉(zhuǎn)換為相異度矩陣,才可以利用聚類(lèi)算法來(lái)處理。 2. 區(qū)間標(biāo)度變量? 18 什么是區(qū)間標(biāo)度變量 區(qū)間標(biāo)度變量 (間隔數(shù)值變量): ?基本呈 直線(xiàn)比例的連續(xù)變量 , 如:重量、高度和溫度等 。 為什么標(biāo)準(zhǔn)化? ?通常,選用的度量單位將直接影響聚類(lèi)分析的結(jié)果, 如:將高度的度量單位由“米”變?yōu)椤坝⒊摺?,或?qū)⒅亓康膯挝挥伞扒Э恕弊優(yōu)椤坝㈡^”,可能會(huì)產(chǎn)生非常不同的聚類(lèi)結(jié)構(gòu) 。 ?一般,度量單位越小,變量可能的值域越大,對(duì)聚類(lèi)結(jié)果的影響也越大。因此,為避免對(duì)度量單位選擇的依賴(lài),數(shù)據(jù)應(yīng)當(dāng)標(biāo)準(zhǔn)化。 19 度量值的標(biāo)準(zhǔn)化 為了實(shí)現(xiàn)標(biāo)準(zhǔn)化,一種方法是將初始測(cè)量值轉(zhuǎn)換為無(wú)單位變量。給定一個(gè)屬性變量 f,可用如下公式對(duì)其進(jìn)行標(biāo)準(zhǔn)化: ( 1)計(jì)算平均的絕對(duì)偏差 |)|...|||(|1 21 fnffffff mxmxmxns ???????其中 x1f, x2f,…,x nf是變量 f的 n個(gè)測(cè)量值; mf為變量 f的 均值,即: .)...211 nffff xx(xn m ????( 2)計(jì)算標(biāo)準(zhǔn)化測(cè)量( zscore): 20 度量值的標(biāo)準(zhǔn)化 21 度量值的標(biāo)準(zhǔn)化 22 度量值的標(biāo)
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
公安備案圖鄂ICP備17016276號(hào)-1