freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

[管理學(xué)]聚類及貝葉斯分類(已修改)

2025-01-10 12:15 本頁(yè)面
 

【正文】 聚類( Cluster) ?聚類目的在將相似的事物歸類。 ? 聚類分析又稱為“同質(zhì)分組”或者“無(wú)監(jiān)督的分類”,指把一組數(shù)據(jù)分成不同的“簇”,每簇中的數(shù)據(jù)相似而不同簇間的數(shù)據(jù)則距離較遠(yuǎn)。相似性可以由用戶或者專家定義的距離函數(shù)加以度量。 ? 好的聚類方法應(yīng)保證不同類間數(shù)據(jù)的相似性盡可能地小,而類內(nèi)數(shù)據(jù)的相似性盡可能地大。 1 2022/1/4 ? 聚類分析的基本思想是認(rèn)為所研究的數(shù)據(jù)集中的數(shù)據(jù)或者屬性之間存在著程度不同的相似性。于是從數(shù)據(jù)集中取出一批數(shù)據(jù),具體找出一些能夠度量數(shù)據(jù)值之間或者屬性之間相似程度的量,以這些量為中心作為劃分類型的依據(jù),把一些相似程度較大的數(shù)據(jù)或?qū)傩跃酆蠟橐活?,把另外一些彼此之間相似程度較大的樣品又聚合為另一類,關(guān)系密切的聚合到一個(gè)小的分類單位,關(guān)系疏遠(yuǎn)的聚合到一個(gè)大的分類單位,直到所有數(shù)據(jù)或?qū)傩远季酆贤戤?,把不同的類型一一劃分出?lái)。 比較常用的距離有 ? 絕對(duì)值距離 ? 歐氏距離 ? 明斯基距離 2022/1/4 4 Hierarchical Clustering層次聚類法 ? 該方法是利用距離矩陣作為分類標(biāo)準(zhǔn),將 n個(gè)樣品各作為一類;計(jì)算 n個(gè)樣品兩兩之間的距離,構(gòu)成距離矩陣;合并距離最近的兩類為一新類;計(jì)算新類與當(dāng)前各類的距離;再合并、計(jì)算,直至只有一類為止。 Step 0 Step 1 Step 2 Step 3 Step 4 b d c e a a b d e c d e a b c d e Step 4 Step 3 Step 2 Step 1 Step 0 agglomerative (AGNES) divisive (DIANA) K均值算法 ? K均值( kmeans) 是一種簡(jiǎn)便、實(shí)用的無(wú)監(jiān)督聚類分析算法。這種算法在已知簇的個(gè)數(shù)時(shí),可很好地實(shí)現(xiàn)數(shù)據(jù)的聚類分析。 ? 基本思想 ( 1)首先,隨機(jī)選擇 k個(gè)數(shù)據(jù)點(diǎn)做為聚類中心; ( 2)然后,計(jì)算其它點(diǎn)到這些聚類中心點(diǎn)的距離,通過(guò)對(duì)簇中距離平均值的計(jì)算,不斷改變這些聚類中心的位置,直到這些聚類中心不再變化為止。 2022/1/4 6 KMeans Clustering K均 值 聚 類 方法 ? Example: 0123456789100 1 2 3 4 5 6 7 8 9 100 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0123456789100 1 2 3 4 5 6 7 8 9 100123456789100 1 2 3 4 5 6 7 8 9 100 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 K=2 Arbitrarily choose K object as initial cluster center Assign each objects to most similar center Update the cluster means Update the cluster means reassign reassign ? K均值的流程 由流程圖可知, k均值算法是一種基于對(duì)數(shù)據(jù)集進(jìn)行劃分的方法進(jìn)行聚類的算法。它是不斷趨于最優(yōu)解的試探過(guò)程。每一次迭代都試圖使簇中心的選擇更加接近于數(shù)據(jù)集的實(shí)際簇中心。 輸出 N 輸入 讀入 標(biāo)準(zhǔn)化 歸一化 初始化簇 計(jì)算簇平均值 更改簇中心 重新決定點(diǎn)歸何簇 Y 簇中心是否變化 K均值算法 ? 優(yōu)勢(shì) ( 1)算法簡(jiǎn)單; ( 2)執(zhí)行和收斂過(guò)程相對(duì)較快,是一種常見的聚類算法。 ? 局限性 ( 1)算法要求簇是密集的、簇和簇之間的差異比較大; ( 2) 數(shù)據(jù)集的平均值的計(jì)算必須有適當(dāng)?shù)亩x; ( 3)對(duì)于某些孤立數(shù)據(jù)和 “ 噪聲 ” 點(diǎn)敏感等。 Na239。ve Bayes算法 ? 微軟樸素貝葉斯算法是 SAS中最簡(jiǎn)單的算法,通常用作理解數(shù)據(jù)基本分組的起點(diǎn) ,說(shuō)的簡(jiǎn)單一點(diǎn)就是處理數(shù)據(jù)的分類 ? 雖然該算法既可用于預(yù)測(cè)也可用于分組,但最常用于模型構(gòu)建的早期階段,更常用于分組而不是預(yù)測(cè)某個(gè)具體的值 定義
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
公安備案圖鄂ICP備17016276號(hào)-1