freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

聚類方法clustering(更新版)

2025-09-09 13:50上一頁面

下一頁面
  

【正文】 有大量的數(shù)據(jù)去支持, Data Mining就什么都挖不出來。詳見參考書 劃分方法( Partitioning method) ? 較流行的方法有 : ?動態(tài)聚類法(也稱逐步聚類法),如 k-均值算法、 k-中心點(diǎn)算法 ? 思想: ?隨機(jī)選擇 k個對象,每個對象初始地代表一個類的 平均值 或 中心 ,對剩余每個對象,根據(jù)其到類中心的距離,被劃分到最近的類;然后重新計算每個類的平均值。 不穩(wěn)定的聚類方法 ? 算法的選擇沒有絕對 ? 當(dāng)聚類結(jié)果被用作描述或探查工具時,可以對同樣的數(shù)據(jù)嘗試多種算法,以發(fā)現(xiàn)數(shù)據(jù)可能揭示的結(jié)果。如加權(quán)歐式距離,權(quán)重可以用專家法確定。(圖解) 劃分方法( Partitioning method) ? 特點(diǎn): ? k事先定好 ?創(chuàng)建一個初始劃分,再采用迭代的重定位技術(shù) ?不必確定距離矩陣 ?比系統(tǒng)聚類法運(yùn)算量要小,適用于處理龐大的樣本數(shù)據(jù) ?適用于發(fā)現(xiàn)球狀類 劃分方法( Partitioning method) ? 缺陷: ?不同的初始值,結(jié)果可能不同 ?有些 k均值算法的結(jié)果與數(shù)據(jù)輸入順序有關(guān),如在線 k均值算法 ?用爬山式技術(shù)( hillclimbing)來尋找最優(yōu)解,容易陷入局部極小值 ? 基于距離的方法進(jìn)行聚類只能發(fā)現(xiàn)球狀類,當(dāng)類的形狀是任意的時候怎么識別?(黑板圖示) ? 下面介紹其中一種常用的算法: 基于密度的方法 ( densitybased method) ? 主要有 DBSCAN, OPTICS法 ? 思想: ?只要臨近區(qū)域的密度超過一定的閥值,就繼續(xù)聚類 ? 特點(diǎn): ?可以過濾噪聲和孤立點(diǎn) outlier,發(fā)現(xiàn)任意形狀的類 基于網(wǎng)格的方法 ( gridbased method) ? 把樣本空間量化為有限數(shù)目的單元,形成一個網(wǎng)絡(luò)結(jié)構(gòu),聚類操作都在這個網(wǎng)格結(jié)構(gòu)(即量化空間)上進(jìn)行 基于模型的方法 ( modelbased method) ? 為每個類假定一個模型,尋找數(shù)據(jù)對給定模型的最佳擬合。如需要知道白金持卡人和金卡持卡人的流動率,各自平均消費(fèi)水平有多少,等; ? 聚類分析可以輔助企業(yè)進(jìn)行客戶細(xì)分,但是 Data mining的客戶細(xì)分不等同于商業(yè)領(lǐng)域的細(xì)分,看不懂結(jié)果,也可能造成企業(yè)管理層無法對結(jié)果善加利用。在同一個類內(nèi)對象之間具有較高的相似度,不同類之間的對象差別較大。 ? 分裂的方法( divisive)(自頂向下) 思想:一開始將所有的對象置于一類,在迭代的每一步中,一個類不斷地分為更小的類,直到每個對象在單獨(dú)的一個類中,或達(dá)到一個終止條件。 不穩(wěn)定的聚類方法 ? 輸入?yún)?shù)憑主觀導(dǎo)致難以控制聚類的質(zhì)量 ? 很多聚類算法要求輸入一定的參數(shù),如希望產(chǎn)生的類的數(shù)目,使得聚類的質(zhì)量難以控制,尤其是對于高維的,沒有先驗信息的龐大數(shù)
點(diǎn)擊復(fù)制文檔內(nèi)容
范文總結(jié)相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1