freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

各種聚類算法介紹及對(duì)比-全文預(yù)覽

2025-07-14 16:43 上一頁面

下一頁面
  

【正文】 針對(duì)具體應(yīng)用,什么情況下使用歐氏距離,什么情況下使用余弦相似度? 3)距離的度量 由于離群點(diǎn)很少(多了就不是離群點(diǎn)了),它們多半不會(huì)在隨機(jī)樣本中出現(xiàn)。使用這種方法,確保了選擇的初始質(zhì)心不僅是隨機(jī)的,而且是散開的。 該方法通常很有效,但僅對(duì)下列情況有效:(1)樣本相對(duì)較小,例如數(shù)百到數(shù)千(層次聚類開銷較大);(2)K相對(duì)于樣本大小較小 這種策略簡(jiǎn)單,但是效果可能不好,這取決于數(shù)據(jù)集和尋找的簇的個(gè)數(shù)。 2)初始質(zhì)心的選取 Stage在各個(gè)Canopy 內(nèi)使用傳統(tǒng)的聚類方法(如Kmeans),不屬于同一Canopy 的對(duì)象之間不進(jìn)行相似性計(jì)算。 系統(tǒng)演化方法能提供關(guān)于所有聚類之間的相對(duì)邊界距離或可分程度,適用于明顯分離的聚類結(jié)構(gòu)和輕微重疊的聚類結(jié)構(gòu)。 采用次方法試探多個(gè)k,找到合適的k值。 如何有效的確定K值,這里大致提供幾種方法:①與層次聚類結(jié)合[2] kmeans對(duì)于圓形區(qū)域聚類效果較好,dbscan基于密度,對(duì)于集中區(qū)域效果較好。k均值的優(yōu)缺點(diǎn)及分類優(yōu)點(diǎn):1,簡(jiǎn)單,易于理解和實(shí)現(xiàn);2,時(shí)間復(fù)雜度低缺點(diǎn):1)kmeans要手工輸入類數(shù)目,對(duì)初始值的設(shè)置很敏感;所以有了kmeans++、intelligent kmeans、genetic kmeans;2)kmeans對(duì)噪聲和離群值非常敏感,所以有了kmedoids和kmedians;3)kmeans只用于numerical類型數(shù)據(jù),不適用于categorical類型數(shù)據(jù),所以kmodes;4)kmeans不能解決非凸(nonconvex)數(shù)據(jù),所以有了kernel kmeans。(見圖上的第三步)④然后重復(fù)第2)和第3)步,直到,種子點(diǎn)沒有移動(dòng)(我們可以看到圖中的第四步上面的種子點(diǎn)聚合了A,B,C,下面的種子點(diǎn)聚合了D,E)。有兩個(gè)種子點(diǎn),所以K=2。簇不發(fā)生變化或達(dá)到最大迭代次數(shù) 這個(gè)過程不斷重復(fù),直到準(zhǔn)則函數(shù)收斂,直到質(zhì)心不發(fā)生明顯的變化。Kmeans算法的原理kmeans算法以k為參數(shù),把n個(gè)對(duì)象分成k個(gè)簇,使簇內(nèi)具有較高的相似度,而簇間的相似度較低。類平均法,centroid重心法,ward離差平方和法;members為NULL或d長(zhǎng)度的矢量。層次聚類的優(yōu)缺點(diǎn)優(yōu)點(diǎn):1,距離和規(guī)則的相似度容易定義,限制少;2,不需要預(yù)先制定聚類數(shù);3,可以發(fā)現(xiàn)類的層次關(guān)系;4,可以聚類成其它形狀缺點(diǎn):1,計(jì)算復(fù)雜度太高;2,奇異值也能產(chǎn)生很大影響;3,算法很可能聚類成鏈狀首先利用樹的結(jié)構(gòu)對(duì)對(duì)象集進(jìn)行劃分,然后再利用其它聚類方法對(duì)這些聚類進(jìn)行優(yōu)化;ROCK(A Hierarchical Clustering Algorithm for Categorical Attributes)主要用在categorical的數(shù)據(jù)類型上;Chameleon(A Hierarchical Clustering Algorithm Using Dynamic Modeling)里用到的linkage是kNN(knearestneighbor)算法,并以此構(gòu)建一個(gè)graph,Chameleon的聚類效果被認(rèn)為非常強(qiáng)大,比BIRCH好用,但運(yùn)算復(fù)雜度很高,O(n^2)。至于根據(jù)Linkage判斷“類”的方法就是最短距離法、最長(zhǎng)距離法、中間距離法、類平均法等等(其中類平均法往往被認(rèn)為是最常用也最好用的方法,一方面因?yàn)槠淞己玫膯握{(diào)性,另一方面因?yàn)槠淇臻g擴(kuò)張/濃縮的程度適中)。層次聚類算法根據(jù)層次分解的順序分為:自下底向上和自上向下,即凝聚的層次聚類算法和分裂的層次聚類算法(agglomerative和divisive),也可以理解為自下而上法(bottomup)和自上而下法(topdown)。然后,再計(jì)算類與類之間的距離,將距離最近的類合并為一個(gè)大類。每次將距離最近的點(diǎn)合并到同一個(gè)類。比如最短距離法,將類與類的距離定義為類與類之間樣本的最短距離。這兩種路方法沒有孰優(yōu)孰劣之分,只是在實(shí)際應(yīng)用的時(shí)候要根據(jù)數(shù)據(jù)特點(diǎn)以及你想要的“類”的個(gè)數(shù),來考慮是自上而下更快還是自下而上更快。2)Hierarchical methods中比較新的算法有BIRCH(Balanced Iterative Reducing and Clustering Using Hierarchies利用層次方法的平衡迭代規(guī)約和聚類)主要是在數(shù)據(jù)量很大的時(shí)候使用,而且數(shù)據(jù)類型是numerical
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1