freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

ch10決策樹-閱讀頁(yè)

2024-10-19 22:36本頁(yè)面
  

【正文】 er)是指一組樣本,它們與屬于同一聚類的樣本相似,而與屬于其他聚類的樣本不相似 ? 聚類可用作 ? 一種獨(dú)立的數(shù)據(jù)分析工具,用于分析數(shù)據(jù)的內(nèi)在特性 ? 一種數(shù)據(jù)預(yù)處理方法,為后續(xù)模式識(shí)別服務(wù) 相似性度量 ? “ 同一聚類內(nèi)部的樣本之間比不同聚類的樣本之間更相似 ”基于某種定義的樣本間的相似性(或不相似性)度量 ? 兩類主要的相似性(不相似性)度量 ? 基于 度量 的距離標(biāo)準(zhǔn) ? 非度量 的相似性函數(shù) ? 一個(gè) 度量 (即距離函數(shù))需滿足如下條件 ? 非負(fù)性 : ? 自反性 : ? 對(duì)稱性 : ? 三角不等式 : 距離度量 ? 常用的距離度量 ? 最為常用的距離度量為 歐氏距離 ,作為不相似性度量 ? 其次為考慮數(shù)據(jù)分布的 馬氏距離 ? 根據(jù)距離對(duì)樣本進(jìn)行聚類 ? 計(jì)算任意兩個(gè)樣本之間的距離 ? 如果兩個(gè)樣本之間的距離小于某個(gè)閾值 ,那么這兩個(gè)樣本就屬于同一個(gè)聚類 ? 過(guò)大,所有樣本都被分為同一個(gè)聚類 ? 過(guò)小,每個(gè)樣本都自成一個(gè)聚類 距離度量 越小,每個(gè)聚類就越小,聚類個(gè)數(shù)就越多 歐氏距離 距離度量 ? 縮放坐標(biāo)尺度引 起聚類結(jié)果的變 化 規(guī) 格化 ? 在聚類之前可先“ 規(guī)格化 ”( normalization)原始數(shù)據(jù),以實(shí)現(xiàn)不變性 ? 位移和縮放不變性 通過(guò)平移和縮放,使得新特征具有零均值和單位方差 ? 旋轉(zhuǎn)不變性 旋轉(zhuǎn)坐標(biāo)軸,使得坐標(biāo)軸與樣本協(xié)方差矩陣的本征向量平行 ? 規(guī)格化不能濫用! 零均值 單位方差 相似性函 數(shù) ? 不使用距離,可以直接定義非度量的 相似性函數(shù) ? 相似性函數(shù)是度量樣本之間相似性的函數(shù) ? 對(duì)稱性 ? 當(dāng)兩個(gè)樣本具有某種相似性時(shí),函數(shù)的值較大 ? 常用的相似性函數(shù) ? 歸一化內(nèi)積 (兩個(gè)向量夾角的余弦) ? 對(duì)二值特征( 01)來(lái)說(shuō),歸一化內(nèi)積相當(dāng)于共享屬性的相對(duì)計(jì)數(shù),進(jìn)一步,可簡(jiǎn)化為共享屬性的比例 1 2 2 1( , ) ( , )ss?x x x x何謂好的聚類? ? 一個(gè)好的聚類過(guò)程產(chǎn)生高質(zhì)量的聚類 ? 聚類內(nèi)部相似度高 ? 聚類之間相似度低 ? 聚類結(jié)果的質(zhì)量取決于采用的相似度度量以及聚類算法的具體實(shí)現(xiàn) ? 評(píng)價(jià)聚類結(jié)果的好壞往往具有主觀性 聚 類 的準(zhǔn) 則 函 數(shù) ? ―一種聚類的劃分比另一種劃分好 ”基于某種聚類的準(zhǔn)則函數(shù) ? 聚類問(wèn)題可以看做一種離散優(yōu)化問(wèn)題 ? 準(zhǔn)則函數(shù)用于度量對(duì)數(shù)據(jù)聚類的某種劃分的質(zhì)量 ? 目標(biāo)是找到某種劃分,使得準(zhǔn)則函數(shù)最?。ù螅┗? ? 采用不同的準(zhǔn)則函數(shù)可能得到不同的聚類結(jié)果 ? 常用準(zhǔn)則函數(shù) ? 誤差平方和準(zhǔn)則 ? 最小方差準(zhǔn)則 ? 散布準(zhǔn)則 誤 差平方和準(zhǔn) 則 ? 誤差平方和準(zhǔn)則 是最簡(jiǎn)單也使用最廣的聚類準(zhǔn)則函數(shù) ? 其中 是第 i個(gè)聚類 中樣本的均值 ? 當(dāng)數(shù)據(jù)點(diǎn)能被劃分成很好的相互區(qū)分的幾個(gè)聚類,并且聚類內(nèi)部又很稠密時(shí),適用 誤差平方和準(zhǔn)則 誤 差平方和準(zhǔn) 則 ? 采用 誤差平方和準(zhǔn)則 可能存在的問(wèn)題 ? 當(dāng)不同聚類所包含的樣本個(gè)數(shù)相差較大時(shí),將一個(gè)大的聚類分割開來(lái)反而可能得到更小的誤差平方和 最小方差準(zhǔn) 則 ? 由于誤差平方和準(zhǔn)則度量的是樣本點(diǎn)到聚類均值的方差,所以它是最小方差準(zhǔn)則的一種 ? 與誤差平方和準(zhǔn)則等價(jià)的形式 其中, 為第 i個(gè)聚類中的樣本個(gè)數(shù) ? 最小方差準(zhǔn)則的一般形式 為某種相似性函數(shù) 散布準(zhǔn) 則 ? 均值向量 ? 第 i個(gè)聚類的均值向量 ? 總的均值向量 散布準(zhǔn) 則 ? 散布矩陣 ? 第 i個(gè)聚類的散布矩陣 ? 總的散布矩陣 ? 聚類內(nèi)散布矩陣 散布準(zhǔn) 則 ? 散布矩陣 ? 聚類間散布矩陣 ? 聚類內(nèi)散布矩陣和聚類間散布矩陣的關(guān)系 散布準(zhǔn) 則 ? 為了得到更好的聚類質(zhì)量,我們希望得到較小的聚類內(nèi)散布和較大的聚類間散布 ? 需要某種 標(biāo)量 度量矩陣的“大小”,如矩陣的 跡( trace,即矩陣對(duì)角線上元素之和) ? 由于 ,而 與如何劃分聚類無(wú)關(guān),所以,最小化 就同時(shí)最大化聚類間散布矩陣的跡 標(biāo)量度量也可選用矩陣的行列式 迭代最 優(yōu) 化 ? 對(duì)一個(gè)有限樣本集來(lái)說(shuō),可能的劃分的個(gè)數(shù)是有限的,理論上可以用窮舉法找到最優(yōu)解
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1