freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

ch10決策樹-全文預(yù)覽

2025-10-25 22:36 上一頁面

下一頁面
  

【正文】 巨大 ? 希望首先在一個(gè)較小的有標(biāo)記樣本集上訓(xùn)練一個(gè)粗略的分類器,然后讓這個(gè)分類器以非監(jiān)督的方式在一個(gè)較大的樣本集上運(yùn)行 ? 或者,用大量未標(biāo)記的樣本集來訓(xùn)練分類器,讓它自動發(fā)現(xiàn)數(shù)據(jù)中的分組,然后用代價(jià)更高的辦法(如人工)來標(biāo)記這些分組 ? 在很多應(yīng)用中,模式的特征會隨時(shí)間而變化 ? 如果這種特征的變化能夠被某種運(yùn)行在無監(jiān)督方式下的分類器捕捉到,那么分類性能將得到大幅提高 無監(jiān)督學(xué)習(xí)的動機(jī) ? 無監(jiān)督方法可以用來提取特征,或者預(yù)處理現(xiàn)存特征,從而為后續(xù)的模式識別問題做準(zhǔn)備 ? 例如: PCA降維 ? 在任何探索性的工作中,無監(jiān)督方法可以揭示觀測數(shù)據(jù)的一些內(nèi)部結(jié)構(gòu)和規(guī)律 ? 發(fā)現(xiàn)模式中內(nèi)在的聚類或分組可能為分類器設(shè)計(jì)提供依據(jù) 聚類 ? 聚類 ( clustering) ? 聚類是指將物理的或抽象的對象自然分組,使得每組由相似的對象構(gòu)成一類的過程 ? 因?yàn)橛?xùn)練集樣本并無類別標(biāo)記,所以聚類是 無監(jiān)督學(xué)習(xí)過程 ? 一個(gè) 聚類 ( cluster)是指一組樣本,它們與屬于同一聚類的樣本相似,而與屬于其他聚類的樣本不相似 ? 聚類可用作 ? 一種獨(dú)立的數(shù)據(jù)分析工具,用于分析數(shù)據(jù)的內(nèi)在特性 ? 一種數(shù)據(jù)預(yù)處理方法,為后續(xù)模式識別服務(wù) 相似性度量 ? “ 同一聚類內(nèi)部的樣本之間比不同聚類的樣本之間更相似 ”基于某種定義的樣本間的相似性(或不相似性)度量 ? 兩類主要的相似性(不相似性)度量 ? 基于 度量 的距離標(biāo)準(zhǔn) ? 非度量 的相似性函數(shù) ? 一個(gè) 度量 (即距離函數(shù))需滿足如下條件 ? 非負(fù)性 : ? 自反性 : ? 對稱性 : ? 三角不等式 : 距離度量 ? 常用的距離度量 ? 最為常用的距離度量為 歐氏距離 ,作為不相似性度量 ? 其次為考慮數(shù)據(jù)分布的 馬氏距離 ? 根據(jù)距離對樣本進(jìn)行聚類 ? 計(jì)算任意兩個(gè)樣本之間的距離 ? 如果兩個(gè)樣本之間的距離小于某個(gè)閾值 ,那么這兩個(gè)樣本就屬于同一個(gè)聚類 ? 過大,所有樣本都被分為同一個(gè)聚類 ? 過小,每個(gè)樣本都自成一個(gè)聚類 距離度量 越小,每個(gè)聚類就越小,聚類個(gè)數(shù)就越多 歐氏距離 距離度量 ? 縮放坐標(biāo)尺度引 起聚類結(jié)果的變 化 規(guī) 格化 ? 在聚類之前可先“ 規(guī)格化 ”( normalization)原始數(shù)據(jù),以實(shí)現(xiàn)不變性 ? 位移和縮放不變性 通過平移和縮放,使得新特征具有零均值和單位方差 ? 旋轉(zhuǎn)不變性 旋轉(zhuǎn)坐標(biāo)軸,使得坐標(biāo)軸與樣本協(xié)方差矩陣的本征向量平行 ? 規(guī)格化不能濫用! 零均值 單位方差 相似性函 數(shù) ? 不使用距離,可以直接定義非度量的 相似性函數(shù) ? 相似性函數(shù)是度量樣本之間相似性的函數(shù) ? 對稱性 ? 當(dāng)兩個(gè)樣本具有某種相似性時(shí),函數(shù)的值較大 ? 常用的相似性函數(shù) ? 歸一化內(nèi)積 (兩個(gè)向量夾角的余弦) ? 對二值特征( 01)來說,歸一化內(nèi)積相當(dāng)于共享屬性的相對計(jì)數(shù),進(jìn)一步,可簡化為共享屬性的比例 1 2 2 1( , ) ( , )ss?x x x x何謂好的聚類? ? 一個(gè)好的聚類過程產(chǎn)生高質(zhì)量的聚類 ? 聚類內(nèi)部相似度高 ? 聚類之間相似度低 ? 聚類結(jié)果的質(zhì)量取決于采用的相似度度量以及聚類算法的具體實(shí)現(xiàn) ? 評價(jià)聚類結(jié)果的好壞往往具有主觀性 聚 類 的準(zhǔn) 則 函 數(shù) ? ―一種聚類的劃分比另一種劃分好 ”基于某種聚類的準(zhǔn)則函數(shù) ? 聚類問題可以看做一種離散優(yōu)化問題 ? 準(zhǔn)則函數(shù)用于度量對數(shù)據(jù)聚類的某種劃分的質(zhì)量 ? 目標(biāo)是找到某種劃分,使得準(zhǔn)則函數(shù)最?。ù螅┗? ? 采用不同的準(zhǔn)則函數(shù)可能得到不同的聚類結(jié)果 ? 常用準(zhǔn)則函數(shù) ? 誤差平方和準(zhǔn)則 ? 最小方差準(zhǔn)則 ? 散布準(zhǔn)則 誤 差平方和準(zhǔn) 則 ? 誤差平方和準(zhǔn)則 是最簡單也使用最廣的聚類準(zhǔn)則函數(shù) ? 其中 是第 i個(gè)聚類 中樣本的均值 ? 當(dāng)數(shù)據(jù)點(diǎn)能被劃分成很好的相互區(qū)分的幾個(gè)聚類,并且聚類內(nèi)部又很稠密時(shí),適用 誤差平方和準(zhǔn)則 誤 差平方和準(zhǔn) 則 ? 采用 誤差平方和準(zhǔn)則 可能存在的問題 ? 當(dāng)不同聚類所包含的樣本個(gè)數(shù)相差較大時(shí),將一個(gè)大的聚類分割開來反而可能得到更小的誤差平方和 最小方差準(zhǔn) 則 ? 由于誤差平方和準(zhǔn)則度量的是樣本點(diǎn)到聚類均值的方差,所以它是最小方差準(zhǔn)則的一種 ? 與誤差平方和準(zhǔn)則等價(jià)的形式 其中, 為第 i個(gè)聚類中的樣本個(gè)數(shù) ? 最小方差準(zhǔn)則的一般形式 為某種相似性函數(shù) 散布準(zhǔn) 則
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1