freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

研聚類分析ppt課件(已修改)

2025-01-31 23:27 本頁面
 

【正文】 聚類分析 研究 分類問題 的 常用 統(tǒng)計(jì)方法 判別分析 聚類分析 快速聚類 層次 Q型聚類 R型聚類 聚類分析 ? 含義: 聚類分析 (Cluster Analysis)又 稱群分析、點(diǎn)群分析、簇類分析等,根據(jù)事物本身的特性研究個體分類的方法,是研究 “ 物以類聚 ” 的一種方法。 人們認(rèn)識某類事物時往往先對這類事物的各個對象進(jìn)行分類 , 以便尋找其中同與不同的特征。 比如在醫(yī)學(xué)領(lǐng)域的研究工作中 , 經(jīng)常需要根據(jù)病人的一系列癥狀、體征和檢查的結(jié)果 ,判斷病人所患疾病的類型 ; 或?qū)σ幌盗袡z查方法及其結(jié)果 , 將之劃分成某幾種方法適合用于甲類病的檢查 , 另幾種方法適合用于乙類病的檢查 ; 在教學(xué)領(lǐng)域 , 有些學(xué)生關(guān)系比較密切 , 會經(jīng)常在一起 , 而與另外一部分同學(xué)則關(guān)系比較疏遠(yuǎn) , 很少往來。也就是說學(xué)生根據(jù)他們自己的興趣、愛好、學(xué)習(xí)成績的好壞 , 會形成一些固定的小群體。不同群體之間的學(xué)生興趣愛好、家庭背景則存在比較明顯的差異。 在國民經(jīng)濟(jì)領(lǐng)域 , 有時候需要根據(jù)各個省份的經(jīng)濟(jì)特點(diǎn)、產(chǎn)業(yè)結(jié)構(gòu)、生產(chǎn)總值、人口、人均收入、消費(fèi)特點(diǎn)等分成幾個區(qū)域。比如分成經(jīng)濟(jì)發(fā)達(dá)地區(qū)、經(jīng)濟(jì)不發(fā)達(dá)地區(qū)、資源豐富地區(qū)、資源匱乏地區(qū)等。分成這樣一些區(qū)域的好處 , 就是屬于同一類的地區(qū)國家可以采用類似的經(jīng)濟(jì)政策等。 應(yīng)用聚類分析的例子 ? 市場銷售: 幫助市場人員發(fā)現(xiàn)客戶中的不同群體 , 然后用這些知識來開展一個目標(biāo)明確的市場計(jì)劃 ; ? 土地使用: 在一個陸地觀察數(shù)據(jù)庫中標(biāo)識那些土地使用相似的地區(qū) ; ? 保險: 對購買了汽車保險的客戶 , 標(biāo)識那些有較高平均賠償成本的客戶 ; ? 城市規(guī)劃: 根據(jù)類型、價格、地理位置等來劃分不同類型的住宅 ; ? 地震研究: 根據(jù)地質(zhì)斷層的特點(diǎn)把已觀察到的地震中心分成不同的類 ; 聚類分析的基本思想 ? 在聚類分析的基本思想是認(rèn)為研究的樣本或指標(biāo) (變量 )之間存在著程度不同的相似性 (親疏關(guān)系 )。于是根據(jù) 一批 樣本的多個觀測指標(biāo) ,具體找出一些 能夠度量 樣本或指標(biāo)之間 相似程度 的統(tǒng)計(jì)量 , 以這些統(tǒng)計(jì)量為 劃分類型 的依據(jù) , 把一些彼此之間 相似程度較大 的樣本(或指標(biāo) )聚合為一類 , 關(guān)系密切的聚合到一個小的分類單位 , 關(guān)系疏遠(yuǎn)的聚合到一個大的分類單位 , 直到把所有的樣本 (或指標(biāo) )都聚合完畢 , 把不同的類型一一劃分出來 , 形成一個由小到大的分類系統(tǒng)。 聚類分析的基本方法 ? 分層聚類 (Hierarchical Cluster), 反映事物特點(diǎn)的變量很多 , 根據(jù)所研究的問題選擇部分變量 對事物的某一方面進(jìn)行研究。 ? 快速樣本聚類 (Quick Cluster), 就是對觀測值進(jìn)行聚類 , 是反映被觀測對象特征的 各變量 進(jìn)行分類 ; 當(dāng)要聚成的 類數(shù)已知 時 ,使用快速聚類過程可很快將觀測量分到各類中 去。 分類數(shù)的確定 ? 層次聚類法最終得到的只是一個 樹狀 結(jié)構(gòu)圖 , 從圖中可以看出存在很多不同的類 ,但需要如何確定類的 最佳個數(shù) 。 ? 快速樣本聚類之前需要 指定 分類數(shù) ; ? 確定分類數(shù)的問題是聚類分析中尚未完全解決的問題之一 , 主要的障礙是對類的結(jié)構(gòu)和內(nèi)容很難給出一個統(tǒng)一的定義 , 實(shí)際應(yīng)用中人們主要根據(jù)研究的目的 , 從實(shí)用的角度出發(fā) , 選擇合適的分類數(shù) 。 在層次聚類過程中 , 首先把離得近的類合并 ,所以在并類過程中聚合系數(shù)呈增加趨勢 , 聚合系數(shù)小 , 表示合并的兩類的相似程度大 , 兩個差異很大的類合到一起 , 會使該系數(shù)增大。 ? 至少以下 四個因素 會大大影響聚類方法的使用效果 : 類的結(jié)構(gòu) (主要指類的形狀、規(guī)模和個數(shù) )、 奇異值 (Outliers)的存在、類與類之間重疊的程度和相似測度的選擇。 ? 奇異值是指和樣本中其他的觀測量差異很大的觀測量 , 它遠(yuǎn)離其它觀測量 , 自成一類。 如果選擇了 n個 數(shù)值型變量 參與聚類分析 , 最后要求 聚類數(shù) 為 k。那么可由系統(tǒng)首先選擇 k個觀測量 (也可以由用戶指定 )作為聚類的目標(biāo) , n個變量組成 n維空間。每個觀測量在 n維空間中是一個點(diǎn)。 k個事先選定的 觀測量 就是 k個聚類中心 , 也稱為初始類中心。按照距這幾個 類中心 的距離最小的原則把 觀測量 分派到各類中心 所在的類 中去 ,得到第一次迭代形成的 k類。根據(jù)組成每一類的觀測量計(jì)算 變量值均值 , 每一類中的 n個均值在 n維空間中又形成 k個點(diǎn) , 這就是第二次迭代的類中心 , 按照這種方法迭代下去 , 直到達(dá)到指定的迭代次數(shù)或達(dá)到中止迭代的判據(jù)要求時 , 迭代就停止了 , 聚類過程也結(jié)束了。 聚類分析的基本步驟 ? 數(shù)據(jù)標(biāo)準(zhǔn)化 ?計(jì)算絕對偏差的平均值 : 其中 ?計(jì)算標(biāo)準(zhǔn)度量值 (ZScore) ? 計(jì)算對象之間的相異度 .)...211 nffff xx(xn m ????|)|...|||(|1 21 fnffffff mxmxmxns ???????ffifif smx z ??? 通常使用 距離 衡量兩個對象之間的相異度 。 ? 常用的 距離 度量方法有 : (1) 明考斯基距離 ( Minkowski distance): 其中 i = (xi1, xi2,?, xip) 和 j = (xj1, xj2,?, xjp) 是兩個 p維的數(shù)據(jù)對象 , q是一個正整數(shù)。 當(dāng) q =1時 , d 稱為 曼哈坦距離 ( Manhattan distance) q qppqq jxixjxixjxixjid )||. ..|||(|),(2211 ???????||...||||),( 2211 pp jxixjxixjxixjid ???????當(dāng) q=2時 , d 就成為 歐幾里德距離 : ?距離函數(shù)有如下特性 : ?d(i,j) ? 0 ?d(i,i) = 0 ?d(i,j) = d(j,i) ?d(i,j) ? d(i,k) + d(k,j) (2)相關(guān)系數(shù) (3)馬氏距離 ( Mahalanobis) )||. ..|||(|),( 2222211 pp jxixjxixjxixjid ???????? 選擇類與類之間的距離定義 ?類的 定義 : 由一個以上對象組成的集合 ?類與類之間的距離 , 可由類的 “ 代表點(diǎn) ”之間的距離表示。 ?用兩類間的最 近 點(diǎn)作為這兩類的代表點(diǎn) ?用兩類間的所有點(diǎn)之間距離平方的 均值 ?按照某一規(guī)則 , 選擇類中的某一點(diǎn)代表該類。如 , 依據(jù) rij把 i與 j類并為一類時 ,始終把第一下標(biāo)所對應(yīng)的點(diǎn) i, 作為該類的代表。 ? 聚類 ?把每個點(diǎn)(對象)作為一 類 (稱為第一層的類) ?找出 距離最小 的 dij, 從而得出 距離最近 的兩類 i與 j, 把他們合并為 層次更高 的一類。若果同時有兩個距離 dij=dst, 則同時把 i、 j作為一類 , s、 t作為一類 ; 若 i、 j與 s、 t中有一個是相同的 , 則把這三個小類并為一個大類。 如果 有更多的兩類之間的距離一樣 , 可類似處理。 ?重復(fù) 以上操作 , 直至 所有 的點(diǎn)(對象)都并入一個大類。 ? 分類 依據(jù)實(shí)際需要 , 確定以第幾層的類為最終的分類標(biāo)準(zhǔn)。通常采用如下準(zhǔn)則 : ?準(zhǔn)則 l, 任何類都必須在鄰近各類中是突出的 , 即各類重心之間距離必須大 ; ?準(zhǔn)則 2, 各類所包含的元素不要過分地多 ; ?準(zhǔn)則 3, 分類的數(shù)目應(yīng)該符合使用的目的 ; ?準(zhǔn)則 4, 若采用幾種不同的聚類方法處理 ,則在各自的聚類圖上應(yīng)發(fā)現(xiàn)相同的類。 層次聚類分析 ? 層次聚類分析 : 是
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
公安備案圖鄂ICP備17016276號-1