freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

第9章rapidminer-k-means聚類辨別分析v1-文庫吧資料

2025-07-06 12:02本頁面
  

【正文】 量之間的數(shù)量關(guān)系,建立判別函數(shù)(discriminant function),然后便可以利用這一數(shù)量關(guān)系對其他已知特征變量信息、但未知分組類型所屬的案例進(jìn)行判別分組。判別分析(Discriminant Analysis,簡稱DA)技術(shù)是由費舍(R.A.Fisher)于1936年提出的。最終,他希望可以就每個運動員可能最應(yīng)選擇專攻哪個體育項目,向他們提供建議。 通過多年來與運動員之間的合作,Gill 整理了一個內(nèi)容非常廣泛的數(shù)據(jù)集。 對于學(xué)院的男生,他側(cè)重于四個主要體育項目,即 橄欖球、籃球、棒球和曲棍球。 操作符流程視圖 結(jié)果集過濾參數(shù)設(shè)置第三步:輸出結(jié)果點擊運行, 篩選類別后的輸出結(jié)果 這樣我們的主人公,就可以根據(jù)顯示輸出的結(jié)果,來重點關(guān)注疾病的高發(fā)人群,從而有針對性的進(jìn)行服務(wù)。 數(shù)據(jù)基本信息第一步:對數(shù)據(jù)進(jìn)行聚類將數(shù)據(jù)拖拽到操作視圖界面,檢索“kMeans”操作符并將其與數(shù)據(jù)進(jìn)行連接,然后與輸出端口連接,點擊運行,我們可以看到如圖 運行結(jié)果, 中,我們可以設(shè)計聚成的k的類數(shù),以及“max runs”最大循環(huán)迭代的次數(shù)。 其中沒有看起來不一致的值(切記前面關(guān)于使用標(biāo)準(zhǔn)差查找統(tǒng)計離群點的備注)。我們可以看到先前定義的三個屬性有 547 個觀察項。 我們應(yīng)切記在構(gòu)建模型時,均值尤其容易受到極端離群點的不當(dāng)影響,因此在使用 K 均值聚類數(shù)據(jù)挖掘方法時查看是否存在不一致的數(shù)據(jù)至關(guān)重要。 和在許多數(shù)據(jù)集中的典型做法一樣,性別屬性使用 0 來表示女性,并使用 1 來表示男性。 為了實現(xiàn)目標(biāo),她需要在數(shù)以千計的保單持有人中搜索具有類似特征的群體,并制定相關(guān)且對這些不同的群體有吸引力的項目和溝通方式。 她還了解可能存在高體重和低膽固醇、高體重 和 高膽固醇,以及低體重和高膽固醇的保單持有人。Sonia 的目標(biāo)是確定由公司提供保險服務(wù)且因體重和/或高膽固醇患冠心病的風(fēng)險非常高的人員,并試圖聯(lián)絡(luò)這些人員。 于是她開始提議公司為健康保險客戶提供體重和膽固醇管理項目。 她閱讀的研究文件一次又一次地確認(rèn)這三個變量之間存在關(guān)聯(lián)。—利用KMeans 聚類確定患冠心病的高風(fēng)險人群 背景和概要說明Sonia 在一家主要健康保險公司擔(dān)任項目總監(jiān)。(3) F值評價法這是基于上述RI方法衍生出的一個方法,F(xiàn)評價公式如下: (911)其中。表示被聚類集合對象的總數(shù)。表示第k個聚類的集合。組內(nèi)的相似性越大,組間差別越大,聚類效果就越好。 聚類分析算法評價聚類分析僅根據(jù)樣本數(shù)據(jù)本身將樣本分組。分群2的時間間隔、消費次數(shù)和消費金額處于中等水平。分群3特點:R分布在30~60天之間;消費次數(shù)集中在1~10次;消費金額在200~800。圖92分群1的概率密度函數(shù)圖圖93分群2的概率密度函數(shù)圖圖94分群3的概率密度函數(shù)圖客戶價值分析:分群1特點:R主要集中在10~30天之間;消費次數(shù)集中在5~30次;消費金額在1600~2000。執(zhí)行KMeans聚類算法輸出的結(jié)果見表96。根據(jù)這些數(shù)據(jù)將客戶分類成不同客戶群,并評價這些客戶群的價值。連續(xù)屬性的SSE計算公式為: (95)文檔數(shù)據(jù)的SSE計算公式為: (96)簇的聚類中心計算公式為: (97)表94 符號表符號含義K聚類簇的個數(shù)第個簇對象(樣本)簇的聚類中心第個簇中樣本的個數(shù)下面結(jié)合具體案例來實現(xiàn)本節(jié)開始提出問題。(2) 文檔數(shù)據(jù)對于文檔數(shù)據(jù)使用余弦相似性度量,先將文檔數(shù)據(jù)整理成文檔—詞矩陣格式,如表93。度量樣本之間的相似性最常用的是歐幾里得距離、曼哈頓距離和閔可夫斯基距離;樣本與簇之間的距離可以用樣本到簇中心的距離;簇與簇之間的距離可以用簇中心的距離。2. 數(shù)據(jù)類型與相似性的度
點擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1