【正文】
ster Mode”的“Use training set”,點(diǎn)擊“Start”按鈕,觀察右邊“Clusterer output”給出的聚類結(jié)果。也可以在左下角“Result list”中這次產(chǎn)生的結(jié)果上點(diǎn)右鍵,“View in separate window”在新窗口中瀏覽結(jié)果。實(shí)驗(yàn)分析(1)首先我們注意到結(jié)果中有這么一行:Within cluster sum of squared errors: 這是評(píng)價(jià)聚類好壞的標(biāo)準(zhǔn),數(shù)值越小說明同一簇實(shí)例之間的距離越小。也許你得到的數(shù)值會(huì)不一樣;實(shí)際上如果把“seed”參數(shù)改一下,得到的這個(gè)數(shù)值就可能會(huì)不一樣。我們應(yīng)該多嘗試幾個(gè)seed,并采納這個(gè)數(shù)值最小的那個(gè)結(jié)果。例如我們讓“seed”取100,就得到 Within cluster sum of squared errors: , 這樣就選擇后面這個(gè)。當(dāng)然再嘗試幾個(gè)seed,這個(gè)數(shù)值可能會(huì)更小。(2)接下來“Cluster centroids:”之后列出了各個(gè)簇中心的位置。對(duì)于數(shù)值型的屬性,簇中心就是它的均值(Mean);分類型的就是它的眾數(shù)(Mode), 也就是說這個(gè)屬性上取值為眾數(shù)值的實(shí)例最多。對(duì)于數(shù)值型的屬性,還給出了它在各個(gè)簇里的標(biāo)準(zhǔn)差(Std Devs)(3)最后的“Clustered Instances”是各個(gè)簇中實(shí)例的數(shù)目及百分比。 (4)觀察可視化的聚類結(jié)果,我們?cè)谧笙路健癛esult list”列出的結(jié)果上右擊,點(diǎn)“Visualize cluster assignments”。彈出的窗口給出了各實(shí)例的散點(diǎn)圖。最上方的兩個(gè)框是選擇橫坐標(biāo)和縱坐標(biāo),“color”是散點(diǎn)圖著色的依據(jù),默認(rèn)是根據(jù)不同的簇“Cluster”給實(shí)例標(biāo)上不同的顏色。(5)可以在這里點(diǎn)“Save”把聚類結(jié)果保存成ARFF文件。在這個(gè)新的ARFF文件中,“instance_number”屬性表示某實(shí)例的編號(hào),“Cluster”屬性表示聚類算法給出的該實(shí)例所在的簇。七、通過實(shí)驗(yàn),要求同學(xué)在聚類分析信息獲取實(shí)驗(yàn)中解決以下問題,并遞交完整的實(shí)驗(yàn)報(bào)告1. 在Weka中實(shí)現(xiàn)K均值聚類的數(shù)據(jù)預(yù)處理中:(1)為什么要將children屬性變成分類型? (2)Weka將自動(dòng)實(shí)施這個(gè)分類型到數(shù)值型的變換是指將這個(gè)分類型的屬性變?yōu)槿舾蓚€(gè)取值0和1的屬性,將這個(gè)變化結(jié)果截圖于PPt中,并進(jìn)行解釋。2. 在“Cluster Mode”的“Use training set”,點(diǎn)擊“Start”按鈕,將在右邊“Clusterer output”給出的聚類結(jié)果以及在左下角“Result list”中產(chǎn)生的結(jié)果,請(qǐng)截圖,并在實(shí)驗(yàn)報(bào)告中進(jìn)行詳解。3. 多嘗試幾個(gè)seed,給出你建立的模型結(jié)果的分析情況4. 分類型的簇中心是它的眾數(shù)(Mode), 給出在你實(shí)驗(yàn)中的一個(gè)眾數(shù)(Mode)數(shù)據(jù),并加以解釋。