freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘?qū)嶒瀳蟾?編輯修改稿)

2025-08-17 11:53 本頁面
 

【文章內(nèi)容簡介】 已經(jīng)被離散化成分類型的屬性。經(jīng)移除后剩10項屬性,其中一項如圖5所示,10項屬性可視化如圖6所示:(圖5)(圖6)在進行數(shù)據(jù)搜集和整理的過程中,我們發(fā)現(xiàn)如果屬性的類型為數(shù)值型的話,在做關(guān)聯(lián)分析時將不能得到結(jié)果,可以比較圖3和圖5,圖3是數(shù)值型,圖5 是數(shù)據(jù)離散化之后的。因為關(guān)聯(lián)分析無法處理數(shù)值型數(shù)據(jù),因此,我們進行了數(shù)據(jù)離散處理后使得需要分析的數(shù)據(jù)變?yōu)榉诸愋?,這樣就可以關(guān)聯(lián)分析得以順利進行。因此通過預(yù)處理數(shù)據(jù)可以提高原數(shù)據(jù)的質(zhì)量,清除數(shù)據(jù)噪聲和與挖掘目標(biāo)無關(guān)的數(shù)據(jù),為進一步的挖掘工作莫定可靠的基礎(chǔ)。針對這些有關(guān)乳腺癌數(shù)據(jù)集,主要分別采用的分類方法是決策樹算法、K均值算法 、樸素貝葉斯分類算法。由于該數(shù)據(jù)集有10個屬性,則下文中對每個屬性進行分類的步驟大致相同,由于篇幅原因,只截取其中兩個屬性,現(xiàn)在就所選截屏屬性作申明,選第一項Clump Thickness (叢厚度))和第九項Mitoses(有絲分裂)。用“Explorer”打開剛才得到的“”,并切換到“Class”。點“Choose”按鈕選擇“tree()”,這是Weka中實現(xiàn)的決策樹算法。選擇CrossValidatioinfolds=10,選擇圖中箭頭指向選擇屬性,然后點擊“start”按鈕。得到結(jié)果如圖7和圖8所示:(圖7)(圖8)這個是針對第一項Clump ,分析可知總共有699個數(shù)據(jù)進行分類,Clump Thickness(叢厚度)其中102個為正確分類,%,517個為錯誤分類,%。而第九項Mitoses有絲分裂項也是分析699個數(shù)據(jù),其中正確分類有579個數(shù)據(jù),%,錯誤分類的有120個,%。根據(jù)混淆矩陣,被錯誤分類實例很多,錯綜復(fù)雜,如圖9所示:(圖9)在剛才進行決策樹分類的的那個頁面,點“Choose”按鈕選擇“bayes”,再選擇CrossValidatioinfolds=10,同樣選擇圖中箭頭指向選擇屬性,然后點擊“start”按鈕:為了與上面決策樹作比較,貝葉斯也選擇第一項第一項Clump Thickness叢厚度和第九項Mitoses有絲分裂項,得到結(jié)果如下圖10,11所示:(圖10)(圖11)這個是針對第一項Clump Thickness叢厚度和第九項Mitoses有絲分裂項運用貝葉斯算法得到誤差分析的結(jié)果,分析可知總共有699個數(shù)據(jù)進行分類,Clump Thickness(叢厚度)其中198個為正確分類,%,501個為錯誤分類,%。而第九項Mitoses有絲分裂項其中正確分類有467個數(shù)據(jù),%,錯誤分類的有232個,%。根據(jù)混淆矩陣,被錯誤分類實例很多,相對來說,Clump Thickness叢厚度用兩種方法混淆程度差不多,錯綜復(fù)雜,而Mitoses有絲分裂項用貝葉斯分類明顯混淆矩陣要比用決策樹方法混淆率要低,中間第六項到就第九項明顯混響不是很多,如圖12所示。基于以上兩種分析,建議用貝葉斯分類方法分類,降低混淆率,提高正確率。(圖12)在剛才進行決策樹分類和貝葉斯分類的的的那個頁面,點“Choose”按鈕選擇“l(fā)azeibk”,選擇CrossValidatioinfold
點擊復(fù)制文檔內(nèi)容
規(guī)章制度相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1