freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘項(xiàng)目實(shí)施概述(編輯修改稿)

2025-03-27 11:37 本頁(yè)面
 

【文章內(nèi)容簡(jiǎn)介】 。 ? 在 Clementine中有許多技巧來(lái)處理缺失值,可以根據(jù)數(shù)據(jù)的以下特征來(lái)選擇最佳方法: ? 數(shù)據(jù)集的大小 ? 包含空值的字段數(shù) ? 缺失信息量 ? 一旦分析了上述因素,就可以選擇下述兩種方法來(lái)處理: ? 忽略帶有缺失值的字段或記錄 ? 可以使用各種方法歸因、替換或強(qiáng)制賦值缺失值 第 23章 數(shù)據(jù)挖掘項(xiàng)目實(shí)施 2023/3/28 ? 如果大部分缺失值都集中在少量記錄中,只需排除這些記錄即可。例如,銀行通常會(huì)保存詳細(xì)而完整的貸款客戶的記錄。但是,如果銀行在審批內(nèi)部職員的貸款時(shí)管制不嚴(yán),則所收集的員工貸款數(shù)據(jù)可能會(huì)存在空白字段。此種情況下,有 兩種方法 可以處理缺失值: ? 可以使用選擇節(jié)點(diǎn)刪除員工記錄。 ? 如果數(shù)據(jù)集很大,使用者可以在一個(gè)選擇節(jié)點(diǎn)上,使用 BLANK和 NULL函數(shù)來(lái)剔除帶有空格的所有記錄。 ? 第 23章 數(shù)據(jù)挖掘項(xiàng)目實(shí)施 2023/3/28 如大部分缺失值都集中在少量字段中,可通過(guò)字段而不是記錄查找這些缺失值。 確定要采用的方法時(shí),還應(yīng)考慮帶有缺失值的字段類型。 ? 數(shù)值字段 對(duì)于數(shù)值字段類型(如范圍),應(yīng)在構(gòu)建模型前清除所有非數(shù)字值,因?yàn)槿绻麛?shù)值字段中包含空值,很多模型將無(wú)效。 ? 分類字段 對(duì)于分類字段(如集合和標(biāo)志),雖然不必更改缺失值,但更改后可以提高模型的精度。 第 23章 數(shù)據(jù)挖掘項(xiàng)目實(shí)施 2023/3/28 要篩選或刪除帶有大量缺失值的字段,可以采用以下幾種方法: ? 使用數(shù)據(jù)審核節(jié)點(diǎn)根據(jù)質(zhì)量過(guò)濾字段。 ? 可以使用特征選擇節(jié)點(diǎn)來(lái)篩選缺失值超過(guò)指定百分比的字段,并根據(jù)相對(duì)于特定目標(biāo)的重要性來(lái)對(duì)字段進(jìn)行排序。 ? 除刪除字段以外,還可以使用類型節(jié)點(diǎn)將字段方向設(shè)置為無(wú)。此操作可將字段保留在數(shù)據(jù)集中,但不會(huì)對(duì)其進(jìn)行建模操作。 第 23章 數(shù)據(jù)挖掘項(xiàng)目實(shí)施 2023/3/28 ? 在僅有少量缺失值的情況下,可以用插入值來(lái)替換空值。下列方法可用于輸入缺失值: ? 替換為固定值(可以選用字段平均值、范圍中間值或者指定的常數(shù))。 ? 替換為基于正態(tài)分布或均勻分布產(chǎn)生的隨機(jī)值。 ? 用于指定定制表達(dá)式。例如,可以使用設(shè)置全局量節(jié)點(diǎn)創(chuàng)建的全局變量進(jìn)行替換。 ? 基于 CRT算法替換為模型預(yù)測(cè)的值。對(duì)于使用此方法輸入的每個(gè)字段,都會(huì)有一個(gè)單獨(dú)的 CRT模型,還有一個(gè)填充節(jié)點(diǎn)會(huì)使用該模型預(yù)測(cè)的值替換空白值和 Null值。然后使用過(guò)濾節(jié)點(diǎn)刪除該模型生成的預(yù)測(cè)字段。 ? 如果還要為特定字段強(qiáng)制賦值,則可以使用類型節(jié)點(diǎn)來(lái)確保字段類型僅包含合法值,然后將需要替換空值字段的檢查列設(shè)置為強(qiáng)制。 第 23章 數(shù)據(jù)挖掘項(xiàng)目實(shí)施 2023/3/28 CLEM函數(shù)處理缺失值 ? 表達(dá)式操作語(yǔ)言 CLEM全名為 Clementine Language for Expression Manipulation,是在 Clementine中執(zhí)行函數(shù)運(yùn)算時(shí)的專用語(yǔ)法,用于分析和操縱在 Clementine流中流動(dòng)的數(shù)據(jù),是一個(gè)功能強(qiáng)大的語(yǔ)言。 第 23章 數(shù)據(jù)挖掘項(xiàng)目實(shí)施 2023/3/28 ? 有多個(gè) CLEM函數(shù)可用于處理缺失值。選擇節(jié)點(diǎn)和填充節(jié)點(diǎn)中經(jīng)常會(huì)用以下函數(shù)來(lái)刪除或填充缺失值: ? count_nulls( LIST) ? BLANK( FIELD) ? NULL( FIELD) ? undef ? 函數(shù)可以與 FIELD函數(shù)一起使用,來(lái)識(shí)別一個(gè)或多個(gè)字段中是否存在空值或非 Null值。當(dāng)出現(xiàn)空值或非 Null值時(shí),一般會(huì)對(duì)此類字段進(jìn)行標(biāo)記,也可以用替換值填充或者在各種其他操作中使用此類字段。 ? 如下所示,可以計(jì)算字段列表中的非 Null值的數(shù)量: ? count_nulls( [‘cardtenure’‘card2tenure’‘card3tenure39。]) ? 如果要使用接受輸入類型的字段列表的函數(shù),則可以使用特定的 FIELDS_BETWEEN和FIELDS_MATCHING函數(shù),如下所示: ? count_nulls( FIELDS_MATCHING(‘ card*39。)) ? 在選擇字段中用填充節(jié)點(diǎn)把缺失值替換成 0,如圖 23- 18用填充節(jié)點(diǎn)將選定字段中的非 Null值替換為 0所示。 第 23章 數(shù)據(jù)挖掘項(xiàng)目實(shí)施 2023/3/28 PMML模型 ?PMML( predictive model markup language,稱為預(yù)測(cè)模型標(biāo)記語(yǔ)言)是一個(gè) XML基礎(chǔ)的標(biāo)
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1