freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘項目實施概述(編輯修改稿)

2025-03-27 11:37 本頁面
 

【文章內(nèi)容簡介】 。 ? 在 Clementine中有許多技巧來處理缺失值,可以根據(jù)數(shù)據(jù)的以下特征來選擇最佳方法: ? 數(shù)據(jù)集的大小 ? 包含空值的字段數(shù) ? 缺失信息量 ? 一旦分析了上述因素,就可以選擇下述兩種方法來處理: ? 忽略帶有缺失值的字段或記錄 ? 可以使用各種方法歸因、替換或強制賦值缺失值 第 23章 數(shù)據(jù)挖掘項目實施 2023/3/28 ? 如果大部分缺失值都集中在少量記錄中,只需排除這些記錄即可。例如,銀行通常會保存詳細而完整的貸款客戶的記錄。但是,如果銀行在審批內(nèi)部職員的貸款時管制不嚴,則所收集的員工貸款數(shù)據(jù)可能會存在空白字段。此種情況下,有 兩種方法 可以處理缺失值: ? 可以使用選擇節(jié)點刪除員工記錄。 ? 如果數(shù)據(jù)集很大,使用者可以在一個選擇節(jié)點上,使用 BLANK和 NULL函數(shù)來剔除帶有空格的所有記錄。 ? 第 23章 數(shù)據(jù)挖掘項目實施 2023/3/28 如大部分缺失值都集中在少量字段中,可通過字段而不是記錄查找這些缺失值。 確定要采用的方法時,還應(yīng)考慮帶有缺失值的字段類型。 ? 數(shù)值字段 對于數(shù)值字段類型(如范圍),應(yīng)在構(gòu)建模型前清除所有非數(shù)字值,因為如果數(shù)值字段中包含空值,很多模型將無效。 ? 分類字段 對于分類字段(如集合和標志),雖然不必更改缺失值,但更改后可以提高模型的精度。 第 23章 數(shù)據(jù)挖掘項目實施 2023/3/28 要篩選或刪除帶有大量缺失值的字段,可以采用以下幾種方法: ? 使用數(shù)據(jù)審核節(jié)點根據(jù)質(zhì)量過濾字段。 ? 可以使用特征選擇節(jié)點來篩選缺失值超過指定百分比的字段,并根據(jù)相對于特定目標的重要性來對字段進行排序。 ? 除刪除字段以外,還可以使用類型節(jié)點將字段方向設(shè)置為無。此操作可將字段保留在數(shù)據(jù)集中,但不會對其進行建模操作。 第 23章 數(shù)據(jù)挖掘項目實施 2023/3/28 ? 在僅有少量缺失值的情況下,可以用插入值來替換空值。下列方法可用于輸入缺失值: ? 替換為固定值(可以選用字段平均值、范圍中間值或者指定的常數(shù))。 ? 替換為基于正態(tài)分布或均勻分布產(chǎn)生的隨機值。 ? 用于指定定制表達式。例如,可以使用設(shè)置全局量節(jié)點創(chuàng)建的全局變量進行替換。 ? 基于 CRT算法替換為模型預(yù)測的值。對于使用此方法輸入的每個字段,都會有一個單獨的 CRT模型,還有一個填充節(jié)點會使用該模型預(yù)測的值替換空白值和 Null值。然后使用過濾節(jié)點刪除該模型生成的預(yù)測字段。 ? 如果還要為特定字段強制賦值,則可以使用類型節(jié)點來確保字段類型僅包含合法值,然后將需要替換空值字段的檢查列設(shè)置為強制。 第 23章 數(shù)據(jù)挖掘項目實施 2023/3/28 CLEM函數(shù)處理缺失值 ? 表達式操作語言 CLEM全名為 Clementine Language for Expression Manipulation,是在 Clementine中執(zhí)行函數(shù)運算時的專用語法,用于分析和操縱在 Clementine流中流動的數(shù)據(jù),是一個功能強大的語言。 第 23章 數(shù)據(jù)挖掘項目實施 2023/3/28 ? 有多個 CLEM函數(shù)可用于處理缺失值。選擇節(jié)點和填充節(jié)點中經(jīng)常會用以下函數(shù)來刪除或填充缺失值: ? count_nulls( LIST) ? BLANK( FIELD) ? NULL( FIELD) ? undef ? 函數(shù)可以與 FIELD函數(shù)一起使用,來識別一個或多個字段中是否存在空值或非 Null值。當(dāng)出現(xiàn)空值或非 Null值時,一般會對此類字段進行標記,也可以用替換值填充或者在各種其他操作中使用此類字段。 ? 如下所示,可以計算字段列表中的非 Null值的數(shù)量: ? count_nulls( [‘cardtenure’‘card2tenure’‘card3tenure39。]) ? 如果要使用接受輸入類型的字段列表的函數(shù),則可以使用特定的 FIELDS_BETWEEN和FIELDS_MATCHING函數(shù),如下所示: ? count_nulls( FIELDS_MATCHING(‘ card*39。)) ? 在選擇字段中用填充節(jié)點把缺失值替換成 0,如圖 23- 18用填充節(jié)點將選定字段中的非 Null值替換為 0所示。 第 23章 數(shù)據(jù)挖掘項目實施 2023/3/28 PMML模型 ?PMML( predictive model markup language,稱為預(yù)測模型標記語言)是一個 XML基礎(chǔ)的標
點擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1