freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

大數(shù)據(jù)應(yīng)用基礎(chǔ)-數(shù)據(jù)挖掘流程-文庫(kù)吧資料

2025-03-15 10:56本頁(yè)面
  

【正文】 相似。因此,需要人為增加樣本中稀有事件的濃度和在樣本中的占比。 ? 抽樣的主要原因是如果數(shù)據(jù)全集的規(guī)模太大,運(yùn)算資源的消耗會(huì)很大,而且 運(yùn)算時(shí)間 很長(zhǎng)。 ? 包括兩類: 屬性篩選和數(shù)據(jù)歸約 。這一步也叫數(shù)據(jù)簡(jiǎn)化。 –最小最大值法( Min/Max transformation、 MinMax標(biāo)準(zhǔn)化)能把各變量的值歸一化到 [0,1]范圍之內(nèi)。 數(shù)據(jù)標(biāo)準(zhǔn)化 ? 最常用的數(shù)據(jù)標(biāo)準(zhǔn)化方法有兩種: –標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化( Zscore transformation、零均值法、 Zeromean normalization)。比如,當(dāng)創(chuàng)建一個(gè)聚類模型時(shí),我們需要確保所有字段都有近似的標(biāo)度。 數(shù)據(jù)標(biāo)準(zhǔn)化 ? 數(shù)據(jù)標(biāo)準(zhǔn)化( Data rescale、規(guī)范化):是把區(qū)間較大的數(shù)據(jù)按比例縮放,使之落入一個(gè)比較小的區(qū)間中,比如 0~1或 1~1。因此,在實(shí)踐中,經(jīng)常對(duì)這兩種方式分別進(jìn)行嘗試,采用其中的一種。 ? 在 實(shí)踐中,很多數(shù)值型變量的分布都偏斜、不對(duì)稱,這會(huì)干擾模型的擬合, 影響變量的 預(yù)測(cè)性能 。 –分析 人員常常容易從現(xiàn)有的數(shù)據(jù)庫(kù)中直接提取現(xiàn)成的字段,而經(jīng)常忘記一些衍生的新字段 ,這 需要有業(yè)務(wù)知識(shí)來(lái)支持。主要有均值、占比、比率等種類。例如:把“男”轉(zhuǎn)換成 1,“女”轉(zhuǎn)換成 0;根據(jù) 用戶出生年月日得到其當(dāng)前的年齡 。 ? 具體辦法可以是:把各屬性所在區(qū)間平均分成 8份,每一份對(duì)應(yīng) 1個(gè)離散值。其他兩個(gè)箱與此類似。 ? 舉例: ? 假設(shè) 有 2 1 4 1 6 25等 9個(gè)數(shù),分為 3箱。分箱的主要目的是去除 噪聲 。 數(shù)據(jù) 轉(zhuǎn)換 ——離散化 ? 數(shù)據(jù) 分箱( Binning)是對(duì) 連續(xù)數(shù)據(jù)進(jìn)行 離散化 、 增加粒度的主要辦法, 這是一種很典型的數(shù)據(jù)變換。 數(shù)據(jù)轉(zhuǎn)換 ——離散化 ? 如果對(duì)連續(xù)變量進(jìn)行離散化,可以避免引入任何分布假設(shè)。 數(shù)據(jù)轉(zhuǎn)換 ? 數(shù)據(jù)轉(zhuǎn)換(即數(shù)據(jù)變換、 Data transformation) ? 主要是利用現(xiàn)有的字段進(jìn)行運(yùn)算來(lái)得到新的字段。在集成多個(gè)數(shù)據(jù)庫(kù)時(shí),同一個(gè)屬性在不同的數(shù)據(jù)庫(kù)中會(huì)有不同的字段名(例如birthday和生日),這時(shí)我們只要保留其中一個(gè)字段就可以。比如,輸入數(shù)據(jù)時(shí),意外地多次輸入了同一個(gè)個(gè)案。又如,年齡為 140歲無(wú)疑是個(gè)異常值。 ? 判斷方法如下: –對(duì)于類別型變量,是否某個(gè)類別出現(xiàn)的次數(shù)太少、太稀有?比如其占比不到 1%。 – 此外,在聚類分析中,可以采用 隨機(jī)抽樣。 識(shí)別異常值 ? 除了上述辦法,還可以僅憑 單個(gè)變量 所提供的信息來(lái)識(shí)別異常值。 ? 處理離群點(diǎn)的另一種辦法是對(duì)變量進(jìn)行標(biāo)準(zhǔn)化,從而縮小值域。我們要從中剔除真正不正常的數(shù)據(jù),而保留看起來(lái)不正常,但實(shí)際上真實(shí)的數(shù)據(jù)。從而識(shí)別出異常程度較高的個(gè)案,即落在簇集合之外的個(gè)案。 對(duì)于取值正常的噪聲點(diǎn),我們還沒(méi)辦法檢測(cè)。 離群點(diǎn)能從表象上判別出來(lái),而噪聲則是隨機(jī)的、取值是沒(méi)有規(guī)律的。 識(shí)別異常個(gè)案 ? 對(duì)于多維數(shù)據(jù),異常個(gè)案的識(shí)別可以通過(guò) 聚類 技術(shù)。 –其他 平滑方法還有:基于時(shí)間序列分析,根據(jù)前一段歷史趨勢(shì)數(shù)據(jù)對(duì)當(dāng)前數(shù)據(jù)進(jìn)行修正。 處理數(shù)據(jù) 噪聲 ? 對(duì)噪聲數(shù)據(jù),我們的處理辦法有: –最廣泛應(yīng)用的處理方式是數(shù)據(jù) 平滑( Smoothing) 。 識(shí)別數(shù)據(jù) 噪聲 ?還好,噪聲數(shù)據(jù)都是少數(shù)! ?通過(guò)數(shù)據(jù)探索,能很容易發(fā)現(xiàn)噪聲數(shù)據(jù)。 ? 數(shù)據(jù) 噪聲太 多,會(huì)導(dǎo)致數(shù)據(jù)價(jià)值大大降低。例如,對(duì)某幾個(gè)變量 沒(méi)缺失值的客戶建立一個(gè)模型 ,而對(duì)這幾個(gè)變量 有缺失值的客戶建立另一個(gè)模型 。這種方法最嚴(yán)謹(jǐn),但是成本較高。此法通過(guò)回歸模型、決策樹(shù)、貝葉斯定理等 去預(yù)測(cè)缺失值的最近似的替代值。我們可以用歐式距離來(lái)找到與含缺失值的個(gè)案最相似的 10個(gè)個(gè)案,用它們的中位數(shù)或均值來(lái)填充缺失值。此法假定如果兩個(gè)個(gè)案是相似的,那么其中一個(gè)個(gè)案在某變量上的缺失值很可能與另一個(gè)個(gè)案在這個(gè)變量上的值是相似的。我們可以通過(guò)這個(gè)公式來(lái)計(jì)算出一個(gè)值,用于填充缺失值。 缺失值的處理方法 –通過(guò)兩個(gè)變量之間的相關(guān)關(guān)系來(lái)填充 。 此法與上一種方法類似。但 其簡(jiǎn)單、速度快,適用于大數(shù)據(jù)集 。對(duì)于接近 正態(tài)分布的變量來(lái)說(shuō) , 平均值 是最佳選擇;然而,對(duì)于 偏態(tài)分布的變量來(lái)說(shuō) ,中位數(shù) 是更好的指標(biāo)。 –使用屬性的中心度量來(lái) 填充 。 缺失值的處理方法 –人工填寫(xiě)缺失值 。此法適于那些缺失值占比(例如超過(guò) 20%)較大的變量。但是,丟棄所有包含缺失值的個(gè)案可能會(huì)引入偏差,因?yàn)檫@些個(gè)案不一定是隨機(jī)分布的。此法適于 有 缺失值的個(gè)案的 數(shù)量占比很 小的情況 下。 –刪除 缺失值較多 (例如 20%以上的屬性都存在缺失值) 的個(gè)案 (即記錄、行、實(shí)例、元組) ,尤其是關(guān)鍵的屬性值缺失的個(gè)案。因此客服人員在不知道這個(gè)日期時(shí),就會(huì)鍵入 6個(gè)“ 1”,從而輸入 1911年 11月 11日 。一個(gè)類似的例子是,數(shù)據(jù)中很多客戶在 1911年出生。例如,銀行并不特別需要知道客戶的年齡,所以年齡變量會(huì)存在許多缺失值。 缺失值的成因 ? 有時(shí),當(dāng)你從外部數(shù)據(jù)源中追加人口統(tǒng)計(jì)信息到客戶信息中時(shí),你沒(méi)能找到一部分客戶的此類信息。 ? 產(chǎn)生缺失值的原因很多,可能是: –這些數(shù)據(jù)并沒(méi)被記錄下來(lái); –測(cè)量設(shè)備出現(xiàn)故障; –對(duì)數(shù)據(jù)錯(cuò)誤地更新導(dǎo)致某些字段信息丟失; –被測(cè)量的對(duì)象(頭蓋骨或植物)損壞或死亡了。 缺失值的成因 ? 分析師首先應(yīng)該了解數(shù)據(jù)缺失的原因。例如,在銷售表中的顧客信息當(dāng)中,也許除了名字外,其他各個(gè)屬性都有缺失值。 ? 這一 步主要針對(duì)缺失值、數(shù)據(jù)噪聲、離群值。這對(duì)數(shù)據(jù)清理很有幫助。 數(shù)據(jù)清理 ? 如果你的企業(yè)中有數(shù)據(jù)倉(cāng)庫(kù), 應(yīng)弄清楚這些數(shù)據(jù)是怎樣收集的 ,這對(duì)理解數(shù)
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1