freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

大數(shù)據(jù)應(yīng)用基礎(chǔ)-數(shù)據(jù)挖掘流程(編輯修改稿)

2025-03-29 10:56 本頁(yè)面
 

【文章內(nèi)容簡(jiǎn)介】 ? 特別要注意的是,這些數(shù)據(jù)點(diǎn) 不一定是噪聲 。我們要從中剔除真正不正常的數(shù)據(jù),而保留看起來(lái)不正常,但實(shí)際上真實(shí)的數(shù)據(jù)。有時(shí),這些并非噪聲的異常點(diǎn)包含著重要的信息,例如信用卡用戶惡意欺詐檢測(cè)就需要保留異常點(diǎn)。 ? 處理離群點(diǎn)的另一種辦法是對(duì)變量進(jìn)行標(biāo)準(zhǔn)化,從而縮小值域。 ? 對(duì)于時(shí)間序列數(shù)據(jù)和空間數(shù)據(jù),則采用其他方法進(jìn)行異常點(diǎn)的檢測(cè)。 識(shí)別異常值 ? 除了上述辦法,還可以僅憑 單個(gè)變量 所提供的信息來(lái)識(shí)別異常值。 ? 對(duì)于異常值,處理辦法是: – 一般建議 剔除 。 – 此外,在聚類(lèi)分析中,可以采用 隨機(jī)抽樣。這樣,作為稀有事件的數(shù)據(jù)噪聲和異常值能被抽進(jìn)樣本的概率會(huì)很小,這樣樣本就比較干凈。 ? 判斷方法如下: –對(duì)于類(lèi)別型變量,是否某個(gè)類(lèi)別出現(xiàn)的次數(shù)太少、太稀有?比如其占比不到 1%。 –對(duì)于數(shù)值型變量,是否某些取值太大?比如,一般的客戶平均每天買(mǎi) 2次,而某幾個(gè)客戶每天買(mǎi)100次。又如,年齡為 140歲無(wú)疑是個(gè)異常值。 重復(fù)數(shù)據(jù) ? 重復(fù)數(shù)據(jù)主要有兩種: –個(gè)案可能會(huì)重復(fù) 。比如,輸入數(shù)據(jù)時(shí),意外地多次輸入了同一個(gè)個(gè)案。 ? 屬性也可能 會(huì)冗余。在集成多個(gè)數(shù)據(jù)庫(kù)時(shí),同一個(gè)屬性在不同的數(shù)據(jù)庫(kù)中會(huì)有不同的字段名(例如birthday和生日),這時(shí)我們只要保留其中一個(gè)字段就可以。這種冗余通常在數(shù)據(jù)集成的步驟中就解決了。 數(shù)據(jù)轉(zhuǎn)換 ? 數(shù)據(jù)轉(zhuǎn)換(即數(shù)據(jù)變換、 Data transformation) ? 主要是利用現(xiàn)有的字段進(jìn)行運(yùn)算來(lái)得到新的字段。通常說(shuō)到數(shù)據(jù)變換,包括四種: –數(shù)據(jù)離散化(采用分箱等方式)、 –產(chǎn)生衍生 變量 、 –使 變量分布更接近正態(tài)分布 、 –數(shù)據(jù)標(biāo)準(zhǔn)化。 數(shù)據(jù)轉(zhuǎn)換 ——離散化 ? 如果對(duì)連續(xù)變量進(jìn)行離散化,可以避免引入任何分布假設(shè)。這樣就不需要符合正態(tài)分布了。 數(shù)據(jù) 轉(zhuǎn)換 ——離散化 ? 數(shù)據(jù) 分箱( Binning)是對(duì) 連續(xù)數(shù)據(jù)進(jìn)行 離散化 、 增加粒度的主要辦法, 這是一種很典型的數(shù)據(jù)變換。它把一個(gè)連續(xù)性的數(shù)值字段根據(jù)其值分組,轉(zhuǎn)換成一個(gè)擁有幾個(gè)不同類(lèi)別的字段。分箱的主要目的是去除 噪聲 。 ? 具體取值方式有:按 箱 平均值 平滑、按箱中值平滑以及按箱邊界值 平滑。 ? 舉例: ? 假設(shè) 有 2 1 4 1 6 25等 9個(gè)數(shù),分為 3箱。 – 箱 1: 2 15 – 箱 2: 4 10 – 箱 3: 1 6 25 ? 按箱 平均值 求得平滑數(shù)據(jù)值:箱 1: 1 1 16,平均值是 16,這樣該箱中的每一個(gè)值被替換為 16。其他兩個(gè)箱與此類(lèi)似。 數(shù)據(jù)轉(zhuǎn)換 ——離散化 ? 對(duì)于決策樹(shù)算法,往往需要對(duì)連續(xù)變量進(jìn)行離散化,從而使輸出的決策樹(shù)通俗易懂 。 ? 具體辦法可以是:把各屬性所在區(qū)間平均分成 8份,每一份對(duì)應(yīng) 1個(gè)離散值。 數(shù)據(jù) 轉(zhuǎn)換 ——產(chǎn)生衍生變量 ? 具體有兩種: 1. 把 非數(shù)值型數(shù)據(jù) 轉(zhuǎn)換成數(shù)值 型 。例如:把“男”轉(zhuǎn)換成 1,“女”轉(zhuǎn)換成 0;根據(jù) 用戶出生年月日得到其當(dāng)前的年齡 。 2. 采用簡(jiǎn)單的數(shù)學(xué)公式,產(chǎn)生更加 有商業(yè)意義的衍生變量 。主要有均值、占比、比率等種類(lèi)。例如家庭人均年收入、用戶年均消費(fèi)金額。 –分析 人員常常容易從現(xiàn)有的數(shù)據(jù)庫(kù)中直接提取現(xiàn)成的字段,而經(jīng)常忘記一些衍生的新字段 ,這 需要有業(yè)務(wù)知識(shí)來(lái)支持。 數(shù)據(jù)轉(zhuǎn)換 ——使 變量分布更接近正態(tài)分布 ? 最 常見(jiàn) 的改善變量分布的轉(zhuǎn)換 方法是對(duì)變量 取對(duì)數(shù) ( take log) 。 ? 在 實(shí)踐中,很多數(shù)值型變量的分布都偏斜、不對(duì)稱(chēng),這會(huì)干擾模型的擬合, 影響變量的 預(yù)測(cè)性能 。 ? 此種轉(zhuǎn)換和分箱有異曲同工之處,都具有提高變量的預(yù)測(cè)能力,強(qiáng)化自變量與因變量的關(guān)系,從而提高預(yù)測(cè)模型的擬合效果。因此,在實(shí)踐中,經(jīng)常對(duì)這兩種方式分別進(jìn)行嘗試,采用其中的一種。 ? 不過(guò) ,這種非線性轉(zhuǎn)換的含義缺少清晰的商業(yè)邏輯,商業(yè)應(yīng)用者可能不太能理解。 數(shù)據(jù)標(biāo)準(zhǔn)化 ? 數(shù)據(jù)標(biāo)準(zhǔn)化( Data rescale、規(guī)范化):是把區(qū)間較大的數(shù)據(jù)按比例縮放,使之落入一個(gè)比較小的區(qū)間中,比如 0~1或 1~1。 ? 標(biāo)準(zhǔn)化可以提高涉及距離度量的算法的準(zhǔn)確率和效率。比如,當(dāng)創(chuàng)建一個(gè)聚類(lèi)模型時(shí),我們需要確保所有字段都有近似的標(biāo)度。標(biāo)準(zhǔn)化能夠避免出現(xiàn)聚類(lèi)結(jié)果完全由某個(gè)具有很大變化范圍的屬性主導(dǎo)的情況。 數(shù)據(jù)標(biāo)準(zhǔn)化 ? 最常用的數(shù)據(jù)標(biāo)準(zhǔn)化方法有兩種: –標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化( Zscore transformation、零均值法、 Zeromean normalization)。經(jīng)過(guò)這種方法處理后的變量符合標(biāo)準(zhǔn)正態(tài)分布,均值為 0,標(biāo)準(zhǔn)差為 1。 –最小最大值法( Min/Max transformation、 MinMax標(biāo)準(zhǔn)化)能把各變量的值歸一化到 [0,1]范圍之內(nèi)。 數(shù)據(jù)歸約 ? 數(shù)據(jù)歸約屬于數(shù)據(jù)預(yù)處理,但不屬于數(shù)據(jù)清理。這一步也叫數(shù)據(jù)簡(jiǎn)化。 ? 數(shù)據(jù)歸約( data reduction):在 保持?jǐn)?shù)據(jù)的完整性的前提下 ,把 需要分析的數(shù)據(jù) 量大幅減小,從而加快 算法 運(yùn)行 速度 ,但能夠產(chǎn)生幾乎同樣質(zhì)量的分析結(jié)果。 ? 包括兩類(lèi): 屬性篩選和數(shù)據(jù)歸約 。 數(shù)據(jù) 歸約 ——抽樣 ? 抽樣可看作數(shù)據(jù)歸約( numerosity reduction)的一種。 ? 抽樣的主要原因是如果數(shù)據(jù)全集的規(guī)模太大,運(yùn)算資源的消耗會(huì)很大,而且 運(yùn)算時(shí)間 很長(zhǎng)。 ? 另一 個(gè)常見(jiàn)原因是:在很多小概率、稀有事件(例如信用卡欺詐)的預(yù)測(cè)建模中,如果按原始數(shù)據(jù)來(lái)分析,是很難得到有意義的預(yù)測(cè)的。因此,需要人為增加樣本中稀有事件的濃度和在樣本中的
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1