freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

大數(shù)據(jù)應(yīng)用基礎(chǔ)-數(shù)據(jù)挖掘流程77(存儲版)

2025-03-31 10:38上一頁面

下一頁面
  

【正文】 ? 具體辦法可以是:把各屬性所在區(qū)間平均分成 8份,每一份對應(yīng) 1個離散值。 ? 在 實踐中,很多數(shù)值型變量的分布都偏斜、不對稱,這會干擾模型的擬合, 影響變量的 預(yù)測性能 。 數(shù)據(jù)標(biāo)準(zhǔn)化 ? 最常用的數(shù)據(jù)標(biāo)準(zhǔn)化方法有兩種: –標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化( Zscore transformation、零均值法、 Zeromean normalization)。 ? 抽樣的主要原因是如果數(shù)據(jù)全集的規(guī)模太大,運算資源的消耗會很大,而且 運算時間 很長。 ? 如果兩組群體的成員數(shù)量大致相當(dāng),分類算法的性能最好。 但是 : –過多的特征會使得機器學(xué)習(xí)的訓(xùn)練變 慢。 ? 如果多個自變量之間線性相關(guān)性很強,只需要保留一個就可以了。 ? 可以分為線性的和非線性的。每個主成分都是由多個 原始變量線性組合 而成的。 后續(xù)步驟 數(shù)據(jù)挖掘 ? 這是最核心的一步。 分類算法評估的主要宗旨 ? 主要宗旨就是: ? 減少誤判(假陽性)和漏判(假陰性)。 ? 縱軸是真陽性率(真正 率 ),即 TPR( True Positive Rate)或 Sensitivity,即實際為正例預(yù)測也是正例的概率,即: – TP/(TP+FN),即 實際 為 正例 預(yù)測也為 正例的個數(shù)除以實際 為正例的 個數(shù)。 分類算法 評估 ——Lift曲線 ? Lift曲線顯示了采用模型后與沒采用模型相比的改進(jìn)。 分類算法評估 ——Lift曲線 ? 橫軸是樣本大小在所有潛在用戶中的占比;縱軸是所得到的回應(yīng)數(shù)量。 分類算法評估 ——其他 ? 其他有代表性的模型評估的方法還有 10折交叉驗證 : ? 3折交叉驗證( crossvalidation):在交叉驗證中,先要確定一個固定的折數(shù)( number of folds),比如3折。 分類算法評估 的 目的 ? 我們可以對不同的分類算法,設(shè)置不同的參數(shù),進(jìn)行反復(fù)比較,根據(jù)在多個效果指標(biāo)(比如 Lift)上是否有 穩(wěn)定 的好的表現(xiàn),選擇一個 最終落地應(yīng)用的模型。 數(shù)據(jù) 挖掘是一個反復(fù)循環(huán)的過程 ? 數(shù)據(jù)挖掘是一個反復(fù)循環(huán)的過程。 ? 在交叉驗證時,我們可以準(zhǔn)備幾個不同時間窗口、不同范圍的測試集和驗證集,在不同的數(shù)據(jù)集里面對模型進(jìn)行交叉檢驗。 ? 輸入變量不要太多。 ? 減少 樣本中的噪聲數(shù)據(jù)。它可看作一種變通的方法,它 不使用 全部的歷史數(shù)據(jù),而是把過去的數(shù)據(jù)分成兩份,其中一份當(dāng)做訓(xùn)練集,另一份當(dāng)做測試集(用來模擬“未來的”數(shù)據(jù))。在促銷兩周后,我們發(fā)現(xiàn)成交顧客數(shù)量顯著提升。測試集用來計算誤差率。那么,發(fā)送多少封郵件比較合適呢? ? 如果給全部用戶都發(fā)送,會賠錢。它直觀易懂。 ? 我們經(jīng)常用 AUC來比較各種分類器的效果。 分類算法評估 ——混淆矩陣 ? 可見,預(yù)測正確的實例數(shù)量遠(yuǎn)遠(yuǎn)多于預(yù)測錯誤的實例數(shù)量。 ? 對分類模型,通常采用的指標(biāo)有: ROC曲線、 Lift曲線。適用于多維數(shù)據(jù)。 ? 主成分分析 ( PCA)是用少量 指標(biāo)(即主成分)來表示原先較多 的指標(biāo)。 ? R平方 ( RSquare)借鑒多元線性回歸的算法來判斷 對目標(biāo)變量有重要預(yù)測意義 的自變量,也就是找出哪些自變量能顯著地解釋目標(biāo)變量的變異性。 屬性篩選的 方法 ——線性相關(guān)性 ? 最簡單、最常用的方法就是通過自變量之間的線性 相關(guān)性 指標(biāo)進(jìn)行初步篩選。這就需要進(jìn)行特征選擇( feature selection),即屬性篩選。否則可能會有樣本偏差( sample bias)。 ? 包括兩類: 屬性篩選和數(shù)據(jù)歸約 。比如,當(dāng)創(chuàng)建一個聚類模型時,我們需要確保所有字段都有近似的標(biāo)度。 –分析 人員常常容易從現(xiàn)有的數(shù)據(jù)庫中直接提取現(xiàn)成的字段,而經(jīng)常忘記一些衍生的新字段 ,這 需要有業(yè)務(wù)知識來支持。其他兩個箱與此類似。 數(shù)據(jù)轉(zhuǎn)換 ——離散化 ? 如果對連續(xù)變量進(jìn)行離散化,可以避免引入任何分布假設(shè)。又如,年齡為 140歲無疑是個異常值。 ? 處理離群點的另一種辦法是對變量進(jìn)行標(biāo)準(zhǔn)化,從而縮小值域。 離群點能從表象上判別出來,而噪聲則是隨機的、取值是沒有規(guī)律的。 識別數(shù)據(jù) 噪聲 ?還好,噪聲數(shù)據(jù)都是少數(shù)! ?通過數(shù)據(jù)探索,能很容易發(fā)現(xiàn)噪聲數(shù)據(jù)。此法通過回歸模型、決策樹、貝葉斯定理等 去預(yù)測缺失值的最近似的替代值。 缺失值的處理方法 –通過兩個變量之間的相關(guān)關(guān)系來填充 。 –使用屬性的中心度量來 填充 。此法適于 有 缺失值的個案的 數(shù)量占比很 小的情況 下。例如,銀行并不特別需要知道客戶的年齡,所以年齡變量會存在許多缺失值。例如,在銷售表中的顧客信息當(dāng)中,也許除了名字外,其他各個屬性都有缺失值。 ? 如果數(shù)據(jù)有誤,那么所得到的結(jié)果很可能有誤導(dǎo)性。 ? 通過 散點圖 ,能了解 屬性之間 是否 有相關(guān)性 。 ? 幾乎很少有現(xiàn)成的數(shù)據(jù)能直接使用。 ? 又例如,對同一個省份可能用了不同的名稱。 ? 如果我們確定這兩個字段是一致的,那么我們就能夠把標(biāo)識相同的客戶當(dāng)作同一個客戶。因為,沒有 高質(zhì)量的數(shù)據(jù) ,就沒有高質(zhì)量的挖掘結(jié)果。 數(shù)據(jù)準(zhǔn)備的重要性 數(shù)據(jù)準(zhǔn)備工作占用的時間往往 在 60%以上! 數(shù)據(jù)集成 ? 數(shù)據(jù)挖掘或統(tǒng)計分析可能用到來自 不同數(shù)據(jù)源 的數(shù)據(jù),我們需要將這些數(shù)據(jù)集成在一起。 數(shù)據(jù)集成 中屬性值不一致的問題 ? 同一個人的名字可能在一個數(shù)據(jù)庫中登記為“王思聰”,在另一個數(shù)據(jù)庫中則登記為“ Sicong Wang” 。 一種度量 另一 種 度量 數(shù)據(jù)集成中 的屬性冗余問題 ? 一個屬性可能能由另一個或一組屬性導(dǎo)出。 數(shù)據(jù) 探索的方法 ? 在 R中的 summary(變量名 )這種指
點擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1