freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

[工學]騰訊大講堂59-數(shù)據(jù)蘊含商機_挖掘決勝千里-文庫吧

2025-03-30 00:42 本頁面


【正文】 ) ? 描述型挖掘:對數(shù)據(jù)進行概括,以方便的形式呈現(xiàn)數(shù)據(jù)的重要特征 ? 預測型挖掘:根據(jù)觀察到的對象特征值來預測它的其他特征值 ? 描述型挖掘可以是目的,也可以是手段 數(shù)據(jù)挖掘是一個過程 “from data mining to knowledge discovery in database”. U. fayyad, and (1996) 數(shù)據(jù)挖掘方法論 ? CRISP_DM ( Cross Industry Standard Process for DM) – 1998年,由 NCR、Clementine、 OHRA和DaimlerBenz的聯(lián)合項目組提出 ? SEMMA – SAS公司提出的方法 – Sample, Explore, Modify, Model, Assess ? 在戰(zhàn)略上使用 Crisp_DM方法論,在戰(zhàn)術上應用 SEMMA方法論 工欲善其事必先利其器 ? 數(shù)據(jù)清洗 ? 填充缺失值 , 修均噪聲數(shù)據(jù) , 識別或刪除孤立點 , 并解決數(shù)據(jù)不一致問題 ? 主要分析方法:分箱( Binning)、聚類、回歸 ? 數(shù)據(jù)集成 ? 多個數(shù)據(jù)庫、數(shù)據(jù)方或文件的集成 ? 數(shù)據(jù)變換 ? 規(guī)范化與匯總 ? 數(shù)據(jù)簡化 ? 減少數(shù)據(jù)量的同時 , 還可以得到相同或相近的分析結果 ? 主要分析方法:抽樣、主成分分析 ? 數(shù)據(jù)離散化 ? 數(shù)據(jù)簡化的一部分 , 但非常重要 (尤其對于數(shù)值型數(shù)據(jù)來說 ) 先來玩玩數(shù)據(jù)( EDA) ? 探索性數(shù)據(jù)分析( Exploratory Data Analysis, EDA) ? 探索性地查看數(shù)據(jù),概括數(shù)據(jù)集的結構和關系 ? 對數(shù)據(jù)集沒有各種嚴格假定 ? 主要任務 ? 數(shù)據(jù)可視化( a picture is worth a thousand words) ? 殘差分析(數(shù)據(jù)=擬合 + 殘差) ? 數(shù)據(jù)的重新表達(什么樣的尺度-對數(shù)抑或平方根-會簡化分析) ? 方法的耐抗性(對數(shù)據(jù)局部不良的不敏感性,如中位數(shù)耐抗甚于均值) ? 常見方法 ? 統(tǒng)計量,如均值、方差、根方差、協(xié)方差、峰度、偏度、相關系數(shù)等 ? 統(tǒng)計圖,如餅圖、直方圖、散點圖、箱尾圖等 ? 模型,如聚類 數(shù)據(jù)挖掘 = 模型 + 算法 分類預測 關聯(lián)規(guī)則 孤立點探測 聚類 Logistic Regression 決策樹 神經(jīng)網(wǎng)絡 KMeans KMode SOM(自組織圖) Apriori FPGrowth 基于統(tǒng)計 基于距離 基于偏差 你使用過信用卡嗎? ? 卡應該發(fā)給誰? ? 哪些持卡人會拖欠? ? 哪些拖欠的客戶會還款? 影響 資產(chǎn)組合 ( Portfolio) 根據(jù)歷史,預測將來 目標是一個分類變量 預測結果是一個統(tǒng)計意義下的概率 哪些人可以發(fā)卡,額度是多少。 持卡人拖欠的概率是多少 該對誰催收 分類過程 NA M E RA NK Y E A RS T E NURE DM i k e A s s i s t a n t P r o f
點擊復制文檔內(nèi)容
教學課件相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1