【正文】
e a n s 聚類算法總結歸納不同客戶群的流失特征,最后針對不同客戶的流失特征,制定挽留計劃4 .1數據預處理 數據預處理是對生產系統的數據進行數據清理、數據集成、數據變換,它是數據挖掘中花費時間 最長的過程,并需對行業(yè)領域知識有較深的理解。數據預處理可使用成熟 的 E T L 工具 , 如 P o w e r ma r t,也可使用開發(fā)工具定制開發(fā)預處理程序。E T L工具通常應用于企業(yè)數據倉庫的建立,這兩種方法實際上無太大區(qū)別,文章采用 C l e m e n t i n e 直接對數據進行抽取、 轉換、 裝載。形成的客戶屬性表通常都會包含以下信息: 用戶基本屬性信息, 即人口統計學數據 ,如年齡 、性別等,以及其他數據 ,如在網時長、付款方式、套餐等;通話行為數據,即通話次數、通話計費、賬單數據。 同ETL工具處理后,8000條記錄產生了50個字段。 客戶流失預測模型的建立 通過關聯度分析之后,文章選取了13個與客戶流失有密切關系的字段作為預測的輸入字段。他們分別是:年齡、在網時間、本地通話時間、撥打異地移動電話費、撥打本地移動電話費、短信息費、本地白天通話時間、本地夜晚通話時間、短信此時、國內話費、國際化肥、本地話費、用戶狀態(tài)。是用戶流失預測模型中的目標字段,取值1或者0,1代表離網,0待變在網。其他字段作為預測字段,通過歸納分析他們的特征來預測用戶是否離網。模型評估是對建立的客戶離網預測模型進行評價并改進。對于離網模型的評估有多種指標,這里主要采用正確率指標,借助Clementine中的Analysis節(jié)點來對上述離網模型評估。預測正確率=正確預測個數/測試樣本數X100%。將在數據抽樣階段分離出的檢驗數據集輸入該客戶流失預測模型中,借助 Analysis 節(jié)點, 分析該模 型的準確率。 該 C 5. 0模型得出的檢驗結果的正確率高達 9 9 1 %, 具有很高的預測準確性。因此這里無需對該模型進行進一步的優(yōu)化。 參考文獻[1] Jiawei HAN Micheline Kamber. Data Mining Concepts and Techniques,Second 。2006[2]