【正文】
(1)數(shù)據(jù)倉(cāng)庫(kù)移動(dòng)通信DS S數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)來(lái)自不同的系統(tǒng),它們對(duì)數(shù)據(jù)的存儲(chǔ)和管理可能采用不同的形式,同時(shí)數(shù)據(jù)可能存在缺失和不一致 ,因此必須對(duì)數(shù)據(jù)行處理 。數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的組織方式為進(jìn)行這種查詢分析提供了可能,但是僅僅依靠數(shù)據(jù)倉(cāng)庫(kù)本身 并不能完成這種復(fù)雜的數(shù)據(jù)查詢分析。( 3) 數(shù) 據(jù) 挖 掘 數(shù) 據(jù)挖掘是從大量 數(shù)據(jù)中提取人們感興趣 的 、 隱含 的 、 潛在有 用的信息 。 有效構(gòu)建高效的數(shù)據(jù)挖掘模型,是成功實(shí)施數(shù)據(jù)挖掘任 務(wù)的關(guān)鍵。在n維空間中應(yīng)用聚類數(shù)據(jù)挖掘時(shí),采用明考斯基距離:d(i,j)=(︱xi1-xj1︱q+︱xi2-xj2︱q+…+︱xip-xjp︱q)1/q在聚類分析中,有的生產(chǎn)參數(shù)數(shù)據(jù)值根據(jù)聚類需要給予較大的權(quán)重。 d(i,j)=(w1︱xi1-xj1︱q+w2︱xi2-xj2︱q+…+wp︱xip-xjp︱q)1/q另一種極端情況是把所有的記錄歸入一個(gè)類,雖然實(shí)現(xiàn)了概括數(shù)據(jù)庫(kù)內(nèi)容的目的,但是不能 提供任何有用的信息。決策支持客戶數(shù)據(jù)集市客戶屬性類知識(shí)庫(kù)通話屬性……抽取樣本分層聚類規(guī)則提取綜合評(píng)價(jià)數(shù)據(jù)倉(cāng)庫(kù)圖2 移動(dòng)通信決策支持挖掘模型本文選定某電信企業(yè)動(dòng)感地帶業(yè)務(wù)3個(gè)月的80 0 0條數(shù)據(jù),首先運(yùn)用 E T L對(duì)數(shù)據(jù)進(jìn)行抽取和規(guī)范化等處理, 然后在 C l e me n t i n e平臺(tái)上運(yùn)用 C 5 .0分類算法, 預(yù)測(cè)出有流失傾向的客戶和其流失特征,運(yùn)用 K ~ m e a n s 聚類算法總結(jié)歸納不同客戶群的流失特征,最后針對(duì)不同客戶的流失特征,制定挽留計(jì)劃4 .1數(shù)據(jù)預(yù)處理 數(shù)據(jù)預(yù)處理是對(duì)生產(chǎn)系統(tǒng)的數(shù)據(jù)進(jìn)行數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換,它是數(shù)據(jù)挖掘中花費(fèi)時(shí)間 最長(zhǎng)的過程,并需對(duì)行業(yè)領(lǐng)域知識(shí)有較深的理解。 同ETL工具處理后,8000條記錄產(chǎn)生了50個(gè)字段。其他字段作為預(yù)測(cè)字段,通過歸納分析他們的特征來(lái)預(yù)測(cè)用戶是否離網(wǎng)。將在數(shù)據(jù)抽樣階段分離出的檢驗(yàn)數(shù)據(jù)集輸入該客戶流失預(yù)測(cè)模型中,借助 Analysis 節(jié)點(diǎn), 分析該模 型的準(zhǔn)確率。2006[2]