【正文】
的評(píng)估。本論文在使用數(shù)據(jù)挖掘技術(shù)的基礎(chǔ)上,從龐大的客戶數(shù)據(jù)庫中,找出目標(biāo)客戶,為企業(yè)贏得更多的人力,節(jié)省大量的物力、財(cái)力 [6] 且大大地提升企業(yè)的工作效率。數(shù)據(jù)挖掘基于統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫技術(shù)、面向?qū)ο蠓椒ā⑷斯ぶ悄?、高性能?jì)算、機(jī)器學(xué)習(xí)、知識(shí)工程、信息檢索及數(shù)據(jù)可視化等多種技術(shù)結(jié)合為一體的多學(xué)科的交叉研究領(lǐng)域,不但能夠查詢歷史信息,還能從歷史信息中尋找相關(guān)潛在聯(lián)系,然后進(jìn)行高層次的分析,從中提取有價(jià)值的、潛在的模型、知識(shí)、模式和規(guī)律等,在此過程中,能夠根據(jù)已有的發(fā)現(xiàn)從而對(duì)未來進(jìn)行預(yù)測(cè),幫助決策者調(diào)整市場,最后做出科學(xué)的決策。1.?dāng)?shù)據(jù)挖掘的概念及其操作過程(1)數(shù)據(jù)挖掘的概念隨著網(wǎng)絡(luò)信息化的到來、信息存儲(chǔ)技術(shù)及計(jì)算機(jī)數(shù)據(jù)庫技術(shù)的飛速發(fā)展,面臨著不是信息的匱乏,而是對(duì)于龐大數(shù)據(jù)庫感到不知所措,人們迫切想要從這些數(shù)據(jù)中提取有用的信息,為人類創(chuàng)造價(jià)值,因此有效的技術(shù)顯得尤為重要。 3 / 37二、數(shù)據(jù)挖掘與客戶分類概述(一)關(guān)于數(shù)據(jù)挖掘在“數(shù)據(jù)膨脹但是只是貧乏”的時(shí)代,人們?yōu)榱四軌蚋玫睦矛F(xiàn)有數(shù)據(jù),對(duì)其進(jìn)行更深層次的分析。因此如何建立合理的客戶篩選模型,定位目標(biāo)客戶顯得尤為重要。從相關(guān)資料分析得出,新浪微博平臺(tái)往往帶來非目標(biāo)客戶如兒童、老人等,也帶來大量捏造的、虛假的客戶資料。同時(shí),由于新浪微博的特殊性,也帶來了大量的非目標(biāo)客戶。2 / 37從這些方面能夠看出,當(dāng)今社會(huì)數(shù)據(jù)挖掘技術(shù)對(duì)于客戶分類具有相當(dāng)重要的意義及作用。同樣對(duì)于一個(gè)企業(yè)來說,數(shù)據(jù)挖掘過程能夠有助于發(fā)現(xiàn)企業(yè)業(yè)務(wù)發(fā)展的趨勢(shì),預(yù)測(cè)未知的結(jié)果,揭示已知的事實(shí),且?guī)椭髽I(yè)分析出完成要求任務(wù)所需的關(guān)鍵因素,從而達(dá)到降低成本、增加收入,使企業(yè)處于更有利的競爭位置的目的。對(duì)于企業(yè)而言,有助于降低企業(yè)成本,提高企業(yè)競爭力,能夠幫助企業(yè)“走出去”,快速交換、獲得信息。(一)研究背景根據(jù) CNZZ 權(quán)威發(fā)布的第 31 次中國互聯(lián)網(wǎng)統(tǒng)計(jì)報(bào)告,截止到 2022 年 12 月底,我國微博用戶持續(xù)增長,規(guī)模達(dá)到 億,比較 2022 年增長 5873 億,網(wǎng)民中的微博用戶較去年相比提升 6 個(gè)百分比,達(dá)到了 %[2]。數(shù)據(jù)挖掘技術(shù)是從先前不知的、大量的、模糊的、不完整的隨機(jī)的數(shù)據(jù)中提取潛在的有用的知識(shí)及信息的一個(gè)過程。因此,企業(yè)必須從“產(chǎn)品”導(dǎo)向向“客戶”導(dǎo)向轉(zhuǎn)變,從而對(duì)客戶進(jìn)行有效管理,深層分析存儲(chǔ)大量客戶信息的數(shù)據(jù)倉庫,提高企業(yè)市場競爭力,獲得有利于商業(yè)運(yùn)作,有效信息從而創(chuàng)造更多的價(jià)值。關(guān)鍵詞: 決策樹;目標(biāo)客戶;CART;新浪微博;數(shù)據(jù)挖掘II / 37ABSTRACTOur society, now is full of information. Based on the rapid development of the data warehouse and data mining technology, peting in work platform increases day by day. So the customer management bees one of the most important issues.This paper, based on the theory, technology and methods about data mining and got classification tree for the main ideas of the modeling. Made the customer information of Microblog into the properties the Conclusion form, using the CART algorithm of classification tree which based on the smallest of Gini index. By building the tree, pruning the tree and assessing the tree, the customers are classified. As a result, target and nontarget customers are distinguished rapidly and accurately.Based on the data mining, the models of microblog with target customers do some adjustments, then we can finally get the optimization model. The bination of data warehouse model, applied to real life can greatly improve efficiency, in other words, the customer or the pany will both benefit lots from this.Key words:Decision Tree;Searching Target Customers ;CART ;Microblog ;Data Mining3 / 37目 錄摘要 ........................................................................................................................................IABSTRACT ..........................................................................................................................II一、前言 ................................................................................................................................1(一)研究背景 ..............................................................................................................1(二)選題目的 ..............................................................................................................2二、數(shù)據(jù)挖掘與客戶分類概述 ............................................................................................3(一)關(guān)于數(shù)據(jù)挖掘 ......................................................................................................31.?dāng)?shù)據(jù)挖掘的概念及其操作過程 ....................................................................32.?dāng)?shù)據(jù)挖掘常用技術(shù) ........................................................................................5(二)關(guān)于客戶分類 ........................................................................................................61. 客戶分類的概念 ...............................................................................................62. 新浪微博客戶分類的意義 ...............................................................................63. 新浪微博客戶操作流程 ...................................................................................74. 新浪微博客戶分類中的具體應(yīng)用 ...................................................................85. 新浪微博客戶分類及特征 ...............................................................................8三、CART 算法及其在新浪微博客戶分類中的具體應(yīng)用 ..............................................10(一 )CART 算法簡介 ................................................................................................10(二)CART 算法的優(yōu)缺點(diǎn)及適用性 ........................................................................13(三)CART 算法在新浪微博客戶分類中的具體應(yīng)用 ............................................141. 問題定義 .......................................................................................................142. 數(shù)據(jù)準(zhǔn)備 .......................................................................................................143. 數(shù)據(jù)變換 .......................................................................................................164. CART 算法的具體應(yīng)用過程 ........................................................................21四、對(duì)新浪微博客戶分類的結(jié)果分析 ..............................................................................28(一)客戶分類及其相應(yīng)的營銷策略 ........................................................................28(二)CART 算法的不足與改進(jìn) ................................................................................30結(jié)論 ......................................................................................................................................32參考文獻(xiàn) ..............................................................................................................................33致謝 ......................................................................................................................................341 / 37一、前言由于通訊技術(shù)迅猛發(fā)展,中國網(wǎng)絡(luò)發(fā)生了根本性地改變,與國外相比,國內(nèi)的交流平臺(tái)面對(duì)著一個(gè)全新的,全球化的,競爭更加激烈的市場環(huán)境。在數(shù)據(jù)挖掘技術(shù)模型的基礎(chǔ)上,將新浪微博的目標(biāo)客戶模型做部分的調(diào)整,最終能夠得到最優(yōu)化模型。I / 37摘 要基于當(dāng)今這個(gè)高度信息化的時(shí)代,數(shù)據(jù)挖掘技術(shù)及數(shù)據(jù)倉庫的高速發(fā)展,通過網(wǎng)絡(luò)平臺(tái)交流的用戶日趨增加,客戶分類就成為了當(dāng)今社會(huì)首要解決的問題。本論文在數(shù)據(jù)挖掘的理論、方法及技術(shù)上,以決策樹為建模主要思想,采用決策樹中的基于 Gini 指數(shù)的分類和回歸樹(CART)算法,把新浪微博客戶信息轉(zhuǎn)化為屬性結(jié)論式的形式,通過構(gòu)建樹、修剪樹、評(píng)估模型三步驟,將客戶進(jìn)行分類,從而快速準(zhǔn)確地區(qū)分目標(biāo)客戶及非目標(biāo)客戶。該模型有著響應(yīng)時(shí)間較短且精度高的特點(diǎn),若運(yùn)用到實(shí)際生活中能夠大大地提升客戶分類的效率,那么無論是企業(yè)還是個(gè)人都將從中受益良多。在這樣一個(gè)商業(yè)時(shí)代,資源占有率成為一個(gè)企業(yè)生死存亡的關(guān)鍵點(diǎn),客戶才是企業(yè)生存與發(fā)展的根本,而對(duì)于如何改善客戶服務(wù),增加