freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

cart算法在新浪微博客戶分類中的應(yīng)用研究-wenkub.com

2025-06-16 08:32 本頁面
   

【正文】 感謝所有幫助過我,和支持我的人,謝謝你們!相信我!我會(huì)一直努力,一直奮斗,一直學(xué)習(xí),一直往上走,不辜負(fù)每個(gè)人對(duì)我的期望。總是在我無助的時(shí)候一語提點(diǎn),讓我又重新站起來,沒有高老師的指導(dǎo),就沒有現(xiàn)在論文的順利完成,此處非常感謝高老師??偟膩碚f,用 CART 算法建立的模型很容易被人所理解,且相比較其他的算法更為精準(zhǔn),更快速度,用 CART 算法對(duì)電信市場新浪微博客戶分類建立模型,相比而言,是相對(duì)適合的一種數(shù)據(jù)挖掘算法。因此在實(shí)際情況中可以根據(jù)實(shí)際情況設(shè)置這五項(xiàng)為必填項(xiàng)。(二)CART 算法的不足與改進(jìn)1. CART 算法的不足CART 算法的不足主要體現(xiàn)在準(zhǔn)確率沒有別的分類例如邏輯回歸方法高,但是本次模型的客戶信息有一定比例的缺失,因此最終還是選擇利用 CART 算法。增加忠誠度的關(guān)鍵是了解客戶,新浪微博極大地消除了時(shí)間與地理位置的限制,創(chuàng)造了讓雙方更容易接近和交流的信息機(jī)制。伶俐的企業(yè)就會(huì)舉行各類話題評(píng)論,從參加者中發(fā)現(xiàn)潛伏客戶。在新浪微博上,可以本人組建群組,也可以參加到一些曾經(jīng)組建起來的群組。在微博平臺(tái)上,一個(gè)十分風(fēng)趣的特征就是在這個(gè)平臺(tái)上有很多伴侶在議論公司,議論產(chǎn)物和效勞,議論同業(yè),議論相關(guān)行業(yè)的話題,這些碎碎語里鑲嵌了太多的關(guān)鍵詞,經(jīng)過如許的關(guān)鍵詞,就可以從中找到對(duì)方。2)籌劃有構(gòu)思的運(yùn)動(dòng)堆積粉絲。1. 非目標(biāo)客戶在四種情況下為非目標(biāo)客戶:當(dāng) 300<關(guān)注數(shù)≤600 或 900<關(guān)注數(shù)≤1500 且微博數(shù)<500 時(shí),100≤收藏?cái)?shù)≤300 且互粉數(shù)≤200 或 1000<互粉數(shù)≤2022;當(dāng) 300<關(guān)注數(shù)≤600 或 900<關(guān)注數(shù)≤1500 且微博數(shù)<500 時(shí),收藏?cái)?shù)>300 且 5000<互粉數(shù)≤50000;關(guān)注數(shù)≤300 或 600<關(guān)注數(shù)≤900 或關(guān)注數(shù)≥1500 且粉絲數(shù)≤5000 或粉絲數(shù)>10000 時(shí),收藏?cái)?shù)≤100 或 300<收藏?cái)?shù)≤10000 且 500<微博數(shù)≤2022 或 5000<微博數(shù)≤10000 且 50000<粉絲數(shù)≤100000;關(guān)注數(shù)≤300 或 600<關(guān)注數(shù)≤900 或關(guān)注數(shù)≥1500 且粉絲數(shù)≤5000 或粉絲數(shù)>10000 時(shí),100<收藏?cái)?shù)≤300 或收藏?cái)?shù)>10000 且10000<粉絲數(shù)≤50000 或 100000<粉絲數(shù)≤202200 且 5000<微博數(shù)≤表 所示:表 非目標(biāo)客戶情況情況一 情況二 情況三 情況四300<關(guān)注數(shù)≤600 or900<關(guān)注數(shù)≤1500300<關(guān)注數(shù)≤600 or900<關(guān)注數(shù)≤1500關(guān)注數(shù)≤300 or600<關(guān)注數(shù) ≤900or關(guān)注數(shù)≥1500關(guān)注數(shù)≤ 300 or600<關(guān)注數(shù)≤900or關(guān)注數(shù)≥1500微博數(shù)<500 微博數(shù)<500粉絲數(shù)≤5000 or粉絲數(shù)>10000or10000<粉絲數(shù) ≤50000or100000<粉絲數(shù)≤202200粉絲數(shù)≤5000 or粉絲數(shù)>10000or10000<粉絲數(shù)≤50000or100000<粉絲數(shù)≤202200收藏?cái)?shù)≤100or300<收藏?cái)?shù)≤10000100≤收藏?cái)?shù)≤300收藏?cái)?shù)>300 100<收藏?cái)?shù) ≤300or收藏?cái)?shù)>10000500<微博數(shù)≤2022or5000<微博數(shù)≤10000and50000<粉絲數(shù)≤100000互粉數(shù)≤200 or1000<互粉數(shù)≤20225000<互粉數(shù)≤50000 5000<微博數(shù)≤10000對(duì)于非目標(biāo)客戶來說,首先要將他們轉(zhuǎn)化成潛在客戶。以節(jié)點(diǎn) 15 為例,非目標(biāo)客戶的數(shù)量過半,這表明了此節(jié)點(diǎn)的預(yù)測結(jié)果為非目標(biāo)客戶,而從根節(jié)點(diǎn)到這個(gè)節(jié)點(diǎn)的路徑便是一條非目標(biāo)客戶的識(shí)別規(guī)則。利用快速的方法,從龐大客戶群中篩選目標(biāo)客戶。此 CART 模型結(jié)果的依據(jù)是根據(jù)葉子節(jié)點(diǎn)中目標(biāo)客戶與非目標(biāo)客戶兩個(gè)目標(biāo)變量的比例分布,即在一個(gè)葉子節(jié)點(diǎn)中,若目標(biāo)客戶的數(shù)量超過非目標(biāo)客戶,那么此節(jié)點(diǎn)的預(yù)測結(jié)果為“是”,若情況相反便是“否”。首先定義客戶是否為目標(biāo)客戶,然后將目標(biāo)變量加入到匯總后的 EXCEL 數(shù)據(jù)表中,結(jié)果如下圖所示:圖 處理后的訓(xùn)練集上述步驟便是數(shù)據(jù)預(yù)處理、分類匯總及確定變量,而此時(shí)的數(shù)據(jù)基本符合建模21 / 37要求。在之前的數(shù)據(jù)的分類匯總及預(yù)處理過程中,我們已經(jīng)將對(duì)模型有關(guān)聯(lián)的變量進(jìn)行分析,這為我們?cè)诤竺嬷贫ê饬磕繕?biāo)客戶的標(biāo)準(zhǔn)提供了準(zhǔn)則。具體操作如下圖所示:圖 過濾變量(3)變量值確定方法本論文目的主要為挖掘新浪微博平臺(tái)中的目標(biāo)客戶及非目標(biāo)客戶,目標(biāo)客戶指當(dāng)前活躍在新浪微博平臺(tái)的用戶,而非目標(biāo)客戶指的是當(dāng)前對(duì)新浪門戶做的貢獻(xiàn)不大,但在不久的將來可能給新浪門戶帶來更多價(jià)值及利潤的用戶。這樣才能使數(shù)據(jù)更有意義,有助于下一步的研究。由于分類樹的最大優(yōu)點(diǎn)是能夠允許空缺數(shù)據(jù)的尋在,因此對(duì)于空缺的數(shù)值統(tǒng)一賦“ null”,而對(duì)于本次數(shù)據(jù)清洗主要針對(duì)錯(cuò)誤的數(shù)據(jù)。綜上所述,導(dǎo)入 clementine 軟件的變量分別為用戶昵稱、性別、地址、粉絲數(shù)、關(guān)注數(shù)、微博數(shù)及收藏?cái)?shù)。雖然 clementine 能對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,但是先排除一些輸入變量,這有助于提高所建模型的結(jié)果精準(zhǔn)度以及數(shù)據(jù)處理效率。由于數(shù)據(jù)比較龐大,本文采用具有強(qiáng)大數(shù)據(jù)統(tǒng)計(jì)分析功能的 clementine 存放數(shù)據(jù),而在將數(shù)據(jù)導(dǎo)入 clementine 之前,先人工初步對(duì)變量進(jìn)行處理,刪除不需要的變量。1. 問題定義目標(biāo)客戶的尋找就是從電信市場新浪微博所收集的龐大客戶數(shù)據(jù)集中尋找到目標(biāo)客戶,從而提高客戶獲得率。基于以上 CART 算法的獨(dú)特優(yōu)點(diǎn),對(duì)于本次目標(biāo)客戶篩選,客戶信息能夠表達(dá)成屬性結(jié)論式樣式,本文采用該模型。如:CART 算法沒有對(duì)目標(biāo)變量及預(yù)測變量概率分布上要求,這使得不會(huì)因?yàn)轭A(yù)測變量不同及目標(biāo)變量概率的分布造成的結(jié)果;CART 算法能夠?qū)杖甭毼贿M(jìn)行處理,因此減少了由于空缺值所造成的信息偏差; CART 算法能夠處理孤立點(diǎn)即在數(shù)據(jù)集中與其他數(shù)據(jù)具有不同特征的數(shù)據(jù),使孤立點(diǎn)成為一個(gè)單獨(dú)的葉子節(jié)點(diǎn),從而對(duì)進(jìn)一步的分支不會(huì)產(chǎn)生任何影響;CART 算法使用二元分支,這能夠充分運(yùn)用全部的數(shù)據(jù),盡可能發(fā)現(xiàn)全部樹的結(jié)構(gòu);與其他算法如神經(jīng)網(wǎng)絡(luò)算法相比,CART 算法的效率更高。交叉驗(yàn)證使用訓(xùn)練集中的一部分?jǐn)?shù)據(jù),訓(xùn)練集既用于訓(xùn)練且也用于測試,此方法的核心是創(chuàng)建多個(gè)測試決策樹,將訓(xùn)練集分成 N 個(gè)子集,創(chuàng)建 N 棵測試決策樹,在每次創(chuàng)建樹后,選擇一個(gè)子集作為測試集,其他 N1 個(gè)子集為訓(xùn)練集。)(in)(11tgtTt??t 2T循環(huán)此過程,能夠產(chǎn)生系列子樹 直到修剪后所得的以左右字?jǐn)?shù)及根為n,.21葉子節(jié)點(diǎn)的樹,并把它作為有序的子樹集的最后一個(gè)子樹。其修剪過程如下 [18]:(1)構(gòu)建 1:首先在 max中將滿足 R(t)=R(t )+R(t )的子樹剪枝,獲得的修剪后的子樹即為 1T ;(2)生成有序的子樹序列:任給 1T 中的節(jié)點(diǎn) t,記{t},則 Ra(t )=R(t)+a。對(duì) 刪減的過程中一定會(huì)產(chǎn)生一系列子樹 。CART 算法采取后剪枝(postpruning)的方法,后剪枝是一個(gè)過程,它由 “完全生長”的樹剪去分枝,決策樹剪枝可視為決策樹對(duì)構(gòu)造的邏輯延續(xù)。maxT12 / 374. 樹的剪枝判定樹創(chuàng)建完成后,由于數(shù)據(jù)中的孤立點(diǎn)及噪聲,很多分枝反映出訓(xùn)練集中的異常。min)(?iXspltGini(2)在上步驟所得到的最優(yōu)劃分點(diǎn)中選擇對(duì)此結(jié)點(diǎn)最優(yōu)的分割點(diǎn),成為此結(jié)點(diǎn)的分割規(guī)則。對(duì)于所有的 P,所以 GINI系數(shù)一定為正數(shù),除非其中的一個(gè) P 為 1,而其他比為 0。 樹的生成決策樹的核心算法是確定決策樹分枝準(zhǔn)則,該準(zhǔn)則涉及到兩個(gè)方面問題:⑴如何在眾多的輸入變量中選擇出一個(gè)最佳的分組變量;⑵如何在分組變量的眾多取值中尋找到最佳的分割值。11 / 372. 數(shù)據(jù)預(yù)處理 數(shù)據(jù)挖掘過程的關(guān)鍵步驟之一便是對(duì)初始數(shù)據(jù)集的準(zhǔn)備及變換。(3)使用評(píng)估算法從第(2)步產(chǎn)生的子樹序列中選出一棵最優(yōu)樹作為最終的決策樹。 ),.( ),.(,.},.{21 21121k mtmtyYxXxXL n??其中,L 是訓(xùn)練樣本集, 是屬性向量(Attribute Vectors),其屬性可~以是離散的或者是有序的的;Y 是標(biāo)簽向量(Label Vectors),其屬性可以是離散的或者是有序的。該模型采用二叉樹,將預(yù)測空間遞歸劃分成若干個(gè)子集,在子集上 Y 變量上的分布是均勻及連續(xù)的。微博具體行為的使用分類五類:1)網(wǎng)絡(luò)公關(guān)(即指網(wǎng)絡(luò)危機(jī)公關(guān))2)更新企業(yè)的動(dòng)態(tài)信息 3)進(jìn)行在線的調(diào)研 4)顧客網(wǎng)上服務(wù) 5)發(fā)起活動(dòng)(公益、娛樂及促銷)。(2)企業(yè)即企業(yè)是從事生產(chǎn)、流通、服務(wù)等經(jīng)濟(jì)活動(dòng),以此來滿足社會(huì)的需求,實(shí)行獨(dú)立核算、依法設(shè)立、自主經(jīng)營,而且在新浪門戶中注冊(cè)微博,并對(duì)商戶認(rèn)證。該群體類用戶的特點(diǎn):用戶年齡范圍從 15—60 歲,跨度非常之大,其中,又以 18—35 歲的中青年為主體。依據(jù)微博用戶的心理特征、規(guī)模和行為分析,把微博分成兩大類:個(gè)人用戶、組織和機(jī)構(gòu)。在達(dá)到上述目標(biāo)下,構(gòu)建一種最優(yōu)化模型,能采用最低的成本,從龐大客戶數(shù)據(jù)庫中尋找到目標(biāo)客戶。而數(shù)據(jù)挖掘技術(shù)可以快速地從客戶數(shù)據(jù)庫中尋找到目標(biāo)客戶,在提升查找目標(biāo)客戶的準(zhǔn)確度上提高了新浪門戶的工作效率。(3)數(shù)據(jù)挖掘與分析部數(shù)據(jù)挖掘與分析部門是對(duì)整個(gè)流程進(jìn)行把控,通過分析反饋效果,從而提出科學(xué)的決策,最后對(duì)流程的每個(gè)步驟進(jìn)行最優(yōu)化調(diào)整,使得企業(yè)效率最大化。這樣獲得客戶信息的方式天羅地網(wǎng),但是有一個(gè)缺點(diǎn)就是客戶散亂,存在著很多非目標(biāo)客戶,而查找目標(biāo)客戶就是本論文要解決的問題。免費(fèi)是網(wǎng)上資源互換,即通過自身發(fā)布的信息和對(duì)方進(jìn)行交換獲得客戶的信息。而客戶分類不但能夠?yàn)樾吕宋⒉┲付ㄏ到y(tǒng)及科學(xué)的差別化提供了證據(jù),而且提高新浪微博中企業(yè)及個(gè)人的推廣。2. 新浪微博客戶分類的意義當(dāng)前,越來越多的行業(yè)運(yùn)用客戶分類來實(shí)現(xiàn)企業(yè)利潤的增長及服務(wù)水平的提高。改動(dòng)算法成本低,且效率高,適用于海量數(shù)據(jù)。為了找尋數(shù)據(jù)庫中最大信息量的字段采用信息論中的信息增益即互信息,在建立決策樹的節(jié)點(diǎn)后,再根據(jù)每個(gè)字段的取值來構(gòu)建樹的分枝,又在每個(gè)分枝的子集中,建立節(jié)點(diǎn)與分枝的循環(huán)過程。目前,此算法的運(yùn)用領(lǐng)域廣泛,如計(jì)算機(jī)科學(xué)、工程技術(shù)等領(lǐng)域,遺傳算法的研究工作有:分布并行遺傳算法、遺傳神經(jīng)網(wǎng)絡(luò)、分類系統(tǒng)、基礎(chǔ)理論等。而人工神經(jīng)網(wǎng)絡(luò)的過程,主要分為學(xué)習(xí)與工作兩個(gè)階段,在學(xué)問題定義 數(shù)據(jù)準(zhǔn)備 數(shù)據(jù)變換 數(shù)據(jù)挖掘 模型評(píng)估和結(jié)果分析6 / 37習(xí)的過程中,此算法一定要依靠學(xué)習(xí)算法,來此糾正學(xué)習(xí)過程中的偏誤差或偏離 [11]。而根據(jù)關(guān)聯(lián)算法處理值的類型,又可分成布爾關(guān)聯(lián)規(guī)則和量化關(guān)聯(lián)規(guī)則兩類。為本論文主要是是關(guān)于分類和回歸樹算法。結(jié)果分析是利用預(yù)測集數(shù)據(jù)去判斷,查看是否符合實(shí)際。4)數(shù)據(jù)挖掘:準(zhǔn)備好數(shù)據(jù)之后,就對(duì)這批數(shù)據(jù)和業(yè)務(wù)進(jìn)行研究,對(duì)該業(yè)務(wù)問題進(jìn)行需求分析,確定數(shù)據(jù)挖掘的任務(wù)和算法以及最終目的。其次對(duì)數(shù)據(jù)進(jìn)行預(yù)處理把選取后的數(shù)據(jù)做進(jìn)一步的分析。故簡化的數(shù)據(jù)挖掘流程如下 [8],見圖 。數(shù)據(jù)挖掘是一個(gè)多步驟的過程,之間反復(fù)調(diào)整及相互影響,從而形成一個(gè)螺旋式的上升過程。數(shù)據(jù)挖掘的目標(biāo)是幫助決策者找到數(shù)據(jù)間的特征(Pattern )、潛在的關(guān)聯(lián)性( Relation)、趨勢(Trend )等,發(fā)現(xiàn)容易被忽視的要素,對(duì)決策行為及預(yù)測未來十分有用 [4]。在經(jīng)過不斷完善后,如今,應(yīng)用在不同的領(lǐng)域,本小節(jié)的主要內(nèi)容便是介紹數(shù)據(jù)挖掘與分析的理論與技術(shù)。而人工篩選目標(biāo)客戶只會(huì)大大降低整個(gè)市場的效益,浪費(fèi)了企業(yè)大量的物力、人力以及財(cái)力。(二)選題目的作為如今人類生活溝通必需品且服務(wù)于社會(huì)各階層的新浪微博,其在互聯(lián)網(wǎng)、廣播、電視等各種媒體上的覆蓋面,各種實(shí)體上的推廣,和在網(wǎng)絡(luò)上的推廣,在社會(huì)上產(chǎn)生巨大的影響力及知名度,最終帶來了大量的目標(biāo)客戶群。數(shù)據(jù)挖掘是分析與探索大量數(shù)據(jù),以求發(fā)現(xiàn)有意義的規(guī)則與模式的過程。正是有了這種技術(shù)的支持,才使得客戶分類的理念及目標(biāo)得以完成,滿足當(dāng)前時(shí)代激烈競爭的需求。在這樣一個(gè)商業(yè)時(shí)代,資源占有率成為一個(gè)企業(yè)生死存亡的關(guān)鍵點(diǎn),客戶才是企業(yè)生存與發(fā)展的根本,而對(duì)于如何改善客戶服務(wù),增加客戶滿意度和忠誠度,提升客戶價(jià)值來擴(kuò)大自身的收入和利潤,如何用信息化管理來替代原有的傳統(tǒng)管理手段等方法,是新浪門戶當(dāng)前解決的重要問題之一。本論文在數(shù)據(jù)挖掘的理論、方法及技術(shù)上,以決策樹為建模主要思想,采用決策樹中的基于 Gini 指數(shù)的分類和回歸樹(CART)算法,把新浪微博客戶信息轉(zhuǎn)化為屬性結(jié)論式的形式,通過構(gòu)建樹、修剪樹、評(píng)估模型三步驟,將客戶進(jìn)行分類,從而快速準(zhǔn)確地區(qū)分目標(biāo)客戶及非目標(biāo)客戶。在數(shù)據(jù)挖掘技術(shù)模型的基礎(chǔ)上,將新浪微博的目標(biāo)客戶模型做部分的調(diào)整,最終能夠得到最優(yōu)化模型。因此,企業(yè)必須從“產(chǎn)品”導(dǎo)向向“客戶”導(dǎo)向轉(zhuǎn)變,從而對(duì)客戶進(jìn)行有效管理,深層分析存儲(chǔ)大量客戶信息的數(shù)據(jù)倉庫,提高企業(yè)市場競爭力,獲得有利于商業(yè)運(yùn)作,有效信息從而創(chuàng)造更多的價(jià)值。(一)研究背景根據(jù) CNZZ 權(quán)威發(fā)布的第 31 次中國互聯(lián)網(wǎng)統(tǒng)計(jì)報(bào)告,截止到 2022 年 12 月底,我國微博用戶持續(xù)增長,規(guī)模達(dá)到 億,比較 2022 年增長 5873 億,網(wǎng)民中的微博用戶較去年相比提升 6 個(gè)百分比,達(dá)到了 %[2]。同樣對(duì)于一個(gè)企業(yè)來說,數(shù)據(jù)挖掘過程能夠有助于發(fā)現(xiàn)企業(yè)業(yè)務(wù)發(fā)展的趨勢,預(yù)測未知的結(jié)果,揭示已知的事實(shí),且?guī)椭髽I(yè)分析出完成要求任務(wù)所需的關(guān)鍵因素,從而達(dá)到降低成本、增加收入,使企業(yè)處于更有利的競爭位置的目的。同時(shí),由于新浪微博的特殊性,也帶
點(diǎn)擊復(fù)制文檔內(nèi)容
黨政相關(guān)相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1