freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

cart算法在新浪微博客戶分類中的應用研究-預覽頁

2025-07-13 08:32 上一頁面

下一頁面
 

【正文】 知識及信息的過程而所得到的信息有有效性、事先未知及實用性的特點。(2)數(shù)據(jù)挖掘過程數(shù)據(jù)挖掘是一個高效的、能從數(shù)據(jù)訓練集中識別出潛在有用、新穎、有效及最終能夠被理解模式的過程。CRISPDM (Crossindustry Standard 4 / 37Process For Data Mining), 即為跨行業(yè)數(shù)據(jù)挖掘過程標準反映了一個完整的數(shù)據(jù)挖掘環(huán)境。2)數(shù)據(jù)選擇:為進行分析而收集數(shù)據(jù),這一步可能成為這一整個過程中最重要的步驟,這一步應當確定選取數(shù)據(jù)挖掘的訓練集數(shù)據(jù)的變量和它們的值域。3)數(shù)據(jù)變換:把選取后的數(shù)據(jù)轉換成數(shù)據(jù)挖掘所需的類型。關鍵在于這些算法的組合和不同算法的組合運用,以及算法的完善,使得適合最終更加地貼近實際,貼近業(yè)務方。數(shù)據(jù)挖掘過程如下圖所示:圖 數(shù)據(jù)挖掘流程2.數(shù)據(jù)挖掘常用技術在數(shù)據(jù)處理的過程中,數(shù)據(jù)挖掘算法,亦數(shù)據(jù)挖掘方法,成為數(shù)據(jù)挖掘技術的核心。(1)關聯(lián)算法關聯(lián)算法是與大多數(shù)人群所認為的數(shù)據(jù)挖掘最相似的一種數(shù)據(jù)挖掘的形式,主要針對的是事物型數(shù)據(jù)庫。(2)人工神經(jīng)算法簡單神經(jīng)元構成了神經(jīng)網(wǎng)絡,通過非常豐富和完善的連接構成自適應非線性動態(tài)系統(tǒng),具有著聯(lián)想記憶、自學習、自組織、自適應分布存儲等功能。目前,主要用在優(yōu)化、預測和控制、分類、模式識別等領域。此算法的核心領域為在只是源于對對象的分類的思想上,通過分類找到屬性之間的關聯(lián)規(guī)則 [12]。這樣便生成一個分類樹,接著對分類樹進行剪枝處理,最后把分類樹轉化成為規(guī)則。(二)關于客戶分類1. 客戶分類的概念客戶分類這個概念是由美國學者溫德爾客戶分類的結果表明,企業(yè)通過分析及檢測不同類的客戶行為,針對不同的客戶群,采取相應的措施。3. 新浪微博客戶操作流程新浪微博為個人及企業(yè)提供快速交流的平臺,其擁有著大量客戶。付費是企業(yè)等通過利用新浪微博平臺擴大知名度分為實體廣告、搜索引擎鏈接付費推廣等而搜索引擎付費推廣即通過新浪微博平臺利用關鍵字的排名,從中獲得客戶的信息。由于這兩種方式都能夠帶來許多跟蹤,監(jiān)督,反饋開拓,挖掘,激活審核,管理,分發(fā)8 / 37的目標客戶,為考慮到企業(yè)的整體效率,所以在將客戶或企業(yè)信息交給銷售跟進之前要對信息進行統(tǒng)一管理及細分,把最有效的客戶交給銷售來跟進,這樣能夠最大限度提升效率。目前,新浪門戶采取的措施是通過關鍵字篩選,然后一條一條的人工判斷。由于客戶數(shù)據(jù)庫一定會存在錯誤及缺失的情況,所以在建模的過程中,必須尋找一種允許數(shù)據(jù)存在錯誤及缺失信息的模型。中國著名的門戶網(wǎng)站新浪()于 2022 年 8 月份推出“新浪微博 ”,成為了中國電信市場第一個有微博功能的網(wǎng)站,因此微博正式進入上網(wǎng)主流人群的視野,而 2022 年 10 月份,中國的微博用戶總數(shù)達到 億,成為了世界第一大國。而個人用戶又分成名人(業(yè)內(nèi)知名人士、公司高層、娛樂體育9 / 37界明星、知名學者及媒體人)和普通用戶。普通網(wǎng)民的主題是發(fā)表博文即轉發(fā)或原創(chuàng),傳播方式為裂變式(即 1:n:n) [5],特征是影響力大,傳播的范圍廣。使用微博的目的為:利用微博平臺,進行網(wǎng)絡營銷,包括進行網(wǎng)站推廣、網(wǎng)絡品牌、信息發(fā)布、在線調(diào)研、銷售促進等。CART 選擇最小 GINI 系數(shù)值的屬性為測試屬性,GINI 值越小,樣本純凈度就越高,劃分的效果便越好。通過樹根到葉子節(jié)點的移動,預測訓練集被給予唯一一個的葉子節(jié)點,而同時確定 Y 變量在此節(jié)點中的條件分布。根據(jù)所定的樣本集 L,由以下三個步驟構建分類樹 [16]:(1)低規(guī)劃分訓練樣本:使用 L 構建樹 ,使得 中每一個葉節(jié)點要么很maxTax?。ńo定值 大于節(jié)點內(nèi)部所含樣本數(shù)量);得到惟一的屬性向量作為分支選擇,minN或者純節(jié)點(節(jié)點內(nèi)部樣本 Y 僅僅包含一類)。maxT的構建主要分為兩步驟:①數(shù)據(jù)預處理;②由根節(jié)點遞歸構建 。然后,針對屬性向量構建標準問題集,其中符號屬性向量即離散屬性向量與連續(xù)屬性向量,兩者的標準問題集的構建方法不相同 [17]。此系數(shù)用于測度各個個結點內(nèi) n(n=2)個類樣本的分布情況。 )()(??而對訓練集進行劃分時,劃分的規(guī)則是利用二叉樹的表示形式,CART 算法的開始是從根節(jié)點進行劃分,對各個結點進行重復遞歸的過程 [18]:(1)對于每個結點,選擇各個屬性的最優(yōu)劃分點。(3)重復對此結點分割出來的兩個結點進行分割這一過程。這種方法一般使用統(tǒng)計度量,剪去最不可靠能夠產(chǎn)生誤差的分枝,加快分類的速度,提高了樹獨立于測試數(shù)據(jù)正確的分類的能力。在刪減中,我們采用剪枝算法中代價復雜性剪枝也稱為 CART 剪枝,CART系統(tǒng)的代價復雜度最?。∕inimal costplexity pruning)原則,測度方法如下所示: (33)|*)(TaRTa??a 為復雜度參數(shù), ; 為該樹葉結點個數(shù);將 Ra(T)理解成該樹加權錯0?分率與對復雜度處罰值之和的復合成本。接著再以(3)式為選擇標準,使用獨立的測試集對各個子樹的 Ra(T )1T進行估計,進而選擇 Ra(T)最小的樹是最優(yōu)樹。解如上不等式得到: tRTatt ??)(|)( 所以 1|?tt13 / 37也即只要 1|)(??ttTRa , 與 t 節(jié)點具有同樣的代價復雜度,由于 t 節(jié)點比tT的節(jié)點更少,因此 t 節(jié)點比 t 更可取,這就是由 1T修剪成為有序的子樹集的主要思想。決策樹評估的主要有兩種方法:k 折交叉和簡單驗證。 K折交叉驗證避免了對獨立的和新的測試數(shù)據(jù)的要求,通過這種方法得到的最優(yōu)樹剔除了由于數(shù)據(jù)自身特性帶來的過度適應,且充分反映了數(shù)據(jù)中的一般特性。對于內(nèi)部同質(zhì)性較好的數(shù)據(jù),CART 算法分析的結果與其它分析方法得到的結果基本一致。這樣篩選的過程能夠加快,大幅度地提高企業(yè)效率。收集到的客戶信息均為靜態(tài)信息即用數(shù)字資料或文字描述來反映已經(jīng)發(fā)生的各種經(jīng)濟活動,且主要包括:用戶昵稱、性別、用戶 UID、粉絲數(shù)、關注數(shù)、微博數(shù)、互粉數(shù)、地址、語言版本、是否認證及注冊時間。截止到 2022 年 12 月份為止,采取的樣本的數(shù)據(jù)共有 50358 人。此外,變量查詢時間,由于本論文在同一時間段抽取數(shù)據(jù),所有的用戶的查詢時間段都是相同的為 2022 年 12月,即查詢時間及注冊時間不能反映出客戶客戶分類的重要特征,對于后續(xù)的clementine 無意義,所以也將其刪去。3. 數(shù)據(jù)變換 (1) 數(shù)據(jù)的預處理數(shù)據(jù)預處理是建模型前最后的工作,這一步驟也是整個建模過程中最為關鍵的一步,不精準的數(shù)據(jù)將嚴重影響所建模型結果的精準性,造成我們做出錯誤的決策,然而好的數(shù)據(jù)能建立更加附和實際情況且更加精準的模型。通過上述步驟的數(shù)據(jù)清洗,去除了影響模型輸出的數(shù)據(jù),由于原數(shù)據(jù)樣本過于龐大故隨機抽取前 2022 項作為研究對象。具體如下所示:圖 數(shù)據(jù)分析18 / 37由于數(shù)據(jù)訓練集的范圍較大,故將變量劃分成若干個字段,這樣數(shù)據(jù)較為直觀,然后進行分類匯總,這樣有利于后面建模的數(shù)據(jù)分析。但有的可能認為微博數(shù)為第一考慮因素,只有發(fā)表過微博才能成為目標客戶。因為通過直方圖及統(tǒng)計量中的分布直觀呈現(xiàn)所有變量取值,如下列圖所示:19 / 37圖 關注數(shù)直方圖圖 互粉數(shù)直方圖圖 收藏數(shù)直方圖20 / 37圖 微博數(shù)直方圖通過分析預測目標變量的范圍,目標變量大致分為四類:1)互粉數(shù)<200and1000 <互粉數(shù) ≤2022;2)300<收藏數(shù)≤1000and5000<粉絲數(shù)≤50000;3)關注數(shù)≤300and600<關注數(shù)≤900and 關注數(shù)≥1500and 粉絲數(shù)≤5000and 粉絲數(shù)>10000and 收藏數(shù)<100and300<收藏數(shù)≤1000and500<微博數(shù)≤2022and5000<微博數(shù)≤10000;4)關注數(shù)≤300and600<關注數(shù)≤900and 關注數(shù)≥1500and 10 微博數(shù) 0<收藏數(shù)≤300and 收藏數(shù) ≥1000and10000<粉絲數(shù)≤50000and100000 <粉絲數(shù)≤202200and500<微博數(shù)≤2022and5000<微博數(shù)≤10000。4. CART 算法的具體應用過程在經(jīng)過上述步驟后,可以建立模型,CART 算法的樹生長階段的分支標準采用GINI 指數(shù),選用 K折交驗證法,將樹的深度設置為 5 層;由于允許缺失值存在,故不必對缺失值進行處理。整個模型有 1 個根節(jié)點,將之記為 0,共有 30 個節(jié)點,根節(jié)點下共分為 5 層,故模型的深度為 5 層,每個節(jié)點都標注清楚這個節(jié)點所包含非目標客戶和目標客戶的人數(shù)及目標客戶或非目標客戶占總客戶總數(shù)的比例。一旦將該模型利用到實際中去,將會大大地提高效率。同時運用 CART 算法對客戶信息進行特征學習,得到判斷客戶是否為目標客戶僅需粉絲數(shù)、微博數(shù)、關注數(shù)、收藏數(shù)、互粉數(shù)。很多節(jié)日是自然和某種產(chǎn)物有關聯(lián)的,如型牌男裝企業(yè)微博于五一勞動節(jié)、父親節(jié)組織活動且對此評價,讓更多男性受眾體驗他們的產(chǎn)物。飄飄龍先在淘寶網(wǎng)的論壇上組織粉絲到巴厘島往旅行,又轉到新浪微博上直播粉絲在巴厘島上天天的運動,開端是送 100 只圍脖熊給微博上的受眾,后來又特制了 2 米高的泰迪熊,吸引了幾千名粉絲參加運動。在查找今后,就會呈現(xiàn)評論者,他們很有能夠就是企業(yè)存眷的客戶。5)應用各類社會熱門話題吸引客戶。最終可匯總成四中情況,具體見下表 所30 / 37示:表 目標客戶情況情況一 情況二 情況三 情況四300<關注數(shù)≤600 or900<關注數(shù)≤1500300<關注數(shù) or600<關注數(shù)≤900or關注數(shù)≥1500300<關注數(shù) or 600<關注數(shù)≤900or 關注數(shù)≥1500300<關注數(shù) or600<關注數(shù)≤ 900or 關注數(shù)≥1500粉絲數(shù)≤500 粉絲數(shù)≤500or 粉絲數(shù)>10000 粉絲數(shù)≤500or 粉絲數(shù)>10000粉絲數(shù)≤500or 粉絲數(shù)>10000微博數(shù)>500or 收藏數(shù)≤ 300 and200<互粉數(shù)≤1000收藏數(shù)≤100or300<收藏數(shù)≤1000and500<微博數(shù)≤2022or5000<微博數(shù)≤10000and1000<粉絲數(shù)≤50000or 粉絲數(shù)≤5000100<收藏數(shù)≤300and2022<微博數(shù)≤5000or微博數(shù) ≤500and10000<粉絲數(shù)≤ 202200or100000<粉絲數(shù)≤202200100<收藏數(shù)≤ 300or 收藏數(shù)>1000and50000<粉絲數(shù)≤ 100000or 粉絲數(shù)>202200or 粉絲數(shù)≤5000對于目標客戶來說,在這樣一個弱肉強食的競爭時代,維持目標客戶是一個企業(yè)生存的基本要求,給企業(yè)帶來固定的利益。2)尊重用戶的個人隱私,例如私信,個人對話等在發(fā)表及關注微博時能夠同時發(fā)表私信及個人對話且只有雙方知道,在當今這個注重隱私的時代,更加方便用戶的交流。兩者結合可以快速地提高工作效率。 對于 CART 算法準確率稍低于其他方法的解決方法可以后續(xù)采用 boosting 算法,對 CART 算法進行優(yōu)化。33 / 37參考文獻[1] [M]. 北京:清華大學出版社, 2022,6:3983[2] ( 客戶分類)[M]. 北京:清華大學出版社, 2022,12:117189[3] 埃費雷姆 .,,[M].北京:機械出版社,2022,6:104139[4] 邵峰晶,[M]. 北京:中國水利水電出版社, 2022,12:515[5] [M]. 成都:西南財經(jīng)大學出版社, 2022,11:2-14[6] [M]. 北京:電子工業(yè)出版社, 2022,7:9199[7] [M]. 北京:機械工業(yè)出版社, 2022,7:1176[8] 統(tǒng)計分析及應用[M].北京:積雪工業(yè)出版社, 2022,1:20217[9] 張國政,高杰.客戶關系管理中基于數(shù)據(jù)挖掘的客戶細分研究[J] .市場營銷導刊,2022(5):24—25[10] CRM 的數(shù)據(jù)挖掘應用[M].北京:人民郵電出版社, 2022,8[11] [M]. , 2022,8[12] Clementine 應用寶典[M].北京:電子工業(yè)出版社,2022 [13] [M] .北京:科學出版社,2022 ,9:58-81[14] 應用實務[M].北京:機械工業(yè)出版社[M] ,2022[15] [M]. 北京:北京大學出版社, 2022,7:136-147[16] Ming Dong, Ravi Kothari. “LookAhead based fuzzy Decision Tree Induction”[J]. IEEE Transaction on Fuzzy Systems, 2022(1):185196.[17] Noah F Gans. “Making customer relationship management work”[J]. Journal of Management, 2022(11): 132136.[18] Qourinlan JR. “Induction of Decision Trees”[J]. Machine Learing, 1986(7):8993.34 / 37致 謝四年的本科生活已經(jīng)結束了,意味著我在濟南大學的生活即將結束。最后,感謝一起學習的信息管理與信息系統(tǒng)專業(yè)的每位同學,和你們在一起歡樂有時,開心有時,幸福
點擊復制文檔內(nèi)容
黨政相關相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1