freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

cart算法在新浪微博客戶分類中的應用研究(編輯修改稿)

2025-07-16 08:32 本頁面
 

【文章內容簡介】 樂體育9 / 37界明星、知名學者及媒體人)和普通用戶。(1)普通網民即組織類、名人類及非機構類的一般普通的微博用戶。該群體類用戶的特點:用戶年齡范圍從 15—60 歲,跨度非常之大,其中,又以 18—35 歲的中青年為主體。用戶職業(yè)呈現多層次化結構,并且涉及到如今的各行各業(yè)。普通網民的主題是發(fā)表博文即轉發(fā)或原創(chuàng),傳播方式為裂變式(即 1:n:n) [5],特征是影響力大,傳播的范圍廣。微博具體行為的使用分類四類:1)瀏覽關注人微博更新動態(tài)寫微博 2)參與熱點話題的討論 3)隨便瀏覽,了解資訊 4)發(fā)表觀點或發(fā)泄情緒。(2)企業(yè)即企業(yè)是從事生產、流通、服務等經濟活動,以此來滿足社會的需求,實行獨立核算、依法設立、自主經營,而且在新浪門戶中注冊微博,并對商戶認證。該用戶群體特點:所有行為都是以營利為目的。使用微博的目的為:利用微博平臺,進行網絡營銷,包括進行網站推廣、網絡品牌、信息發(fā)布、在線調研、銷售促進等。從根本上來說,企業(yè)使用微博的目的是提高企業(yè)的知名度,樹立企業(yè)的品牌,擴大企業(yè)的經濟效益。微博具體行為的使用分類五類:1)網絡公關(即指網絡危機公關)2)更新企業(yè)的動態(tài)信息 3)進行在線的調研 4)顧客網上服務 5)發(fā)起活動(公益、娛樂及促銷)。10 / 37三、CART 算法及其在新浪微博客戶分類中的具體應用(一)CART 算法簡介分類與回歸樹(Classification and Regression Trees, CART)算法由 Breiman 等人于 1984 年提出,是分類數據挖掘算法的其中一種,可處理無序的或順序的類屬性數據,也能夠處理多態(tài)的數據值或高度傾斜數據 [15]。CART 選擇最小 GINI 系數值的屬性為測試屬性,GINI 值越小,樣本純凈度就越高,劃分的效果便越好。它是描述一個給定預測 X 值后,變量條件 Y 分布的一種靈活算法。該模型采用二叉樹,將預測空間遞歸劃分成若干個子集,在子集上 Y 變量上的分布是均勻及連續(xù)的。劃分是由和各個內部的節(jié)點有關的分類規(guī)則(Classification Rule)所定奪的,而 CART 樹的葉子節(jié)點對應著不同的被劃分的區(qū)域。通過樹根到葉子節(jié)點的移動,預測訓練集被給予唯一一個的葉子節(jié)點,而同時確定 Y 變量在此節(jié)點中的條件分布。CART 算法使用如下結構的學習樣本集。 ),.( ),.(,.},.{21 21121k mtmtyYxXxXL n??其中,L 是訓練樣本集, 是屬性向量(Attribute Vectors),其屬性可~以是離散的或者是有序的的;Y 是標簽向量(Label Vectors),其屬性可以是離散的或者是有序的。Y 是離散值,稱為分類決策樹;或 Y 是有序的數量值時,稱為回歸決策樹樹。根據所定的樣本集 L,由以下三個步驟構建分類樹 [16]:(1)低規(guī)劃分訓練樣本:使用 L 構建樹 ,使得 中每一個葉節(jié)點要么很maxTax小(給定值 大于節(jié)點內部所含樣本數量);得到惟一的屬性向量作為分支選擇,minN或者純節(jié)點(節(jié)點內部樣本 Y 僅僅包含一類)。(2)使用修剪算法構建一個有限的遞減(節(jié)點數目)有序子樹序列。(3)使用評估算法從第(2)步產生的子樹序列中選出一棵最優(yōu)樹作為最終的決策樹。1. 構建樹構建樹 是將給定的訓練樣本集 L 轉換成為相對應 L 的最大二叉樹的過程。maxT的構建主要分為兩步驟:①數據預處理;②由根節(jié)點遞歸構建 。此過程應用最max大雜度削減算法,能夠尋找到最佳的分支規(guī)則。11 / 372. 數據預處理 數據挖掘過程的關鍵步驟之一便是對初始數據集的準備及變換。首先,數據預處理是降低屬性向量的基數,即把向量分成若干段。然后,針對屬性向量構建標準問題集,其中符號屬性向量即離散屬性向量與連續(xù)屬性向量,兩者的標準問題集的構建方法不相同 [17]。降低屬性向量的基數:對于屬性向量值進行降低基數的工作,即按客戶的需求,針對各個屬性向量設定一組離散值,將該屬性向量在訓練樣本集 L 上的取值分配到這組范圍值中。 樹的生成決策樹的核心算法是確定決策樹分枝準則,該準則涉及到兩個方面問題:⑴如何在眾多的輸入變量中選擇出一個最佳的分組變量;⑵如何在分組變量的眾多取值中尋找到最佳的分割值。首先在生成原始樹中引入差異系數(diversity index)的概念。此系數用于測度各個個結點內 n(n=2)個類樣本的分布情況。在這里我們采用的是 CART 算法中最常用的雜質函數基尼系數(GINI),公式如下: (31))(1)(2tjPTGINj???其中,p(j/t)為目標類別 j 在節(jié)點 t 中出現的比例。對于所有的 P,所以 GINI系數一定為正數,除非其中的一個 P 為 1,而其他比為 0。節(jié)點 T 在 X 屬性下分為 N1 和 N2 兩個部分,那么 GAIN 指數就是: (32)NPTGINITGAIsplit21 2211)(。 )()(??而對訓練集進行劃分時,劃分的規(guī)則是利用二叉樹的表示形式,CART 算法的開始是從根節(jié)點進行劃分,對各個結點進行重復遞歸的過程 [18]:(1)對于每個結點,選擇各個屬性的最優(yōu)劃分點。根據樣本中對于分割規(guī)則“否”或“是”的回答,將結點劃分為左右兩個子結點,從規(guī)則中尋找變量 X ,如果最小值 ,X 那么這就是當前屬性的最優(yōu)劃分點。min)(?iXspltGini(2)在上步驟所得到的最優(yōu)劃分點中選擇對此結點最優(yōu)的分割點,成為此結點的分割規(guī)則。分割規(guī)則的確定依據是使(2)式最小。(3)重復對此結點分割出來的兩個結點進行分割這一過程。直到樣本全部屬于同一類為止,或者持續(xù)到葉結點樣本個數極少(如少于 5 個),這時建成的樹層次多,葉結點多,此時該樹為 。maxT12 / 374. 樹的剪枝判定樹創(chuàng)建完成后,由于數據中的孤立點及噪聲,很多分枝反映出訓練集中的異常。剪枝方法解決這種過分適應的數據問題,起到優(yōu)化的作用。這種方法一般使用統(tǒng)計度量,剪去最不可靠能夠產生誤差的分枝,加快分類的速度,提高了樹獨立于測試數據正確的分類的能力。剪枝(Pruning)分為先剪枝及后剪枝兩種。CART 算法采取后剪枝(postpruning)的方法,后剪枝是一個過程,它由 “完全生長”的樹剪去分枝,決策樹剪枝可視為決策樹對構造的邏輯延續(xù)。分為兩類:子數提升即剪掉樹葉節(jié)點,使得剪枝后降低了決策樹的規(guī)模及提高決策樹的準確率;子數置換即通過刪除節(jié)點的分枝。在刪減中,我們采用剪枝算法中代價復雜性剪枝也稱為 CART 剪枝,CART系統(tǒng)的代價復雜度最?。∕inimal costplexity pruning)原則,測度方法如下所示: (33)|*)(TaRTa??a 為復雜度參數, ; 為該樹葉結點個數;將 Ra(T)理解成該樹加權錯0?分率與對復雜度處罰值之和的復合成本。根據 AIC 信息準則,a =2(k-1),k 為分類數,在分類的問題中取 a 值為 2;當 a 一定時,由 刪減后生成的兩個具有同mx樣 R( T)值的樹,葉子結點越多,表示樹的復雜度變得越高, Ra(T)越大,則可取性卻變得越小。對 刪減的過程中一定會產生一系列子樹 。整個子樹max n,.21子樹的生成是迭代而成的,這意味著 是 隨機對其中一個結點剪枝后生成的樹1Tmax的集合中能夠使(3)式最小的樹; 是 隨機對其中一個節(jié)點修剪后生成的樹的集2合中能夠使(3)式成為最小的樹,以此類推,直到兩個葉節(jié)點與最后的根結點所組成的 。接著再以(3)式為選擇標準,使用獨立的測試集對各個子樹的 Ra(T )1T進行估計,進而選擇 Ra(T)最小的樹是最優(yōu)樹。修剪過程主要完成兩部分工作:(1)生成有序樹序列;(2)確定葉節(jié)點的所屬類。其修剪過程如下 [18]:(1)構建 1:首先在 max中將滿足 R(t)=R(t )+R(t )的子樹剪枝,獲得的修剪后的子樹即為 1T ;(2)生成有序的子樹序列:任給 1T 中的節(jié)點 t,記{t},則 Ra(t )=R(t)+a。對于給定節(jié)點 t 的修剪子樹 t ,則 |)(ttt Taa?? ,只要 )((tRaTt? ,則表示取修剪后的子樹比原節(jié)點更合適。解如上不等式得到: tRTatt ??)(|)( 所以 1|?tt13 / 37也即只要 1|)(??ttTRa , 與 t 節(jié)點具有同樣的代價復雜度,由于 t 節(jié)點比tT的節(jié)點更少,因此 t 節(jié)點比 t 更可取,這就是由 1T修剪成為有序的子樹集的主要思想。對于前面所構建完成的 , t∈ ,設 是 t 的修剪子樹,且令maxT?1?????????tttTRtg11|)()(將 所對應的 修剪掉,修建完成后所得到的樹標記為 。)(in)(11tgtTt??t 2T循環(huán)此過程,能夠產生系列子樹 直到修剪后所得的以左右字數及根為n,.21葉子節(jié)點的樹,并把它作為有序的子樹集的最后一個子樹。5. CART 樹的最優(yōu)選擇決策樹剪枝完成后,生成一系列子樹,為了從中選擇出最優(yōu)樹,首先要做的便是對樹進行評估,最高準確性的樹便是我們需要的最優(yōu)樹。決策樹評估的主要有兩種方法:k 折交叉和簡單驗證。k折交叉驗證:當所需分析的數據樣本數量較少時,采用 k折交叉驗證能夠有效的利用所有可能的數據。交叉驗證使用訓練集中的一部分數據,訓練集既用于訓練且也用于測試,此方法的核心是創(chuàng)建多個測試決策樹,將訓練集分成 N 個子集,創(chuàng)建 N 棵測試決策樹,在每次創(chuàng)建樹后,選擇一個子集作為測試集,其他 N1 個子集為訓練集。這樣,訓練集中 N 個子集都參與了測試。 K折交叉驗證避免了對獨立的和新的測試數據的要求,通過這種方法得到的最優(yōu)樹剔除了由于數據自身特性帶來的過度適應,且充分反映了數據中的一般特性。(二)CART 算法的優(yōu)缺點及適用性分類回歸樹 CART 樹除了具有一般決策樹的高效性、易用性、易解釋性等特點外,還具備一些自身特點。如:CART 算法沒有對目標變量及預測變量概率分布上要求,這使得不會因為預測變量不同及目標變量概率的分布造成的結果;CART 算法能夠對空缺職位進行處理,因此減少了由于空缺值所造成的信息偏差; CART 算法能夠處理孤立點即在數據集中與其他數據具有不同特征的數據,使孤立點成為一個單獨的葉子節(jié)點,從而對進一步的分支不會產生任何影響;CART 算法使用二元分支,這能夠充分運用全部的數據,盡可能發(fā)現全部樹的結構;與其他算法如神經網絡算法相比,CART 算法的效率更高。但是,與其它統(tǒng)計分析方法相比,CART 自身也存在缺點,如:CART 本身是一14 / 37種大樣本的統(tǒng)計分析方法,樣本量較小時模型不穩(wěn)定;CART 算法的模型的穩(wěn)定性較差,用類似研究資料建立的樹型模型往往存在差異。對于內部同質性較好的數據,CART 算法分析的結果與其它分析方法得到的結果基本一致。由于在實際應用中,企業(yè)收集到的客戶信息缺失度較高,而這個算法同樣允許缺失數據的存在。基于以上 CART 算法的獨特優(yōu)點,對于本次目標客戶篩選,客戶信息能夠表達成屬性結論式樣式,本文采用該模型。為從海量客戶中篩選目標客戶,為大樣本的統(tǒng)計分析方法,建立比較穩(wěn)定的模型。這樣篩選的過程能夠加快,大幅度地提高企業(yè)效率。(三)CART 算法在新浪微博客戶分類中的具體應用對數量龐大的客戶數據集進行數據管理,從而收集客戶的靜態(tài)信息,通過四個步驟:(1)數據的清洗;(2)樣本數據的選擇;(3)數據的重組;(4)對訓練樣本集數據建立數據模型,使用 CART 算法進行數據挖掘,在獲得目標客戶的篩選模型后,接著對模型進行評價及優(yōu)化,最后獲得目標客戶篩選模型。1. 問題定義目標客戶的尋找就是從電信市場新浪微博所收集的龐大客戶數據集中尋找到目標客戶,從而提高客戶獲得率。根據新浪微博在目標客戶查找方面以往所積累的經驗,以及新浪微博的特殊性,發(fā)現目標客戶的查找就是對現有的客戶進行數據挖掘然后分析,建立客戶特征,區(qū)分非目標客戶及目標客戶的特性,再建立目標客戶查找模型,將模型運用于實際中,海量地進行目標客戶的尋找,提高潛在客戶獲得率。收集到的客戶信息均為靜態(tài)信息即用數字資料或文字描述來反映已經發(fā)生的各種經濟活動,且主要包括:用戶昵稱、性別、用戶 UID、粉絲數、關注數、微博數、互粉數、地址、語言版本、是否認證及注冊時間。2. 數據準備在進行數據挖掘之前,本文采用的是 2022 年 12 月份新浪微博的用戶數據。由于數據比較龐大,本文采用具有強大數據統(tǒng)計分析功能的 clementine 存放數據,而在將數據導入 clementine 之前,先人工初步對變量進行處理,刪除不需要的變量。在統(tǒng)計中發(fā)現 2022 年數據比較集中,而且數據質量較高,因此本次數據主要采用新浪微博數據庫的數據進行建模。截止到 2022 年 12 月份為止,采取的樣本的數據共有 50358 人。有關變量如表 所示:15 / 37表 新浪微博變量查詢時間 日期型 訓練集收集日期用戶昵稱 字符型 用戶賬戶的名稱性別 字符型 男或女UID 字符型 用戶賬戶編號地址 字符型 用戶所住城市語言版本 字符型 所用語言認證 字符型 是否被新浪微博認證粉絲數 整型 擁有粉絲數量關注數 整型 被其他人關注數量互粉數 整型 相互關注數量微博數 整型 用戶發(fā)表信息數收藏數 整型 用戶收藏信息數注冊時間 日期型 用戶賬戶注冊時間在數據導入 cleme
點擊復制文檔內容
黨政相關相關推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1