正文內(nèi)容

大數(shù)據(jù)應(yīng)用基礎(chǔ)-數(shù)據(jù)挖掘流程-資料下載頁

2025-03-11 10:56本頁面

　　

【正文】正例且預(yù)測成正例的個(gè)數(shù) ? 橫軸是假陽性率（假正率），即 FPR（ False Positive Rate）或 1Specificity（即 1真負(fù)率），即實(shí)際為負(fù)例預(yù)測為正例的概率，即： – FP/(FP+TN)，即實(shí)際為負(fù)例預(yù)測為正例的個(gè)數(shù)除以實(shí)際為負(fù)例的個(gè)數(shù)。 ? 縱軸是真陽性率（真正率），即 TPR（ True Positive Rate）或 Sensitivity，即實(shí)際為正例預(yù)測也是正例的概率，即： – TP/(TP+FN)，即實(shí)際為正例預(yù)測也為正例的個(gè)數(shù)除以實(shí)際為正例的個(gè)數(shù)。分類算法評(píng)估 —— ROC曲線 ? 我們希望分類器的TPR盡量高， FPR盡量小。 ? 即，用盡量低的假陽性率為代價(jià)來換取盡量高的真陽性率。 ? 所以，我們希望 ROC曲線離縱軸近。分類算法評(píng)估 —— ROC曲線 ? 曲線下方的面積（也叫 AUC）越大越好。一般超過類器有一定效果。 ? 我們經(jīng)常用 AUC來比較各種分類器的效果。 ? 優(yōu)先采用 AUC面積比較大的模型。分類算法評(píng)估 ——Lift曲線 ? Lift曲線顯示了采用模型后與沒采用模型相比的改進(jìn)。 ? 含義是：分類器獲得的正類數(shù)量和不使用分類器隨機(jī)獲取正類數(shù)量的比例。后者是指不使用模型時(shí)，正例在樣本中的占比，也叫 random rate。 ? 換言之， lift值是指，如果使用分類器分類，會(huì)使得正類產(chǎn)生的比例增加多少。 – 例如，與直接隨機(jī)抽取一些用戶發(fā)放促銷郵件相比，采用分類器會(huì)給公司帶來多少響應(yīng)客戶。 ? Lift值在實(shí)踐中可能是用得最多的。它直觀易懂。 ? 它的重要的好處是直接顯示對(duì)應(yīng)于不同的促銷目標(biāo)群體規(guī)模的模型效果，便于挑選適當(dāng)?shù)哪繕?biāo)群體規(guī)模。分類算法評(píng)估 ——Lift曲線 ? 橫軸是樣本大小在所有潛在用戶中的占比；縱軸是所得到的回應(yīng)數(shù)量。對(duì)角線表示的是不同大小的隨機(jī)樣本的結(jié)果。 ? 我們用的不是隨機(jī)樣本，而是通過數(shù)據(jù)挖掘模型選擇出來的那些最可能做出回應(yīng)的客戶的樣本。我們希望得到的曲線在對(duì)角線上方，而且越靠近左上角越好，也就是用很少的樣本就能得到很多回應(yīng)。 ? 從圖中可見，綠色線條代表的那個(gè)模型的表現(xiàn)比較好。分類算法評(píng)估 ——成本收益分析 ? 我們可以假定通過郵件推薦新產(chǎn)品時(shí)，發(fā)郵件的費(fèi)用是，而一旦用戶相應(yīng)則會(huì)得到 10元的收益。那么，發(fā)送多少封郵件比較合適呢？ ? 如果給全部用戶都發(fā)送，會(huì)賠錢。 ? 我們可以設(shè)置費(fèi)用和收益的參數(shù)。分類算法評(píng)估 ——其他 ? 其他有代表性的模型評(píng)估的方法還有 10折交叉驗(yàn)證： ? 3折交叉驗(yàn)證（ crossvalidation）：在交叉驗(yàn)證中，先要確定一個(gè)固定的折數(shù)（ number of folds），比如3折。那么數(shù)據(jù)將被大致均分成 3部分，每部分輪流用于測試而其余部分則用于訓(xùn)練。重復(fù)此過程 3次，從而每個(gè)實(shí)例恰好有一次是用于測試的。 ? 10折交叉驗(yàn)證：它是衡量將某學(xué)習(xí)方法應(yīng)用在某數(shù)據(jù)集上的誤差率的標(biāo)準(zhǔn)方法。數(shù)據(jù)被分成 10部分。每部分依次用于測試，而其余部分用于訓(xùn)練。測試集用來計(jì)算誤差率。之后，把 10個(gè)誤差率估計(jì)值平均，從而得到一個(gè)最終的誤差估計(jì)值。分類算法評(píng)估的目的 ? 我們可以對(duì)不同的分類算法，設(shè)置不同的參數(shù)，進(jìn)行反復(fù)比較，根據(jù)在多個(gè)效果指標(biāo)（比如 Lift）上是否有穩(wěn)定的好的表現(xiàn)，選擇一個(gè) 最終落地應(yīng)用的模型。 ? 注意，我們不只是關(guān)注模型的準(zhǔn)確度和效果，還要關(guān)注模型的表現(xiàn)是否穩(wěn)定，因此，我們需要抽取不同的時(shí)間段的數(shù)據(jù)，進(jìn)行比較，看模型是否穩(wěn)定。知識(shí)表示 ? 知識(shí)表示：將數(shù)據(jù)挖掘所得到的知識(shí) 信息用可視化或知識(shí)表達(dá) 呈現(xiàn) 給用戶。 ? 這些知識(shí)可能是：哪些客戶可能會(huì)流失、哪些客戶可能會(huì)響應(yīng)促銷短信等。也可能是哪些屬性比較重要、有哪些規(guī)則。數(shù)據(jù)挖掘結(jié)果的應(yīng)用和效果評(píng)估 ? 比如，我們通過數(shù)據(jù)挖掘識(shí)別出一些潛在顧客，然后我們對(duì)這些顧客進(jìn)行促銷。在促銷兩周后，我們發(fā)現(xiàn)成交顧客數(shù)量顯著提升。 ? 在互聯(lián)網(wǎng)行業(yè)的運(yùn)營效果評(píng)估中，常用的方法是 AB Test，即對(duì)相似群體（可以分為運(yùn)營組和對(duì)照組）在不同運(yùn)營方案實(shí)施后的實(shí)際效果進(jìn)行對(duì)比。數(shù)據(jù) 挖掘是一個(gè)反復(fù)循環(huán)的過程 ? 數(shù)據(jù)挖掘是一個(gè)反復(fù)循環(huán)的過程。經(jīng)常會(huì)回到前面的步驟。分類的一個(gè)常見問題 ——過度擬合 ? 對(duì)于有監(jiān)督學(xué)習(xí)的算法，要非常重視過度擬合（ overfitting、過擬合）的風(fēng)險(xiǎn)。含義是：模型對(duì)訓(xùn)練集擬合得很好，但對(duì)新的數(shù)據(jù)擬合得并不好。對(duì)訓(xùn)練集數(shù)據(jù)學(xué)習(xí)太過亦步亦趨，造成不能反映真實(shí)的輸入和輸出之間的關(guān)系，不利于預(yù)測未來數(shù)據(jù)。如何避免過度擬合？ ? 交叉驗(yàn)證可能是業(yè)界防止過擬合的最常用手段。它可看作一種變通的方法，它不使用全部的歷史數(shù)據(jù)，而是把過去的數(shù)據(jù)分成兩份，其中一份當(dāng)做訓(xùn)練集，另一份當(dāng)做測試集（用來模擬“未來的”數(shù)據(jù)）。通常，我們會(huì)將大多數(shù)數(shù)據(jù)作為訓(xùn)練集（比如 80%），而少數(shù)數(shù)據(jù)作為測試集。 ? 在交叉驗(yàn)證時(shí)，我們可以準(zhǔn)備幾個(gè)不同時(shí)間窗口、不同范圍的測試集和驗(yàn)證集，在不同的數(shù)據(jù)集里面對(duì)模型進(jìn)行交叉檢驗(yàn)。 ? 要注意建模所用的歷史數(shù)據(jù)和未來數(shù)據(jù)是否存在明顯差異。例如，業(yè)務(wù)是否發(fā)生了顯著變化。如何避免過度擬合？ ? 樣本要足夠大。 –特別是神經(jīng)網(wǎng)絡(luò) ，如果數(shù)據(jù)少就不宜使用。 ? 注意選擇合適的抽樣方法。 ? 減少樣本中的噪聲數(shù)據(jù)。 –模型過分記住了噪聲的特征，以至于忽略了真實(shí)的輸入輸出間的關(guān)系。 ? 輸入變量不要太多。 –新手往往不篩選輸入變量，而是一股腦把所有變量交給軟件去撞大運(yùn)。演講完畢，謝謝觀看！

點(diǎn)擊復(fù)制文檔內(nèi)容

教學(xué)課件相關(guān)推薦

電信行業(yè)數(shù)據(jù)挖掘與大數(shù)據(jù)心得體會(huì)-資料下載頁

【總結(jié)】電信行業(yè)數(shù)據(jù)挖掘與大數(shù)據(jù)心得體會(huì)夏明武互聯(lián)網(wǎng)市場大小?2023中國互聯(lián)網(wǎng)收入，廣告512億元，增長57%?網(wǎng)絡(luò)游戲428億，增長20%；電商，增長68%?行業(yè)排頭兵凈利潤率估計(jì)，廣告35%，網(wǎng)游55%，電商1%，利潤分別為179億，235億，77億?假設(shè)2023增長與利潤水平不變，行業(yè)利潤分別為廣告

2025-02-26 13:08

大數(shù)據(jù)——京東大數(shù)據(jù)基礎(chǔ)構(gòu)架與創(chuàng)新應(yīng)用21-資料下載頁

【總結(jié)】大數(shù)據(jù)——京東大數(shù)據(jù)基礎(chǔ)構(gòu)架與創(chuàng)新應(yīng)用?京東大數(shù)據(jù)平臺(tái)從無到有，從集中式到分布式，，在演變過程中一直在思考的兩個(gè)問題：1、如何建設(shè)電商特有的復(fù)雜業(yè)務(wù)的數(shù)據(jù)倉庫？2、如何在保障安全的情況下降低使用數(shù)據(jù)的成本？從下面的內(nèi)容中似乎能夠看到這些問題的答案。PPT部分要點(diǎn)：1、網(wǎng)購女性用戶更喜歡選擇在上班期間購物，而節(jié)假日還延續(xù)逛街習(xí)慣；2、B2C網(wǎng)上購物人群的性別比例正

2025-06-26 21:57

[精選]大數(shù)據(jù)應(yīng)用基礎(chǔ)-計(jì)算廣告43-資料下載頁

【總結(jié)】計(jì)算廣告大數(shù)據(jù)應(yīng)用基礎(chǔ)魏煒1虧聯(lián)網(wǎng)廣告概述?廣告是用亍說服消費(fèi)者采叏某種行勱（購乣、注冊戒關(guān)注等）癿傳媒手段，它癿歷叱可以追溯到三千多年以前。如今仍街頭巷尾、報(bào)刊雜志，再到電規(guī)、電影，廣告無處丌在。廣告癿宣傳推廣作用非常大，尤其對(duì)推勱整個(gè)商品零售業(yè)癿収展，直到了至關(guān)重要癿作用。?傳統(tǒng)廣告中，廣告主丌知道叐眾是誰，也丌知道

2025-02-27 16:14

醫(yī)保大數(shù)據(jù)應(yīng)用課件-資料下載頁

【總結(jié)】醫(yī)保大數(shù)據(jù)應(yīng)用低效、混亂、難監(jiān)管?流動(dòng)資金管理效率低下?缺少對(duì)藥品流通環(huán)節(jié)及對(duì)醫(yī)院購藥和醫(yī)生開藥的管控，造成中間環(huán)節(jié)的非法返點(diǎn)?醫(yī)院和藥店的采購分散，無法形成規(guī)模優(yōu)勢?生產(chǎn)過程的無監(jiān)督導(dǎo)致藥品質(zhì)量低劣?分銷層級(jí)過多，效率低下?看病難?看病貴?體驗(yàn)差?缺乏完善的審核工具和監(jiān)控手段，報(bào)銷中存

2025-01-01 00:49

15(薛美根)上海大數(shù)據(jù)信息挖掘應(yīng)用34-資料下載頁

【總結(jié)】大數(shù)據(jù)環(huán)境下上海創(chuàng)新交通綜合管理的實(shí)踐與探索執(zhí)筆：薛美根副院長演講：陳必壯副所長上海市城鄉(xiāng)建設(shè)和交通發(fā)展研究院xuemeigen2013126.一、背景二、數(shù)據(jù)挖掘技術(shù)三、大數(shù)據(jù)應(yīng)用四、展望提綱1背景一、開展交通信息數(shù)據(jù)挖掘的必要性（一）交通信

2025-02-26 13:16

理解大數(shù)據(jù)-實(shí)踐大數(shù)據(jù)-資料下載頁

【總結(jié)】理解大數(shù)據(jù)，實(shí)踐大數(shù)據(jù)內(nèi)容?對(duì)大數(shù)據(jù)的理解?拓爾思大數(shù)據(jù)產(chǎn)品布局和應(yīng)用實(shí)踐反對(duì)派認(rèn)為，我們現(xiàn)在處在一個(gè)盲目的大數(shù)據(jù)崇拜時(shí)代大數(shù)據(jù)產(chǎn)生的背景?數(shù)據(jù)的爆發(fā)式增長和社會(huì)化趨勢，新摩爾定律?大數(shù)據(jù)已經(jīng)成為一種自然資源?機(jī)器數(shù)據(jù)日益重要?大數(shù)據(jù)不被利用就是成本大數(shù)據(jù)產(chǎn)生的背景?現(xiàn)有的商

2025-02-12 20:39

stanford大學(xué)-大數(shù)據(jù)挖掘-advertising-19-資料下載頁

【總結(jié)】CS345DataMiningOnlinealgorithmsSearchadvertisingOnlinealgorithms?Classicmodelofalgorithms?Yougettoseetheentireinput,thenputesomefunctionofit?Inthisc

2025-01-08 18:45

大數(shù)據(jù)公司挖掘數(shù)據(jù)價(jià)值的典型案例-資料下載頁

【總結(jié)】大數(shù)據(jù)公司挖掘數(shù)據(jù)價(jià)值的49個(gè)典型案例來源：大數(shù)據(jù)實(shí)驗(yàn)室?時(shí)間：2015-01-0610:15:51?作者：　　對(duì)于企業(yè)來說，100條理論確實(shí)不如一個(gè)成功的標(biāo)桿有實(shí)踐意義，本文的主旨就是尋找“正在做”大數(shù)據(jù)的49個(gè)樣本?！　”疚牧D從企業(yè)運(yùn)營和管理的角度，梳理出發(fā)掘大數(shù)據(jù)價(jià)值的一般規(guī)律：一是以數(shù)據(jù)驅(qū)動(dòng)的決策，主要通過提高預(yù)測概率，來提高決策成功率；二是以數(shù)據(jù)驅(qū)動(dòng)

2025-05-12 01:28

理解大數(shù)據(jù)實(shí)踐大數(shù)據(jù)-資料下載頁

【總結(jié)】理解大數(shù)據(jù)，實(shí)踐大數(shù)據(jù)施水才北京拓爾思信息技術(shù)股份有限公司2023年5月31日內(nèi)容?對(duì)大數(shù)據(jù)的理解?拓爾思大數(shù)據(jù)產(chǎn)品布局和應(yīng)用實(shí)踐反對(duì)派認(rèn)為，我們現(xiàn)在處在一個(gè)盲目的大數(shù)據(jù)崇拜時(shí)代大數(shù)據(jù)產(chǎn)生的背景?數(shù)據(jù)的爆發(fā)式增長和社會(huì)化趨勢，新摩爾定律?大數(shù)據(jù)已經(jīng)成為一種自然資源?機(jī)器數(shù)據(jù)日益重

2025-02-12 20:37

[精選]大數(shù)據(jù)應(yīng)用業(yè)務(wù)介紹-資料下載頁

【總結(jié)】大數(shù)據(jù)應(yīng)用業(yè)務(wù)介紹平均每一分鐘中國互聯(lián)網(wǎng)上發(fā)生了什么？百度搜索查詢次5萬條微博465名新用戶人同時(shí)QQ在線556篇博客文章83名新博客4944條心情更新6597篇日志發(fā)布照片上傳3125條狀態(tài)更新發(fā)布417篇日記更新9

2025-02-27 16:14

云計(jì)算與大數(shù)據(jù)基礎(chǔ)-資料下載頁

【總結(jié)】云計(jì)算與大數(shù)據(jù)技術(shù)人民郵電出版社王鵬黃焱安俊秀張逸琴編著*目錄CONTENTS?第1章云計(jì)算與大數(shù)據(jù)基礎(chǔ)?第2章云計(jì)算與大數(shù)據(jù)的相關(guān)技術(shù)?第3章虛擬化技術(shù)?第4章集群系統(tǒng)基礎(chǔ)?第5章MPI—面向計(jì)算?第6章

2025-02-18 14:40

數(shù)據(jù)挖掘的價(jià)值：壽險(xiǎn)行業(yè)數(shù)據(jù)挖掘應(yīng)用分析-資料下載頁

【總結(jié)】數(shù)據(jù)挖掘的價(jià)值：壽險(xiǎn)行業(yè)數(shù)據(jù)挖掘應(yīng)用分析【北京理工大學(xué)劉勇張麗平】【計(jì)算機(jī)世界】　　壽險(xiǎn)是保險(xiǎn)行業(yè)的一個(gè)重要分支，具有巨大的市場發(fā)展空間，因此，隨著壽險(xiǎn)市場的開放、外資公司的介入，競爭逐步升級(jí)，群雄逐鹿已成定局。如何保持自身的核心競爭力，使自己始終立于不敗之地，是每個(gè)企業(yè)必須面對(duì)的問題。信息技術(shù)的應(yīng)用無疑是提高企業(yè)競爭力的有效手段之一。壽險(xiǎn)信息系統(tǒng)經(jīng)過了多年的發(fā)展，已逐步成熟完善，

2025-06-25 07:23

氣象數(shù)據(jù)的大數(shù)據(jù)應(yīng)用淺析-資料下載頁

【總結(jié)】氣象數(shù)據(jù)的“大數(shù)據(jù)應(yīng)用”淺析2014-03-2417:03:19?作者：國家氣象總局沈文海來源：CIO時(shí)代網(wǎng)摘要：?氣象數(shù)據(jù)在“大數(shù)據(jù)應(yīng)用”浪潮中亟待解決的信息技術(shù)問題，是海量氣象結(jié)構(gòu)化數(shù)據(jù)的高效應(yīng)用。這是氣象數(shù)據(jù)能否參與“大數(shù)據(jù)應(yīng)用”的技術(shù)基礎(chǔ)和前提。?關(guān)鍵詞：?氣象數(shù)據(jù)大數(shù)據(jù)????1、引

2025-06-28 15:37

數(shù)據(jù)挖掘及其應(yīng)用-資料下載頁

【總結(jié)】《數(shù)據(jù)挖掘論文》數(shù)據(jù)挖掘分類方法及其應(yīng)用課程名稱：數(shù)據(jù)挖掘概念與技術(shù)姓名學(xué)號(hào)：指導(dǎo)教師：數(shù)據(jù)挖掘分類方法及其應(yīng)用作者：來煜摘要：社會(huì)的發(fā)展進(jìn)入了網(wǎng)絡(luò)信息時(shí)代，各種形式的數(shù)據(jù)海量產(chǎn)生，在

2025-06-24 21:30

大數(shù)據(jù)應(yīng)用案例-資料下載頁

【總結(jié)】四大經(jīng)典大數(shù)據(jù)應(yīng)用案例解析什么是數(shù)據(jù)挖掘(DataMining)?簡而言之，就是有組織有目的地收集數(shù)據(jù)，通過分析數(shù)據(jù)使之成為信息，從而在大量數(shù)據(jù)中尋找潛在規(guī)律以形成規(guī)則或知識(shí)的技術(shù)。在本文中，我們從數(shù)據(jù)挖掘的實(shí)例出發(fā)，并以數(shù)據(jù)挖掘中比較經(jīng)典的分類算法入手，給讀者介紹我們怎樣利用數(shù)據(jù)挖掘的技術(shù)解決現(xiàn)實(shí)中出現(xiàn)的問題。數(shù)據(jù)挖掘是如何解決問題的?本節(jié)通過幾個(gè)數(shù)據(jù)挖掘?qū)嶋H案例來詮釋如

2025-04-16 23:13

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

大數(shù)據(jù)應(yīng)用基礎(chǔ)-數(shù)據(jù)挖掘流程-資料下載頁

電信行業(yè)數(shù)據(jù)挖掘與大數(shù)據(jù)心得體會(huì)-資料下載頁

大數(shù)據(jù)——京東大數(shù)據(jù)基礎(chǔ)構(gòu)架與創(chuàng)新應(yīng)用21-資料下載頁

[精選]大數(shù)據(jù)應(yīng)用基礎(chǔ)-計(jì)算廣告43-資料下載頁

醫(yī)保大數(shù)據(jù)應(yīng)用課件-資料下載頁

15(薛美根)上海大數(shù)據(jù)信息挖掘應(yīng)用34-資料下載頁

理解大數(shù)據(jù)-實(shí)踐大數(shù)據(jù)-資料下載頁

stanford大學(xué)-大數(shù)據(jù)挖掘-advertising-19-資料下載頁

大數(shù)據(jù)公司挖掘數(shù)據(jù)價(jià)值的典型案例-資料下載頁

理解大數(shù)據(jù)實(shí)踐大數(shù)據(jù)-資料下載頁

[精選]大數(shù)據(jù)應(yīng)用業(yè)務(wù)介紹-資料下載頁

云計(jì)算與大數(shù)據(jù)基礎(chǔ)-資料下載頁

數(shù)據(jù)挖掘的價(jià)值：壽險(xiǎn)行業(yè)數(shù)據(jù)挖掘應(yīng)用分析-資料下載頁

氣象數(shù)據(jù)的大數(shù)據(jù)應(yīng)用淺析-資料下載頁

數(shù)據(jù)挖掘及其應(yīng)用-資料下載頁

大數(shù)據(jù)應(yīng)用案例-資料下載頁

大數(shù)據(jù)應(yīng)用基礎(chǔ)-數(shù)據(jù)挖掘流程(編輯修改稿)

大數(shù)據(jù)應(yīng)用基礎(chǔ)-數(shù)據(jù)挖掘流程-wenkub.com

大數(shù)據(jù)應(yīng)用基礎(chǔ)-數(shù)據(jù)挖掘流程(已改無錯(cuò)字)

大數(shù)據(jù)應(yīng)用基礎(chǔ)-數(shù)據(jù)挖掘流程-資料下載頁

大數(shù)據(jù)應(yīng)用基礎(chǔ)-數(shù)據(jù)挖掘流程(參考版)