freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

大數(shù)據(jù)應(yīng)用基礎(chǔ)-數(shù)據(jù)挖掘流程-資料下載頁

2025-03-11 10:56本頁面
  

【正文】 正 例且預(yù)測(cè) 成正例的個(gè)數(shù) ? 橫軸是假陽性率(假正率),即 FPR( False Positive Rate)或 1Specificity(即 1真負(fù)率),即實(shí)際為負(fù)例預(yù)測(cè)為正例的概率,即: – FP/(FP+TN),即 實(shí)際為負(fù)例預(yù)測(cè)為正 例的個(gè)數(shù)除以實(shí)際為負(fù)例的個(gè)數(shù)。 ? 縱軸是真陽性率(真正 率 ),即 TPR( True Positive Rate)或 Sensitivity,即實(shí)際為正例預(yù)測(cè)也是正例的概率,即: – TP/(TP+FN),即 實(shí)際 為 正例 預(yù)測(cè)也為 正例的個(gè)數(shù)除以實(shí)際 為正例的 個(gè)數(shù)。 分類算法評(píng)估 —— ROC曲線 ? 我們希望分類器的TPR盡量高, FPR盡量小。 ? 即,用盡量低的假陽性率為代價(jià)來換取盡量高的真陽性率。 ? 所以,我們希望 ROC曲線離縱軸近。 分類算法評(píng)估 —— ROC曲線 ? 曲線 下方的面積(也叫 AUC)越大越好。一般超過 類器有一定效果。 ? 我們經(jīng)常用 AUC來比較各種分類器的效果。 ? 優(yōu)先 采用 AUC面積比較大的模型。 分類算法 評(píng)估 ——Lift曲線 ? Lift曲線顯示了采用模型后與沒采用模型相比的改進(jìn)。 ? 含義是:分類器獲得的正類數(shù)量和不使用分類器隨機(jī)獲取正類數(shù)量的比例。后者是指不使用模型時(shí),正例在樣本中的占比,也叫 random rate。 ? 換言之, lift值是指,如果使用分類器分類,會(huì)使得正類產(chǎn)生的比例增加多少。 – 例如,與直接隨機(jī)抽取一些用戶發(fā)放促銷郵件相比,采用分類器會(huì)給公司帶來多少響應(yīng)客戶。 ? Lift值在實(shí)踐中可能是用得最多的。它直觀易懂。 ? 它的重要的好處是直接顯示對(duì)應(yīng)于不同的促銷目標(biāo)群體規(guī)模的模型效果,便于挑選適當(dāng)?shù)哪繕?biāo)群體規(guī)模。 分類算法評(píng)估 ——Lift曲線 ? 橫軸是樣本大小在所有潛在用戶中的占比;縱軸是所得到的回應(yīng)數(shù)量。對(duì)角線表示的是不同大小的隨機(jī)樣本的結(jié)果。 ? 我們用的不是隨機(jī)樣本,而是通過數(shù)據(jù)挖掘模型選擇出來的那些最可能做出回應(yīng)的客戶的樣本。我們希望得到的曲線在對(duì)角線上方,而且越靠近左上角越好,也就是用很少的樣本就能得到很多回應(yīng)。 ? 從圖中可見,綠色線條代表的那個(gè)模型的表現(xiàn)比較好。 分類算法評(píng)估 ——成本收益分析 ? 我們可以假定通過郵件推薦新產(chǎn)品時(shí),發(fā)郵件的費(fèi)用是 ,而一旦用戶相應(yīng)則會(huì)得到 10元的收益。那么,發(fā)送多少封郵件比較合適呢? ? 如果給全部用戶都發(fā)送,會(huì)賠錢。 ? 我們可以設(shè)置費(fèi)用和收益的參數(shù)。 分類算法評(píng)估 ——其他 ? 其他有代表性的模型評(píng)估的方法還有 10折交叉驗(yàn)證 : ? 3折交叉驗(yàn)證( crossvalidation):在交叉驗(yàn)證中,先要確定一個(gè)固定的折數(shù)( number of folds),比如3折。那么數(shù)據(jù)將被大致均分成 3部分,每部分輪流用于測(cè)試而其余部分則用于訓(xùn)練。重復(fù)此過程 3次,從而每個(gè)實(shí)例恰好有一次是用于測(cè)試的。 ? 10折交叉驗(yàn)證 :它是衡量將某學(xué)習(xí)方法應(yīng)用在某數(shù)據(jù)集上的誤差率的標(biāo)準(zhǔn)方法。數(shù)據(jù)被分成 10部分。每部分依次用于測(cè)試,而其余部分用于訓(xùn)練。測(cè)試集用來計(jì)算誤差率。之后,把 10個(gè)誤差率估計(jì)值平均,從而得到一個(gè)最終的誤差估計(jì)值。 分類算法評(píng)估 的 目的 ? 我們可以對(duì)不同的分類算法,設(shè)置不同的參數(shù),進(jìn)行反復(fù)比較,根據(jù)在多個(gè)效果指標(biāo)(比如 Lift)上是否有 穩(wěn)定 的好的表現(xiàn),選擇一個(gè) 最終落地應(yīng)用的模型。 ? 注意,我們不只是關(guān)注模型的準(zhǔn)確度和效果,還要關(guān)注模型的表現(xiàn)是否 穩(wěn)定 ,因此,我們需要抽取不同的時(shí)間段的數(shù)據(jù),進(jìn)行比較,看模型是否穩(wěn)定。 知識(shí)表示 ? 知識(shí)表示 :將數(shù)據(jù)挖掘所得到 的 知識(shí) 信息用 可視化 或知識(shí)表達(dá) 呈現(xiàn) 給用戶 。 ? 這些知識(shí)可能是:哪些客戶可能會(huì)流失、哪些客戶可能會(huì)響應(yīng)促銷短信等。也可能是哪些屬性比較重要、有哪些規(guī)則。 數(shù)據(jù)挖掘結(jié)果的應(yīng)用和效果評(píng)估 ? 比如,我們通過數(shù)據(jù)挖掘識(shí)別出一些潛在顧客,然后我們對(duì)這些顧客進(jìn)行促銷。在促銷兩周后,我們發(fā)現(xiàn)成交顧客數(shù)量顯著提升。 ? 在互聯(lián)網(wǎng)行業(yè)的運(yùn)營效果評(píng)估中,常用的方法是 AB Test,即對(duì)相似群體(可以分為運(yùn)營組和對(duì)照組)在不同運(yùn)營方案實(shí)施后的實(shí)際效果進(jìn)行對(duì)比。 數(shù)據(jù) 挖掘是一個(gè)反復(fù)循環(huán)的過程 ? 數(shù)據(jù)挖掘是一個(gè)反復(fù)循環(huán)的過程。經(jīng)常會(huì)回到前面的步驟。 分類的一個(gè)常見問題 ——過度擬合 ? 對(duì)于有監(jiān)督學(xué)習(xí)的算法,要非常重視過度擬合( overfitting、過擬合)的風(fēng)險(xiǎn)。含義是:模型對(duì)訓(xùn)練集擬合得很好,但對(duì)新的數(shù)據(jù)擬合得并不好。 對(duì)訓(xùn)練集數(shù)據(jù)學(xué)習(xí)太過亦步亦趨, 造成 不能反映真實(shí)的輸入和輸出之間的關(guān)系,不利于預(yù)測(cè)未來數(shù)據(jù)。 如何避免過度擬合? ? 交叉驗(yàn)證 可能是業(yè)界防止過擬合的最常用手段 。它可看作一種變通的方法,它 不使用 全部的歷史數(shù)據(jù),而是把過去的數(shù)據(jù)分成兩份,其中一份當(dāng)做訓(xùn)練集,另一份當(dāng)做測(cè)試集(用來模擬“未來的”數(shù)據(jù))。通常,我們會(huì)將大多數(shù)數(shù)據(jù)作為訓(xùn)練集(比如 80%),而少數(shù)數(shù)據(jù)作為測(cè)試集。 ? 在交叉驗(yàn)證時(shí),我們可以準(zhǔn)備幾個(gè)不同時(shí)間窗口、不同范圍的測(cè)試集和驗(yàn)證集,在不同的數(shù)據(jù)集里面對(duì)模型進(jìn)行交叉檢驗(yàn)。 ? 要 注意建模所用的歷史數(shù)據(jù)和未來數(shù)據(jù)是否存在明顯差異。例如,業(yè)務(wù)是否發(fā)生了顯著變化。 如何避免過度擬合? ? 樣本要足夠大。 –特別是神經(jīng)網(wǎng)絡(luò) ,如果數(shù)據(jù)少就不宜使用。 ? 注意選擇合適的抽樣方法。 ? 減少 樣本中的噪聲數(shù)據(jù)。 –模型過分記住了噪聲的特征,以至于忽略了真實(shí)的輸入輸出間的關(guān)系。 ? 輸入變量不要太多。 –新手往往 不篩選輸入變量,而是一股腦把所有變量交給軟件去撞大運(yùn)。 演講完畢,謝謝觀看!
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1